У статті розглянуто лінгвістичні засади семантичного розмічування Корпусу української мови як четвертого етапу представлення інформації про одиниці Корпусу. В основу розмічування покладено таксономічну класифікацію Національного корпусу російської мови,але доповнену та видозмінену. Створено програмне забезпечення для роботи в он-лайн режимі. Матеріалом слугував частотний словник публіцистичного стилю обсягом 40 тис. лексем, укладений на вибірці 16 млн. словоформ українськомовного тексту.
В статье рассмотрены лингвистические основы семантической раз метки Корпуса украинского языка как четвертого этапа представления информации о единицах Корпуса. В основу разметки положена таксономическая классификация корпуса русского языка, но дополненная и видозмененная. Создано программное обеспечение для работы в он-лайн режиме. Материалом послужил частотный словарь публицистического стиля объемом в 40 тыс. лексем, созданный на выборке в 16 млн. словоформ украинскоязычного текста.
The article views linguistic aspects of semantic markup of the Ukrainian Corpus as the forth stage of presenting information about Corpus units. The markup is based on taxonomic classification of the Russian Corpus but with extra modification. There was developed the software tool&s for online work based on materials of frequency dictionary of journalistic style with a total volume of 40,000 lexemes compiled from the sampling of 16 Million word forms of Ukrainian texts.