Стаття присвячена методиці побудови "Корпусу українських діалектних текстів" (КорУДіТ) в рамках "Корпусу текстів української мови" (КТУМ). Ми приділяємо спеціальну увагу особливостям представлення діалектних текстів в КорУДіТ, багаторівневій системі їхньої розмітки і створенню персональної картки учасника запису текстів. Тестування системної обробки діалектних текстів проводиться на матеріалах авторської діалектної текстотеки обсягом близько 100 тисяч словоформ, які представляють регіон західноволинських говірок. У дослідженні ми також торкаємося теми перспектив розвитку КорУДіТ.
Статья посвящена методике построения "Корпуса украинских диалектных текстов" (КорУДиТ) в рамках "Корпуса текстов украинского языка" (КТУЯ). Мы уделяем специальное внимание особенностям представления диалектных текстов в КорУДиТ, многоуровневой системе их разметки и созданию персональной карточки участника записи текстов. Тестирование системной обработки диалектных текстов проводится на материалах авторской диалектной текстотеки объемом около 100 тысяч словоформ, которые представляют регион западноволынских говоров. В нашем исследовании затрагивается также тема перспектив развития КорУДиТ.
The paper is devoted to the methodology of building a Corpus of Ukrainian Dialect& Texts (CorUDiT) in the framework of the Corpus of Texts of the Ukrainian Language (CTUL). We pay special attention to the peculiarities of the representation of dialect texts in CorUDiT, the multilevel markup system and the creation of a personal ca&rd for the participant in the text recording. The testing of the systematic treatment of dialect texts is done on the author"s dialect text collection (of about 100000 word forms) representing the West Volynian dialect region. Our investigation also &focuses on the future trends of the development of CorUDiT.