Studiorum Historicorum: пользователям исторических корпусов русского языка
О принципах разработки словаря
Словарь основан на материале Старорусского корпуса, входящего в состав Национального корпуса русского языка (http://ruscorpora.ru/search-mid_rus.html).
В настоящее время корпус включает около 5 тысяч текстов XIV-XVII вв. общим объемом около 8 млн словоупотреблений.
Для задач составления частотного грамматического словаря тексты корпуса были разбиты на предложения, токены и размечены морфологически.
Словник содержит 430 тысяч уникальных словоформ (487 тысяч уникальных словоформ с учетом регистра, 470 тысяч пар "форма + частеречный тег"), поэтому загрузка словаря в браузер может потребовать значительного количества времени.
Состав словаря
Словарь состоит из трех основных разделов:
- алфавитный словник, с указанием части речи словоформы
- обратный алфавитный словник
- частотные списки словоформ отдельных частей речи.
Кроме того, доступен частотный алфавитный список словоформ без деления на частеречные классы (http://ru-eval.ru/hist/freq-15-17/word/01a.html).
При клике на словоформу будет открыто окно результатов ее поиска в Старорусском корпусе. Поскольку грамматическая разметка пока не внедрена в поисковый движок корпуса, осуществляется точный поиск по всем контекстам употребления словоформы.
В прямом алфавитном и частеречных словниках доступна сортировка по словоформе (Word), части речи (POS) и количеству вхождений (Count).
Список используемых частеречных помет:
- VERB (V) - глагол
- NOUN (S) - имя существительное (нарицательное)
- PROPN - имя собственное
- ADJ (A) - имя прилагательное
- ADV - наречие
- SPRO - местоимение-существительное
- APRO - местоимение-прилагательное
- NUM - имя числительное (количественное и собирательное)
- PR - предлог
- CONJ - союз
- PART - частица
- INTJ - междометие
- SYM - символ
- X - не-слово
Распределение частот в корпусе (пары "форма + часть речи", с учетом регистра):
- более 100 000 употреблений - 3 словоформы (союз и, предлоги на, в), покрытие корпуса 9,4%
- от 10 000 до 99 999 употреблений - 55 словоформ, накопленное покрытие корпуса 28,8%
- от 1 000 до 9 999 употреблений - 746 словоформ, накопленное покрытие корпуса 51,9%
- от 100 до 999 употреблений - 6 618 словоформ, накопленное покрытие корпуса 73,8%
- от 10 до 99 употреблений - 43 536 словоформ, накопленное покрытие корпуса 88,4%
- от 5 до 9 употреблений - 39 781 словоформ, накопленное покрытие корпуса 91,6%
Лексико-грамматическая разметка корпуса
Морфологическая разметка строится на анализе предсказаний трех автоматических систем:
- нейросетевого таггера CLSTM (Scherrer et al. 2018, Lyashevskaya et al. 2019), обученного на материалах корпуса старославянских и древнерусских текстов TOROT (Eckhoff, Berdicevskis 2015) и конвертированного в тагсет Старорусского корпуса. Таггер использует символьные представления (эмбеддинги) словоформ, что позволяет ему успешнее справляться с разнообразиием орфографического написания словоформ.
- таггера Uniparser, основанного на экспериментальном грамматическом словаре (Гаврилова и др. 2016) и снабженного правилами разрешения орфографической вариативности (Гаврилова и др. 2016а).
- разметчика МОРФИ, основанного на грамматических разборах текстов Древнерусского корпуса, выполненных экспертами (Архангельский и др. 2003).
Кроме того, использовалась система корректирующих правил (например, для выявления имен собственных и сокращений), разборы частотных словоформ были проверены вручную.
Для оценки качества разборов был создан тестовый корпус ("Золотой Стандарт") с ручной разметкой, включающий 9 текстов разного времени создания и жанра (Ляшевская 2018).
С инструкцией по разметке можно ознакомиться в репозитории проекта (https://github.com/olesar/UD_MidRussian/blob/master/Guidelines.md).
В результате, в настоящее время каждой словоформе Старорусского корпуса приписаны пометы части речи и грамматических категорий, омонимия разборов снята с учетом контекста.
Используется набор тегов (тагсет) схемы Universal Dependencies, адаптированный для разметки древнерусских и старорусских текстов (https://github.com/olesar/UD_MidRussian/blob/master/MidRussianUD.md). С образцами размеченных текстов можно ознакомиться на сайте словаря (тексты drama.pdf, duhdog.pdf, morozov.pdf, rib.pdf, gramotki.pdf).
При создании частотного словаря частеречные пометы были сконвертированы в формат НКРЯ.
Обращаем внимание на следующие соглашения в текущей разметке Старорусского корпуса, которые отличают ее от разметки Основного корпуса (современного русского) и Древнерусского корпуса.
- порядковые числительные (типа "первый") размечаются как прилагательные, "один" - как числительное
- релятивные маркеры типа "иже/который" размечаются как местоимения-существительные, в атрибутивной конструкции - как местоимения-прилагательные
- предикативы на -о/-е размечаются как прилагательные, "нет/нельзя" как глагол
- "новые" местоимения 3 лица типа "он", поссесивы "его/их" размечаются как местоимения-существительные.
Перспективы развития
Работа над улучшением качества разметки и, соответственно, качества словаря продолжается. Планируется лемматизация и синтаксическая разметка корпуса.
Литература
- Arkhangelsky T. A., Mishina E. A., Pichkhadze A. A. (2003), A tool for the electronic grammatical annotation of Old Russian and Church Slavonic texts and its use in web resources [Sistema elektronnoj grammaticheskoj razmetki drevnerusskikh i tserkovnoslavjanskikh tekstov i jejo ispol’zovanie v veb-resursakh], Baranov V. A., Zheljazkova V., Lavretiev A. M. (eds.), Textual heritage and information technologies. El’Manuscript–2014 [Pismenoto nasledstvo i informatsionnite tekhnologii. El’Manuscript–2014]. Proceedings of the 5th In- ternational research conference, Sofia, Izhevsk, 2014.
- Alexeev V. A. (2011), Expansion and implementation of the format for describing the grammatical and graphic data of the SKAT corpus [Rasshirenie i realizatsija formata opisanija grammaticheskikh i graficheskikh dannykh korpusa SKAT]. Master’s thesis, St.-Petersburg, St.-Petersburg state university.
- Alekseeva E. L., Azarova I. V. (2013), Peculiarities of the morpho-syntactic annotation for the Old Russian hagiographic texts [Osobennosti morfo-sintaksicheskoy razmetki drevnerusskikh agiograficheskikh tekstov], Proceedings of the International conference “Corpus linguistics-2013”, St.-Petersburg, pp. 157-164.
- Baranov V. A., Mironov A. N., Lapin A. N. et al. (2007), Automatic morphological analyzer of Old Russian language: linguistic and technological solutions [Avtomaticheskij mor- fologicheskij analizator drevnerusskogo jazyka: lingvistichekie i tekhnologicheskie reshenija] 10th jubilee international conference EVA 2007, Moscow.
- Berdicevskis A., Eckhoff H. M., Gavrilova T. (2016), The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian, Computational Linguistics and Intel- lectual Technologies: Proceedings of the International Conference “Dialog 2016”, Moscow, pp. 99–111.
- Гаврилова Т.С., Шалганова Т.А., Ляшевская О.Н. (2016), К задаче автоматической лексико-грамматической разметки старорусского корпуса XV–XVII вв. // Вестник ПСТГУ. Серия «Филология», 47 (2). С. 7–25.
- Гаврилова Т.С., Шалганова Т.А., Ляшевская О.Н. (2016a), Взiaлъ, възялъ, вьзял: Обработка орфографической вариативности при лексико-грамматической аннотации старорусского корпуса XV-XVII вв. // Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология. 2017. Т. 51. С. 11-20.
- Dobrushina E.R., Kravetsky A. G., Poljakov A. E. (2015), A corpus and a frequency grammatical corpus-based dictionary of Church Slavonic in the collection of the Russian National Corpus [Korpus i chastotnyj grammaticheskij korpusnyj slovar’ tserkovnoslavjanskogo jazyka v sostave Nacional’nogo korpusa russkogo jazyka], Research papers of Vinogradov Institute od the Russian Language [Trudy Instituta russkogo jazyka im. V.V. Vinogradova], Vol. 6 (6).
- Droganova K., Lyashevskaya O., Zeman D. (2018), Data Conversion and Consistency of Monolingual Corpora: Russian UD Treebanks Proceedings of the 17th IntGernational Workshop on Treebanks and Linguistic Theories (TLT 2018), Oslo, pp. 52-65.
- Eckhoff H. M. (forthc.), Historical corpora and the re-evaluation of Slavonic language history.
- Eckhoff H. M., Berdicevskis A. (2015), Linguistics vs. digital editions: The Tromsoe Old Russian and OCS Treebank, Scripta & e-Scripta, Vol. 14–15, pp. 9-25.
- Lyashevskaya O. (2018), A test dataset for the automatic morphological analysis of the Middle Russian texts [Testovaja kollektsija dlja zadach avtomaticheskogo morfologicheskogo analiza tekstov starorusskoj pis’mennosti], The academic heritage of V.A. Bogoroditsky and the modern vector of research of the Kazan linguistic school [Nauchnoje nasledije V.A. Bogoroditskogo i sovremennyj vektor issledovanij Kazanskoj lingvisticheskoj shkoly], Works and materials of int. conf., Kazan: Kazan University, pp. 131–135.
- Lyashevskaya O., Scherrer Y., Rabus A. (2019), Variation in pre-modern Slavic corpus data and accuracy of neural tagging, Proceedings of the conference “Historical Corpora and Variation”, Cagliari, 2019.
- Meyer R. (2011), New wine in old wineskins? Tagging Old Russian via annotation projection from modern translations, Russian linguistics, Vol. 35 (2), pp. 267–281.
- Mishina E. A., Pichkhadze A. A. (2015), Old Russian subcorpus of the Russian National Corpus [Drevnerusskij podkorpus Nacional’nogo korpusa russkogo jazyka], Research papers of Vinogradov Institute od the Russian Language [Trudy Instituta russkogo jazyka im. V.V. Vinogradova], Vol. 6 (6).
- Mitrenina O. (2014), The corpora of Old and Middle Russian texts as an advanced tool for exploring an extinguished language, Scrinium: Journal of Patrology, Critical Hagiography, and Ecclesiastical History, Vol. 10 (1), pp. 455–461.
- Moldovan A. M. (2015), Old Russian manuscripts in the Russian National Corpus [Pamjatniki drevnerusskoj pis’mennosti v Natsional’nom korpuse russkogo jazyka], Research papers of Vinogradov Institute od the Russian Language [Trudy Instituta russkogo jazyka im. V.V. Vinogradova], Vol. 6 (6).
- Nivre J., De Marneffe M.C., Ginter F., Goldberg Y., Hajic J., Manning C.D., McDonald R.T., Petrov S., Pyysalo S., Silveira N., Tsarfaty, R. (2016), Universal Dependencies v1: A Multilingual Treebank Collection, Proceedings of LREC 2016.
- Nivre J., Abrams M., Agic Z. et al. (2018), Universal Dependencies 2.3, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (UFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11234/1-2895.
- Polyakov A. E. (2012), A stemmer for the pre-reform Russian orthography [Lemmatizator dlja doreformennoj russkoj orfografii], Baranov V. A., Varfolomeyev A. G. (eds.), Proceedings of the international conference Information Technologies and Textual Heritage El’Manuscript-12 [Informatsionnye tekhnologii i pis’mennoe nasledie: materialy IV mezh- dunarodnoj nauchnoj konferentsii], Petrozavodsk, Izhevsk, pp. 211–215.
- Scherrer Y., Mocken S., Rabus A. (2018), New developments in tagging pre-modern Orthodox Slavic varieties // Scripta & e-Scripta, Vol. 18, 2018.
- Sichinava D. V. (2014), Historical corpora of the Russian National Corpus as a tool for diachronic grammatical studies [Istoricheskie korpusa Natsional’nogo korpusa russkogo jazyka kak instrument diakhronicheskikh issledovanij grammatiki], Baranov V. A., Zheljazkova V., Lavretiev A. M. (eds.), Textual heritage and information technologies. El’Manuscript–2014 [Pismenoto nasledstvo i informatsionnite tekhnologii. El’Manuscript–2014]. Proceedings of the 5th International research conference. Sofia, Izhevsk, 2014.
- Sichinava D. V. (2018), The corpus/database of Old East Slavic birchbark letters, El’Manuscript 2018 Book of Abstracts, Vienna, Krems.
- Zaliznyak, A. A. (2003), A Grammatical Dictionary of Russian [Grammaticheskij slovar’ russkogo jazyka], Moscow.
- Zaliznyak, A. A. (2004), Old Novgorod Dialect, Moscow, Languages of Slavonic Culture.