Studiorum Historicorum: пользователям исторических корпусов русского языка

Частотный грамматический словарь русского языка XV-XVII вв.

(по материалам Старорусского корпуса НКРЯ)

Содержание словаря Сведения о публикации

О принципах разработки словаря

Словарь основан на материале Старорусского корпуса, входящего в состав Национального корпуса русского языка (http://ruscorpora.ru/search-mid_rus.html). В настоящее время корпус включает около 5 тысяч текстов XIV-XVII вв. общим объемом около 8 млн словоупотреблений. Для задач составления частотного грамматического словаря тексты корпуса были разбиты на предложения, токены и размечены морфологически. Словник содержит 430 тысяч уникальных словоформ (487 тысяч уникальных словоформ с учетом регистра, 470 тысяч пар "форма + частеречный тег"), поэтому загрузка словаря в браузер может потребовать значительного количества времени.

Состав словаря

Словарь состоит из трех основных разделов:

алфавитный словник, с указанием части речи словоформы
обратный алфавитный словник
частотные списки словоформ отдельных частей речи.

Кроме того, доступен частотный алфавитный список словоформ без деления на частеречные классы (http://ru-eval.ru/hist/freq-15-17/word/01a.html).

При клике на словоформу будет открыто окно результатов ее поиска в Старорусском корпусе. Поскольку грамматическая разметка пока не внедрена в поисковый движок корпуса, осуществляется точный поиск по всем контекстам употребления словоформы. В прямом алфавитном и частеречных словниках доступна сортировка по словоформе (Word), части речи (POS) и количеству вхождений (Count).

Список используемых частеречных помет:

VERB (V) - глагол
NOUN (S) - имя существительное (нарицательное)
PROPN - имя собственное
ADJ (A) - имя прилагательное
ADV - наречие
SPRO - местоимение-существительное
APRO - местоимение-прилагательное
NUM - имя числительное (количественное и собирательное)
PR - предлог
CONJ - союз
PART - частица
INTJ - междометие
SYM - символ
X - не-слово

Распределение частот в корпусе (пары "форма + часть речи", с учетом регистра):

более 100 000 употреблений - 3 словоформы (союз и, предлоги на, в), покрытие корпуса 9,4%
от 10 000 до 99 999 употреблений - 55 словоформ, накопленное покрытие корпуса 28,8%
от 1 000 до 9 999 употреблений - 746 словоформ, накопленное покрытие корпуса 51,9%
от 100 до 999 употреблений - 6 618 словоформ, накопленное покрытие корпуса 73,8%
от 10 до 99 употреблений - 43 536 словоформ, накопленное покрытие корпуса 88,4%
от 5 до 9 употреблений - 39 781 словоформ, накопленное покрытие корпуса 91,6%

Лексико-грамматическая разметка корпуса

Морфологическая разметка строится на анализе предсказаний трех автоматических систем:

нейросетевого таггера CLSTM (Scherrer et al. 2018, Lyashevskaya et al. 2019), обученного на материалах корпуса старославянских и древнерусских текстов TOROT (Eckhoff, Berdicevskis 2015) и конвертированного в тагсет Старорусского корпуса. Таггер использует символьные представления (эмбеддинги) словоформ, что позволяет ему успешнее справляться с разнообразиием орфографического написания словоформ.
таггера Uniparser, основанного на экспериментальном грамматическом словаре (Гаврилова и др. 2016) и снабженного правилами разрешения орфографической вариативности (Гаврилова и др. 2016а).
разметчика МОРФИ, основанного на грамматических разборах текстов Древнерусского корпуса, выполненных экспертами (Архангельский и др. 2003).

Кроме того, использовалась система корректирующих правил (например, для выявления имен собственных и сокращений), разборы частотных словоформ были проверены вручную. Для оценки качества разборов был создан тестовый корпус ("Золотой Стандарт") с ручной разметкой, включающий 9 текстов разного времени создания и жанра (Ляшевская 2018). С инструкцией по разметке можно ознакомиться в репозитории проекта (https://github.com/olesar/UD_MidRussian/blob/master/Guidelines.md).

В результате, в настоящее время каждой словоформе Старорусского корпуса приписаны пометы части речи и грамматических категорий, омонимия разборов снята с учетом контекста. Используется набор тегов (тагсет) схемы Universal Dependencies, адаптированный для разметки древнерусских и старорусских текстов (https://github.com/olesar/UD_MidRussian/blob/master/MidRussianUD.md). С образцами размеченных текстов можно ознакомиться на сайте словаря (тексты drama.pdf, duhdog.pdf, morozov.pdf, rib.pdf, gramotki.pdf). При создании частотного словаря частеречные пометы были сконвертированы в формат НКРЯ.

Обращаем внимание на следующие соглашения в текущей разметке Старорусского корпуса, которые отличают ее от разметки Основного корпуса (современного русского) и Древнерусского корпуса.

порядковые числительные (типа "первый") размечаются как прилагательные, "один" - как числительное
релятивные маркеры типа "иже/который" размечаются как местоимения-существительные, в атрибутивной конструкции - как местоимения-прилагательные
предикативы на -о/-е размечаются как прилагательные, "нет/нельзя" как глагол
"новые" местоимения 3 лица типа "он", поссесивы "его/их" размечаются как местоимения-существительные.

Перспективы развития

Работа над улучшением качества разметки и, соответственно, качества словаря продолжается. Планируется лемматизация и синтаксическая разметка корпуса.

Литература

Arkhangelsky T. A., Mishina E. A., Pichkhadze A. A. (2003), A tool for the electronic grammatical annotation of Old Russian and Church Slavonic texts and its use in web resources [Sistema elektronnoj grammaticheskoj razmetki drevnerusskikh i tserkovnoslavjanskikh tekstov i jejo ispol’zovanie v veb-resursakh], Baranov V. A., Zheljazkova V., Lavretiev A. M. (eds.), Textual heritage and information technologies. El’Manuscript–2014 [Pismenoto nasledstvo i informatsionnite tekhnologii. El’Manuscript–2014]. Proceedings of the 5th In- ternational research conference, Sofia, Izhevsk, 2014.
Alexeev V. A. (2011), Expansion and implementation of the format for describing the grammatical and graphic data of the SKAT corpus [Rasshirenie i realizatsija formata opisanija grammaticheskikh i graficheskikh dannykh korpusa SKAT]. Master’s thesis, St.-Petersburg, St.-Petersburg state university.
Alekseeva E. L., Azarova I. V. (2013), Peculiarities of the morpho-syntactic annotation for the Old Russian hagiographic texts [Osobennosti morfo-sintaksicheskoy razmetki drevnerusskikh agiograficheskikh tekstov], Proceedings of the International conference “Corpus linguistics-2013”, St.-Petersburg, pp. 157-164.
Baranov V. A., Mironov A. N., Lapin A. N. et al. (2007), Automatic morphological analyzer of Old Russian language: linguistic and technological solutions [Avtomaticheskij mor- fologicheskij analizator drevnerusskogo jazyka: lingvistichekie i tekhnologicheskie reshenija] 10th jubilee international conference EVA 2007, Moscow.
Berdicevskis A., Eckhoff H. M., Gavrilova T. (2016), The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian, Computational Linguistics and Intel- lectual Technologies: Proceedings of the International Conference “Dialog 2016”, Moscow, pp. 99–111.
Гаврилова Т.С., Шалганова Т.А., Ляшевская О.Н. (2016), К задаче автоматической лексико-грамматической разметки старорусского корпуса XV–XVII вв. // Вестник ПСТГУ. Серия «Филология», 47 (2). С. 7–25.
Гаврилова Т.С., Шалганова Т.А., Ляшевская О.Н. (2016a), Взiaлъ, възялъ, вьзял: Обработка орфографической вариативности при лексико-грамматической аннотации старорусского корпуса XV-XVII вв. // Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология. 2017. Т. 51. С. 11-20.
Dobrushina E.R., Kravetsky A. G., Poljakov A. E. (2015), A corpus and a frequency grammatical corpus-based dictionary of Church Slavonic in the collection of the Russian National Corpus [Korpus i chastotnyj grammaticheskij korpusnyj slovar’ tserkovnoslavjanskogo jazyka v sostave Nacional’nogo korpusa russkogo jazyka], Research papers of Vinogradov Institute od the Russian Language [Trudy Instituta russkogo jazyka im. V.V. Vinogradova], Vol. 6 (6).
Droganova K., Lyashevskaya O., Zeman D. (2018), Data Conversion and Consistency of Monolingual Corpora: Russian UD Treebanks Proceedings of the 17th IntGernational Workshop on Treebanks and Linguistic Theories (TLT 2018), Oslo, pp. 52-65.
Eckhoff H. M. (forthc.), Historical corpora and the re-evaluation of Slavonic language history.
Eckhoff H. M., Berdicevskis A. (2015), Linguistics vs. digital editions: The Tromsoe Old Russian and OCS Treebank, Scripta & e-Scripta, Vol. 14–15, pp. 9-25.
Lyashevskaya O. (2018), A test dataset for the automatic morphological analysis of the Middle Russian texts [Testovaja kollektsija dlja zadach avtomaticheskogo morfologicheskogo analiza tekstov starorusskoj pis’mennosti], The academic heritage of V.A. Bogoroditsky and the modern vector of research of the Kazan linguistic school [Nauchnoje nasledije V.A. Bogoroditskogo i sovremennyj vektor issledovanij Kazanskoj lingvisticheskoj shkoly], Works and materials of int. conf., Kazan: Kazan University, pp. 131–135.
Lyashevskaya O., Scherrer Y., Rabus A. (2019), Variation in pre-modern Slavic corpus data and accuracy of neural tagging, Proceedings of the conference “Historical Corpora and Variation”, Cagliari, 2019.
Meyer R. (2011), New wine in old wineskins? Tagging Old Russian via annotation projection from modern translations, Russian linguistics, Vol. 35 (2), pp. 267–281.
Mishina E. A., Pichkhadze A. A. (2015), Old Russian subcorpus of the Russian National Corpus [Drevnerusskij podkorpus Nacional’nogo korpusa russkogo jazyka], Research papers of Vinogradov Institute od the Russian Language [Trudy Instituta russkogo jazyka im. V.V. Vinogradova], Vol. 6 (6).
Mitrenina O. (2014), The corpora of Old and Middle Russian texts as an advanced tool for exploring an extinguished language, Scrinium: Journal of Patrology, Critical Hagiography, and Ecclesiastical History, Vol. 10 (1), pp. 455–461.
Moldovan A. M. (2015), Old Russian manuscripts in the Russian National Corpus [Pamjatniki drevnerusskoj pis’mennosti v Natsional’nom korpuse russkogo jazyka], Research papers of Vinogradov Institute od the Russian Language [Trudy Instituta russkogo jazyka im. V.V. Vinogradova], Vol. 6 (6).
Nivre J., De Marneffe M.C., Ginter F., Goldberg Y., Hajic J., Manning C.D., McDonald R.T., Petrov S., Pyysalo S., Silveira N., Tsarfaty, R. (2016), Universal Dependencies v1: A Multilingual Treebank Collection, Proceedings of LREC 2016.
Nivre J., Abrams M., Agic Z. et al. (2018), Universal Dependencies 2.3, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (UFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11234/1-2895.
Polyakov A. E. (2012), A stemmer for the pre-reform Russian orthography [Lemmatizator dlja doreformennoj russkoj orfografii], Baranov V. A., Varfolomeyev A. G. (eds.), Proceedings of the international conference Information Technologies and Textual Heritage El’Manuscript-12 [Informatsionnye tekhnologii i pis’mennoe nasledie: materialy IV mezh- dunarodnoj nauchnoj konferentsii], Petrozavodsk, Izhevsk, pp. 211–215.
Scherrer Y., Mocken S., Rabus A. (2018), New developments in tagging pre-modern Orthodox Slavic varieties // Scripta & e-Scripta, Vol. 18, 2018.
Sichinava D. V. (2014), Historical corpora of the Russian National Corpus as a tool for diachronic grammatical studies [Istoricheskie korpusa Natsional’nogo korpusa russkogo jazyka kak instrument diakhronicheskikh issledovanij grammatiki], Baranov V. A., Zheljazkova V., Lavretiev A. M. (eds.), Textual heritage and information technologies. El’Manuscript–2014 [Pismenoto nasledstvo i informatsionnite tekhnologii. El’Manuscript–2014]. Proceedings of the 5th International research conference. Sofia, Izhevsk, 2014.
Sichinava D. V. (2018), The corpus/database of Old East Slavic birchbark letters, El’Manuscript 2018 Book of Abstracts, Vienna, Krems.
Zaliznyak, A. A. (2003), A Grammatical Dictionary of Russian [Grammaticheskij slovar’ russkogo jazyka], Moscow.
Zaliznyak, A. A. (2004), Old Novgorod Dialect, Moscow, Languages of Slavonic Culture.