Studiorum Historicorum: пользователям исторических корпусов русского языка

Частотный грамматический словарь русского языка XV-XVII вв.

(по материалам Старорусского корпуса НКРЯ)

Содержание словаря        Сведения о публикации

О принципах разработки словаря

Словарь основан на материале Старорусского корпуса, входящего в состав Национального корпуса русского языка (http://ruscorpora.ru/search-mid_rus.html). В настоящее время корпус включает около 5 тысяч текстов XIV-XVII вв. общим объемом около 8 млн словоупотреблений. Для задач составления частотного грамматического словаря тексты корпуса были разбиты на предложения, токены и размечены морфологически. Словник содержит 430 тысяч уникальных словоформ (487 тысяч уникальных словоформ с учетом регистра, 470 тысяч пар "форма + частеречный тег"), поэтому загрузка словаря в браузер может потребовать значительного количества времени.

Состав словаря

Словарь состоит из трех основных разделов:

  • алфавитный словник, с указанием части речи словоформы
  • обратный алфавитный словник
  • частотные списки словоформ отдельных частей речи.
Кроме того, доступен частотный алфавитный список словоформ без деления на частеречные классы (http://ru-eval.ru/hist/freq-15-17/word/01a.html).

При клике на словоформу будет открыто окно результатов ее поиска в Старорусском корпусе. Поскольку грамматическая разметка пока не внедрена в поисковый движок корпуса, осуществляется точный поиск по всем контекстам употребления словоформы. В прямом алфавитном и частеречных словниках доступна сортировка по словоформе (Word), части речи (POS) и количеству вхождений (Count).

Список используемых частеречных помет:

  • VERB (V) - глагол
  • NOUN (S) - имя существительное (нарицательное)
  • PROPN - имя собственное
  • ADJ (A) - имя прилагательное
  • ADV - наречие
  • SPRO - местоимение-существительное
  • APRO - местоимение-прилагательное
  • NUM - имя числительное (количественное и собирательное)
  • PR - предлог
  • CONJ - союз
  • PART - частица
  • INTJ - междометие
  • SYM - символ
  • X - не-слово

Распределение частот в корпусе (пары "форма + часть речи", с учетом регистра):

  • более 100 000 употреблений - 3 словоформы (союз и, предлоги на, в), покрытие корпуса 9,4%
  • от 10 000 до 99 999 употреблений - 55 словоформ, накопленное покрытие корпуса 28,8%
  • от 1 000 до 9 999 употреблений - 746 словоформ, накопленное покрытие корпуса 51,9%
  • от 100 до 999 употреблений - 6 618 словоформ, накопленное покрытие корпуса 73,8%
  • от 10 до 99 употреблений - 43 536 словоформ, накопленное покрытие корпуса 88,4%
  • от 5 до 9 употреблений - 39 781 словоформ, накопленное покрытие корпуса 91,6%

Лексико-грамматическая разметка корпуса

Морфологическая разметка строится на анализе предсказаний трех автоматических систем:

  • нейросетевого таггера CLSTM (Scherrer et al. 2018, Lyashevskaya et al. 2019), обученного на материалах корпуса старославянских и древнерусских текстов TOROT (Eckhoff, Berdicevskis 2015) и конвертированного в тагсет Старорусского корпуса. Таггер использует символьные представления (эмбеддинги) словоформ, что позволяет ему успешнее справляться с разнообразиием орфографического написания словоформ.
  • таггера Uniparser, основанного на экспериментальном грамматическом словаре (Гаврилова и др. 2016) и снабженного правилами разрешения орфографической вариативности (Гаврилова и др. 2016а).
  • разметчика МОРФИ, основанного на грамматических разборах текстов Древнерусского корпуса, выполненных экспертами (Архангельский и др. 2003).
Кроме того, использовалась система корректирующих правил (например, для выявления имен собственных и сокращений), разборы частотных словоформ были проверены вручную. Для оценки качества разборов был создан тестовый корпус ("Золотой Стандарт") с ручной разметкой, включающий 9 текстов разного времени создания и жанра (Ляшевская 2018). С инструкцией по разметке можно ознакомиться в репозитории проекта (https://github.com/olesar/UD_MidRussian/blob/master/Guidelines.md).

В результате, в настоящее время каждой словоформе Старорусского корпуса приписаны пометы части речи и грамматических категорий, омонимия разборов снята с учетом контекста. Используется набор тегов (тагсет) схемы Universal Dependencies, адаптированный для разметки древнерусских и старорусских текстов (https://github.com/olesar/UD_MidRussian/blob/master/MidRussianUD.md). С образцами размеченных текстов можно ознакомиться на сайте словаря (тексты drama.pdf, duhdog.pdf, morozov.pdf, rib.pdf, gramotki.pdf). При создании частотного словаря частеречные пометы были сконвертированы в формат НКРЯ.

Обращаем внимание на следующие соглашения в текущей разметке Старорусского корпуса, которые отличают ее от разметки Основного корпуса (современного русского) и Древнерусского корпуса.

  • порядковые числительные (типа "первый") размечаются как прилагательные, "один" - как числительное
  • релятивные маркеры типа "иже/который" размечаются как местоимения-существительные, в атрибутивной конструкции - как местоимения-прилагательные
  • предикативы на -о/-е размечаются как прилагательные, "нет/нельзя" как глагол
  • "новые" местоимения 3 лица типа "он", поссесивы "его/их" размечаются как местоимения-существительные.

Перспективы развития

Работа над улучшением качества разметки и, соответственно, качества словаря продолжается. Планируется лемматизация и синтаксическая разметка корпуса.

Литература

  • Arkhangelsky T. A., Mishina E. A., Pichkhadze A. A. (2003), A tool for the electronic grammatical annotation of Old Russian and Church Slavonic texts and its use in web resources [Sistema elektronnoj grammaticheskoj razmetki drevnerusskikh i tserkovnoslavjanskikh tekstov i jejo ispol’zovanie v veb-resursakh], Baranov V. A., Zheljazkova V., Lavretiev A. M. (eds.), Textual heritage and information technologies. El’Manuscript–2014 [Pismenoto nasledstvo i informatsionnite tekhnologii. El’Manuscript–2014]. Proceedings of the 5th In- ternational research conference, Sofia, Izhevsk, 2014.
  • Alexeev V. A. (2011), Expansion and implementation of the format for describing the grammatical and graphic data of the SKAT corpus [Rasshirenie i realizatsija formata opisanija grammaticheskikh i graficheskikh dannykh korpusa SKAT]. Master’s thesis, St.-Petersburg, St.-Petersburg state university.
  • Alekseeva E. L., Azarova I. V. (2013), Peculiarities of the morpho-syntactic annotation for the Old Russian hagiographic texts [Osobennosti morfo-sintaksicheskoy razmetki drevnerusskikh agiograficheskikh tekstov], Proceedings of the International conference “Corpus linguistics-2013”, St.-Petersburg, pp. 157-164.
  • Baranov V. A., Mironov A. N., Lapin A. N. et al. (2007), Automatic morphological analyzer of Old Russian language: linguistic and technological solutions [Avtomaticheskij mor- fologicheskij analizator drevnerusskogo jazyka: lingvistichekie i tekhnologicheskie reshenija] 10th jubilee international conference EVA 2007, Moscow.
  • Berdicevskis A., Eckhoff H. M., Gavrilova T. (2016), The beginning of a beautiful friendship: rule-based and statistical analysis of Middle Russian, Computational Linguistics and Intel- lectual Technologies: Proceedings of the International Conference “Dialog 2016”, Moscow, pp. 99–111.
  • Гаврилова Т.С., Шалганова Т.А., Ляшевская О.Н. (2016), К задаче автоматической лексико-грамматической разметки старорусского корпуса XV–XVII вв. // Вестник ПСТГУ. Серия «Филология», 47 (2). С. 7–25.
  • Гаврилова Т.С., Шалганова Т.А., Ляшевская О.Н. (2016a), Взiaлъ, възялъ, вьзял: Обработка орфографической вариативности при лексико-грамматической аннотации старорусского корпуса XV-XVII вв. // Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология. 2017. Т. 51. С. 11-20.
  • Dobrushina E.R., Kravetsky A. G., Poljakov A. E. (2015), A corpus and a frequency grammatical corpus-based dictionary of Church Slavonic in the collection of the Russian National Corpus [Korpus i chastotnyj grammaticheskij korpusnyj slovar’ tserkovnoslavjanskogo jazyka v sostave Nacional’nogo korpusa russkogo jazyka], Research papers of Vinogradov Institute od the Russian Language [Trudy Instituta russkogo jazyka im. V.V. Vinogradova], Vol. 6 (6).
  • Droganova K., Lyashevskaya O., Zeman D. (2018), Data Conversion and Consistency of Monolingual Corpora: Russian UD Treebanks Proceedings of the 17th IntGernational Workshop on Treebanks and Linguistic Theories (TLT 2018), Oslo, pp. 52-65.
  • Eckhoff H. M. (forthc.), Historical corpora and the re-evaluation of Slavonic language history.
  • Eckhoff H. M., Berdicevskis A. (2015), Linguistics vs. digital editions: The Tromsoe Old Russian and OCS Treebank, Scripta & e-Scripta, Vol. 14–15, pp. 9-25.
  • Lyashevskaya O. (2018), A test dataset for the automatic morphological analysis of the Middle Russian texts [Testovaja kollektsija dlja zadach avtomaticheskogo morfologicheskogo analiza tekstov starorusskoj pis’mennosti], The academic heritage of V.A. Bogoroditsky and the modern vector of research of the Kazan linguistic school [Nauchnoje nasledije V.A. Bogoroditskogo i sovremennyj vektor issledovanij Kazanskoj lingvisticheskoj shkoly], Works and materials of int. conf., Kazan: Kazan University, pp. 131–135.
  • Lyashevskaya O., Scherrer Y., Rabus A. (2019), Variation in pre-modern Slavic corpus data and accuracy of neural tagging, Proceedings of the conference “Historical Corpora and Variation”, Cagliari, 2019.
  • Meyer R. (2011), New wine in old wineskins? Tagging Old Russian via annotation projection from modern translations, Russian linguistics, Vol. 35 (2), pp. 267–281.
  • Mishina E. A., Pichkhadze A. A. (2015), Old Russian subcorpus of the Russian National Corpus [Drevnerusskij podkorpus Nacional’nogo korpusa russkogo jazyka], Research papers of Vinogradov Institute od the Russian Language [Trudy Instituta russkogo jazyka im. V.V. Vinogradova], Vol. 6 (6).
  • Mitrenina O. (2014), The corpora of Old and Middle Russian texts as an advanced tool for exploring an extinguished language, Scrinium: Journal of Patrology, Critical Hagiography, and Ecclesiastical History, Vol. 10 (1), pp. 455–461.
  • Moldovan A. M. (2015), Old Russian manuscripts in the Russian National Corpus [Pamjatniki drevnerusskoj pis’mennosti v Natsional’nom korpuse russkogo jazyka], Research papers of Vinogradov Institute od the Russian Language [Trudy Instituta russkogo jazyka im. V.V. Vinogradova], Vol. 6 (6).
  • Nivre J., De Marneffe M.C., Ginter F., Goldberg Y., Hajic J., Manning C.D., McDonald R.T., Petrov S., Pyysalo S., Silveira N., Tsarfaty, R. (2016), Universal Dependencies v1: A Multilingual Treebank Collection, Proceedings of LREC 2016.
  • Nivre J., Abrams M., Agic Z. et al. (2018), Universal Dependencies 2.3, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (UFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11234/1-2895.
  • Polyakov A. E. (2012), A stemmer for the pre-reform Russian orthography [Lemmatizator dlja doreformennoj russkoj orfografii], Baranov V. A., Varfolomeyev A. G. (eds.), Proceedings of the international conference Information Technologies and Textual Heritage El’Manuscript-12 [Informatsionnye tekhnologii i pis’mennoe nasledie: materialy IV mezh- dunarodnoj nauchnoj konferentsii], Petrozavodsk, Izhevsk, pp. 211–215.
  • Scherrer Y., Mocken S., Rabus A. (2018), New developments in tagging pre-modern Orthodox Slavic varieties // Scripta & e-Scripta, Vol. 18, 2018.
  • Sichinava D. V. (2014), Historical corpora of the Russian National Corpus as a tool for diachronic grammatical studies [Istoricheskie korpusa Natsional’nogo korpusa russkogo jazyka kak instrument diakhronicheskikh issledovanij grammatiki], Baranov V. A., Zheljazkova V., Lavretiev A. M. (eds.), Textual heritage and information technologies. El’Manuscript–2014 [Pismenoto nasledstvo i informatsionnite tekhnologii. El’Manuscript–2014]. Proceedings of the 5th International research conference. Sofia, Izhevsk, 2014.
  • Sichinava D. V. (2018), The corpus/database of Old East Slavic birchbark letters, El’Manuscript 2018 Book of Abstracts, Vienna, Krems.
  • Zaliznyak, A. A. (2003), A Grammatical Dictionary of Russian [Grammaticheskij slovar’ russkogo jazyka], Moscow.
  • Zaliznyak, A. A. (2004), Old Novgorod Dialect, Moscow, Languages of Slavonic Culture.