Studiorum Historicorum: пользователям исторических корпусов русского языка

Инструкции для пользователей исторических корпусов

Инструкция для пользователей церковнославянского корпуса

Церковнославянский корпус входит в раздел Исторических корпусов НКРЯ. Корпус включает более 1200 текстов, которые охватывают все основные типы и жанры церковнославянской литературы (богослужебные, святоотеческие, писание, типикон, церковное право, см. список текстов корпуса). Корпус имеет объем около 4.7 миллиона словоупотреблений и включает около 150 тыс. различных словоформ, которые группируются примерно в 30 тыс. лексем. Материалы корпуса постоянно перерабатываются. В 2017 году был полностью проверен и исправлен словарь словоформ, исправлено более 2000 ошибок в исходных текстах. Многие тексты были проверены по печатным оригиналам с сайта http://minei.ru. Проект развивается при поддержке РФФИ (проект «Разработка модулей НКРЯ для автоматической разметки и словарной поддержки старорусских и церковнославянских текстов» №17-04-12064).

Ресурс создан при поддержке РФФИ,
проект No 17-04-12064-ОГН "Разработка модулей НКРЯ для автоматической разметки и словарной поддержки старорусских и церковнославянских текстов".

Состав корпуса

Тексты Слов Доля в корпусе
Библия (1900) 662056 15,04%
Евангелие (1984) 83266 1,89%
Апостол (1989) 100822 2,29%
Ирмологий (1913) 44272 1,01%
Канонник (1986) 5744 0,13%
Минея (1893) 1374019 31,22%
Минея общая (2002) 100620 2,29%
Минея праздничная (1914) 188173 4,28%
Минея (разное) 158744 3,61%
Молитвы, читаемые на молебнах (1915) 146437 3,33%
Молитвы (разное) 18377 0,42%
Октоих (1981) 253773 5,77%
Псалтирь следованная (1978) 71374 1,62%
Служебник (1896) 45977 1,04%
Требник (1906) 108077 2,46%
Триодь постная (1992) 214254 4,87%
Триодь цветная (1992) 128837 2,93%
Часослов (1980) 28998 0,66%
Типикон (1900) 242100 5,50%
Алфавит духовный (1837) 37631 0,86%
Добротолюбие (1902) 304722 6,92%
Ифика иерополитика (1764) 36449 0,83%
Акафисты (разное) 46042 1,05%

Первый шаг. Как осуществлять поиск в Церковнославянском корпусе НКРЯ?

На странице «Поиск в корпусе» сайта Национальный корпус русского языка (http://ruscorpora.ru/search-main.html) найдите ссылку «исторический» (в самом низу левой панели) и щелкните по ней мышкой:

Search page 1

Перед вами откроется страница «Древнерусский корпус» (это первый корпус в системе исторических корпусов НКРЯ). Если вы хотите искать в Церковнославянском корпусе, щёлкните мышкой по ссылке «-церковнославянский»:

Search page 2

Перед вами откроется окно поиска в Церковнославянском корпусе:

Search page 3

Если вам не нужен определённый подкорпус текстов, сразу переходите к Шагу 3. Если вы хотите сузить выдачу результатов до определённого набора текстов, переходите к следующему Шагу 2.

Второй шаг. Как задать свой подкорпус?

В верхнем правом углу имеется ссылка «задать подкорпус».

Subcorpus 1

Эта ссылка позволяет сузить поиск по названию текста, периоду его текста и жанру. А также определить статус произведений, которые попадут в выдачу: перевод или оригинальный текст. Кликнув на ссылки «выбрать», вы увидите всплывающие окна с возможностями создания подкорпуса. После того, как Вы проставите галочки напротив нужных вам параметров, нажимайте «Далее».

Subcorpus 2

Теперь перед вами откроется окно, в котором будет продемонстрировано, какие тексты попадут в выдачу. Если вас всё устраивает, кликайте на «Сохранить подкорпус и перейти к странице поиска».

Subcorpus 2

Третий шаг. Какой вариант орфографии использовать?

Особенностью корпуса является наличие трех вариантов орфографии запроса: точного, упрощенного и модернизированного. Это удобно потому, что пользователь сможет найти нужное ему слово, даже если не уверен в его орфографии. Различия в типах орфографии можно увидеть, просто вызвав виртуальные клавиатуры упрощенного и модернизированного типов запросов и изучив надписи на клавишах, совмещающих буквы. Впрочем, для успешного пользования корпусом нет необходимости в этом разбираться. Варианты орфографии нужны исключительно для упрощения составления запроса. Результаты поиска всегда будут выданы в одном орфографическом варианте – классическом церковнославянском.

Чтобы сделать запрос в Церковнославянском корпусе, нужно выбрать один из трех вариантов орфографии запроса (по умолчанию ставится промежуточный вариант - «упрощенный») - в зависимости от того, насколько хорошо известно правописание нужного слова. Так, если есть неуверенность, например, в выборе между «Е» и «Ѣ» (ять), то лучше выбрать самый простой вариант - модернизированный. В модернизированном варианте можно, например, искать слово «Бог», даже не указав «ъ» (ер) на конце. Но в двух более приближенных к реальным вариантах орфографии это слово, записанное без «ъ», искаться не будет. Так, слово «вѣ́тръ» в модернизированной орфографии будет искаться по запросам «ветр», «ветръ», «вѣ́тр» и «вѣ́тръ», а в упрощенной и точной только по «вѣ́тръ».

Чтобы разобраться в том, какие буквы не различаются в «упрощенном» и «модернизированном» запросах, то следует изучить набор кнопок в виртуальной клавиатуре соответствующего режима. При точной орфографии различается 46 букв (плюс титло, которое условно трактуется как буква), в упрощенной – 39 (плюс титло), а в модернизированной – 33. В модернизированной, например, совмещены на одной кнопке буквы «еєѣ», которым в упрощенной соответствуют две кнопки – «еє» и «ѣ», а в точной – три.

Virtual keyboard

Набор слова в поисковой графе проще осуществлять в виртуальной клавиатуре. Виртуальная клавиатура расположена над строкой запроса, чтобы ее открыть, надо нажать клавишу «АБВ».

MISSING SCREENSHOT

Виртуальная клавиатура предназначена для того, чтобы можно было создавать запрос, используя только мышку, но не пользуясь клавиатурой. Это бывает удобно в трех основных случаях:

  • если на клавиатуре пользователя нет раскладки нужного шрифта, например, есть только раскладка латиницы, но не кириллицы;
  • если пользователь затрудняется найти на своей клавиатуре нужный знак, например, знак «|», нужный для запроса одновременно нескольких слов;
  • если на компьютере пользователя не установлен или труднодоступен нужный шрифт – например для ввода буквы «ѣ» (ять) при работе с Церковнославянским корпусом.

В момент набора через виртуальную клавиатуру набираемый текст появляется в верхней строке, а при нажатии клавиши «ок» перемещается в строку запроса. На виртуальной клавиатуре набирается весь запрос и потом переносится кнопкой «ОК» в строку запроса готовым. Можно внутри виртуальной клавиатуры набирать некоторые знаки с помощью виртуальной клавиатуры, а некоторые – реальной.

Четвёртый шаг. Как найти словоформу в Корпусе?

В окне поиска в строке «Поиск точных форм» наберите нужную словоформу (например, словоформу отче) и щелкните по кнопке «Искать»:

Word form 1

В отдельном окне вы получите результаты поиска:

Word form 2

Как поступить, если на ваш запрос вы получили столько ответов, что они не умещаются на экране? Например, если вы хотите найти все случаи употребления словоформы «отче» в Церковнославянском корпусе, то вы получите в ответ 176 документов или 2004 контекста:

В отдельном окне вы получите результаты поиска:

Word form 3

Чтобы просмотреть примеры, щёлкайте по номерам страниц вверху и внизу окна.

Если предложение, которое вы получили в ответ на свой запрос, слишком короткое, можно воспользоваться кнопкой «расширение контекста»:

Context window 1

Тогда короткая фраза попадет в более широкий контекст и, соответственно, станет более понятной:

Context window 2

Пятый шаг. Как найти в Корпусе отдельную лексему?

На странице поиска в зоне «Лексико-грамматический поиск» в поле «Слово 1» наберите нужное слово и щелкните на кнопке «Искать» (обратите внимание на то, что лексему нужно набирать в основной, словарной форме, т.е. отецъ, а не, например, отче):

Lexeme 1

В ответ на этот запрос вы получите все словоформы, относящиеся к лексеме отецъ и входящие в корпус (Церковнославянский или ваш личный, пользовательский):

Lexeme 2

Шестой шаг. Как найти в Корпусе все лексемы, имеющие одинаковую конечную часть?

В зоне «Лексико-грамматический поиск» нужно набрать эту конечную часть после знака «звездочка»:

Wildcards

Вот пример того, что можно получить в результате такого запроса:

Wildcards

Седьмой шаг. Как выбрать из Корпуса все словоформы, имеющие одну и ту же грамматическую характеристику?

Чтобы задать единицы с некоторой грамматической характеристикой, в поле «грамм. признаки» нужно щелкнуть по ссылке «Выбрать»:

Grammatical features 1

После этого откроется дополнительное окно со списком всех возможных грамматических характеристик. Выберите, например, позицию «двойственное» в колонке «Число» и щелкните по кнопке OK:

Grammatical features 2

После этого окно выбора закроется, и останется только окно поиска с зашифрованным обозначением соответствующей грамматической категории:

Grammatical features 3

Если после этого щелкнуть по кнопке «Искать», то корпус выдаст все случаи вхождения двойственного числа:

Grammatical features 4

Восьмой шаг. Как найти все словоформы данной лексемы, имеющие одну и ту же грамматическую характеристику?

В поле «Лексико-грамматический поиск» наберите искомое слово (пятый шаг), а в поле «грамм. признаки» выберите нужную грамматическую характеристику (седьмой шаг). Например, если вы хотите найти все причастия в именительном падеже от лексемы чтити, то после шагов 5 и 7 ваша страница поиска будет выглядеть следующим образом:

Lexemes and grammatical features 1

Кликните по кнопке «Искать» и вы получите следующий результат:

Lexemes and grammatical features 2

Девятый шаг. Как найти в Корпусе словосочетание?

Если вам нужно словосочетание в какой-то конкретной грамматической форме, то вы просто набираете его в строке «Поиск точных форм» и щелкаете мышкой на кнопке «Искать». Например, вам нужно найти все случаи употребления словосочетания «искаху убити» именно в этой грамматической форме:

Collocation 1

Вы кликаете по кнопке «Искать» и получаете ответ:

Collocation 2

Если же нужно получить из корпуса это словосочетание во всех возможных грамматических формах, то нужно в поле «Лексико-грамматический поиск» 1) в поле «Слово 1» набрать слово «искати» (обязательно в несовершенном виде!), 2) в поле «Расстояние в словах» установить нужное расстояние (например, расстояние 1–1 означает, что слова будут примыкать друг к другу непосредственно, расстояние 1–2 – что между ними будет одно слово, 1–3 – два слова и т.д.), 3) в графе «Слово 2» набрать слово «убити» и кликнуть по кнопке «Искать»:

Collocation 3

Вот результат поиска:

Collocation 4

Следует, однако, помнить, что порядок элементов «Слово 1» и «Слово 2» иногда имеет значение. Поэтому для полноты картины поиск следует повторить с отрицательным расстоянием (например, расстояние от -1 до -2 будет означать, что Слово 2 должно идти непосредственно слева или через одно слово слева):

PLEASE CHANGE THE SCREENSHOT

Collocation 5

После этого вы получите дополнительные примеры:

Collocation 6

Разумеется, вы можете искать сочетания слов, которые имеют одинаковую конечную или начальную часть. Например, можно найти примеры двусловных словосочетаний, в которых первое слово заканчивается на -юще, а второе – на -ати (с расстоянием от 1 до 2):

Collocation 7

Ниже показана часть результатов, которые вы получите в ответ на этот запрос:

MISSING SCREENSHOT

Collocation 8

Бывают случаи, когда нужно найти словосочетание из более чем двух слов. Например, как построить запрос, чтобы получить словосочетание, состоящее из трех элементов: 1) глагол с приставкой по- + 2) предлог по + 3) одушевленное существительное? В поле «Слово 1» набираем по*, в грамматических признаках для этого слова выбираем «глагол», устанавливаем расстояние между словами 1–1, в поле «Слово 2» набираем по и в поле «грамм. признаки» выбираем «предлог», после этого щелкаем мышкой на знаке «↓» рядом с полем «Слово 2» и в появившемся поле «Слово 3» устанавливаем расстояние между словами 1–1 и выбираем грамматические признаки «сущ. одуш.»:

Collocation 9

Кликаем по кнопке «Искать». Результат поиска выглядит следующим образом:

Collocation 10

Десятый шаг. Как найти словосочетание, в котором задано первое слово, а второе характеризуется какими-либо грамматическими признаками?

Например, как найти сочетание глагола погубити и любого одушевленного существительного в винительном падеже? На странице поиска набираем: 1) поле «Слово 1» – погубити (см. шаг 5), 2) расстояние между словами 1–1 (см. шаг 9), 3) поле «Слово 2» – одуш. сущ., вин. пад. (см. шаг 7):

Collocation 11

В качестве результата получаем:

Collocation 12

А как найти в корпусе словосочетание, в котором заданы грамматические характеристики первого слова и точно определено второе слово? Например, как найти все определения, которые имеются в Корпусе для словосочетания жизнь вѣчная? На странице поиска в поле «Слово 1» выбираем грамматическую характеристику «прилагательное» (см. шаг 7); в поле «Слово 2» набираем лексему жизнь; в поле «Слово 3» (см. шаг 9 о выборе поля «Слово 3») набираем лексему вѣчная. Щелкаем мышкой по кнопке «Искать»:

Collocation 13

Результаты поиска выглядят следующим образом:

Collocation 14

Одиннадцатый шаг. Как найти в корпусе словосочетание, в котором заданы грамматические характеристики первого и второго слова?

Например, как найти сочетания двух глаголов в 1-2 л.? На странице поиска в полях «Слово 1» и «Слово 2» в графе «грамм. признаки» выбираем глагол 1-2 л. (см. шаг 7). Страница поиска имеет следующий вид:

Collocation 15

Результаты поиска выглядят следующим образом:

Collocation 16

Двенадцатый шаг. Некоторые дополнительные возможности сужения поиска.

При помощи признаков, задаваемых в поле «Дополнительные параметры» Лексико-грамматического поиска, можно искать слова в определённой позиции: перед знаком препинания и после него, в начале и конце предложения:

Collocation 16

Во всплывающем окне появится возможность задать признаки:

Collocation 17

Так, например, будет выглядеть выдача с параметрами «Слово после двоеточия»:

Collocation 18

Е. Р. Добрушина, К. В. Литвинцева, О. Н. Ляшевская, А. Е. Поляков