|
Участники
Приглашаем всех присоединиться к обсуждению правил на форуме. Текущие результаты обсуждения можно посмотреть здесь и здесь.
Получены заявки от 15 групп разработчиков, некоторые разработчики представляют несколько вариантов программ. Таблица заявок по дорожкам:
-
АОТ
-
ARME
ABBYY Retrieval and Morphology Engine
-
Cir_morph
Модуль морфологического анализа АНО ЦИИ. Морфологический анализ русского и английского языков. Анализ русского языка - по урезанному, а потом дополненному словарю
Зализняка. Сейчас 130 тыс.лемм. Для неизвестных лемм порождаются гипотезы. Главный критерий порождения - наличие правильного варианта среди гипотез.
Также имеется некоторое количество эвристик - невозможные парадигмы, приставки, суффиксы, пользовательский словарь и т.п.
Существует весьма удобная оболочка пополнения словаря - по аналогии с ранее описанными словами, позволяет при необходимости очень быстро увеличивать словарь.
-
Crosslator / Кросслятор
"Кросслятор" является многоязыковой системой
морфологического анализа и синтеза текстов на таких языках, как русский,
английский, турецкий и испанский. Разрабатывается в ИПМ им. М.В. Келдыша
с 2001 года в рамках работ над системой машинного перевода "Кросслятор".
-
FSTMorph / ФСТМорф
Морфологический парсер FSTMorph, разработанный в лаборатории компьютерной лингвистики ИППИ РАН, состоит из двух частей: 1) модуля получения возможных разборов на основе конечного автомата и
2) модуля частичного разрешения грамматической омонимии по линейному контексту на основе правил.
Кроме того, в дополнение к этому парсеру имеются простые алгоритмы для следующих задач:
1) разбиение текста на предложения и слова,
2) определение типа капитализации слов (регулярная капитализация типа Москва, Юля, окказиональная полная или частичная капитализация типа Человек с большой буквы или ЛЮБЛЮ, ЦЕЛУЮ, окказиональное отсутствие требуемой правилами капитализации типа москва, юля
3) обработка цифровых выражений.
Объем русского морфологического словаря - более 120 тыс. лексических единиц.
-
FSTMorph + ETAP-3 / ФСТМорф + ЭТАП-3
FSTMorph + Синтаксический анализатор (СА), который является частью лингвистического процессора ЭТАП-3 – полифункциональной системы обработки текста на ЕЯ. Для каждого предложения СА строит синтаксическую структуру в виде дерева зависимостей. В процессе построения структуры специальные правила (синтагмы) проводят все допустимые с их точки зрения бинарные синтаксические отношения между словами (точнее говоря - между морфологическими представлениями слов, т.е. лемма + набор словоизменительных грамматических характеристик). Затем из полученного набора отношений выделяется дерево зависимостей. В процессе генерации дерева зависимостей происходит полная дизамбигуация неоднозначных морфологических разборов.
Объем используемого СА русского комбинаторного словаря (в котором представлена синтаксически чувствительная информация для каждого слова, включая синтаксические признаки и модели управления), - около 100 тыс. лексических единиц.
-
Libmorphrus
Морфологический анализатор реализован в виде динамической библиотеки с экспортируемыми функциями в стиле "C". Есть также PHP-версия. Размер библиотеки со словарем - немногим более двух Mb. Высокая производительность анализатора - около ста тысяч слов в секунду в режиме полной лемматизации - обеспечивается оригинальной структурой словаря.
-
Mocky
Анализатор построен на статистической модели триграмм (одна модель использует TnT, другая TreeTagger). Принципы работы и оценка качества описаны здесь.
-
Mystem
Программа Mystem производит морфологический анализ текста на русском языке. Для слов, отсутствующих в словаре, порождаются гипотезы на основании частотности суффиксов.
-
Mystem + FastDictionary
Mystem + новый модуль для работы со словами, отсутствующими в словаре.
-
Mystem + LightDisamb
Mystem + "легкая" статистическая процедура снятия омонимии на основе биграммной статистики, с обучением по неразмеченному корпусу.
-
Polymorph / Полиморф
Парсер содержит грамматический словарь на 110 тыс. слов, в основном соответствующий словарю А.А. Зализняка. Для отсутствующих в словаре слов парсер строит вполне разумные гипотезы, построенные на основе анализа большого массива текстов.
Парсер может обрабатывать тексты в старой орфографии и правильно анализирует устаревшие формы типа "новаго, новыя, нову, пришед, скоряе" и т.д.
-
Pymorphy
Некоммерческий open-source проект, который базируется на исследованиях aot.ru. Алгоритмы,
используемые для морфологического анализа, - по сути, те же, что и на
aot.ru, но их реализация упрощена. Это позволило добиться короткого,
понятного и расширяемого кода (удобного для исследований и быстрой
доработки) ценой потерь в производительности.
-
RCO Morphology
Коммерческий морфоанализатор, работающий в составе лингвистических анализаторов RCO.
Библиотека RCO Morphology SDK предназначена для морфологического анализа слов русского языка в информационно-поисковых системах и позволяет решать следующие задачи:
получать нормальную форму слова, заданного в любой грамматической форме;
получать все грамматические формы слова, заданного в любой грамматической форме.
Библиотека включает в себя:
точный анализ известных слов по словарю объемом более 115 тысяч слов, что покрывает более 3-х миллионов словоформ;
высоко достоверный анализ неизвестного слова на основе комплекса правил словообразования и словоизменения;
вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов на основе оценки флективной и суффиксальной частей слова.
Объем бинарного словаря - 3 МБайта.
Скорость морфологического анализа – более 100 тысяч слов в секунду (Процессор AMD Athlon, 1000 МГц).
Продукт поставляется в виде динамической библиотеки (dll) для Windows.
-
RDMA_IAI / РДМА_ИПИИ
Модуль декларативного морфологического анализа ИПИИ (Украина, Донецк) в явном виде хранит парадигмы слов (около 3 млн. словоформ, из которых 1.9 млн. уникальных строк). Каждая словоформа снабжена морфологической информацией. Модуль использует метод скоростного поиска строковых величин в словарях сверхбольших объёмов. Представляет собой совокупность средств морфологического анализа и синтеза. Оснащён подсистемой бессловарного морфологического анализа.
-
Semantarus Morpho / Семантарус Морфо
Алгоритм морфоанализа О.С.Кулагиной, работающий на словнике словаря А.А.Зализняка с добавлением вероятностного определения грамм характеристик. Морфоанализатор является частью системы синтаксического анализа естестввенноязыковых текстов.
-
Starling
Модуль морфологического анализа системы Starling.
Парсер работает со словарем Зализняка в его "книжном" представлении, т.е. программа понимает описания вокабул непосредственно в том виде, который принят в словаре.
Правила анализа скрыты в коде анализатора -- метаязыка для описания правил не предусмотрено. Для любой формы любого слова из словаря программа способна определить:
a) исходную слоформу;
b) словарную информацию, то есть морфологический индекс и имеющиеся комментарии из словаря;
d) морфологическую характеристику слова. В случае многозначности введенной формы рассматриваются все варианты анализа;
e) место ударения.
Кроме того, программа способна синтезировать акцентуированные парадигмы для каждого из результатов анализа.
Существует две версии программы. Одна написана на языке Clipper (xBase,xHarbour), другая на языке C.
-
TextAn / ТекстАн
Морфологический анализатор использует базы данных на 145 тыс. слов, построенные по словарю В.А.Тузова. Результат морфологического разбора каждого слова подается на модуль снятия неоднозначностей, в качестве которого используется система элементов типа “Очередь”, позволяющая хранить результаты анализа восьми слов (каждое слово может иметь до шести вариантов разбора). Функционирование модуля подчиняется определенным правилам, которые оформлены в виде процедур. При поступлении результата разбора очередного слова в системе осуществляется сдвиг информации справа на¬лево. При этом результат разбора записывается в последний элемент, а информация из первого элемента выводится из системы в качестве окончательного результата в виде леммы и морфологической информации.
|