ru-eval: оценка методов автоматического анализа текстов

Форум по синтаксической разметке русских текстов проводился в 2011-

Оценка методов автоматического анализа текста: синтаксический анализ русского языка

Cостав дорожек RU-EVAL 2012 года

На форуме 2011-2012 по синтаксическому анализу текстов оценивание алгоритмов систем-участников прошло независимо по следующим отдельным дисциплинам (дорожкам):

  • Общая. В этой дорожке рассматривались различные типы текстов и синтаксический разбор всех представленных в них предложений.
  • Новостная. Задача этой дорожки состояла в синтаксическом разборе предложений узкой тематики, а именно – новостного блока.

В ходе подготовки форума также затрагивались вопросы о дальнейшей разработке дополнительных дорожек – по разбору сложных предложений целиком VS отдельному разбору простых предложений в составе сложного, выделению проективных VS непроективных предложений и др. Разработка этих дорожек на данный момент представляется задачей будущего.

Тестовые коллекции RU-EVAL 2012

Коллекции исходных данных:

  • Основная коллекция
  • Новостная коллекция

Золотой стандарт:

  • Основная коллекция
  • Новостная коллекция

Ручная разметка 800 предложений производилась двумя независимыми аннотаторами в соответствии с инструкцией по ручной разметке. Инструкция была разработана Е. Г. Соколовой в рамках курса по Автоматической обработке текста, читаемого в Институте лингвистики РГГУ. С последней версией инструкции можно ознакомиться здесь.

Благодарим всех, принявших участие в составлении тестовых коллекций.

Баланс жанров в Основной коллекции:

TBA

Коллекция заданий составлена экспертами.

Задачи

Участники получают на вход неразмеченный текст, токенизируют его по оговоренным правилам и приписывают лексико-грамматический разбор в соответствии с условием каждой дорожки.

Участники шифруют авторство своих данных с помощью "внутреннего" пароля, присланного организаторами. При подведении результатов ответы систем будут представлены с помощью отдельного "внешнего" пароля для каждой дорожки (этим обеспечивается соблюдение полной анонимности).

Входные данные

Участники получают один файл с Основной коллекцией и один файл с коллекцией Грязные тексты.

Файлы представляют собой plain text и имеют кодировку UTF-8, без подписи BOM, концы строк имеют вид \r\n.

Выходные данные

Результаты (ответы систем) участники размещают на FTP-сервере, адрес которого указан в письме организаторов. Логин и пароль высылается участникам вместе с заданиями.

Ответы систем высылаются также в виде одного файла для каждой категории дорожек (см. п. II /1, 2,3 выше), а именно:
один файл с ответами для дорожек ЛЕММАТИЗАЦИЯ, POS, МОРФОЛОГИЯ, РЕДКИЕ СЛОВА,
под названием output1_<пароль>.txt, например output1_green
один файл в ответами для дорожек ДИЗАМБИГУАЦИЯ:ЛЕММЫ, ДИЗАМБИГУАЦИЯ:POS
под названием output2_<пароль>.txt, например output2_green
один файл с ответами для дорожки КОЛЛЕКЦИИ: "ГРЯЗНЫЕ" ТЕКСТЫ.
под названием output3_<пароль>.txt, например output3_green

Файлы имеют кодировку UTF-8 (без подписи BOM, концы строк имеют вид \r\n) и также представляет собой plain text. Вместе с каждым файлом Ответа системы участник размещает на сервере второй файл под названием вида output1_green_tracks.txt, в котором указывает список дорожек, в которых участвует файл, из следующего списка:
track_2010_lemma
track_2010_pos
track_2010_gram
track_2010_rare
track_2010_scan
track_2010_lemma_disamb
track_2010_pos_disamb
Названия дорожек разделяются концом строки.
В конце списка еще раз пишется внутренний пароль.

Формат ответов

Ответы для дорожек даются сплошным массивом, файл не должен содержать никаких других элементов, кроме текста и разметки. Ответы предоставляются в следующем формате:
Каждая словоформа дается с новой строки, после нее ставится знак конца строки.
Каждый разбор дается с новой строки.
Знаки пунктуации и другие элементы, не подлежащие разбору, даются с новой строки.
Морфологическая информация в разборе дается в следующей последовательности: лемма, часть речи, значения грамматических категорий (граммемы). Перед леммой, частью речи и первой граммемой ставится знак табуляции. Далее все граммемы разделяются запятой. После последней граммемы идет конец строки. Например:
пила
_ _пить_ _V_ _f,past,sg
_ _пила_ _S_ _f,sg,nom
,
ела
_ _есть_ _V_ _f,past,sg
Несловарные элементы (знаки препинания, слова, записанные латинскими буквами, другая псевдографика, html-теги) в оценке не участвуют - эти строки имеют формат
несловарное_слово-конец_строки см. разметку запятой в примере выше.

Соглашение об обозначении частей речи и признаков грамматических категорий

Части речи

Для разметки используется упрощенная система частей речи:
S — существительное (яблоня, лошадь, корпус, вечность)
A — прилагательное (коричневый, таинственный, морской)
V — глагол (пользоваться, обрабатывать)
PR — предлог (под, напротив)
CONJ — союз (и, чтобы)
ADV — прочие неизменяемые слова (частицы, междометия, вводные слова)
Имена собственные размечаются как имена существительные (S)

Не участвуют в оценке и могут быть размечены любым образом:
Местоимения (включая наречные и предикативные)
Числительные, в том числе записанные цифрами
Составные предлоги и союзы (потому что, в течение)
Инициалы

Морфология (грамматические_признаки)

В категориях ADV,PR,CONJ поле остается пустым.
Морфология указывается только для S,A,V
Здесь также используется сокращенный набор признаков:
род - m, f, n
падеж - nom, gen, dat, acc, ins, loc
число - sg, pl
время/наклонение/причастие/деепричастие - pres, past, imper, inf, partcp, ger
залог - act, pass (указывается только в формах причастий)
лицо - 1p, 2p, 3p

Не участвуют в оценке следующие грамматические категории:
переходность глагола
вид глагола
одушевленность имен
краткая/полная/сравнительная/превосходная форма прилагательного и наречия
возвратность глагола
залог: указывается только в формах причастий

Отдельные особенности (признаки, не участвующие в оценке, могут быть размечены любым образом):
формы типа "пишу" и формы типа "напишу" объединяются в форму непрош. времени (pres),
формы типа "пойдемте" - в оценке не участвуют
формы имен из серии "пойти в солдаты", "попить чаю" - в оценке не участвуют
"в году" (второй предложный, местный) - loc
счетная форма (два шар/а) - gen
звательный падеж (Маш! отче и др.) - в оценке не участвует
сравнительные степени на ПО- (попроще) - в оценке не участвуют
род слов общего рода (врач) - в оценке не участвует
Буквы Е и Ё в лемматизации считаются равноправными.
Капитализация (разница между прописными и строчными буквами) не учитывается.

Общая процедура проведения экспертизы

Экспертиза строится на выборочной проверке ответов, присланных участниками. Основанием проведения экспертизы является "Золотой стандарт". "Золотым стандартом" называются случайно выбранные предложения из Основной коллекции (объемом около 2000 словоупотреблений). Кроме того, в "Золотой стандарт" входят предложения с редкими словами, заранее подобранные экспертами и включенные в Основную коллекцию. На дорожках ЛЕММАТИЗАЦИЯ, POS, МОРФОЛОГИЯ, ДИЗАМБИГУАЦИЯ:ЛЕММЫ, ДИЗАМБИГУАЦИЯ:POS проверке подвергаются целые предложения. На дорожках РЕДКИЕ СЛОВА и КОЛЛЕКЦИИ: "ГРЯЗНЫЕ" ТЕКСТЫ проверке подвергаются отдельные слова в контексте предложений.

На дорожках без дизамбигуации правильным ответом системы считается ответ, в котором хотя бы один из разборов совпадает с разбором Золотого стандарта или признан правильным экспертом в процессе оценки. Не требуется наличие всех допустимых для словоформы разборов. Наличие лишних разборов не штрафуется. На дорожках с дизамбигуацией правильным ответом системы считается единственный или идущий первым ответ, если он совпадает с разбором Золотого стандарта или признан правильным экспертом в процессе оценки.

При оценке на каждой из дорожек оцениваются только данные полей, релевантных для дорожки. Отсутствие других полей (например, значений грамматических категорий) на результаты не влияет.

Экспертиза проводится в четыре этапа.

1 этап - ручная разметка Золотого стандарта силами экспертов. Ручная разметка проводится параллельно с проведением дорожек. Золотой стандарт делится на фрагменты, каждый фрагмент размечается независимо двумя экспертами. Случаи, в которых аннотаторы расходятся, а также затрудняются с ответом, обсуждаются коллективно. Если аннотаторы не могут прийти к удовлетворительному однозначному решению относительно каких-либо случаев, то они исключаются из Золотого стандарта.

2 этап - автоматическое составление списка расхождений между ответом системы и Золотым стандартом.

3 этап - оценка экспертами расхождений по шкале:
права система / прав стандарт / грамматически спорный вопрос / не знаю.
В категорию "права система", в частности, попадают случаи, когда расхождения между ответом системы и Стандартом носят технический характер (различия в кодировках, формате и т.п.). К категории "грамматически спорный вопрос" относятся, в частности, расхождения, связанные с членением текста на словоформы (составные предлоги, союзы и проч.), случаи, в которых мы не вправе требовать чудес интеллекта от морфологической системы (например, решение вопроса о возвратности, и, соответственно, о лемме глагола в контексте "корабли показывались на горизонте") и др.

Каждый ответ системы на каждой дорожке оценивается одним экспертом. Для обеспечения согласованности оценок, выставляемых разными экспертами, команда экспертов составляет типологию расхождений между системами и стандартом (например, что считать "грамматически спорным вопросом") и вырабатывает общие решения.

4 этап - количественная оценка расхождений и составление рейтингов.

Оценкам расхождений присваиваются веса 1 (прав стандарт) и 0 (во всех остальных случаях). Случаи совпадения решений Системы и Стандарта также получают вес 0.

Метрики

Метрикой общей оценки при составлении рейтингов является аккуратность (accuracy): количество слов, разобранных правильно / общее количество слов, участвующих в оценке

В рейтинги также включается некоторая дескриптивная статистика об Ответе системы (среднее число разборов на дорожках без дизамбигуации; число случаев, исключенных из оценки).

Участники форума RU-EVAL 2012

На соревнование были поданы заявки от 10 различных групп разработчиков из Москвы, Санкт-Петербурга, Нижнего Новгорода (Россия), Донецка (Украина). Одна из этих групп участвовала в проекте вне конкурса, поэтому её результаты не включались в общее соревнование.

В результате в общем конкурсе приняли участие 9 систем, использующих различные методы синтаксического разбора: грамматику зависимостей VS грамматику составляющих, снятие омонимии, морфологический анализ и т.п. Конечные результаты были получены от 8 из 9 участников форума по дорожкам «Общая» и «Новостная». Однако один из этих 8 разработчиков впоследствии был вынужден отозвать своё участие в конкурсе, поскольку предоставил свой разбор предложений уже после высылки результатов. Таким образом, во всём соревновании приняло участие 7 различных систем обработки текстов.

Подробнее об участниках

  • SyntAutom
    Разработчики: Александра Антонова, Алексей Мисюрев (Яндекс).
    Публикации о системе:
    Antonova A. A., Misyurev A. V. Russian dependency parser SyntAutom at the DIALOGUE-2012 parser evaluation task // Диалог-2012, т. 2. PDF

  • SemSyn
    Разработчики: К. К. Боярский (СПб НИУ ИТМО), Е. А. Каневский (СПб ЭМИ РАН).
    Публикации о системе:
    1) Разбиение текста на предложения. Дискуссия теоретиков и практиков. Научно-практический журнал, 2010 №1(3). С. 135-137.
    2) Некоторые аспекты построения семантико-синтаксического анализатора текста. Труды международной конференции «Корпусная лингвистика – 2011», 27–29 июня 2011 г., Санкт-Петербург, СПбГУ. С. 181-186.
    3) Язык правил для построения синтаксического дерева. Интернет и современное общество: Материалы XIV Всероссийской объединенной конференции «Интернет и современное общество». СПб. – СПб.: ООО «МультиПроджектСистемСервис», 2011. С. 233–237.
    4) Каневский Е.А., Боярский К.К. Семантико-синтаксический анализатор SEMSIN // Диалог-2012, Доклады, принятые к публикации на сайте. PDF

  • ЭТАП-3
    Разработчики: И. М. Богуславский, Л. Л. Иомдин, В. Г. Сизов и др. (Лаборатория компьютерной лингвистики ИППИ РАН им. А.А.Харкевича)
    Публикации о системе:
    Iomdin L., Petrochenkov V., Sizov V., Tsinman L. ETAP parser: state of the art // Диалог-2012, т. 2. PDF

  • Russian Malt
    Разработчики: Сергей Шаров (Университет Лидса), Йоаким Нивре (Упсальский университет)
    Список типов синтаксических связей и обучение анализатора основаны на размеченном синтаксическом корпусе ИППИ РАН. Публикации о системе:
    Serge Sharoff, Joakim Nivre, (2011) The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge // Диалог-2011. PDF

  • DictaScope Syntax
    Разработчики: Татьяна Ерехинская, Владимир Окатьев (ООО "Диктум")
    Синтаксический анализатор строит дерево зависимостей для входного предложения на естественном языке (русском). При построении дерева снимается морфологическая омонимия, словам (лексемам) присваиваются грамматические значения, для каждой подчинительной связи определяется её тип. Производится сегментация предложения: выделение простых предложений в составе сложного; выделение оборотов; в т.ч. вложенных — причастных; деепричастных; адъективных и т.д.; определение рядов однородных членов. Снимается функциональная омонимия знаков препинания, определяются их роли.

  • SemanticAnalyzer
    Разработчик: Дмитрий Кан (SemanticAnalyzer Group)

  • AotSoft

  • ABBYY Syntactic and Semantic Parser
    Разработчики: Константин Анисимович, Владимир Селегей, Константин Зуев и др. (ABBYY)
    Публикации о системе:
    Anisimovich K. V., Druzhkin K. Ju., Minlos F. R., Petrova M. A., Selegey V. P., Zuev K. A. Syntactic and semantic parser based on ABBYY Compreno linguistic technologies // Диалог-2012, т. 2. PDF

  • Парсер грамматики связей
    Разработчик: Сергей Протасов

Другие системы

  • C-Dinamics
    Разработчик: Владимир Васильев (C-Dinamics)

  • Парсер ИПИИ
    Разработчики: Галина Дорохина, Т. В. Ермоленко, О. А. Каплина, Д. С. Гнитько, В. В. Лущай (Институт проблем искусственного интеллекта, Донецк)
    Модуль декларативного морфологического анализа ИПИИ (Украина; Донецк) в явном виде хранящий парадигмы слов Представляет собой совокупность средств морфологического анализа и синтеза. Дополнен подсистемой бессловарного морфологического анализа. Морфологическую неоднозначность разрешает в процессе синтаксического анализа.

  • ЭСЛА - эксперименты с лингвистическими алгоритами
    Разработчики: Т. Ю. Кобзарева, А. М. Баталина, М. Е. Епифанов, Д. Г. Лахути Д.Г. (РГГУ)
    Программная система ЭСЛА предназначена для программной реализации алгоритмов синтаксического анализа (в настоящее время – синтаксического анализа русского предложения) и экспериментов с ними. Основная задача системы – допускать регулярную модернизацию программ и собственно лингвистических алгоритмов в соответствии с результатами машинных экспериментов на текстовом материале и лингвистических наблюдений. Лингвистические алгоритмы разрабатываются Т.Ю. Кобзаревой; программная часть по идеям и под руководством М.Е. Епифанова первоначально разработана А.М. Баталиной; в настоящее время разработка продолжается студентами и аспирантами Отделения интеллектуальных систем (в гуманитарной сфере) Института лингвистики РГГУ. Публикации о системе:
    Баталина А.М., Епифанов М.Е., Кобзарева Т.Ю., Кушнарёва Е.В., Лахути Д.Г. Опыт экспериментальной реализации алгоритмов поверхностно синтаксического анализа // Диалог-2006 text
    Баталина А.М., Епифанов М.Е., Кобзарева Т.Ю., Кушнарёва Е.В., Лахути Д.Г. Экспериментальная реализация сегментационного анализа русского предложения // Диалог-2007 text

  • Тритон
    Разработчик: Анатолий Старостин (ABBYY)

Результаты RU-EVAL 2012

Nickname
P(recision)
Participant
Trieste
0,957
Compreno
Marceille
0,900
ЭТАП–3
Barcelona
0,879
SyntAutom
Brega
0,809
Dictum
Nice
0,807
Semantic analyzer group
Toulon
0,780
SemSyn
Napoli
0,732
AotSoft