Форум "Оценка методов автоматического анализа текста:
морфологические парсеры русского языка"

 Приглашение к участию 
 Новости 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Участники 
 Дорожки 
 Экспертиза 
 Материалы Форума 
  Тестовые коллекции 
  Таблицы оценок 
 Сроки проведения 
 Публикации 
 FAQ 
 Форум и рассылка 
 
 Диалог 2010 

Вопросы для совместного обсуждения дорожек и правил

У нас есть несколько горячих вопросов, которые надо обсудить до начала соревнования.
Сбор текстов для коллекции
Cроки проведения
Кодировка данных на входе
Кодировка данных на выходе
Формат данных на выходе
Дорожки, в которых ваша система готова участвовать
Список частей речи
Составные единицы
Имена собственные
Список граммем
Редкие слова

  • Сбор текстов для коллекции
    Можете ли вы предоставить в качестве своего вклада в общее дело неразмеченные тексты из ваших запасов? Они могут быть любых жанров и проч. Желательный объем - 100 тысяч употреблений. Формат plain text.
    Поступившие предложения:
      Компьюлента
      Худ. лит.
      Предисловие словаря Зализняка (там есть много словоформ с редким типом склонения)
      Все словоформы, порожденные по словарю Зализняка
      Фрагмент НКРЯ
      общественно-политический "набор" текстов (в основном из газеты "Известия" и ряда других, взятых из Интернета)
    АК: желательно, чтобы вошли как художественные, так и технические и юридические тексты. К примеру, Гражданский Кодекс РФ.
    Комментарий организаторов: Имейте в виду, что участвуя в "общем сборе", вы подсовываете конкурентам (в неразмеченном виде) те данные, на которых вы тренировали свою программу и пополняли словари, а они нет.
    БД: мое отношение к таким высказываниям организаторов - резко отрицательное - здесь нет конкурентов, - и разве Вы не видите, что неравенство при старте обесценивает и "выгрыш".
    БД: Надо ориентироваться на разрешенные к распространению коллекции - в связи с этим - почему не обсуждается использование коллекций РОМИП - по крайней мере нормативные акты РФ (300 тыс. документов), KM.RU (3 млн. документов) и т.п.
     
  • Устраивают ли вас предлагаемые сроки проведения мероприятия?
    За - 14      Против - 1
     

    ЕК: Считаем целесообразным удлинить срок подготовки для подгонки форматов вывода и резко сократить срок проведения соревнования ( не более одного дня) для исключения возможности ручной корректировки результатов. Продление только в аварийных случаях. Например: рассылка 9 марта, соревнование и отсылка результатов 10 марта.
     
  • Кодировка данных на входе
    base64 / windows-1251 / utf-8 / другая
    За windows-1251 - 3      За utf-8 - 3      Любая - 4
    Обсуждение
    БД: по-видимому, правильнее выбрать UTF-8 - многие "русскоязычные" тексты могут содержать всякие разные символы - надо сразу с ними уметь обращаться.
     
  • Кодировка данных на выходе
    windows-1251 / utf-8 / другая
    За windows-1251 - 3      За utf-8 - 3      Любая - 3

     
  • Формат данных на выходе
    Предполагается, что участники берут на себя обязательство представить ответ в едином формате. Варианты:
      простой (через табуляцию, одной словоформе/знаку препинания и т.п. соответствует одна строка)
      XML (прототип можно посмотреть здесь).
    За табуляцию - 5      За XML - 3      Любой - 1
    Обсуждение
    АЕ: xml, однозначно, так как он может быть расширяем до бесконечности по мере усложнения выдаваемой информации.
    МК: Не вижу смысла в расширяемом формате, раз предполагается какая-то унификация/ограничение результатов.
    СШ: XML, но идентификаторы бы я сделал вложенными:
      <doclist docID="1">
      <term termID="1.1" status="word">
    ОЛ: слова, записанные через дефис, одна система может разобрать как одно слово, другая, как два слова. Может быть проблема выравнивания.
    БД: собственно, самый простой и самый сложный вопрос - что есть "слово". несомненно, разметка должна быть ассоциирована с фрагментом и, даже, возможно, несвязным! например: "... аудио- и радиотехника ..." - вполне допустим "правильный" разбор в виде "АУДИО//АУДИОТЕХНИКА И РАДИОТЕХНИКА". то же будет наблюдаться в текстах с орфографическими ошибками - когда в "нормальное" слово вставляется пробел, или, наоборот, несколько слов склеиваются вместе, а также для текстов с переносами, особенно с переносами во внутренних столюцах таблиц(!), что часто любят делать в нормативных актах.
    НГ: Времени остается мало, и мы все намаемся с non-wellformed XML, разной интерпретацией атрибутов и т.п. Это лишние сложности
    АК: Чтобы исключить ручную правку, предлагаю зафиксировать формат входа/выхода и предоставить организаторам модули для тестирования, оформленныев виде консольного приложения, получающего на вход, к примеру, простой текстовый файл и выдающие результаты лемматизации на stdout.
    Запуск осуществляется представителем организатора соревнований, что исключает ручную правку результатов.
     
  • Дорожки, в которых ваша система готова участвовать
    Результаты голосования см. на странице дорожек.
    Двое участников объявили, что будут задействовать синтаксический компонент для дизамбигуации.
    Обсуждение
    "РЕДКИЕ СЛОВА"
    БД: 100 слов "заранее" - это неправильно, надо выбирать только постфактум, причем больше можно в некотором множестве обработанных текстов
    а) определить список слов, не входящих в стандартный словарь Зализняка
    б) СЛУЧАЙНО отобрать из них 100-200- в общем, сколько надо
    в) м.б. НЕМНОГО почистить, чтобы обеспечить большее разнообразие (а м.б. и не стоит этого делать)
    "ПОИСК"
    БД: Дорожка "поиск" - поиск текстов явно содержащих ВСЕ слова из запроса - оценивается полнота и точность поиска по документам. Весьма симпатичная дорожка - нет никаких требований к реализации - хоть вероятностный, хоть стемминг.
    АС: Нас интересует (очень) морфологический разбор поисковых запросов. И в этой задаче сразу появляется подзадачи выявлении языка запроса, нахождение опечаток, склеенных форм и т.д. Это очень важные подзадачи, если на забеге не будет оценок по ним, будет плохо.
    АК: Нельзя ли поподробнее, о чём идёт речь? О выделении фокусов внимания в многословных запросах? О признании каких-ибо частей запроса незначимыми? Или о чём?
    БД: в принципе эта дорожка предназначена, чтобы оценить - а насколько вообще важна морфология для поиска - а то может быть и не важна оценка могла бы быть стандартная РОМИПовская. однако, боюсь эту дорожку не поднять до мая, но можно попробовать ввести такую "совместную" дорожку в РОМИП-2010.
     
  • Список частей речи
    Поскольку набор частей речи в разных системах может быть разным, требуется согласовать единый набор и привести к нему свои ответы.

    Как вариант, предлагается "минимальный набор" категорий:
    S — существительное (яблоня, лошадь, корпус, вечность)
    A — прилагательное (коричневый, таинственный, морской)
    V — глагол (пользоваться, обрабатывать)
    PR — предлог (под, напротив)
    CONJ — союз (и, чтобы)
    ADV — прочие несклоняемые слова (наречие + предикатив + вводное слово + частица + междометие)
    За - 9      Против - 0

    ЕК:Каков список морфологических характеристик для разных частей речи? Их последовательность и обозначения?
    Категории, не участвующие в зачете:
    местоимения, числительные
    (NB в разных системах эти категории входят в разные классы, например, "я" может разбираться как существительное, местоимение-существительное, местоимение)
    За - 3      Против - 2

    Обсуждение
    АС: Не уверен, что правильно исключать эти категории из зачета. Может быть лучше повесить на сайте памятку, в которой четко описывается, что и как понимается. Делом создателей парсеров будет на выходе привести выход своего парсера в соответствие со стандартом.
    СШ: это как они не участвуют в зачете. боюсь, что самые частотные проблемы относятся к "его" и "мой"
    НГ: Порядковые числительные можно не выкидывать, а отнести к прилагательным.
    ЕК: Как обозначать категории, не участвующие в зачете?
    Что делать с фразеологизмами? Может быть, их отнести к категории "не участвующих в зачете"?

    К какой категории в вашей системе относятся причастия и деепричастия?
    самостоятельная категория/глагол/другое
    Самостоятельная категория - 1      Глагол - 8      Другое - 0

    Обсуждение

  • Составные единицы
    Составные предлоги и т.п.: включать позицию начала и конца каждого слова.
    АЕ: Все ли осознают, что если на вход подается текст, то результаты его разбиения на слова у участников будут различными, (например, составные предлоги, союзы, вводные и прочие обороты в нашей системе превратятся в одно слово...) вследствие чего одни и те же слова у разных участников еще и придется идентифицировать. Для синхронизации результатов предлагаю в формат файла результата включать позицию начала и конца каждого слова. А при оценке игнорировать слова, не совпавшие по началу-концу с эталонным разбиением.

  • Имена собственные (Ф,И,О,География,Организация,Артефакт и т.п.)
    В вашей системе имена собственные: выделяются в отдельную категорию / считаются именами существительными / являются подклассом имен существительных?
    Самостоятельная категория(и) - 0      Имя существительное - 0      Опцию можно отключить - 1
    Внутри группы имен собственных, считаются ли отдельными категориями вышеперечисленные классы? Еще также проблема в том, что "Министерство просвещения" может считаться как одним "словом", так и двумя.
    АЕ: А вот относить имена собственные просто к именам существительным, если у кого-то это есть - это существенный принципиальный косяк словарей, за который мы здесь и должны бить, так классы имен собственных - это принципиально открытые лексико-грамматические классы, и большинство имен нарицательных может выступать именами собственными (почему тогда можно разбирать 'Иванов' как фамилию, а 'Банк' - нельзя?), а кроме того, если не различать в словаре имена собственные, то на словоупотребление 'коли' будет лемма 'Коля' и т.п.! Я, кстати, встречал морфологии, и русские, и английские, в которых имена собственные имеют еще и формы множественного числа, порождая в реальном тексте бредовые варианты разбора...
    Мы, собственно, для того и затеваем сыр-бор, чтобы определить требования и выделить или довести до совершенства лучшие морфологические системы... В том числе, оценить их на соответствие нормально живому русскому языку (для!=длить, при!=переть, выборы!=выбор, договорить!=договориться и т.п.). Иначе в чем соревноваться, если не в чистоте словарей? МК: Насчет имен собственных - их бы я вообще сделал отдельным пунктом. Т.е. разделил бы редкие слова (ведь имеются в виду несловарные слова, словообразование?) и имена собственные.
     
  • Список граммем
    Тут все еще сложнее, чем с частями речи. По-видимому, нужно составить ограниченный список категорий (типа род, число...), по которому и соревноваться. Какие будут предложения?
    Обсуждение
    НГ: Главное, чтобы было как можно меньше классифицирующих категорий - мы не готовы для несловарных слов правильно порождать переходность глаголов, одушевленность существительных или качественность прилагательных. Единственная такая категория - это род у существительных.
     
  • Знаки препинания
    ЕК: Вопрос: надо ли выводить знаки препинания?
     
  • Редкие слова
    Обсуждение
    АС: В этом пункте речь идет о словах, изменяющихся по законам русского языка, но по разным причинам не попавшим в словарь той или иной системы. Так? Мне кажется, не совсем правильно называть эти слова редкими. Названия лекарств или личные имена совсем не такие уж редкие. Редкими я бы скорее называл сложные случаи в словаре Зализняка.
    АЕ: Редкие слова дорожки 4 некорректно разбирать вне текста - любая морфология может накидать с десяток возможных вариантов разбора, но выбирать правильный для слов, не содержащихся в словаре, можно только из контекста. Я бы вообще исключил отдельно эту дорожку (тем более, что у кого-то они окажутся в словаре) - редкие слова внесут свой вклад в результаты по прочим дорожкам!!! И уж если говорить о разборе редких слов, то это прежде всего имена собственные...
    ОЛ: Смысл этой дорожки в том, чтобы посмотреть, как работают системы прогнозирования разборов несловарных слов. Эксперты готовы пройтись по тестовому корпусу и отобрать 100 слов в качестве задания "Редкие слова". Должен ли здесь упор делаться на слова с редким типом склонения? Включать ли имена собственные? Включать ли слова с опечатками?