|
Вопросы для совместного обсуждения дорожек и правилУ нас есть несколько горячих вопросов, которые надо обсудить до начала соревнования.Сбор текстов для коллекции Cроки проведения Кодировка данных на входе Кодировка данных на выходе Формат данных на выходе Дорожки, в которых ваша система готова участвовать Список частей речи Составные единицы Имена собственные Список граммем Редкие слова Можете ли вы предоставить в качестве своего вклада в общее дело неразмеченные тексты из ваших запасов? Они могут быть любых жанров и проч. Желательный объем - 100 тысяч употреблений. Формат plain text. Поступившие предложения: Компьюлента Худ. лит. Предисловие словаря Зализняка (там есть много словоформ с редким типом склонения) Все словоформы, порожденные по словарю Зализняка Фрагмент НКРЯ общественно-политический "набор" текстов (в основном из газеты "Известия" и ряда других, взятых из Интернета) АК: желательно, чтобы вошли как художественные, так и технические и юридические тексты. К примеру, Гражданский Кодекс РФ. Комментарий организаторов: Имейте в виду, что участвуя в "общем сборе", вы подсовываете конкурентам (в неразмеченном виде) те данные, на которых вы тренировали свою программу и пополняли словари, а они нет. БД: мое отношение к таким высказываниям организаторов - резко отрицательное - здесь нет конкурентов, - и разве Вы не видите, что неравенство при старте обесценивает и "выгрыш". БД: Надо ориентироваться на разрешенные к распространению коллекции - в связи с этим - почему не обсуждается использование коллекций РОМИП - по крайней мере нормативные акты РФ (300 тыс. документов), KM.RU (3 млн. документов) и т.п. За - 14 Против - 1 ЕК: Считаем целесообразным удлинить срок подготовки для подгонки форматов вывода и резко сократить срок проведения соревнования ( не более одного дня) для исключения возможности ручной корректировки результатов. Продление только в аварийных случаях. Например: рассылка 9 марта, соревнование и отсылка результатов 10 марта. base64 / windows-1251 / utf-8 / другая За windows-1251 - 3 За utf-8 - 3 Любая - 4 Обсуждение БД: по-видимому, правильнее выбрать UTF-8 - многие "русскоязычные" тексты могут содержать всякие разные символы - надо сразу с ними уметь обращаться. windows-1251 / utf-8 / другая За windows-1251 - 3 За utf-8 - 3 Любая - 3 Предполагается, что участники берут на себя обязательство представить ответ в едином формате. Варианты: простой (через табуляцию, одной словоформе/знаку препинания и т.п. соответствует одна строка) XML (прототип можно посмотреть здесь). За табуляцию - 5 За XML - 3 Любой - 1 Обсуждение АЕ: xml, однозначно, так как он может быть расширяем до бесконечности по мере усложнения выдаваемой информации. МК: Не вижу смысла в расширяемом формате, раз предполагается какая-то унификация/ограничение результатов. СШ: XML, но идентификаторы бы я сделал вложенными: <doclist docID="1"> <term termID="1.1" status="word"> ОЛ: слова, записанные через дефис, одна система может разобрать как одно слово, другая, как два слова. Может быть проблема выравнивания. БД: собственно, самый простой и самый сложный вопрос - что есть "слово". несомненно, разметка должна быть ассоциирована с фрагментом и, даже, возможно, несвязным! например: "... аудио- и радиотехника ..." - вполне допустим "правильный" разбор в виде "АУДИО//АУДИОТЕХНИКА И РАДИОТЕХНИКА". то же будет наблюдаться в текстах с орфографическими ошибками - когда в "нормальное" слово вставляется пробел, или, наоборот, несколько слов склеиваются вместе, а также для текстов с переносами, особенно с переносами во внутренних столюцах таблиц(!), что часто любят делать в нормативных актах. НГ: Времени остается мало, и мы все намаемся с non-wellformed XML, разной интерпретацией атрибутов и т.п. Это лишние сложности АК: Чтобы исключить ручную правку, предлагаю зафиксировать формат входа/выхода и предоставить организаторам модули для тестирования, оформленныев виде консольного приложения, получающего на вход, к примеру, простой текстовый файл и выдающие результаты лемматизации на stdout. Запуск осуществляется представителем организатора соревнований, что исключает ручную правку результатов. Результаты голосования см. на странице дорожек. Двое участников объявили, что будут задействовать синтаксический компонент для дизамбигуации. Обсуждение "РЕДКИЕ СЛОВА" БД: 100 слов "заранее" - это неправильно, надо выбирать только постфактум, причем больше можно в некотором множестве обработанных текстов а) определить список слов, не входящих в стандартный словарь Зализняка б) СЛУЧАЙНО отобрать из них 100-200- в общем, сколько надо в) м.б. НЕМНОГО почистить, чтобы обеспечить большее разнообразие (а м.б. и не стоит этого делать) "ПОИСК" БД: Дорожка "поиск" - поиск текстов явно содержащих ВСЕ слова из запроса - оценивается полнота и точность поиска по документам. Весьма симпатичная дорожка - нет никаких требований к реализации - хоть вероятностный, хоть стемминг. АС: Нас интересует (очень) морфологический разбор поисковых запросов. И в этой задаче сразу появляется подзадачи выявлении языка запроса, нахождение опечаток, склеенных форм и т.д. Это очень важные подзадачи, если на забеге не будет оценок по ним, будет плохо. АК: Нельзя ли поподробнее, о чём идёт речь? О выделении фокусов внимания в многословных запросах? О признании каких-ибо частей запроса незначимыми? Или о чём? БД: в принципе эта дорожка предназначена, чтобы оценить - а насколько вообще важна морфология для поиска - а то может быть и не важна оценка могла бы быть стандартная РОМИПовская. однако, боюсь эту дорожку не поднять до мая, но можно попробовать ввести такую "совместную" дорожку в РОМИП-2010. Поскольку набор частей речи в разных системах может быть разным, требуется согласовать единый набор и привести к нему свои ответы. Как вариант, предлагается "минимальный набор" категорий: S — существительное (яблоня, лошадь, корпус, вечность) A — прилагательное (коричневый, таинственный, морской) V — глагол (пользоваться, обрабатывать) PR — предлог (под, напротив) CONJ — союз (и, чтобы) ADV — прочие несклоняемые слова (наречие + предикатив + вводное слово + частица + междометие) За - 9 Против - 0 ЕК:Каков список морфологических характеристик для разных частей речи? Их последовательность и обозначения? Категории, не участвующие в зачете: местоимения, числительные (NB в разных системах эти категории входят в разные классы, например, "я" может разбираться как существительное, местоимение-существительное, местоимение) За - 3 Против - 2 Обсуждение АС: Не уверен, что правильно исключать эти категории из зачета. Может быть лучше повесить на сайте памятку, в которой четко описывается, что и как понимается. Делом создателей парсеров будет на выходе привести выход своего парсера в соответствие со стандартом. СШ: это как они не участвуют в зачете. боюсь, что самые частотные проблемы относятся к "его" и "мой" НГ: Порядковые числительные можно не выкидывать, а отнести к прилагательным. ЕК: Как обозначать категории, не участвующие в зачете? Что делать с фразеологизмами? Может быть, их отнести к категории "не участвующих в зачете"? К какой категории в вашей системе относятся причастия и деепричастия? самостоятельная категория/глагол/другое Самостоятельная категория - 1 Глагол - 8 Другое - 0 Обсуждение Составные предлоги и т.п.: включать позицию начала и конца каждого слова. АЕ: Все ли осознают, что если на вход подается текст, то результаты его разбиения на слова у участников будут различными, (например, составные предлоги, союзы, вводные и прочие обороты в нашей системе превратятся в одно слово...) вследствие чего одни и те же слова у разных участников еще и придется идентифицировать. Для синхронизации результатов предлагаю в формат файла результата включать позицию начала и конца каждого слова. А при оценке игнорировать слова, не совпавшие по началу-концу с эталонным разбиением. В вашей системе имена собственные: выделяются в отдельную категорию / считаются именами существительными / являются подклассом имен существительных? Самостоятельная категория(и) - 0 Имя существительное - 0 Опцию можно отключить - 1 Внутри группы имен собственных, считаются ли отдельными категориями вышеперечисленные классы? Еще также проблема в том, что "Министерство просвещения" может считаться как одним "словом", так и двумя. АЕ: А вот относить имена собственные просто к именам существительным, если у кого-то это есть - это существенный принципиальный косяк словарей, за который мы здесь и должны бить, так классы имен собственных - это принципиально открытые лексико-грамматические классы, и большинство имен нарицательных может выступать именами собственными (почему тогда можно разбирать 'Иванов' как фамилию, а 'Банк' - нельзя?), а кроме того, если не различать в словаре имена собственные, то на словоупотребление 'коли' будет лемма 'Коля' и т.п.! Я, кстати, встречал морфологии, и русские, и английские, в которых имена собственные имеют еще и формы множественного числа, порождая в реальном тексте бредовые варианты разбора... Мы, собственно, для того и затеваем сыр-бор, чтобы определить требования и выделить или довести до совершенства лучшие морфологические системы... В том числе, оценить их на соответствие нормально живому русскому языку (для!=длить, при!=переть, выборы!=выбор, договорить!=договориться и т.п.). Иначе в чем соревноваться, если не в чистоте словарей? МК: Насчет имен собственных - их бы я вообще сделал отдельным пунктом. Т.е. разделил бы редкие слова (ведь имеются в виду несловарные слова, словообразование?) и имена собственные. Тут все еще сложнее, чем с частями речи. По-видимому, нужно составить ограниченный список категорий (типа род, число...), по которому и соревноваться. Какие будут предложения? Обсуждение НГ: Главное, чтобы было как можно меньше классифицирующих категорий - мы не готовы для несловарных слов правильно порождать переходность глаголов, одушевленность существительных или качественность прилагательных. Единственная такая категория - это род у существительных. ЕК: Вопрос: надо ли выводить знаки препинания? Обсуждение АС: В этом пункте речь идет о словах, изменяющихся по законам русского языка, но по разным причинам не попавшим в словарь той или иной системы. Так? Мне кажется, не совсем правильно называть эти слова редкими. Названия лекарств или личные имена совсем не такие уж редкие. Редкими я бы скорее называл сложные случаи в словаре Зализняка. АЕ: Редкие слова дорожки 4 некорректно разбирать вне текста - любая морфология может накидать с десяток возможных вариантов разбора, но выбирать правильный для слов, не содержащихся в словаре, можно только из контекста. Я бы вообще исключил отдельно эту дорожку (тем более, что у кого-то они окажутся в словаре) - редкие слова внесут свой вклад в результаты по прочим дорожкам!!! И уж если говорить о разборе редких слов, то это прежде всего имена собственные... ОЛ: Смысл этой дорожки в том, чтобы посмотреть, как работают системы прогнозирования разборов несловарных слов. Эксперты готовы пройтись по тестовому корпусу и отобрать 100 слов в качестве задания "Редкие слова". Должен ли здесь упор делаться на слова с редким типом склонения? Включать ли имена собственные? Включать ли слова с опечатками? |