ru-eval: оценка методов автоматического анализа текстов

На этой странице вы можете найти информацию о полезных ресурсах и публикациях, посвященных прошедшим соревнованиям.

Ресурсы

Конвертор морфологических тагсетов

В разработке

Корпуса со снятой морфологической неоднозначностью

  • Данные основного корпуса НКРЯ со снятой морфологической омонимией (1 млн словоупотреблений) инструкция
  • Подкорпус со снятой омонимией OpenCorpora

Корпуса со снятой синтаксической неоднозначностью

  • СинТагРус (800 тыс. словоупотреблений). Для приобретения бесплатной лицензии для академических и образовательных учреждений или лицензии для коммерческих организаций требуется связаться с авторами: iomdin@iitp.ru, bogus@iitp.ru
  • Корпуса в формате Universal Dependencies: UD-SynTagRus (1 млн. токенов) и UD-Google (0,1 млн. токенов)

N-грамы, коллокации

Инструменты для обработки и разметки текстов

Mystem+ (морфологические разметчики Mystem, TreeTagger, TnT, Hunpos, MarMoT)

Mystem 3.0 (морфологический разметчик), PyMystem3 (в обертке для Python)

StarLing (морфологический разметчик)

PyMorphy 2 (морфологический разметчик)

RU-Syntax (онлайн-сервис для разметки морфологии и синтаксиса зависимостей)

UDpipe (онлайн-сервис для разметки морфологии и синтаксиса зависимостей, модель, обученная на корпусе russian-syntagrus 2.0)

AOT (онлайн демо: морфология, синтаксис составляющих, поверхностно-семантический граф)

Ресурсы для обработки русскоязычных текстов на nlpub.ru

Ресурсы с сайта проекта RSTB

Ресурсы сайта web-corpora НИУ ВШЭ

Словарные ресурсы

Грамматический словарь русского языка А. А. Зализняка (файл xls, txt, на сайтах проектов StarLing, odict.ru)

Префиксальные видовые глагольные пары (база проекта Exploring Emptiness)

Суффиксальные видовые глагольные пары (по словарю А. А. Зализняка, файл xls, txt)

База русских глаголов Н. Слюсарь (по словарю А. А. Зализняка)

Публикации

Toldova S., Nedoluzhko А., Novak M. Coreference Chains in Czech, English and Russian: Preliminary Findings // Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог" (2015), 2015. С. 474-486. PDF

Toldova S., Lyashevskaya O., Bonch-Osmolovskaya A., Ionov M. Evaluation for morphologically rich language: Russian NLP // Proceedings of the International Conference on Artificial Intelligence (ICAI 2015). The Steering Committee of The World Congress in Computer Science, Computer Engineering and Applied Computing (WorldComp), 2015. P. 300-306. PDF

Toldova S., Azerkovich I., Гришина Ю., Ладыгина А., Lyashevskaya O., Ройтберг А. М., Сим Г., Васильева М. Pre-experiments on Annotation of Russian Coreference Corpus // Working papers by NRU HSE. Series WP BRP "Linguistics", Vol. 35, 2015. PDF

Toldova S.Ju., Roytberg A., Nedoluzhko А., Kurzukov M., Ladygina A., Vasilyeva M., Azerkovich I., Grishina Y., Sim G., Ivanova A., Gorshkov D. Evaluating Anaphora and Coreference Resolution for Russian // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4 — 8 июня 2014 г.). Вып. 13(20). М. : Изд-во РГГУ, 2014. P. 681-695. PDF

Brykina M., Toldova S., Faynveyts A. V. Dictionary-based ambiguity resolution in Russian named-entities recognition. A case study, in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т. Т. 1: Основная программа конференции. Вып. 12 (19). М. : РГГУ, 2013. P. 163-177. PDF

Toldova S., Bonch-Osmolovskaya A. A., Lyashevskaya O. Learning Computational Linguistics through NLP Evaluation Events: the experience of Russian evaluation initiative, in: 51st Annual Meeting of the Association for Computational Linguistics. Proceedings of the Fourth Workshop on Teaching Natural Language Processing. Stroudsburg, PA : Association for Computational Linguistics, 2013. P. 61-65. PDF

Толдова С. Ю., Брыкина М. М., Файнвейц А. В. Проблема идентификации именованных сущностей при их автоматическом извлечении // Актуальные инновационные исследования: наука и практика. 2013. № 1

Акинина Ю. С., Кузнецов И. О., Толдова С. Ю. Сравнения двух методов автоматического извлечения участников события из неструктурированных источников // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2013. № 6. С. 26-34.

Gareyshina A., Ionov M., Lyashevskaya O., Privoznov D., Sokolova E., Toldova S. RU-EVAL-2012: Evaluating dependency parsers for Russian // Proceedings of COLING 2012: Posters. Mumbai: The COLING 2012 Organizing Committee, 2012. P. 349-360. PDF

Толдова С. Ю., Соколова Е. Г., Астафьева И., Гарейшина А., Королева А. Н., Привознов Д., Сидорова Е., Тупикина Л., Ляшевская О. Н. Оценка методов автоматического анализа текста 2011–2012: синтаксические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.). В 2 томах. Т. 2: Доклады специальных секций. Вып. 11 (18). М.: РГГУ, 2012. С. 77-90. PDF

Ляшевская О. Н., Астафьева И., Бонч-Осмоловская А. А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А. Н., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С. Ю., Савчук С. О., Коваль С. А. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог 2010". Вып. 9 (16). М.: РГГУ, 2010. С. 318-326. PDF