Форум "Оценка методов автоматического анализа текста:
морфологические парсеры русского языка"

 Приглашение к участию 
 Новости 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Участники 
 Дорожки 
 Экспертиза 
 Материалы Форума 
  Тестовые коллекции 
  Таблицы оценок 
 Сроки проведения 
 Публикации 
 FAQ 
 Форум и рассылка 
 
 Диалог 2010 

Тестовые коллекции

  • Коллекции исходных данных:
    • Основная коллекция
    • Грязные тексты
  • Коллекции заданий:
    • Редкие слова
Коллекции исходных данных составлены из фрагментов коллекций неразмеченных текстов, присланных следующими участниками и экспертами:

  • ARME (Компания ABBYY)
  • Crosslator (Институт прикладной математики им. М.В.Келдыша)
  • FSTMorph (Институт проблем передачи информации РАН)
  • Pymorphy (М.Коробов)
  • TextAn (Е.Каневский, К.Боярский)
  • М.Ионов
  • С.Коваль
  • М.Кудринский
  • О.Ляшевская
  • Национальный корпус русского языка (ИРЯ РАН)
  • Е.Сидорова

  • Благодарим всех, принявших участие в составлении тестовых коллекций.

    Баланс жанров в Основной коллекции:

      18% Статьи в СМИ/Нон-фикшн
      15% Новости
      15% Интервью
      15% Технические тексты
      15% Юридические тексты
      18% Художественная литература
       4% Блоги и форумы

    Коллекция заданий составлена экспертами.