Форум "Оценка методов автоматического анализа текста:
морфологические парсеры русского языка"

 Приглашение к участию 
 Новости 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Участники 
 Дорожки 
 Экспертиза 
 Материалы Форума 
  Тестовые коллекции 
  Таблицы оценок 
 Сроки проведения 
 Публикации 
 FAQ 
 Форум и рассылка 
 
 Диалог 2010 

Формат представления исходных данных

Документы в коллекциях Форума представлены в виде XML.

Для каждого документа хранится следующая информация:
  • идентификатор коллекции (метка и дата создания)
  • содержимое (без каких либо модификаций)
Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов.

Исходные документы представляют собой текстовые файлы без разметки.

???Содержимое исходного документа хранится в кодировке BASE64 для того, чтобы сохранить его как можно ближе к оригиналу.

Пример документа, оформленного в таком формате (XML файл)
 
<?xml version="1.0"?>
<parseval:dataset xmlns:parseval="http://www.ggggg.ru/data/common">
<parseval:description>This file contains data for the track...</parseval:description> 

<collection>
   <collectionID>Название набора данных</collectionID>
   <date>Дата создания (характеризует время модификации 
		оригиналов документов)</date>
</collection>
 
<document>
  <docID>идентификатор</docID>
  <docURL>необязательный тег, содержащий полный оригинальный url для этой страницы</docURL>  
  <content encoding="base64">
    содержимое в base64, для того чтобы защититься от всего,
	что может сломать стандартный XML парсер (некорректный 
	HTML, бинарные данные, т.п.)
  </content>
</document>
 
<document>
  ... следующий документ ...
</document>
 
...
 
</parseval:dataset>