Форум "Оценка методов автоматического анализа текста:
морфологические парсеры русского языка"

Формат представления исходных данных

Документы в коллекциях Форума представлены в виде XML.

Для каждого документа хранится следующая информация:

идентификатор коллекции (метка и дата создания)
содержимое (без каких либо модификаций)

Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов.

Исходные документы представляют собой текстовые файлы без разметки.

???Содержимое исходного документа хранится в кодировке BASE64 для того, чтобы сохранить его как можно ближе к оригиналу.

Пример документа, оформленного в таком формате (XML файл)

 
<?xml version="1.0"?>
<parseval:dataset xmlns:parseval="http://www.ggggg.ru/data/common">
<parseval:description>This file contains data for the track...</parseval:description> 

<collection>
   <collectionID>Название набора данных</collectionID>
   <date>Дата создания (характеризует время модификации 
		оригиналов документов)</date>
</collection>
 
<document>
  <docID>идентификатор</docID>
  <docURL>необязательный тег, содержащий полный оригинальный url для этой страницы</docURL>  
  <content encoding="base64">
    содержимое в base64, для того чтобы защититься от всего,
	что может сломать стандартный XML парсер (некорректный 
	HTML, бинарные данные, т.п.)
  </content>
</document>
 
<document>
  ... следующий документ ...
</document>
 
...
 
</parseval:dataset>

Форум "Оценка методов автоматического анализа текста: морфологические парсеры русского языка"

Формат представления исходных данных

Форум "Оценка методов автоматического анализа текста:
морфологические парсеры русского языка"