|
Формат представления исходных данныхДокументы в коллекциях Форума представлены в виде XML.Для каждого документа хранится следующая информация:
Исходные документы представляют собой текстовые файлы без разметки. ???Содержимое исходного документа хранится в кодировке BASE64 для того, чтобы сохранить его как можно ближе к оригиналу. Пример документа, оформленного в таком формате (XML файл) <?xml version="1.0"?> <parseval:dataset xmlns:parseval="http://www.ggggg.ru/data/common"> <parseval:description>This file contains data for the track...</parseval:description> <collection> <collectionID>Название набора данных</collectionID> <date>Дата создания (характеризует время модификации оригиналов документов)</date> </collection> <document> <docID>идентификатор</docID> <docURL>необязательный тег, содержащий полный оригинальный url для этой страницы</docURL> <content encoding="base64"> содержимое в base64, для того чтобы защититься от всего, что может сломать стандартный XML парсер (некорректный HTML, бинарные данные, т.п.) </content> </document> <document> ... следующий документ ... </document> ... </parseval:dataset> |