PlagEval. RU-EVAL: Evaluation of Russian NLP tools

Поиск заимствований: PlagEvalRus 2016-2017

2016-2017 Семинар по оценке алгоритмов поиска заимствований в текстах на русском языке проводится в 2016-2017 г.

Официальная страница семинара: http://ru-eval.ru/plageval

Контактный адрес: plagevalrus@gmail.com

Google-группа участников: https://groups.google.com/forum/#!forum/plagevalrus2017

Дедлайн: Приглашаем участников подать заявку на любом этапе соревнований до подачи результатов.

Данные для обучения и тестирования алгоритмов доступны по адресу: https://cloud.mail.ru/public/9XXY/WAfXAWLnW. Подробное описание и инструкция по работе с данными доступны в разделе Материалы ниже.

Дорожки

В ходе тестирования планируется решение задачи поиска внешних заимствований (External Plagiarism Detection) в научных текстах (академический плагиат). Будут проведены следующие дорожки:

Дорожка 1. Определение источника заимствования. Source detection.
Дорожка 1. Дословные заимствования: определение заимствованного фрагмента. Copy and paste (c&p) plagiarism detection.
Дорожка 2. Заимствования с парафразами: определение парафразированного фрагмента. Paraphrased plagiarism detection.

Каждая дорожка представляет собой поисковое задание: в заданном тексте необходимо найти заимствованные фрагменты и для них указать тексты-источники заимствований из заданной коллекции источников. Участникам предоставляются коллекции текстов источников и обучающие данные по каждой дорожке.

Ход тестирования и оценка результатов

Перед тестированием участникам выдаётся набор заданий по каждой дорожке. Полученные ответы сравниваются с эталонными ответами, созданными организаторами. Заимствование считается успешно найденным, если фрагмент, найденный участником, вложен во фрагмент эталонного ответа или совпадает с ним. Найденные участниками заимствования, которые не указаны в эталонных ответах организаторов на контрольные задания, не будут учитываться при оценке.

Примерный график проведения

сентябрь - декабрь: подача заявок, разработка и настройка алгоритмов
январь: тестовая сессия и подача результатов
февраль - март: оценка результатов
апрель - май: подготовка итогового отчета
июнь: подведение итогов на конференции Диалог

Участниками предлагается подготовить статьи для публикации к концу февраля на основе самостоятельной оценки алгоритма. К марту будут доступны контрольные данные, и в окончательной версии статьи можно будет указать результаты независимой оценки в рамках семинара.

Организаторы

Иван Смирнов (Институт системного анализа ФИЦ ИУ РАН, Москва)
Михаил Копотев (Хельсинкский университет, Финляндия)
Андрей Кутузов (Университет Осло, Норвегия)
Илья Соченков (Институт системного анализа ФИЦ ИУ РАН, Москва)
Ольга Ляшевская (Высшая школа экономики, Москва)
Рита Кузнецова (компания Антиплагиат)
Олег Бахтеев (компания Антиплагиат)
Dr. Мартин Поттхаст (основатель PAN, Digital Bauhaus Lab)
Любовь Иванова (Высшая школа экономики, Москва, секретарь семинара)

При поддержке

PAN, a network of experts on digital text forensics (http://pan.webis.de)
Международная конференция по компьютерной лингвистике и интеллектуальным технологиям Диалог Киберленинка: научная электронная библиотека открытого доступа

Материалы

Первое организационное письмо PDF
Анкета-заявка https://goo.gl/forms/8BK7ScHODmLcCfOF3
Коллекция для обучения: training set

Описание данных по папкам:
1. source_retrieval – данные для дорожки поиска источников
src – источники возможных заимствований
susp – тексты с заимствованиями из источников
tasks – файлы с информацией, сопоставляющей тексты с заимствованиями и источники заимствований

2. text_alignment – данные для дорожки поиска заимствований в тексте
sources – источники заимствований
susp – тексты с заимствованиями из источников
tasks – файлы с информацией, сопоставляющей заимствованные фрагменты текстов из susp с фрагментами из источников sources

Задания сгруппированы в архивы по типу заимствований, например, generated_paraphrased означает данные для автоматически сгенерированных парафразированных заимствований. Там же доступна статья, в которой обсуждаются принципы создания парафразированных текстов, включенных в коллекцию. Коллекция уже сейчас достаточно представительная, но мы планируем пополнять ее в течение декабря-января.

Задачи

Для каждого типа заданий есть файл pairs. Этот файл перечисляет все пары подозрительных документов и источников, которые нужно сравнить друг с другом. Первая колонка в файле указывает на подозрительный документ (сам файл находится в директории susp), вторая колонка указывает на источник (файл находится в директории src).

Программа обнаружения заимствований должна сгенерировать XML-файл suspicious-documentXYZ-source-documentABC.xml, который содержит метаинформацию об обнаруженных заимствованиях. Пример:

В примере выше заимствованный текст в документе XYZ.txt начинается с 5-ого символа и имеет длину 200 символов. В источнике ABC.txt текст, который был заимствован, начинается с 100-ого символа и имеет длину 150 символов.
В качестве базового метода (baseline) можно использовать программу.

Пример запуска:

$ python pan12-text-alignment-baseline.py tasks/manually-paraphrased/pairs src susp manually-paraphrased-result

С результатами базового метода можно сравнивать результаты своих методов.

Метрики

Для оценки качества обнаружения заимствований будут использоваться макро-усредненные точность, полнота и др. Подробнее прочитать про использованные метрики можно по ссылке.
Для оценки качества во время обучения можно использовать скрипт

Пример запуска:

$ python pan09-plagiarism-detection-performance-measures.py -p tasks/manually-paraphrased/ -d manually-paraphrased-result/

На этапе оценки прогонов участники должны будут сдать свои программы (скрипты), которые будут автоматически запускаться на платформе TIRA на закрытом множестве контрольных заданий. Программы будут запускаться следующим образом:

mySoftware -i path/to/corpus -o path/to/output/directory

На платформе TIRA участникам будет выделена персональная виртуальная машина, с одной из следующих ОС: Windows 7 или Ubuntu 12.04. Можно использовать любой язык программирования. Доступ к виртуальной машине будет организован через ssh или rdp. Детальная информация о работе с ВМ в инструкции.