Автор

Гудков В.В.

Аннотация

Целью данной работы являлся поиск эффективного способа классификации корпуса парафразов русского языка при помощи обученных векторных представлений слов. Были затронуты три подхода к их созданию: Word2Vec, Doc2Vec и FastText. В ходе эксперимента были использованы корпусные метод и методы машинного обучения и обработки естественного языка.

Ключевые слова

Natural language processing, word embeddings, нейронные сети.

Статья

УДК​​ 81.32

 

К​​ МЕТОДАМ ОЦЕНКИ СХОДСТВА ПАРАФРАЗОВ​​ 

С ПОМОЩЬЮ ЭМБЕДДИНГОВ

 

Гудков В.В.

 

Санкт-Петербургский государственный университет

 

Целью данной работы являлся поиск эффективного способа классификации корпуса парафразов русского языка при помощи обученных векторных представлений слов.​​ Были затронуты три подхода к их созданию: Word2Vec,​​ Doc2Vec​​ и​​ FastText.​​ В ходе эксперимента были использованы корпусные метод​​ и методы машинного обучения и обработки естественного языка.

 

Ключевые​​ слова:​​ natural language processing, word embeddings,​​ нейронные​​ сети.

 

Введение

 

Модели векторного пространства представляют слова таким образом,​​ что семантически похожие слова отображаются в нем как близлежащие точки,​​ что позволяет оценивать схожесть слов и текстов.

Для обучения эмбэддингов был взят новостной подкорпус​​ «Lenta.ru»​​ из корпуса​​ «Тайга»,​​ а корпусом для оценки схожести парафразов выступил​​ «Paraphraser corpus»,​​ созданный на основе словаря синонимов русского языка.

Таким образом,​​ задачи​​ настоящей работы заключались в следующем:

  • Исследование специфики и оптимальных​​ параметров создания эмбэддингов методами​​ Word2Vec CBOW, Doc2Vec​​ и​​ FastText.

  • Оценка схожести текстов при помощи эмбэддингов.

  • Выявление лучшего способа создания эмбэддингов для оценки схожести текстов.

 

Подготовительная работа

 

Обучение эмбэддингов было выполнено на новостных текстах​​ Lenta.ru.​​ Объем обучающей выборки составил ок. 5​​ миллионов словоупотреблений,​​ количество новостей:​​ ок. 36 500​​ единиц.

На предварительном этапе возникла задача предобработки корпуса для его дальнейшего использования в качестве обучающей выборки для создания эмбеддингов.​​ Для этого сырые тексты необходимо было токенизировать,​​ очистить от стоп-слов,​​ знаков пунктуации,​​ латинских символов,​​ чисел и сверхкоротких слов.

Разбитые на токены документы были поданы на обучение в алгоритмы​​ FastText,​​ Word2Vec​​ и​​ Doc2Vec,​​ реализованные в библиотеке​​ Gensim.​​ Оптимальные​​ параметры для обучения​​ (size=100, window=5, min_count=5)​​ были подобраны эмпирически.​​ Кроме того была использована предобученная на больших​​ (порядка​​ 1​​ млрд.​​ словоупотреблений)​​ данных модель​​ FastText​​ для​​ сопоставления с вручную созданными​​ 

Алгоритм для предобработки текстов был затем также применен для корпуса парафразов.​​ Оценка схожести двух текстов была проведена при помощи меры косинусой схожести на усредненных векторах токенов в каждом тексте.

 

Тестирование и результаты

 

Тестирование проводилось в сравнении с коэффициентом Жаккара,​​ рассчитываемый как длина токенного пересечения в текстах,​​ деленная на длину объединения двух точенных множеств.

Для каждого алгоритма было подобрано пороговое значение на всей выборке,​​ лучшим образом разделяющее ее на множество парафразов и не па-​​ рафразов на основе соответствующей меры сходства.​​ Пример разделения приведен ниже на рисунке​​ 1.

 

Рис. 1.​​ Гистограмма распределений парафраз и не парафраз в соответствии с их коэффициентом Жаккара

 

F1 меры для классификации текстов на основе различных алгоритмов создания эмбеддингов:

 

Рис.​​ 2.​​ F1 меры для классификации текстов на основе различных алгоритмов создания эмбеддингов

 

Заключение

 

На основе полученных данных можно сделать следующие выводы:

Во-первых,​​ для выбранных данных наилучшим среди предложенных алгоритмов оказался​​ Word2Vec CBOW ,​​ однако его результат оказался ниже,​​ чем метод определения сходства на основе коэффициента Жаккара.

Во-вторых,​​ Повышение объема обучающей выборки​​ (как в случае с предобученным на больших данных и локально созданном​​ FastText)​​ не всегда оказывает хорошее влияние на алгоритм,​​ а даже может привести к ухудшению результата.​​ Гораздо важнее подобрать наиболее релевантный к предмету исследования материал.

 

Список литературы

 

  • Yoshua Bengio, R​​ ́ejean Ducharme, Pascal Vincent, and Christian Janvin.​​ A neural probabilistic language model. J. Mach. Learn. Res., 3:1137–1155, March 2003.

  • Michael U. Gutmann and Aapo Hyv​​ ̈arinen.​​ Noise-contrastive estimation of unnormal- ized statistical models, with applications to natural image statistics.​​ J. Mach. Learn. Res., 13:307–361, February 2012.

  • Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean.​​ Efficient estimation of word representations in vector space.​​ 01 2013.

  • Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. word2vec, 2014.

  • Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean.​​ Distributed representations of words and phrases and their compositionality. In C.J.C. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K.Q. Weinberger, editors, Advances in Neural Information Processing Systems 26, pages 3111– 3119.​​ Curran Associates, Inc., 2013.

  • Andriy Mnih and Yee Whye Teh. A fast and simple algorithm for training neural probabilistic language models.​​ 06 2012.

© В.В. Гудков, 2019

 

СВЕДЕНИЯ О НАУЧНОМ РУКОВОДИТЕЛЕ

 

Научный руководитель​​ ​​ Митрофанова О.А.,​​ к.ф.н.,​​ доцент кафедры математической лингвистики СПбГУ

 

Скачать PDF

Выходные данные

Гудков В.В. К методам оценки сходства парафразов с помощью эмбеддингов [Электронный ресурс] // Вестник современных исследований. — Электрон. журн. — 2019. — № 8. — Режим доступа: https://orcacenter.ru

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *