DOI: 10.14489/vkit.2016.03.pp.031-037

Аверченков В. И., Будыльский Д. В., Подвесовский А. Г.
Аннотация. Рассмотрена задача векторного представления текстовой информации на русском языке и ее актуальность, а также основные принципы и подходы, применяемые для решения данной задачи. Детально описаны методы word2vec и GloVe, проведена их апробация на корпусе русскоязычных текстов, построенном из статей Википедии. Выявлено, что метод word2vec показывает лучшие для данного корпуса значения точности в задаче определения словесной аналогии. Подтверждена способность методов раскрывать взаимосвязи между словами, близость которых определяется косинусным расстоянием между векторными представлениями.

Ключевые слова:  дистрибутивная семантика; векторное представление текста; машинное обучение; обработка естественного языка; семантическая близость.


Averchenkov V. I., Budylskii D. V., Podvesovskii A. G.
Abstract. Machine (ML) Learning in Natural Language Processing tasks becomes more and more actual. It is related to growing amounts of text data, available in internet media and social networks. Word representation is an important part of many ML methods for text processing. In this paper we consider word representation task and its actuality in modern applications. We reviewed formal definition and common approaches, from basic one-hot representation to recent ones. Two main problems of word representations are vector space size and model’s ability to represent latent relations of words. First one can be resolved by dimensionality reduction methods like singular value decomposition. Second problem was significantly resolved recently by word2vec and GloVe methods. We applied these latest models to Russian text corpora of Wikipedia and tested resulting word embeddings on word similarity task, introduced by Mikolov. For syntactic relations we used word forms of Russian nouns, adjectives, verbs and adverbs. For syntactic ones we used male-female and geographic analogies, like in Mikolov’s tests. Our accuracy results force us to perform researches with larger corpora, deeply investigate parameters influence and apply other models for Russian texts.

Keywords: Distributional semantics; Word representation; Machine learning; Natual language processing; Semantic similarity.


В. И. Аверченков, Д. В. Будыльский, А. Г. Подвесовский (Брянский государственный технический университет) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  


V. I. Averchenkov, D. V. Budylskii, A. G. Podvesovskii (Bryansk State Technical University) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript


