| Русский Русский | English English |
   
Главная Архив номеров
28 | 10 | 2020
10.14489/vkit.2020.03.pp.029-036

DOI: 10.14489/vkit.2020.03.pp.029-036

Вахромова Е. Ю., Бекетова И. В., Герасименко А. А., Горемычкин В. И., Кривошляпов В. П.
АЛГОРИТМ МЕЖЪЯЗЫКОВОГО НЕЧЕТКОГО ПОИСКА НА ОСНОВЕ ХЕШ-ВЕКТОРОВ ДЛЯ АВТОМАТИЧЕСКОГО СОПОСТАВЛЕНИЯ ИМЕННЫХ ГРУПП
(c. 29-36)

Аннотация. Предложен алгоритм межъязыкового нечеткого поиска на основе хешвекторов для автоматического сопоставления именных групп, принципиальная особенность которого – отказ от прямого перевода именных групп. Использован механизм хеширования именных групп с последующим отображением их в одно и то же скрытое векторное пространство, где построены вычислительные процедуры системы принятия решения.

Ключевые слова:  персональные данные; нечеткий поиск; кластерный анализ; хеширование; векторное пространство; базы данных.

 

Vakhromova E. Yu., Beketova I. V., Gerasimenko A. A., Goremychkin V. I., Krivoshlyapov V. P.
ALGORITHM OF CROSS LANGUAGE FUZZY SEARCH BASED ON HASH-VECTORS FOR AUTOMATIC COMPARISON OF PERSONAL NAMES
(pp. 29-36)

Abstract. The algorithm of cross language fuzzy search based on hash vectors for automatic matching of personal names is proposed. In the response mode for an input request, names in Latin spelling and a given value for the similarity measure, the algorithm determines the set of output Cyrillic names contained in the database of the information search system. The principal feature of the proposed algorithm is the rejection of the direct translation of personal names. Instead, the hashing mechanism of personal names is used, followed by mapping them into the same hidden vector space where the computational procedures of the decision-making system are built. In the process of research, it was solved a number of actual intermediate tasks. Thus, the decomposition algorithms of the explored database, the generation and clustering of the dictionary of basic morphemes are an instrument that is of independent value in solving the problem of automatically translating names from a foreign language, the translation rules of which are unknown – the socalled generalized transcription. After mapping names into a vector space, the matching operation is reduced to assessing the similarity between vectors. As a measure of similarity, several quantities were considered in the study. The most convenient measure of similarity is the cosine similarity, the critical value of which was obtained by plotting the FMR (False Match Rate) and FNMR (False Non-Match Rate) graphs. The developed algorithm is universal with respect to the languages used, that is, it does not depend on a specific alphabet. In the practical implementation of the developed algorithm, a series of experimental studies was carried out using a database containing more than 2.5 million names.

Keywords: Personal data; Fuzzy search; Cluster analysis; Hashing; Vector space; Databases.

Рус

Е. Ю. Вахромова, И. В. Бекетова, А. А. Герасименко, В. И. Горемычкин, В. П. Кривошляпов (ФГУП «Государственный научно-исследовательский институт авиационных систем» ГНЦ РФ, Москва, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Eng

E. Yu. Vakhromova, I. V. Beketova, A. A. Gerasimenko, V. I. Goremychkin, V. P. Krivoshlyapov (State Research Institute of Aviation Systems State Scientific Center of Russian Federation, Moscow, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Рус

1. Математические модели систем транскрипции фамильноименных групп / А. В. Бондаренко и др. // Изв. РАН. Теория и системы управления. 2016. № 4. С. 73 – 82. doi: 10.7868/S000233881604003X
2. Бойцов Л. М. Классификация и исследование современных алгоритмов нечеткого словарного поиска [Электронный ресурс] // Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL 2004): тр. 6-й Всерос. науч. конф. / Институт математических проблем биологии РАН. Пущино, Россия, 29 сент. – 1 окт. 2004. URL: http://rcdl.ru/doc/2004/paper27.pdf (дата обращения: 01.02.2020).
3. Сметанин Н. Нечеткий поиск в тексте и словаре [Электронный ресурс] // Алгоритмы. 9 марта 2011. URL: http://habrahabr.ru/post/114997/ (дата обращения: 01.02.2020).
4. Практическая транскрипция личных имен в языках народов мира / С. Н. Аминева и др.; отв. ред. Э. С. Клышинский. М.: Наука, 2010. 679 с.

Eng

1. Bondarenko A. V. et al. (2016). Mathematical models of transcription systems of family-name groups. Izvestiya RAN. Teoriya i sistemy upravleniya, (4), pp. 73 – 82. [in Russian language] doi: 10.7868/ S000233881604003X
2. Boytsov L. M. (2004). Classification and research of modern fuzzy dictionary search algorithms. Digital Libraries: Advanced Techniques and Technologies, Electronic Collections (RCDL 2004): proceedings of the 6th All-Russian Scientific Conference. Institute of Mathematical Problems of Biology RAS. Pushchino. Available at: http://rcdl.ru/doc/2004/paper27.pdf (Accessed: 01.02.2020) [in Russian language]
3. Smetanin N. (2011). Fuzzy search in text and dictionary. Algorithms. Available at: http://habrahabr.ru/post/114997/ (Accessed: 01.02.2020). [in Russian language]
4. Klyshinskiy E. S. (Ed.), Amineva S. N. et al. (2010). Practical transcription of personal names in the languages of the peoples of the world. Moscow: Nauka. [in Russian language]

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2020.03.pp.029-036

и заполните  форму 

Отправляя форму вы даете согласие на обработку персональных данных.

.

 

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2020.03.pp.029-036

and fill out the  form  

 

.

 

 

 
Поиск
Журнал КОНТРОЛЬ. ДИАГНОСТИКА
Баннер
Баннер
Баннер
Баннер
Rambler's Top100 Яндекс цитирования