15 | 02 | 2025

DOI: 10.14489/vkit.2015.07.pp.016-022

Хруничев Р. В.
(с. 16-22)

Аннотация. Рассмотрена возможность применения модели метаданных Дублинского ядра в сочетании с методами частотного анализа и попозиционного взвешивания для обеспечения поиска в хранилищах данных, содержащих предметно-ориентированную коллекцию документов. Приведены анализ и выбор наиболее удовлетворяющих атрибутов исходя из поставленной задачи. Осуществлена интеграция модели Дублинского ядра с методом частотного анализа текста. Обоснована эффективность такого подхода с точки зрения усложнения алгоритма и увеличения числа величин, составляющих вектор, что позволяет представить документ в хранилище данных и позиционировать вектор, описывающий его в векторном пространстве единственно верным образом. Приведены оценки весов в методе попозиционного взвешивания и сложности полученного алгоритма в сравнении с другими алгоритмами. Сформирован компонент итогового вектора, описывающего документ. Рассмотрены ранжирование результатов поиска и обработка результатов запроса при применении косинусной метрики посредством обработки весов термов представленного алгоритма.

Ключевые слова:  хранилище данных; предметно-ориентированная коллекция документов; векторное пространство; попозиционное взвешивание; модель метаданных Дублинское ядро; частотный анализ текста.


Khrunichev R. V.
(pp. 16-22)

Abstract. The article discusses the possibility of using Dublin Core metadata model in conjunction with the methods of frequency analysis and weighing position for searching the data repository containing object-oriented collection of documents. Provides an analysis and selection of the most satisfying attributes based on the task at hand. Integrates the Dublin Core model with the method of frequency analysis of the text. Substantiates the effectiveness of this approach in terms of the complexity of the algorithm and increase the number of variables that make up the vector. This allows one to describe the document in a data warehouse and position vector describing it in a vector space the only true way. Also provides an assessment of the balance in the method of weighing pozition. Carried out the formation of the final component of the vector describing the document. The evaluation of the complexity of this algorithm compared with other algorithms. Also consider the ranking of search results. We consider the processing of query results when applying the cosine metric by processing the weights of the terms presented algorithm.

Keywords: Data Warehouse; Subject-oriented collection of documents; Vector space; Positional weighing; Dublin Core metadata model; Frequency analysis.


Р. В. Хруничев (Рязанский государственный радиотехнический университет) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  


R. V. Khrunichev (Ryazan State Radio Engineering University) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  


