| Русский Русский | English English |
   
Главная
16 | 05 | 2024
10.14489/vkit.2023.06.pp.029-035

DOI: 10.14489/vkit.2023.06.pp.029-035

Чернавин П. Ф., Чернавин Ф. П., Чернавин Н. П., Пономарева О. А., Борисова О. А.
МЕТРИЧЕСКИЙ БИНАРНЫЙ КЛАССИФИКАТОР С ПОДБОРОМ ВЕСОВ ПРИЗНАКОВ
(с. 29-35)

Аннотация. Семейство метрических алгоритмов, основанных на определении расстояния от одного наблюдения до других, обладает рядом преимуществ: оно подходит для большого типа задач, результаты работы методов имеют понятную интерпретацию. Метрические алгоритмы находят широкое применение при моделировании кредитных рисков, в неразрушающем контроле качества изделий, медицинской диагностике, геологии и многих других практических областях. Наиболее распространенный на практике метрический алгоритм ‒ метод k-ближайших соседей. Одна из ключевых проблем метрических алгоритмов – проблема размерности, так как решение принимается на основе всех наблюдений обучающей выборки. Кроме того, обычно все переменные имеют одинаковый вес при расчете расстояния, что приводит к падению качества алгоритма при увеличении числа признаков. Рассматривается новый метод машинного обучения для решения задач классификации – метрический классификатор с подбором весов признаков. Для оптимизации целевой функции были использованы девять алгоритмов. Качество классификации на их основе проверялось на трех задачах из репозитория UCI. Для построения нового метрического классификатора был выбран усеченный метод Ньютона. Качество нового классификатора проверялось на восьми наборах данных и сравнивалось с качеством классического метода ближайших соседей. Данный классификатор имеет лучшие по сравнению с классическим подходом показатели качества при большом количестве признаков.

Ключевые слова:  классификация; метод ближайших соседей; метод потенциальных функций; информативность признаков.

 

Chernavin P. F., Chernavin F. P., Chernavin N. P., Ponomareva O. A., Borisova O. A.
METRIC BINARY CLASSIFIER WITH SELECTION OF FEATURE WEIGHTS
(рр. 29-35)

Abstract. The family of metric algorithms based on determining the distance from one observation to another has a number of advantages, such as their suitability for many types of problems and results have a clear interpretation. Therefore, metric algorithms are widely used in credit risk modeling, non-destructive quality control of products, medical diagnostics, geology, and many other practical areas. The most common metric algorithm in practice is the k-nearest neighbors method. At the same time, one of the key problems of metric algorithms is the problem of dimension, since the decision is made on the basis of all observations of the training sample. In addition, usually all variables have the same weight when calculating the distance, which leads to a drop in the quality of the algorithm with an increase in the number of features. The article discusses a new machine learning method for solving classification problems – a metric classifier with the selection of feature weights, which allows to solve these problems to a large extent. Nine algorithms were used to optimize the function. Classification quality based on them is checked on 3 problems from the UCI repository. As a result of the comparison, the truncated Newton method was chosen to build a new metric classifier. The quality of the new classifier was tested on 8 datasets from the same repository and compared with the quality of the classical nearest neighbor method. This classifier has a higher quality for problems with a large number of features in comparison to the classical approach. Data set characteristics and calculation results are presented in the corresponding tables.

Keywords: Classification; Nearest neighbor method; Potential function method; Information content of features.

Рус

П. Ф. Чернавин, Ф. П. Чернавин, Н. П. Чернавин, О. А. Пономарева (Уральский федеральный университет имени первого Президента России Б. Н. Ельцина, Екатеринбург, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
О. А. Борисова (ПАО «Сбербанк», Москва, Россия)

 

Eng

P. F. Chernavin, F. P. Chernavin, N. P. Chernavin, O. A. Ponomareva (Ural Federal University named after the First President of Russia B. N. Yeltsin, Yekaterinburg, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
O. A. Borisova (PJSC Sberbank, Moscow, Russia)

 

Рус

1. Воронцов К. В. Метрические методы классификации и регрессии [Электронный ресурс]. URL: http://www.machinelearning.ru/wiki/ (дата обращения: 20.12.2022).
2. Chen Y., Hao Y. A Feature Weighted Support Vector Machine and k-Nearest Neighbor Algorithm for Stock Market Indices Prediction // Expert Systems with Applications. 2017. V. 80(1). P. 340 – 355. DOI: 10.1016/j.eswa.2017.02.044
3. Syaliman K. U., Labellapansa A., Yulianti A. Improving the Accuracy of Features Weighted k-Nearest Neighbor Using Distance Weight. DOI: 10.5220/0009390903260330
4. Rodrigues É. O. Combining Minkowski and Chebyshev: New Distance Proposal and Survey of Distance Metrics Using K-nearest Neighbours Classifier // Pattern Recognition Letters. 2018. V. 110. P. 66 – 71. URL: https://www.science-direct.com/science/article/abs/pii/S0167865518301004?via%3 Dihub (дата обращения: 14.05.2023).
5. Wang Y., Pan Z., Dong J. A New Two-Layer Nearest Neighbor Selection Method for kNN Classifier // Knowledge-Based Systems. 2022. V. 235. URL: https://doi.org/ 10.1016/j.knosys.2021.107604 (дата обращения: 14.05.2023).
6. Attention-Based Local Mean K-Nearest Centroid Neighbor Classifier / Y. Ma, R. Huang, M. Yan et al. // Expert Systems with Applications. 2022. V. 201. URL: https://doi.org/ 10.1016/j.eswa.2022.117159 (дата обращения: 14.05.2023).
7. Алексеева В. А., Калимулина Р. И. Применение метода ближайших соседей при моделировании кредитных рисков // Вестник УлГТУ. 2014. № 3. C. 54 – 56.
8. Забудская К. А. Машинное обучение в медицине: диагностика опухолей молочной железы с использованием метода k-ближайших соседей [Электронный ресурс]. URL: http://www.medach.pro/post/2734 (дата обращения: 20.12.2022).
9. Математические методы моделирования параметров геологических процессов и явлений [Электронный ресурс]. URL: http://www.pandia.ru/text/80/226/15499-8.php (дата обращения: 20.12.2022).
10. UCI Machine Learning Repository [Электронный ресурс]. URL: https://archive.ics.uci.edu/ml/datasets.php (дата обращения: 14.05.2023).

Eng

1. Vorontsov K. V. Metric classification and regression methods. Available at: http://www.machinelearning.ru/wiki/ (Accessed: 20.12.2022). [in Russian language]
2. Chen Y., Hao Y. (2017). A Feature Weighted Support Vector Machine and k-Nearest Neighbor Algorithm for Stock Market Indices Prediction. Expert Systems with Applications, Vol. 80 (1), pp. 340 – 355. DOI: 10.1016/j.eswa.2017.02.044
3. Syaliman K. U., Labellapansa A., Yulianti A. Improving the Accuracy of Features Weighted k-Nearest Neighbor using Distance Weight. DOI: 10.5220/0009390903260330
4. Rodrigues É. O. (2018). Combining Minkowski and Chebyshev: New Distance Proposal and Survey of Distance Metrics Using K-nearest Neighbours Classifier. Pattern Recognition Letters, Vol. 110, pp. 66 – 71. Available at: https://www.science-direct.com/science/article/abs/pii/S0167865518301004?via%3Dihub (Accessed: 14.05.2023).
5. Wang Y., Pan Z., Dong J. (2022). A New Two-Layer Nearest Neighbor Selection Method for kNN Classifier. Knowledge-Based Systems, Vol. 235. Available at: https://doi.org/10.1016/j.knosys.2021.107604 (Accessed: 14.05.2023).
6. Ma Y., Huang R., Yan M. et al. (2022). Attention-Based Local Mean K-Nearest Centroid Neighbor Classifier. Expert Systems with Applications, Vol. 201. Available at: https://doi.org/10.1016/j.eswa.2022.117159 (Accessed: 14.05.2023).
7. Alekseeva V. A., Kalimulina R. I. (2014). Applying the Nearest Neighbor Method in Credit Risk Modeling. Vestnik UlGTU, (3), pp. 54 – 56. [in Russian language]
8. Zabudskaya K. A. Machine Learning in Medicine: Diagnostics of Breast Tumors Using the k-Nearest Neighbors Method. Available at: http://www.medach.pro/post/2734 (Accessed: 20.12.2022). [in Russian language]
9. Mathematical methods for modeling the parameters of geological processes and phenomena. Available at: http://www.pandia.ru/text/80/226/15499-8.php (Accessed: 20.12.2022). [in Russian language]
10. UCI Machine Learning Repository. Available at: https://archive.ics.uci.edu/ml/datasets.php (Accessed: 14.05.2023).

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 500 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2023.06.pp.029-035

и заполните  форму 

Отправляя форму вы даете согласие на обработку персональных данных.

.

 

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 500 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2023.06.pp.029-035

and fill out the  form  

 

.

 

 

 
Баннер
Баннер
Rambler's Top100 Яндекс цитирования