Время науки - The Times of Science

Время науки The Times of science 30 №4.1 перемешанную выборку из 14299 писем, и стали последовательно обучать модель на части объектов от 10 до 14299 элементов. Рис. 1. Зависимость f-меры от количества писем в обучающей выборке Как видно из рисунка 1, в самом начале качество постоянно меняется, т.к. каждое новое письмо сильно влияет на качество классификации. В дальнейшем виден логарифмический рост качества модели, а после достижения 2500 писем качество модели растет более плавно, следовательно, этого количества будет достаточно для стабильной работы алгоритма. В результате работы был разработан математический алгоритм, основанный на векторизации слов и логистической регрессии. Исследование доказало, что данный спам-фильтр является эффективным инструментом, который может быть использован в различных областях. Литература 1. Ветров, Д. П. Вероятностная постановка задач классификации и регрессии. Байесовские решающие правила. Обобщенные линейные модели // Байесовские методы машинного обучения / Д. П. Ветров, Д. А. Кропотов [Электронный ресурс]. – URL: http://www.machinelearning.ru/wiki/images/7/78/BayesML-2009-2a.pdf (дата обращения 03.11.2023). 2. Кемаев, Ю. А. Исследование и разработка моделей векторного представления слов / Ю. А. Кемаев [Электронный ресурс]. URL: http://seminar.at.ispras.ru/wp-content/uploads/2012/07/pres_diploma.pdf (дата обращения 03.11.2023). 3. Рябенко, Е., Слесарев, А., Кантор, В., Соколов, Е., Драль, Э. Прикладные задачи анализа данных // Машинное обучение и анализ данных [Электронный ресурс]. – URL: https://ru.coursera.org/learn/data-analysis- applications (дата обращения 03.11.2023).

RkJQdWJsaXNoZXIy ODQ5NTQ=