Время науки - The Times of Science

Федорова С.А. Fedorova S.A. 2023 29 мы обучили модель на полученной выборке и оценили построенную модель по различным метрикам. Следующий шаг – оценка качества разработанного спам-фильтра. Для классификации было отобрано 25 электронных писем из личной почты, часть которых является спамом, а часть – обычные письма. В качестве эксперимента мы решили сравнить результат работы разработанного алгоритма с уже существующим спам-фильтром, наш выбор был сделан с пользу спам-фильтра от компании Gmail. Для чистоты эксперимента было введено еще одно значение для сравнения – наша экспертная оценка письма. Мы записали результаты всех трех подходов в таблицу (Таблица 1) в виде последовательности нулей и единиц, где 1 – спам-письма, 0 – обычные письма. Таблица 1 Результаты классификации разработанного алгоритма, спам-фильтра Gmail и экспертного подхода № Экспертная оценка Спам-фильтр Gmail Разработанный алгоритм 1 1 1 0 2 0 1 0 3 1 1 1 … … … … 22 0 0 0 23 0 1 0 24 0 1 1 25 0 1 0 В результате сравнения и оценки результатов было получено, что спам-фильтр от компании Gmail отнес 5 обычных писем в спам, в то время как наш, наоборот, классифицировал 4 спам-письма как обычные. Сравнивая оценки качества двух алгоритмов, получаем, что разработанный спам-фильтр имеет бóльшую точность – 0,667, чем спам- фильтр Gmail – 0,444; но в то же время имеет меньшее значения такого показателя как f-measure для разработанного спам-фильтра – 0,444, чем для Gmail – 0,533. Также в ходе исследования была выявлена тенденция, что разработанный алгоритм лучше справляется с сообщениями большого объема, чем Gmail. После разработки, применения и оценки алгоритмов фильтрации спама мы рассмотрели еще вопрос о применимости построенной модели на других выборках, например, на письмах на другом языке. Для того, чтобы определить количество писем, необходимое для создания устойчивой модели спам-фильтра, мы взяли всю имеющуюся у нас

RkJQdWJsaXNoZXIy ODQ5NTQ=