Время науки - The Times of Science
Begunov G. V. Г. В. Бегунов 22 №3 cos( ) = ∑ × =1 √∑ ( ) 2 ×∑ ( ) 2 =1 =1 , где А и В – сравниваемые векторы, а θ – угол между ними. В случае информационного поиска косинусное сходство двух доку- ментов изменяется в диапазоне от 0 до 1, поскольку частота терма не может быть отрицательной. Угол между двумя векторами частоты терма не может быть больше, чем 90°. Метрика схожести, называемая сходством (resemblance) или коэффи- циентом перекрытия (overlap), рассчитывается следующим способом: ( , ) = ∑ ∙ (∑ 2 ,∑ 2 ) , где оператор min означает выбор минимально- го значения. Преимущество такой метрики – в простоте представления заданных множеств. А недостаток заключается в сложности учёта повторяющихся элементов. Следующая распространённая мера близости, используемая в прило- жении, носит название коэффициент Дайса. Рассчитать коэффициент Дайса (Dice) можно по следующей формуле: ( , ) = 2∙∑ ∙ ∑ 2 +∑ 2 . Недостаток этой меры близости связан с проблемой теоретического обоснования некоторых операций над векторами. Достоинство же – в её простоте. Ещё одна указанная выше метрика подобия документов – коэффици- ент Джаккарда (Дассагё). Недостаток меры аналогичен недостатку расчёта коэффициента Дайса. В перечисленных выше обозначениях формула опре- деления коэффициента Джаккарда имеет вид: ( , ) = 2∙∑ ∙ ∑ 2 +∑ 2 −∑ ∙ . Наибольшую популярность среди перечисленных метрик подобия имеет косинус угла между векторами. Результаты и тестирование Чтобы убедиться в том, что система работает корректно, проведём тест с текущей сформированной базой данных, содержащей, например, ин- формацию о чёрно-белых гравюрах Гюстава Доре. В качестве теста (рис. 5) используется изображение с гравюрой этого художника, которая на момент формирования базы данных не была включена в выборку. Как видно из примера, результат выдачи корректен, так как сформированная таблица схожести по жанрам отражает степень близости гравюры к абстрактным
Made with FlippingBook
RkJQdWJsaXNoZXIy ODQ5NTQ=