Молодежь и наука - третье тысячелетие: Материалы студенческой научно-практической конференции с международным участием

93 В. И. Рудаков Физико-математический факультет, II курс магистратуры (очная форма обучения) Научный руководитель – И. Н. Балаба ПРИМЕНЕНИЕ ТРЕХМЕРНОЙ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ ДЛЯ РАСПОЗНАВАНИЯ НАСИЛЬСТВЕННОГО ПОВЕДЕНИЯ НА ВИДЕО В настоящее время многие общественные места, такие как парки, улицы и торговые центры, оснащены камерами видеонаблюдения, которые могут ис- пользоваться для обнаружения насильственного поведения. Однако, автомати- ческое обнаружение насильственного поведения на видео может быть трудной задачей, особенно в условиях изменяющейся обстановки, различных условий освещения или различных типов насильственных действий. В последние годы, сверточные нейронные сети (Convolutional Neural Networks, CNN) показали высокую эффективность в решении задач компью- терного зрения, включая распознавание объектов на изображениях и видео [1]. Однако, большинство работ в области распознавания насильственного поведе- ния на видео основаны на двухмерных сверточных нейронных сетях (2D CNN), которые не учитывают трехмерную информацию, такую как движение и глуби- ну, играющие важную роль при обнаружении насильственного поведения на видео [2]. Двухмерная сверточная нейронная сеть (2D CNN) применяется для обра- ботки двумерных данных, таких как изображения, и обнаруживает простран- ственные шаблоны и признаки на разных уровнях абстракции. Она использует операцию свертки для сканирования изображения с использованием ядер свертки и создания карт признаков. С другой стороны, трехмерная сверточная нейронная сеть (3D CNN) раз- работана для анализа трехмерных данных, включая видео или визуальные последовательности. Она способна улавливать пространственно-временные шаблоны и изменения во времени, что позволяет ей эффективно работать с видеоданными. 3D CNN использует трехмерные ядра свертки, которые перемещаются по трехмерному пространству (по времени и пространственным измерениям), из- влекая пространственно-временные признаки. Она учитывает как пиксели и их расположение в пространстве, так и изменения во времени, что помогает в ана- лизе движения и динамики объектов на видео [3]. В работе было рассмотрено применение трехмерной сверточной ней- ронной сети (3D CNN) для распознавания насильственного поведения на видео и сравнение полученных результатов с другими методами распознава- ния. Эксперименты были проведены на публичном датасете, состоящем из видео, содержащих насильственное поведение (Real Life Violence Situations Dataset. URL: https://www.kaggle.com/datasets/mohamedmustafa/real-life-violence- situations-dataset ) .

RkJQdWJsaXNoZXIy ODQ5NTQ=