Время науки - The Times of Science

Алексеев П. А. Alexeyev Pavel A. 2022 7 В области задач обработки аудиофайлов известные методы не приносят значительных результатов. Каждая из приведенных задач имеет свой подход к решению, однако общие механизмы позволяют улучшить этот процесс. В качестве исходных данных аудиофайлы представляются в виде частотной спектрограммы, сохраняемой как изображение (мел- спектрограммы), которая получается из импульсно кодовой модуляции цифровых файлов. Именно изображение обрабатывается нейросетью. Стандартной практикой является использование архитектур, хорошо зарекомендовавших себя при решении других задач. В задачах обработки аудиофайлов применяли архитектуры сверхточных сетей, таких как AlexNet, VGG, Inception, ResNet, разработанных для анализа изображений. Они показывают неплохие результаты, однако требуют длительного времени и значительных ресурсов. Время обучения и тестирования составляют порядка 100-200 часов с использованием десятковGPU. Используют также предобученные модели, которые являются основной частью нейросети, а для применения к требуемой задаче с целью корректного вывода включаются дополнительные слои. Для обработки аудиофайлов на данный момент существует несколько механизмов, показывающих хорошие результаты: это сочетание сверхточных нейросетей с LSTM (долгой краткосрочной памятью) и GRU (управляемых рекуррентных блоков) [4], а также механизмы внимания, имитирующие человеческие сигналы – большое значение они придают определенным признакам в процессе работы нейросети. Примером применения данных методов и алгоритмов является задача классификации аудиозаписей. В процессе работы на звукозаписывающих студиях, записи аудио и хранения аудио архивов возникает проблема неопознанных файлов. Количество таких файлов может быть велико, а для распознавания того или иного аудиофайла требуется значительное количество времени. Поэтому требуется создать алгоритм, позволяющий производить идентификацию таких аудиозаписей. При разработке решения акцент был поставлен на большее удобство использования, так как все существующие решения являются исследовательскими и не адаптированы для пользователя. Система состоит из нескольких модулей и позволяет обрабатывать практически все существующие форматы аудиофайлов. В алгоритме классификации использовалась архитектура, совмещающая сверхточные нейросети и управляемые рекуррентные блоки [3] (рис. 3). Помимо основного алгоритма, реализован графический интерфейс, позволяющий осуществлять конфигурирование настроек алгоритма (рис. 4). Запуск алгоритма производится из консоли.

RkJQdWJsaXNoZXIy ODQ5NTQ=