Для чего еще используют акустические отпечатки

04.03.2022

Поделиться, сохранить:

Источник: Immo Wegmann. Источник: Unsplash.com

Смотрим на use-кейсы помимо распознавания музыки. Это — персонализированные плейлисты и возможность повторно пережить концерт любимой группы.

Что такое акустический отпечаток

Это — способ представления аудиозаписи в компактном виде. По сути, отпечаток содержит набор значений, описывающих физические параметры звука.

Есть разные подходы к формированию таких отпечатков. В большинстве случаев они подразумевают поиск частот с максимальной амплитудой на спектрограмме, но алгоритм определяют разработчики приложений. Существуют и open source решения — например, библиотека для .NET soundfingerprinting, автор которой использовал метод locality-sensitive hashing (LSH) для определения «похожести» отпечатков. Другой пример — фреймворк dejavu, реализующий алгоритм на Python.

С помощью акустических отпечатков можно определить не только музыку, если она играет по радио или в торговом центре, но и насвистанные мелодии. Для этого существует целый класс систем, которые называют query by humming (QbH). В 2020 году такую функциональность своего голосового помощника представили в Google. Аналогичную возможность предлагает сервис распознавания музыки SoundHound (который, кстати, вошел в число музыкальных проектов, вышедших на IPO в прошлом году — подробнее мы рассказывали в прошлом материале).

Распознавание треков — один из самых распространённых кейсов с акустическими отпечатками, но есть и другие.

Персонализация

Акустические отпечатки можно использовать для распознавания эмоций. В прошлом году Spotify запатентовали технологию, которая с помощью микрофонов анализирует интонации в речи, уровень стресса слушателя, определяет пол и примерный возраст. Также она оценивает окружающую обстановку — например, сколько человек находится в помещении, где играет музыка. Технология призвана улучшить рекомендательную систему и работу персонализированных плейлистов.

В целом разработку шведской компании встретили прохладно. Несколько организаций по защите прав потребителей и почти двести исполнителей составили открытое письмо, в котором призвали Spotify отказаться от ее внедрения. В список активистов вошел гитарист Том Морелло из Rise Against the Machine, американский рэпер Талиб Квели, а также солистка панк-рок группы Against Me! Лора Джейн Грейс.

По словам музыкантов, технология определения эмоций создает угрозу приватности слушателей. Аналогичную точку зрения высказал один из резидентов Hacker News в тематическом треде. Другой участник дискуссии отметил, что в таких условиях выходом могут стать курируемые плейлисты и собственные подборки — возможно, даже на физических носителях. В пространство музыкальной культуры как раз возвращаются аудиокассеты и компакт-диски.

В любом случае наличие патента не означает, что компания действительно использует технологию. Многие фирмы патентуют наиболее интересные идеи просто с целью защитить себя в потенциальных судебных разбирательствах.

Работа с видео

Инженеры из Дрексельского университета, кажется, верят в скорое возвращение к привычной жизни и во всю разрабатывают систему, которая позволяет «склеить» десятки видеозаписей, сделанных на концерте. Чтобы синхронизировать ролики, снятые на смартфоны с разных ракурсов, авторы проекта используют акустические отпечатки — они помогают найти «пересекающиеся» моменты.

Источник: Fábio Alves. Источник: Unsplash.com


За построение отпечатков отвечает уже упомянутый открытый алгоритм dejavu. Он ищет частотные пики на спектрограмме и вычисляет расстояние между ними, создавая уникальный рисунок. Может, в перспективе подобные технологии, объединенные с возможностями AR и VR, позволят снова и снова погружаться в атмосферу прошлых выступлений.

Источник: habr.com