Орнитолог-программист: зачем петербуржец создал приложение, распознающее голоса птиц
19 июля 2019 | 11:33| ДосугПетербургский орнитолог Олег Кенунен создал мобильное приложение Bird Nerd для распознавания голосов птиц, которое работает на основе нейронной сети. На первый взгляд идея напоминает другую программу – Shazam, которая помогает определить песню и её исполнителя – однако разработчик уверяет: это не так. Оказывается, установить, какая именно птаха поёт под окнами, сложнее, чем в ситуации с музыкой, ведь у птиц есть свои диалекты и подражатели. «Диалог» пообщался с автором проекта и выяснил, как работает приложение, а главное – зачем и для кого.
Песня вальдшнепа
Для Олега Кенунена работа над приложением началась во время магистратуры биофака СПбГУ, где он защитил работу по теме «Изменчивость песни вальдшнепа» (это вид птиц семейства бекасовых, гнездящийся в умеренном и субарктическом поясе Евразии).
«Во-первых, я орнитолог, и тема акустической коммуникации птиц – моя непосредственная специальность. Когда несколько лет назад начал учиться на матмехе по программе переподготовки по математике и информатике, то возник вопрос с выбором темы дипломной работы. Тогда я и подумал, что это было бы интересно объединить. Кроме этого, последнее время идёт «бум» на глубокие нейронные сети. За последние несколько лет были разработаны новые архитектуры, алгоритмы обучения – в конце концов, современные компьютеры работают всё быстрее», – рассказывает петербургский орнитолог.
Он объяснил, что существует такое направление как бёрдвотчинг (наблюдение за птицами). Для многих это хобби, но технологий, позволяющих упростить задачу и автоматически распознавать пернатых, сейчас практически нет.
«Существующие приложения либо это делают с помощью анализа фотографий, либо проводят весьма грубый анализ голосов, либо и вовсе предлагают пользователю самому сравнивать услышанные голоса с образцами записей», — говорит Олег Кенунен.
При помощи программы, считает разработчик, в будущем его коллеги смогут упростить себе задачу при наблюдении за птицами, имея при себе всего-навсего телефон. Пока же Олег Кенунен продолжает разрабатывать приложение. Первая версия весной прошлого года стала дипломным проектом, четвёртую уже можно скачать в Google Play. Сейчас программист работает над пятой и уверен, что у неё точность распознавания будет выше.
Птичий Shazam
Сравнивать свою программу с известным приложением для распознавания музыки Олег не советует – другая специфика, другой подход.
«Я сразу понимал, что нельзя использовать алгоритм, как в Shazam. В подобных приложениях используется акустический отпечаток. Он позволяет идентифицировать конкретную запись из конкретного альбома, но этот метод неустойчив к изменчивости. У птиц же есть и диалекты, и индивидуальная изменчивость, каждая особь узнает по голосу своих соседей. Тут нельзя задать некий эталон и с ним сравнивать – в этом плане нейронные сети гораздо более перспективное направление. Это, по сути, функция с довольно большим числом настраиваемых параметров, их настройка и называется обучением. Мы показываем нейронной сети большое количество примеров, учим её различать их группы между собой. В процессе этого, если всё получится, сеть обучится находить скрытые закономерности, свойственные тем образцам, на которых она обучалась», – объясняет орнитолог.
Сейчас система распознает более 100 видов голосов птиц (соловья, зяблика, дрозда и других). Постепенно Олег Кенунен добавляет новые. Пока он не привлекает к работе своих коллег, справляется своими силами. О приложении говорит скромно: «Это где-то на стыке образования и развлечения».
Беседовала Алла Бортникова / ИА «Диалог»