Український студент навчив ШІ імітувати спів птахів. Бердвотчери у захваті

8 хвилин читання

Випускник УКУ створив AI-алгоритм генерації пташиних голосів за допомогою глибокого навчання. Цей інструмент може допомогти підрахувати екологічну шкоду, яку завдала війна Україні.

Як алгоритми допомагають зберігати біорізноманіття 

У дипломній роботі Андрія Шевцова «Генерація вокалізації птахів за допомогою глибокого навчання» генеруються звуки сотень видів птахів — від тропічних чорнощоких котинг до страуса. Цей алгоритм може змінити підхід до біоакустичного моніторингу та допомогти у збереженні довкілля, особливо в умовах післявоєнної України. 

Андрій Шевцов. Фото: linkedin.com/in/andrii-shevtsov
Читайте також: Компанія Anthropic тимчасово зупинила роботу своїх нових моделей штучного інтелекту Claude Fable 5 та Mythos 5 після вимог американської влади, яка висловила занепокоєння щодо їхніх можливостей у сфері кібербезпеки.

«Це завдання належить до малодослідженої сфери аудіогенерації: більшість проєктів зосереджуються на музиці чи мовленні, тоді як генерація складно структурованих звуків тварин лишається в тіні», — каже Андрій. За словами автора, його мотивацією стали як науковий інтерес до нової теми, так і розуміння прикладного значення роботи: «Врятувати завжди простіше, ніж реанімувати чи тим паче воскресити. Подібними дослідженнями займається, зокрема, Google, щоправда, на прикладі дельфінів».  

Навіщо синтезувати голоси птахів та що це означає для екологів  

Є декілька основних причин, чому це варто робити, каже представник спільноти бердвотчерів  Борис: «Як людина, що половину життя провела з біноклем у руках і диктофоном у кишені, не можу не поділитися — звуки птахів сьогодні стають справжнім інструментом науки, охорони природи й навіть мистецтва.

Науковці зможуть скористатись цими технологіями для вивчення комунікації й соціальної поведінки птахів. Виявляється, що деякі види мають цілі «словники» для залицянь і сварок!

Акустичні пастки — це загалом окрема магія. У лісі нічого не видно, але завдяки запису звуків можна привабити рідкісного пернатого гостя. Бо ми ж дивимось, не торкаючись. Та я щиро сподіваюсь що ця технологія лишиться принадою бердвотчерів, а не мисливців.

У реабілітаційних центрах звуки відіграють неабияку роль: знижують стрес, допомагають птахам відчути себе «вдома», навіть якщо поки ще у вольєрі. А коли птах повертається до лісу, саме знайомий спів дає йому відчуття безпеки.

Ну і, звісно, не можна не згадати освітню й культурну частину. Інтерактивні експозиції, навчальні застосунки для розпізнавання співу (обожнюю один, який допомагає мені у полі розпізнавати навіть сором’язливого вівчарика), звукові інсталяції в музеях — усе це робить пташиний світ ближчим.

Для митців — поле неоране: від аудіоімітацій у кіно до композицій на основі голосів співаків у пір’ї.

Підписуйтеся на наші соцмережі

Є користь імітації звуків і в інших застосуваннях. Так, наприклад, звуки хижих птахів можуть відлякувати пернатих з летовищ, щоб ті раптом не потрапили у двигун літака чи з полів перед проходом комбайна».

«Птахи — це лише верхівка екосистеми, але й зручний індикатор її стану, адже вони активно й гучно комунікують. В умовах втрат природного середовища через бойові дії, забруднення та замінування збереження решток флори й фауни стане національним завданням.

Пасивний акустичний моніторинг дозволить виявляти ділянки з рідкісними видами для охорони, фіксувати порушення (наприклад, полювання) та реагувати на детонації в ізольованих районах, знижуючи ризики для людей», — додає Андрій Шевцов

Навчання моделей і як усе працює 

У роботі використовували два основні джерела даних: публічний датасет Birdset, сформований на основі записів з Xeno-Canto.org, та записи малопредставлених видів з міжнародного змагання з розпізнавання співу птахів за аудіозаписами змагання Kaggle BirdCLEF+ 2025. Випробовувалися чотири різні підходи: інференс готових моделей «текст-в-аудіо», їхнє донавчання на пташиному матеріалі, зміна архітектури під завдання, тренування власної моделі з нуля.

Ключову роль у виконанні найресурсоємніших етапів — дотреновування складних моделей — відіграла ML-платформа De Novo з GPU. Її потужність дозволила досягти результатів, які відповідають індустріальному рівню (рівень наявних моделей, натренованих провідними світовими дослідниками). Проте наразі це єдині доступні моделі, здатні генерувати звуки птахів. Саме тому подальше покращення якості слід оцінювати, зважаючи саме на цей індустріальний рівень.

Якість генерації звуків птахів оцінювалася порівняно з результатами моделей Stable Audio Open від Stability AI та Make-a-Audio 2 від ByteDance (власників TikTok).

Моделі тренувалися на двох основних наборах:

  • Birdset M: 409 видів птахів з усього світу, загалом 1350 годин аудіо;
  • BirdCLEF+ 2025 (піднабір): 60 видів із тропіків Колумбії, 30 годин аудіо.

Система є Python-модулем із набором ваг моделі, які можна інтегрувати у будь-який із варіантів використання

Приклади згенерованих голосів наведені на демосторінці. Представлено 12 видів із трьох категорій: популярні, менш популярні та рідкісні — відповідно до кількості доступних записів. Спочатку демонструється оригінальний запис із датасета, а далі — чотири згенеровані варіанти різними методами, серед яких найкраща відкрита text-to-audio модель Stable Audio Open для порівняння.

Навіть на цьому етапі якість генерації суттєво покращує результати класифікаторів —  плюс 1,5-1,7% до ROC AUC на BirdCLEF+ 2025 test set: https://www.kaggle.com/competitions/birdclef-2025

Вільний доступ як стратегія 

Дипломна робота завершена, але дослідження триває. Андрій Шевцов розповідає, що нині триває активна комунікація з екологами та фахівцями з машинного навчання. Вони обговорюють, якою має бути мінімальна якість і форма реалізації інструменту, щоб його можна було використовувати у реальних умовах. Також можливе залучення експертів для ширшого тестування у майбутньому. 

Результати дослідження планують поширити у форматі open-source — з відкритим кодом, вагами моделі та супровідною науковою статтею (наразі триває вибір фахового журналу або конференції, де ця публікація буде найбільш доречною). 

Безкоштовне поширення всіх чи більшості напрацювань — де-факто стандарт для досліджень у екологічній сфері, пояснює Андрій Шевцов. За його словами, більшість таких проєктів монетизуються не через продаж результатів, а за рахунок грантів, адже лише держави або міждержавні інституції на кшталт ООН мають достатньо широку зону відповідальності, щоб системно інвестувати у вирішення екологічних викликів.

Вивільга. Фото: vseosvita.ua

На запитання про майбутню комерціалізацію Андрій відповідає виважено: «Поки що про монетизацію думати рано. Це не зовсім доречно як через етичні міркування, так і через загальний стан фінансування науки». За його словами, головне зараз — побачити, як інструмент працює на практиці й дати йому друге життя у сфері досліджень.

Попри це, потенціал у проєкту масштабний. Один із напрямів — створення системи симуляції звукових ландшафтів конкретного регіону, яка могла б стати тестовим середовищем для методів екоакустики. Згенеровані записи можуть дозволити оцінити якість роботи наявних класифікаторів через певний час. Науковці, наприклад, можуть передбачати основні зміни в екосистемі через декілька років — унаслідок глобального потепління або міграції видів. Але перевірити якість моделей у цих нових умовах, а тим паче краще підготуватися до них, доки вони не настали, зараз неможливо.

Скеляр. Фото: vseosvita.ua

А така нова система дозволить це зробити: маючи інформацію про мережу доріг та міст, характерні погодні умови, різновиди птахів тощо, можна, використовуючи напрацювання проєкту та багато інших робіт, отримати тисячі таких симуляцій для певного регіону в певний сезон на декілька років уперед. І врешті використати їх для тестування й адаптації екоакустичних систем заздалегідь. Завбачати, а не надолужувати, як зараз.

Інший потенційний напрям — перенесення алгоритмів у суміжні домени, як-от генерація музики. Але, як зауважує дослідник, ці варіанти поки що залишаються на рівні гіпотез.