ШІ-прорив: зір і звук як у людини завдяки моделі, натхненній комахами

6 хвилин читання

Людське сприйняття здається простим: ми бачимо, як хтось говорить, і автоматично знаємо, що звук відповідає руху губ. Ця здатність до автоматичної синхронізації зору та слуху є настільки базовою, що навіть її порушення призводить до дивних ілюзій, таких як ефект Мак-Гурка, коли ми чуємо те, чого насправді немає, або ілюзія черевомовця.

ШІ-прорив: зір і звук як у людини завдяки моделі, натхненній комахами. Image: freepik.com

Для штучного інтелекту ця проста задача залишалася великим викликом. Комп'ютерні моделі роками не могли впоратися з елементарним завданням – взяти відео та визначити, чи відповідає йому аудіо, чи воно синхронне. Прорив у цій сфері стався завдяки розробці нової комп'ютерної моделі в Університеті Ліверпуля, що здатна зливати зір і звук із точністю, подібною до людського мозку. Про це інноваційне дослідження написало онлайн-видання Interesting Engineering, а ми підготували виклад найважливішого.

Біологічний ключ до ШІ-сприйняття

Читайте також: Науковці з Університету Копенгагена з'ясували, що фізична активність може стати ефективним інструментом для вивчення складних математичних тем. Про це пише Popular Science. 

Нова модель ШІ ґрунтується на підході, натхненному нейронаукою. Це є яскравим прикладом того, як принципи еволюційного дизайну можуть навчити машини сприймати світ більш природно. Найбільш дивовижним є те, що джерелом натхнення стала не складна архітектура мозку ссавців, а механізм, вперше виявлений у комах. Цей механізм допомагає їм виявляти рух.

Доктор Чезаре Парізе, старший викладач психології з Університету Ліверпуля, очолив адаптацію цієї функції. Раніше комп'ютерні моделі працювали з абстрактними параметрами. Команда доктора Парізе змогла перетворити цей біологічний механізм для обробки реальних аудіовізуальних сигналів, що включають відео та звуки, які ми щодня бачимо і чуємо. Такий підхід створює надійний міст між біологією та штучним інтелектом.

Кінець епохи абстрактних моделей

Підписуйтеся на наші соцмережі

Проблема синхронізації аудіо та відео була однією з фундаментальних у дослідженні аудіовізуального сприйняття. Попри десятиліття роботи в цій галузі, жодна обчислювальна модель не могла прямо вирішити таке просте завдання, як прийняти відео на вхід і сказати, чи буде аудіо сприйматися як синхронне. Доктор Парізе зазначив, що цей пробіл нарешті заповнений.

Модель Ліверпуля є революційною, оскільки вона прямо відповідає на ключове питання про те, як саме мозок знає, коли звук і зір збігаються. На відміну від попередніх розробок, які могли лише приблизно оцінювати відповідність, нова система функціонує як справжній визначник синхронності, відкриваючи шлях до більш надійного та людсько-подібного сприйняття для машин.

Масштаби тестування: 69 експериментів в одному дослідженні

Жодне наукове відкриття не є цінним без ретельної перевірки, і в цьому аспекті робота Парізе встановила новий стандарт. Нова модель ШІ успішно відтворила результати 69 відомих експериментів, які проводилися за участі людей, мавп та щурів. Це не просто велика кількість тестів, це показник універсальності та точності моделі в імітації біологічних реакцій.

Доктор Парізе підкреслив, що ця симуляція представляє найбільший масштаб симуляції, коли-небудь проведений у цій галузі. Жодна інша модель, що була протестована раніше, не перевірялася проти такої великої кількості наборів даних в одному дослідженні. Такий рівень валідації свідчить про високу надійність нової моделі та її здатність точно пояснювати людські, а також тваринні реакції на аудіовізуальні стимули. Це має вирішальне практичне значення, оскільки гарантує, що наступне покоління ШІ-систем матиме основу, що базується на ґрунтовному науковому досвіді.

Майбутнє натурального ШІ

Модель, натхненна механізмом комах, має потенціал сформувати наступне покоління штучного інтелекту. Навчаючи машини сприймати світ природніше, як це робить людина, ми відкриваємо можливості для створення більш інтуїтивних, надійних та безпечних систем.

Цей прорив може мати пряме прикладне значення в кількох галузях:

  • Робототехніка: Роботи зможуть краще орієнтуватися у складному середовищі, точно ідентифікуючи джерела звуку та зіставляючи їх з візуальними подіями.
  • Віртуальна та доповнена реальність (VR/AR): Створення абсолютно реалістичних та переконливих середовищ, де найменша невідповідність між звуком і зображенням може зруйнувати ілюзію.
  • Системи моніторингу: Підвищення ефективності систем безпеки та спостереження, які повинні ідентифікувати події в режимі реального часу, аналізуючи два канали інформації одночасно.

Використовуючи «дизайн еволюції», науковці дали машині можливість навчатися від природи, що дозволяє їй працювати з реалістичністю та надійністю.

Розробка моделі ШІ в Університеті Ліверпуля, яка ефективно поєднує зір і звук на основі механізму комах, є значним кроком уперед. Вона вирішує фундаментальну проблему в аудіовізуальному сприйнятті ШІ, долаючи обмеження попередніх обчислювальних моделей. Підтвердженням цього є безпрецедентний успіх у реплікації результатів 69 біологічних експериментів. Це відкриття не тільки наближає нас до створення ШІ, що сприймає світ як людина, але й пропонує практичну основу для розробки більш природних, точних і корисних інтелектуальних систем у майбутньому.

Глосарій ключових понять
  • Аудіовізуальне сприйняття: Процес, за допомогою якого мозок або система ШІ одночасно обробляє та інтегрує інформацію, отриману через слуховий (звук) і візуальний (зір) канали, створюючи єдине, цілісне сприйняття події.
  • Ефект Мак-Гурка (McGurk effect): Відома перцептивна ілюзія, коли візуальна інформація (наприклад, рух губ) впливає на те, як людина сприймає звукову інформацію, змушуючи її чути звук, відмінний від фактично відтвореного.
  • Синхронізація (Audiovisual Sync): Точний часовий збіг і відповідність між звуковими та візуальними елементами у відео або реальній події. Це критичний фактор для природного сприйняття.
  • Абстрактні параметри: Неконкретні, теоретичні або ідеалізовані дані, які використовувалися в попередніх моделях ШІ для тестування, на противагу реальним аудіовізуальним сигналам (відео, аудіо), які використовує нова модель.

Цей матеріал підготовлений на основі інформації з відкритих джерел. Редакція самостійно відбирає ключові факти, аналізує їх та структурує за допомогою AI-інструментів.