Google збрехав щодо продуктивності нової моделі ШІ Gemini, принаймні в одному відео

4 хвилин читання

Google щойно анонсував Gemini, свій найпотужніший пакет моделей штучного інтелекту, який мав би перевершити можливості ChatGPT. І його вже звинуватили у перебільшенні можливостей та введені в оману користувачів. 

Як повідомляє Bloomberg, одне з промоційних відео, яке демонструє мультимодальні можливості Gemini (наприклад, розмовні підказки у поєднанні з розпізнаванням зображень), зредаговані, а також містять текстові запити, про які не зазначають у відео. 

На демо Gemini майже миттєво розпізнає навіть нечіткі зображення (як потрібно промалювати з’єднанням точок), а також здатен передбачати, що користувач намалює далі. При цьому відео змонтоване так, ніби користувач спілкується з ШІ-асистентом голосом, а той відповідає в режимі реального часу. 

Читайте також: Прабхакар Рагхаван (Prabhakar Raghavan) — одна з найвпливовіших фігур у сучасній історії Google, хоча його ім’я рідко з’являється у публічному полі. Його професійна еволюція детально зафіксована на Grokipedia — від теоретика алгоритмів до керівника ключових бізнес-напрямів Google та нинішнього головного технолога компанії. Його кар’єра показує, як «друге обличчя» корпорації може визначати стратегічний курс компанії в період технологічних зламів.

У чому дезінформація у промоційному ролику про можливості Gemini від Google

Якщо поглянути на опис відео на YouTube, то Google  додав важливе застереження: «Для цілей цієї демонстрації затримку відповіді було зменшено, а результати Gemini скорочені для стислості».

Насправді демонстрація відео не відбулася в режимі реального часу та не використовувала голосових запитів. 

Підписуйтеся на наші соцмережі

Для запитів використовували окремі зображення, а не лайв-відео, як може здатись з демонстрації. А також запити до нейромережі надавались не голосом, а через введення тексту. 

До:

Після:

 «Це зовсім інше від того, що, здавалося, демонстрував Google: що людина може вести плавну голосову розмову з Gemini, який спостерігає та реагує на навколишній світ у реальному часі», — пише оглядач Bloomberg Пармі Олсон.

Чи редагують інші компанії свої демонстраційні ролики?

Коротка відповідь — так. Інші компанії також переважно демонструють запис роботи продукту, а не живу трансляцію, щоб уникнути можливих технічних проблем, але те, що зробив Google, більше схоже на дезінформацію. 

Наприклад, Google у 2018 році демонстрував свою розробку під назвою Duplex AI. Це голосовий помічник, який міг замість вас зателефонувати в перукарню чи ресторан та замовити послугу. Компанію викрили, оскільки під час демонстрації на фоні не було жодного шуму. 

У 2023 році, коли китайська компані Baidu запустила свій Ernie Bot зі зрежисованим відео, що призвело до падіння акцій компанії. 

Як коментує звинувачення щодо введення в оману користувачів Google

Розширене пояснення створення відео та роботи з нейромережею з'явилось 6 грудня у блозі Google for Developers. Саме з нього стало зрозуміло, що процес роботи значно відрізняється від того, що показано у відео. 

До:

Після:

Оріол Віньялс, віцепрезидент з досліджень і глибокого навчання Google у DeepMind (також співкерівник Gemini), опублікував допис, у якому пояснюється, як команда створила відео.

Нам шкода, але цей блок не підтримується в AMP версії, перейдіть за посиланням,щоб побачити повну версію.

«Усі запити користувача та вихідні дані у відео є реальними та скороченими для стислості, — каже Віньялс. — Відео ілюструє, як може виглядати багаторежимний досвід користувача, створений за допомогою Gemini. Ми зробили це, щоб надихнути розробників».

На відео, яке Віньялс опублікував у X (Twitter), також помітно, що інтерфейс та спосіб взаємодії користувача з чатботом відрізняється. Зокрема, запити через тест, а не живу мову. 

Коли будуть доступні нові функції Gemini у чатботі Bard

Найімовірніше, що можливості, які були продемонстровані у відео, доступні лише у версії моделі Gemini Ultra. Ця найбільша та найповільніша версія призначена для виконання найскладніших завдань. Наразі до неї немає публічного доступу, але Google обіцяє надати його на початку 2024 року.