Головна Оперативка

Google збрехав щодо продуктивності нової моделі ШІ Gemini, принаймні в одному відео

8 грудня 2023 13:35 4 хвилин читання

Google щойно анонсував Gemini, свій найпотужніший пакет моделей штучного інтелекту, який мав би перевершити можливості ChatGPT. І його вже звинуватили у перебільшенні можливостей та введені в оману користувачів.

Як повідомляє Bloomberg, одне з промоційних відео, яке демонструє мультимодальні можливості Gemini (наприклад, розмовні підказки у поєднанні з розпізнаванням зображень), зредаговані, а також містять текстові запити, про які не зазначають у відео.

На демо Gemini майже миттєво розпізнає навіть нечіткі зображення (як потрібно промалювати з’єднанням точок), а також здатен передбачати, що користувач намалює далі. При цьому відео змонтоване так, ніби користувач спілкується з ШІ-асистентом голосом, а той відповідає в режимі реального часу.

Читайте також: Google створює власний чип Frozen v2, який має зробити Gemini у 6-10 разів ощадливішим за нинішнє залізо. Компанія планує показати Frozen v2 у 2028 році, пише TechCrunch.

У чому дезінформація у промоційному ролику про можливості Gemini від Google

Якщо поглянути на опис відео на YouTube, то Google додав важливе застереження: «Для цілей цієї демонстрації затримку відповіді було зменшено, а результати Gemini скорочені для стислості».

Насправді демонстрація відео не відбулася в режимі реального часу та не використовувала голосових запитів.

Підписуйтеся на наші соцмережі

Facebook Telegram Viber Youtube Instagram

Для запитів використовували окремі зображення, а не лайв-відео, як може здатись з демонстрації. А також запити до нейромережі надавались не голосом, а через введення тексту.

До:

Після:

«Це зовсім інше від того, що, здавалося, демонстрував Google: що людина може вести плавну голосову розмову з Gemini, який спостерігає та реагує на навколишній світ у реальному часі», — пише оглядач Bloomberg Пармі Олсон.

Чи редагують інші компанії свої демонстраційні ролики?

Коротка відповідь — так. Інші компанії також переважно демонструють запис роботи продукту, а не живу трансляцію, щоб уникнути можливих технічних проблем, але те, що зробив Google, більше схоже на дезінформацію.

Наприклад, Google у 2018 році демонстрував свою розробку під назвою Duplex AI. Це голосовий помічник, який міг замість вас зателефонувати в перукарню чи ресторан та замовити послугу. Компанію викрили, оскільки під час демонстрації на фоні не було жодного шуму.

У 2023 році, коли китайська компані Baidu запустила свій Ernie Bot зі зрежисованим відео, що призвело до падіння акцій компанії.

Як коментує звинувачення щодо введення в оману користувачів Google

Розширене пояснення створення відео та роботи з нейромережею з'явилось 6 грудня у блозі Google for Developers. Саме з нього стало зрозуміло, що процес роботи значно відрізняється від того, що показано у відео.

До:

Після:

Оріол Віньялс, віцепрезидент з досліджень і глибокого навчання Google у DeepMind (також співкерівник Gemini), опублікував допис, у якому пояснюється, як команда створила відео.

Нам шкода, але цей блок не підтримується в AMP версії, перейдіть за посиланням,щоб побачити повну версію.

«Усі запити користувача та вихідні дані у відео є реальними та скороченими для стислості, — каже Віньялс. — Відео ілюструє, як може виглядати багаторежимний досвід користувача, створений за допомогою Gemini. Ми зробили це, щоб надихнути розробників».

На відео, яке Віньялс опублікував у X (Twitter), також помітно, що інтерфейс та спосіб взаємодії користувача з чатботом відрізняється. Зокрема, запити через тест, а не живу мову.

Коли будуть доступні нові функції Gemini у чатботі Bard

Найімовірніше, що можливості, які були продемонстровані у відео, доступні лише у версії моделі Gemini Ultra. Ця найбільша та найповільніша версія призначена для виконання найскладніших завдань. Наразі до неї немає публічного доступу, але Google обіцяє надати його на початку 2024 року.

Читати на speka.media