Штучний інтелект у фокусі: підсумки GTC, GDC та ключові анонси від технологічних компаній
Упродовж одного тижня в Кремнієвій долині відбулися одразу дві масштабні технологічні конференції — GTC від Nvidia у Сан-Хосе та GDC (Game Developers Conference). Паралельно свої оновлення презентували Google, OpenAI, Anthropic, Adobe, Microsoft, xAI, Pika, Roblox та інші компанії, що працюють зі штучним інтелектом. Узагальнюємо ключові оголошення у сфері штучного інтелекту, зроблені на конференціях та за їхніми межами.
Nvidia: інфраструктура для підприємств і автопілотів
Під час GTC гендиректор Nvidia Дженсен Хуанг представив нове покоління корпоративних графічних процесорів. За його словами, компанія розраховує на широке впровадження своїх ШІ-продуктів у підприємствах і виробництві упродовж наступних чотирьох років.
Оголошено розширення ініціативи Nvidia Aerial — платформи для побудови бездротових мереж. Це передбачає використання ШІ для покращення мобільного зв’язку та Wi-Fi, зокрема в інфраструктурі мобільних операторів.
Nvidia також розширює свою присутність у галузі автомобільної промисловості. Серед прикладів — співпраця з General Motors над виробництвом роботизованих фабрик і транспортних засобів, використання її рішень у Volvo, а також партнерство з Neuro для створення автомобілів 4-го рівня автономності. У вантажоперевезеннях компанія Uber Freight впроваджує розробки Nvidia для автономних вантажівок.
Крім того, Nvidia відкрила доступ до фізичних датасетів для навчання систем робототехніки та автопілотування. Ці набори даних доступні для розробників у відкритому доступі.
Google: оновлення Gemini, медичні моделі та інтерактивні карти
Компанія Google продовжує розвивати платформу Gemini. Додано функцію Canvas — окреме вікно для роботи з текстами, кодом і дослідженнями (подібна функція є у ChatGPT). З’явилась можливість аналізу коду в режимі попереднього перегляду та пояснення його функціональності. Також додано режим «подкасту» — автоматичне перетворення тексту дослідження на аудіоформат.
Інструмент Notebook LM тепер генерує інтерактивні майндмапи за відео з YouTube або текстовими джерелами. Такі карти візуалізують інформацію з джерела у структурованому вигляді.
Підписуйтеся на наші соцмережі
Google також презентувала TX-Gemma — мовну модель для дослідження нових лікарських препаратів. Вона розпізнає хімічні структури, молекули та білки, а також допомагає у прогнозуванні властивостей потенційних ліків.
OpenAI: нові моделі для роботи з аудіо
OpenAI представила дві нові моделі — GPT-4.0 Transcribe та GPT-4.0 Mini Transcribe, які трансформують аудіо у текст. Моделі забезпечують вищу точність і швидкість порівняно з попередником Whisper. Додано підтримку детекції мовлення, приглушення шумів і конкурентну вартість — менше ніж 1 цент за хвилину обробки.
Також презентовано GPT-4.0 Mini Text-to-Speech, яка перетворює текст у промову з емоційним забарвленням. Модель орієнтована на розробників і доступна через API.
Ще одне оновлення — підтримка Google Drive та Slack у ChatGPT. Користувачі зможуть підключити ці сервіси та шукати інформацію в них безпосередньо в ChatGPT.
OpenAI оновила API: тепер розробники можуть передавати PDF-файли у запитах. Також модель 01 Pro, орієнтована на генерацію коду, стала доступною через API, хоча її використання обійдеться дорого — $600 за 1 млн токенів вихідного тексту.
Claude: тепер із пошуком в інтернеті
Anthropic додала вебпошук у свій чат-бот Claude. Це була одна з найчастіше зажаданих функцій, яку раніше мали конкуренти (Gemini, ChatGPT, Perplexity). Поки що функція працює лише у вебверсія, без API-підтримки.
Відеогенерація: нові функції Pika, Krea, Stability AI
Pika запустила функцію локального редагування відео — можна змінити окремий об’єкт (наприклад, підняти в повітря машину), залишаючи решту кадру без змін.
Krea дає змогу навчати модель на власних відео — вона згодом створює нові у тому ж стилі.
Stability AI представила Stable Virtual Camera — функцію генерації 3D-відео на основі статичних зображень і заданої траєкторії руху камери. Інструмент поки доступний лише для дослідницького тестування.
Adobe, Roblox, xAI: нові напрями роботи з контентом
Adobe анонсувала серію ШІ-агентів у рамках Journey Optimizer. Вони автоматично аналізують дані користувачів, пропонують гіпотези для експериментів і оптимізують сайти в реальному часі.
Roblox представила інструмент Roblox Cube — генератор 3D- і 4D-об’єктів на основі текстових запитів. Система працює у власному движку платформи та орієнтована на розробників ігор.
xAI (стартап Ілона Маска) придбав компанію Hotshot, що займається ШІ-генерацією відео. Деталі інтеграції поки що невідомі, але потенційно компанія зможе використати свої дата-центри для тренування нових моделей.
Інше: газета на штучному інтелекті
В Італії вийшов номер газети, повністю згенерований штучним інтелектом.
IL Foglio каже, що штучний інтелект використовується «для всього – для текстів, заголовків, цитат… навіть для іронії»
На першій сторінці також є колонка під заголовком «Путін, 10 зрад» зі статтею про «20 років порушених обіцянок і розірваних угод» Володимира Путіна, президента Росії.
Статті були структуровані, зрозумілі та зрозумілі, без явних граматичних помилок. Однак жодна зі статей, прямо не цитує жодних людей.
Журналісти лише ставили запитання чат-боту, а відповіді публікували після редагування. Це перший відомий приклад подібного використання ШІ у друкованих медіа.