Gemini тепер бачить ваш екран і може сама писати повідомлення: як це працює
Google зробив крок, якого давно чекали розробники: функція computer use тепер вбудована безпосередньо в Gemini 3.5 Flash. Раніше вона існувала лише як окрема автономна модель — Gemini 2.5 Computer Use. Тепер цей функціонал доступний в основній, найшвидшій моделі компанії, повідомили в Google.
Що змінила поява computer use у Gemini Flash
- Gemini 3.5 Flash тепер може бачити екран, обмірковувати, що на ньому відбувається, і самостійно виконувати дії: клікати, вводити текст, перемикатись між вікнами.
- Модель штучного інтелекту працює в браузерних, мобільних і десктопних середовищах без додаткових налаштувань.
- Google позиціонує це як фундамент для побудови надійних ШІ-агентів у корпоративних сценаріях: безперервне тестування програмного забезпечення, обробка документів у профільних застосунках, автоматизація рутинних офісних задач.
- Раніше, якщо хотів зібрати агента з функцією керування комп'ютером, доводилось підключати окрему модель і будувати складнішу архітектуру.
- Тепер Gemini 3.5 Flash сам по собі вміє це робити, разом із вбудованими інструментами типу пошуку та прив'язки до карт.
- Доступ відкритий через Gemini API та Gemini Enterprise Agent Platform. Спробувати функцію можна в демонстраційному середовищі від Browserbase.
Як Google захистив ШІ-агентів від маніпуляцій у реальних середовищах
Підписуйтеся на наші соцмережі
Коли ШІ-агент переходить по сайтах, заповнює форми, відкриває файли, він стає вразливим до так званих prompt injection атак: шкідливий контент на сторінці може перепрограмувати поведінку агента. Google визнає загрозу і впровадив одразу кілька рівнів захисту:
-
1
ШІ-модель пройшла цілеспрямоване змагальне навчання саме під такі сценарії.
-
2
Для корпоративних клієнтів доступні два додаткові механізми: можливість вимагати явного підтвердження від користувача перед будь-якою чутливою або незворотною дією та автоматична зупинка задачі при виявленні непрямої атаки.
Про те, як DeepMind ще восени демонструвала ранні версії агентів з computer use, коли модель могла бронювати квитки й заповнювати таблиці без сценаріїв, просто розпізнаючи інтерфейс візуально, ми вже писали раніше. Тепер ця технологія вийшла зі статусу демо і стала частиною продуктової моделі.
Чи працюватиме computer use у Gemini в Україні
Google послідовно перетворює Gemini на платформу, а не просто на набір моделей.
Нещодавно компанія переосмислила і сам пошук: агентський режим у Google Search на базі Gemini 3.5 Flash тепер дозволяє моделі самостійно стежити за темами й аналізувати потоки даних замість користувача.
Computer use в основній моделі виглядає як наступний логічний крок у тій самій стратегії.
Водночас конкуренти не стоять на місці. Раніше Microsoft інтегрувала Responses API в Azure AI Foundry, відкривши підприємствам доступ до власних ШІ-агентів. Google відповідає не окремим продуктом, а вбудовуванням можливостей прямо в базову модель.
Gemini API вже доступний глобально, тому українські розробники та компанії можуть підключитись до нового функціоналу без обмежень.
Для бізнесів, що автоматизують операційні процеси, computer use у Gemini 3.5 Flash відкриває практичний сценарій: агент, який сам заходить у корпоративні системи, обробляє документи або тестує продукт, замість того щоб чекати на розробника.