Головна Оперативка

Створення відео із ШІ. Sora — прорив у нейромережах від OpenAI

16 лютого 2024 14:10 4 хвилин читання

15 лютого компанія OpenAI, розробник ChatGPT та DALL-E, презентувала нову систему штучного інтелекту Sora, яка створює реалістичні відео тривалістю до однієї хвилини на основі тестових запитів користувачів. І вони виглядають приголомшливо.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Sora вміє генерувати складні сцени з кількома персонажами, точно передавати рухи об’єктів та малювати деталізоване тло. Готові відео видаються у високій якості 1080p та виглядають не гірше ніж гра Death Stranding чи сцена з останнього фільму Star Wars.

Можливості Sora

Читайте також: AI digest липень: що змінилося у світі AI за останній місяць?

Новий штучний інтелект майже ідеально малює тварин і людей, а також уміє зображати переконливі емоції на обличчях персонажів. За допомогою Sora можна створювати сінематики з різними ракурсами та рухом камери. Фізика об’єктів, симуляція рідин та деталізація текстур — усе це також на високому рівні.

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

За допомогою Sora можна:

Підписуйтеся на наші соцмережі

генерувати відео з текстових запитів;
анімувати статичні зображення;
змінювати та покращувати наявні відео.

Нейромережа глибоко розуміє мову, що дозволяє їй з високою точністю інтерпретувати запити користувачів. Вона розуміє не лише те, що просять зобразити у промпті, але й те, як ці об’єкти взаємодіють у нашому фізичному світі.

Слабкості відеонейронки

Хоча ШІ-відео від Sora приголомшують точністю відтворення, модель має певні слабкості, розповіли в OpenAI. Наприклад, люди та тварини можуть з'являтися «з повітря» та виконувати непослідовні, нелогічні дії.

Sora has its weaknesses according to @OpenAI such as: "Animals or people can spontaneously appear, especially in scenes containing many entities."

Prompt: "Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and… pic.twitter.com/TjnjpIF4s8
— Michael Daigler (@michaeldaigler_) February 15, 2024

Нейромережа може плутати просторові та часові деталі промпту, як-от ліворуч та праворуч, послідовність подій тощо. Sora також може мати проблеми з точним моделюванням фізики складних сцен і не розуміти зв’язків причини та наслідку.

Наприклад, людина у відео може відкусити печиво, але після цього на печиві може не залишитися сліду від укусу.

OpenAI

Як користуватися Sora

Щоб отримати ШІ-згенероване відео у Sora, потрібно прописати чіткий промпт — так само, як і для роботи з іншим продуктом від OpenAI, генератором зображень з тексту DALL-E. Зазвичай це одне-два речення, в яких необхідно описати те, що має відбуватися на відео, та вказати деталі, стиль, кольори, кількість об’єктів чи персонажів тощо.

Створення відео із ШІ. Sora — прорив у нейромережах від OpenAI зображення 1

Приклад промпту для створення трейлера фантастичного фільму

Поки що більшість користувачів не зможуть протестувати новий відео-ШІ. Гендиректор OpenAI Сем Альтман написав у соцмережі X, що з міркувань безпеки Sora спочатку буде доступна для обмеженої кількості користувачів: експертів, креаторів та дизайнерів.

Ризики нового ШІ

Перед тим як зробити Sora доступною для широкої аудиторії, OpenAI планує вжити низку безпекових заходів. Компанія працює з експертами у галузях дезінформації та інформаційної гігієни, які тестують модель на безпекові ризики. Також OpenAI створює інструменти, що допоможуть виявляти ШІ-контент, згенерований Sora.

До розмов про те, що ШІ-згенерований контент здатний поширювати дезінформацію, можна ставитися по-різному. У дискусії про нову нейромережу в Х один із користувачів запостив документальне відео «Невідомий бунтар», де чоловік наодинці стримує колону танків під час студентських заворушень у Китаї у червні 1989-го, та пожартував, що нібито це згенерувала Sora.

BREAKING: OpenAI just launched Sora, an AI model that can create 60-second videos from just text prompts. The video below was 100% created by Sora.

Prompt: Obstinate man creates an incident that serves as a symbol for the power of an individual against an overarching state pic.twitter.com/nomKi223Pg
— opdroid1234 (@opdroid1234) February 16, 2024

Інший користувач відповів йому: «Можливо, майбутні покоління будуть думати, що кадри Хіросіми та Нагасакі також є ШІ-згенерованими».