Головна Штучний інтелект

Коли мовні моделі ШІ замінять фронтенд-розробників — дослідження Design2Code

6 березня 2024 11:13 2 хвилин читання

DeepMind, Технологічний інститут Джорджії, Microsoft та дослідники зі Стенфордського університету провели перше систематичне дослідження Design2Code — завдання з перетворення візуального дизайну в код. Результати вони розмістили на Github.

За останні роки генеративний ШІ стрімко прогресував, досягнувши унікальних можливостей у мультимодальному розумінні та генерації коду. Це дозволило створити абсолютно нову модель front-end розробки, де мультимодальні LLMs можуть безпосередньо перетворювати візуальний дизайн у кодову реалізацію, автоматизуючи таким чином процес front-end розробки.

автори дослідження

Автори створили бенчмарк із дизайну 484 реальних сайтів. Завдання моделі полягало в тому, щоб за допомогою скриншота сторінки створити код, який видавав би максимально схожу картинку під час рендерингу в браузері.

Підписуйтеся на наші соцмережі

Facebook Telegram Viber Youtube Instagram

Коли мовні моделі ШІ замінять фронтенд-розробників — дослідження Design2Code

Читайте також: Нещодавно видання Forbes опублікувало статтю, що присвячена одній із найцікавіших тем у сучасному світі технологій – Reinforcement Learning (навчання з підкріпленням) та його неочікуваному відродженню. Цей матеріал змушує переглянути наше розуміння шляху до створення універсального штучного інтелекту (AGI). Ми підготували детальний виклад найважливіших тез з цієї публікації, щоб розібратися, чому ця давня концепція знову стала ключовою і як вона може змінити майбутнє технологій, які вже давно стали невід’ємною частиною нашого життя.

Ми розробили набір методів мультимодальних підказок і показали їхню ефективність на GPT-4V та Gemini Vision Pro. Ми також допрацьовуємо модель Design2Code-18B з відкритим вихідним кодом, яка успішно працює з Gemini Pro Vision.

автори дослідження

Людська оцінка та автоматичні метрики показали, що GPT-4V демонструє хороші результати у цьому завданні. Рецензенти вважають, що вебсторінки, створені GPT-4V, можуть замінити вихідні вебсторінки у 49% випадків з точки зору візуального вигляду та змісту. Також у 64% випадків вебсторінки, створені GPT-4V, вважаються кращими за оригінал.

Наші метрики детального аналізу показують, що моделі з відкритим вихідним кодом здебільшого відстають у відтворенні візуальних елементів з вхідних веб-сторінок та у створенні правильних макетів, тоді як такі аспекти, як текстовий вміст та кольори, можна значно покращити за допомогою належного налаштування.

автори дослідження

Читати на speka.media

Меню

Коли мовні моделі ШІ замінять фронтенд-розробників — дослідження Design2Code

Підписуйтеся на наші соцмережі

Інші матеріали