DeepMind, Технологічний інститут Джорджії, Microsoft та дослідники зі Стенфордського університету провели перше систематичне дослідження Design2Code — завдання з перетворення візуального дизайну в код. Результати вони розмістили на Github.
За останні роки генеративний ШІ стрімко прогресував, досягнувши унікальних можливостей у мультимодальному розумінні та генерації коду. Це дозволило створити абсолютно нову модель front-end розробки, де мультимодальні LLMs можуть безпосередньо перетворювати візуальний дизайн у кодову реалізацію, автоматизуючи таким чином процес front-end розробки.
Автори створили бенчмарк із дизайну 484 реальних сайтів. Завдання моделі полягало в тому, щоб за допомогою скриншота сторінки створити код, який видавав би максимально схожу картинку під час рендерингу в браузері.
Підписуйтеся на наші соцмережі
Коли мовні моделі ШІ замінять фронтенд-розробників — дослідження Design2Code
Читайте також:
Нещодавно видання Forbes опублікувало статтю, що присвячена одній із найцікавіших тем у сучасному світі технологій – Reinforcement Learning (навчання з підкріпленням) та його неочікуваному відродженню. Цей матеріал змушує переглянути наше розуміння шляху до створення універсального штучного інтелекту (AGI). Ми підготували детальний виклад найважливіших тез з цієї публікації, щоб розібратися, чому ця давня концепція знову стала ключовою і як вона може змінити майбутнє технологій, які вже давно стали невід’ємною частиною нашого життя.
Ми розробили набір методів мультимодальних підказок і показали їхню ефективність на GPT-4V та Gemini Vision Pro. Ми також допрацьовуємо модель Design2Code-18B з відкритим вихідним кодом, яка успішно працює з Gemini Pro Vision.
Людська оцінка та автоматичні метрики показали, що GPT-4V демонструє хороші результати у цьому завданні. Рецензенти вважають, що вебсторінки, створені GPT-4V, можуть замінити вихідні вебсторінки у 49% випадків з точки зору візуального вигляду та змісту. Також у 64% випадків вебсторінки, створені GPT-4V, вважаються кращими за оригінал.
Наші метрики детального аналізу показують, що моделі з відкритим вихідним кодом здебільшого відстають у відтворенні візуальних елементів з вхідних веб-сторінок та у створенні правильних макетів, тоді як такі аспекти, як текстовий вміст та кольори, можна значно покращити за допомогою належного налаштування.