Головна Штучний інтелект

Найкращі ШІ-моделі 2025 року за версією користувачів: рейтинг LMArena

14 червня 2025 12:09 2 хвилин читання

На фоні активного розвитку генеративного штучного інтелекту дедалі більше компаній заявляють, що саме їхні моделі є найефективнішими. Проте у більшості випадків оцінювання таких моделей здійснюється самими розробниками — на основі внутрішніх тестів, вибіркових бенчмарків або закритих метрик. Альтернативний підхід пропонує платформа LMArena, яка формує відкритий рейтинг ШІ-моделей на основі голосування звичайних користувачів.

LMArena дає змогу порівнювати якість генерації ШІ у кількох напрямках — текст, код, зображення, аналітика даних, розпізнавання об'єктів. У режимі «Side by Side» користувачі можуть безкоштовно протестувати дві анонімні моделі, поставивши їм однакове запитання або завдання. Після перегляду відповідей необхідно обрати кращу (або вказати, що обидві відповіді слабкі). Лише після голосування відкриваються назви моделей, які взяли участь у порівнянні. Саме на базі таких результатів формується динамічний рейтинг ШІ, що регулярно оновлюється.

Підписуйтеся на наші соцмережі

Facebook Telegram Viber Youtube Instagram

Водночас дослідницька організація Bellingcat оцінила ефективність популярних ШІ-моделей у складнішому завданні — визначенні геолокації за фотографією. У межах дослідження, опублікованого, 20 моделей штучного інтелекту проаналізували 25 зображень, виконуючи 500 спроб загалом.

Читайте також: 24 липня у Києві відбулася Конференція з енергетичного права, організована Асоціацією правників України, яка об’єднала представників юридичної спільноти, енергетичного бізнесу, державного сектору, інвесторів та міжнародних партнерів для обговорення ключових викликів і перспектив розвитку енергетичного сектору України.

Основні висновки:

точне визначення місця за фото залишається складним завданням навіть для найсучасніших моделей;
значна частина відповідей містила помилки або «галюцинації»;
деякі моделі робили припущення на основі особистої інформації користувачів.

Так, наприклад, GPT o4-mini у відповіді припустив, що зображення зроблено в Колорадо, оскільки користувач «раніше згадував цю локацію» у спілкуванні. У свою чергу, Grok, імовірно, ґрунтувався на вмісті профілю користувача в соцмережі X (Twitter), зокрема на попередніх публікаціях.

Читати на speka.media

Меню

Найкращі ШІ-моделі 2025 року за версією користувачів: рейтинг LMArena

Підписуйтеся на наші соцмережі

Основні висновки:

Інші матеріали