Найкращі ШІ-моделі 2025 року за версією користувачів: рейтинг LMArena
На фоні активного розвитку генеративного штучного інтелекту дедалі більше компаній заявляють, що саме їхні моделі є найефективнішими. Проте у більшості випадків оцінювання таких моделей здійснюється самими розробниками — на основі внутрішніх тестів, вибіркових бенчмарків або закритих метрик. Альтернативний підхід пропонує платформа LMArena, яка формує відкритий рейтинг ШІ-моделей на основі голосування звичайних користувачів.
LMArena дає змогу порівнювати якість генерації ШІ у кількох напрямках — текст, код, зображення, аналітика даних, розпізнавання об'єктів. У режимі «Side by Side» користувачі можуть безкоштовно протестувати дві анонімні моделі, поставивши їм однакове запитання або завдання. Після перегляду відповідей необхідно обрати кращу (або вказати, що обидві відповіді слабкі). Лише після голосування відкриваються назви моделей, які взяли участь у порівнянні. Саме на базі таких результатів формується динамічний рейтинг ШІ, що регулярно оновлюється.
Підписуйтеся на наші соцмережі
Водночас дослідницька організація Bellingcat оцінила ефективність популярних ШІ-моделей у складнішому завданні — визначенні геолокації за фотографією. У межах дослідження, опублікованого, 20 моделей штучного інтелекту проаналізували 25 зображень, виконуючи 500 спроб загалом.
Основні висновки:
- точне визначення місця за фото залишається складним завданням навіть для найсучасніших моделей;
- значна частина відповідей містила помилки або «галюцинації»;
- деякі моделі робили припущення на основі особистої інформації користувачів.
Так, наприклад, GPT o4-mini у відповіді припустив, що зображення зроблено в Колорадо, оскільки користувач «раніше згадував цю локацію» у спілкуванні. У свою чергу, Grok, імовірно, ґрунтувався на вмісті профілю користувача в соцмережі X (Twitter), зокрема на попередніх публікаціях.