Штучний інтелект розв’язує лише 2% складних математичних задач

2 хвилин читання

Найпередовіші моделі штучного інтелекту поки що не можуть скласти конкуренцію людському розуму в розв’язанні складних математичних задач, повідомляє Livescience. Згідно з дослідженням інституту Epoch AI, тест FrontierMath показав, що моделі ШІ розв’язали лише 2% завдань, створених провідними математиками світу.

Що таке FrontierMath

Новий тест FrontierMath розробили для перевірки здатності ШІ вирішувати завдання докторського рівня. Над створенням задач працювали професори математики, включаючи лауреатів Філдсівської премії.

«Ці завдання надзвичайно складні. Наразі їх можна розв’язати лише за участю фахівця у цій галузі або за допомогою аспіранта у суміжній сфері у поєднанні з сучасним ШІ та іншими алгебраїчними інструментами»
Теренс Тао, лауреат Філдсівської премії 2006 року

Підписуйтеся на наші соцмережі

Читайте також: Ринок ШІ сьогодні рухали не лише нові моделі, а й великі гроші: IPO OpenAI, інфраструктурні угоди Anthropic, запуск Claude Fable 5 і нова Siri AI від Apple.

До тесту увійшли завдання з теорії чисел, алгебраїчної геометрії та інших галузей. Їх немає у навчальних даних сучасних моделей ШІ, що забезпечує чесність оцінювання.

Якими були результати тестування

Шість провідних моделей ШІ протестували на FrontierMath:

Навіть коли моделі знаходили правильні відповіді, це не завжди свідчило про глибоке математичне розуміння. Дослідники зазначають, що деякі результати були отримані через симуляції або обчислювальні алгоритми без справжньої аналітичної роботи.