Штучний інтелект поступився людям у найсуворішому математичному тесті

Незважаючи на стрімкий прогрес штучного інтелекту в обробці природної мови та написанні коду, передові моделі ШІ все ще помітно поступаються найкращим математикам-людям у розв'язанні складних наукових задач.

Це показало недавнє дослідження в рамках проєкту First Proof, який вважається найсуворішим тестом для оцінки математичних здібностей ШІ, пише WION.

Чотирьом передовим моделям ШІ запропонували розв’язати десять складних задач дослідницького рівня. Особливість тесту полягала в тому, що питання не були присутні в навчальних даних моделей, а відповіді перевіряли незалежні експерти-математики. Таким чином, нейромережі не могли "списувати".

Відео дня

Організатори наголошують, що експеримент проводився автономно, без будь-якої участі людей у процесі виконання завдань. Крім того, до участі допускалися лише загальнодоступні ШІ-системи. Серед учасників – OpenAI з ChatGPT 5.5 Pro та академічні групи з Каліфорнійського університету, Принстонського університету та Швейцарського федерального інституту технологій у Цюриху. Ці команди розробили так звані "хернеси" – автоматизовані системи, що змушують чат-боти багаторазово перевіряти та уточнювати відповіді.

Результати виявилися показовими: найкраща система змогла вирішити лише 6 із 10 завдань. Оскільки всі завдання раніше вже були вирішені професійними математиками, це підтвердило, що людська експертиза досі перевершує ШІ у роботі з новими, суто дослідницькими математичними проблемами.

Автори проєкту зазначають, що системам штучного інтелекту ще доведеться пройти довгий шлях, перш ніж вони зможуть автономно виступати в ролі надійних дослідницьких асистентів, які перевіряють докази, та повноцінних вирішувачів задач для математиків.

Раніше компанія-розробник Anthropic закликала технологічних гігантів укласти угоду та уповільнити розвиток ШІ. Новітні моделі наблизилися до етапу рекурсивного саморозвитку, що може нести ризики для всього людства.

УНІАН писав, що творці ChatGPT можуть збанкрутувати вже до середини 2027 року. Ключова проблема OpenAI полягає в тому, що значна частина користувачів використовує безкоштовні версії чат-ботів, тож вони швидше перейдуть до конкурентів, ніж почнуть платити.

Вас також можуть зацікавити такі новини: