Причина в системі навчання та оцінок, які заохочують вгадування, а не чесне визнання невизначеності.
OpenAI представила результати масштабного дослідження про те, чому великі мовні моделі штучного інтелекту, як-от GPT-5, продовжують галюцинувати, і чи можна щось із цим зробити.
Автори порівнюють нейромережі з учнями на іспиті: якщо відповідь "не знаю" приносить нуль балів, вигідніше ризикнути і видати хоч якусь відповідь. Така методика заохочує галюцинації, тому що при ній залишається невеликий шанс, що ШІ вгадає правильну відповідь.
На думку авторів, причина криється в самій системі оцінювання. Популярні бенчмарки – від MMLU до SWE-bench – використовують бінарний принцип "вірно/невірно". У результаті моделі змушені вгадувати, а не чесно визнавати невпевненість. Це добре видно з таблиці нижче:
Хоча у GPT-5-Thinking-mini помітно нижча частка помилок, за метрикою точності вона трохи поступається старішій o4-mini та в тестах, заснованих тільки на точності, опиняється позаду.
"Після тисяч тестових запитань модель вгадування в кінцевому підсумку має кращий вигляд у рейтингу, ніж акуратна модель, яка допускає невизначеність", – пише OpenAI.
У OpenAI пропонують доопрацювати систему оцінок: за впевнену брехню давати більший штраф, ніж за чесне "я не знаю", а за правильне вираження невизначеності нараховувати часткові бали. Автори вважають, що такий перерозподіл балів знизить стимул до вгадування.
У компанії також зазначають, що змогли значно скоротити кількість галюцинацій у GPT-5, хоча модель все ще не ідеальна. Раніше користувачі скаржилися, що відповіді ШІ стали коротшими і незадовільними, навіть при запитах про творчі завдання.
Згідно з новим дослідженням, ChatGPT та інші провідні чат-боти стали брехати вдвічі частіше. Зростання кількості помилок пояснюється тим, що нейромережі більше не відмовляються відповідати на запитання - навіть без достатньої верифікації інформації.