
Дослідження компанії Giskard, яка розробляє цілісний бенчмарк для моделей AI, показало, що якщо попросити у чат-бота бути коротким, у нього може виникнути більше галюцинацій, ніж зазвичай.
У повідомленні в блозі йдеться про те, що це особливо актуально для провідних моделей, таких як GPT-4o від OpenAI, Mistral Large і Claude 3.7 Sonnet, які зазнають труднощів зі збереженням точності, коли їх просять відповісти коротко.
Вчені припускають, що короткі відповіді не дають нейромережам "простору" для уточнень, спростувань і роз'яснень, що критично для завдань, пов'язаних із фактичною достовірністю. Інакше кажучи, сильні спростування вимагають довших пояснень.
"Коли моделі змушені бути короткими, вони незмінно вибирають стислість, а не точність, – пишуть дослідники. "Можливо, найважливіше для розробників те, що, здавалося б, невинні системні підказки на кшталт "будьте стислі" можуть саботувати здатність моделі розвінчувати дезінформацію".
Дослідження Giskard містить й інші цікаві відкриття, наприклад, що моделі ШІ частіше залишають без спростування спірні твердження, якщо вони подані впевнено. Це ставить розробників перед вибором між зручністю для користувача і збереженням точності.

Галюцинації, або надання неправдивих, або фіктивних відповідей, залишаються нерозв'язною проблемою в ШІ. Причому навіть найпросунутіші моделі міркувань, такі як o3 від OpenAI, демонструють вищу частоту галюцинацій порівняно з їхніми попередницями.
Глава NVIDIA вважає, що розв'язання проблем із "галюцинаціями ШІ" займе принаймні кілька років. Люди не повинні сумніватися у відповіді ШІ, задаючись питанням, "галюцинація це чи ні", "розумно це чи ні".
Як УНІАН уже писав, понад 52 тисячі айтішників було звільнено по всьому світу з початку 2025 року. Причина – розвиток штучного інтелекту, який може ефективно виконувати рутинні завдання програмування, включно з написанням коду і тестуванням.