У дослідженні було проаналізовано понад 200 000 діалогів за участю флагманських LLM, включаючи GPT-4.1, Gemini 2.5 Pro і DeepSeek R1.
Нове спільне дослідження Microsoft Research з Salesforce демонструє, що популярні чат-боти ШІ дурнішають після тривалого спілкування з людьми. Сумарний рівень помилок може зрости більш ніж на 100% при аналізі понад 200 тисяч розмов.
В останні роки провідні IT-розробники представили цілу лінійку просунутих великих мовних моделей, прагнучи закріпити лідерство на ринку. Проте користувачі регулярно скаржаться на "галюцинації" і неправильні відповіді. Нова наукова робота підтверджує: навіть топові нейромережі нерідко "губляться" в розмові, коли завдання розбивається на природний діалог з декількох реплік.
В ході експерименту експерти вивчили понад 200 000 діалогів за участю флагманських LLM, включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1. Якщо при поодиноких запитах такі моделі демонструють понад 90% успішних відповідей, то в довгих бесідах з уточненнями і додатковими питаннями показник падає до 65%. Іншими словами, у міру ускладнення контексту ефективність помітно знижується.
Дослідники виявили ще одне цікаве явище – "роздування відповідей". У багатоходових діалогах відповіді моделей ставали довшими на 20–300%. Разом з обсягом зростала і кількість припущень і галюцинацій, які потім закріплювалися в контексті розмови і використовувалися як основа для наступних реплік. Причому навіть моделі з розширеними "токенами роздумів", такі як OpenAI o3 і DeepSeek R1, не змогли повністю уникнути цього ефекту.
Автори підкреслюють, що різке погіршення якості в довгих бесідах не означає, що моделі "тупішають" в буквальному сенсі – скоріше, це вказує на їх обмеженість в утриманні й правильній інтерпретації великого обсягу інформації в ході діалогу. Незважаючи на це, ШІ все ще демонструє вражаючі здібності при відповідях на окремі запити.
Як зазначає Windows Central, такі особливості слід враховувати при використанні чат-ботів у продуктах, орієнтованих на тривалу взаємодію з користувачем. Можливі помилки та галюцинації можуть ввести людей в оману, особливо якщо користувач покладається на ШІ як на джерело точної і критично важливої інформації.
Сьогодні ChatGPT займає понад 80% світового ринку чат-ботів. Найближчі конкуренти – Perplexity і Google Gemini. На них припадає частка в 15% від усіх користувачів.
УНІАН писав, що творці ChatGPT можуть збанкрутувати вже до середини 2027 року. Ключова проблема OpenAI полягає в тому, що значна частина користувачів використовує безкоштовні версії чат-ботів, тому вони швидше перейдуть до конкурентів, ніж почнуть платити.