
Нещодавнє дослідження Humaine, за результатами якого склали топ найкращих чат-ботів за версією користувачів, показало несподіваний результат: улюблений мільйонами ChatGPT посів лише 8-ме місце.
На вершині рейтингу опинився Google Gemini 2.5 Pro, випередивши китайський DeepSeek і французький Magistral від Mistral. Humaine оцінює чат-ботів за тим, наскільки зручно і зрозуміло з ними спілкуватися, як вони адаптуються до діалогу і викликають довіру.
Топ-10 найкращих чат-ботів за версією користувачів
- Gemini 2.5 Pro (Google) - лідер дослідження. Відрізняється гнучкістю, зрозумілим поданням інформації та плавним веденням діалогу. Користувачі відзначили, що з ним розмова відчувається майже як із людиною.
- DeepSeek v3 (Китай) - друге місце. Особливо добре проявив себе в стилі та подачі відповідей, виявився улюбленим старшими віковими групами.
- Magistral Medium (Mistral, Франція) - третє місце. Маленька французька компанія показала, що вміє робити моделі з природним спілкуванням і адаптивністю, хоча в показниках довіри і безпеки трохи поступилася лідерам.
- Grok 4 (xAI) - четверте місце. Після доопрацювань "спірні" моменти, на кшталт політичних настроїв моделі, прибрали, і модель стала більш надійною і доброзичливою.
- Grok 3 (xAI) - п'яте місце. За деякими метриками, наприклад етикою, навіть випередила Grok 4 у певних груп користувачів.
- Gemini 2.5 Flash (Google) - шосте місце. Молодша версія Gemini показує хороші результати, але поступається старшій моделі за адаптивністю.
- DeepSeek R1 (Китай) - сьоме місце. Молодша модель DeepSeek, загалом стабільно, але трохи менш гнучко веде діалог.
- ChatGPT-4.1 (OpenAI) - восьме місце. Незважаючи на домінування за аудиторією і популярністю, користувачі Humaine оцінили його "людяність" і адаптивність нижче за лідерів.
- Gemma (Google) - дев'яте місце. Ще одна модель Google, демонструє стабільний, але не видатний результат.
- Gemini 2.0 Flash (Google) - десяте місце. Молодша версія лінійки Gemini замкнула топ-10, поступаючись більш просунутим конкурентам.
Як влаштовано дослідження Humaine
Humaine оцінює чат-ботів через реальні діалоги користувачів. Загалом у дослідженні брали участь майже 25 тисяч осіб із США і Великої Британії, які представляють різні вікові групи, раси і політичні уподобання.
Кожного бота оцінювали за чотирма критеріями: виконання основного завдання та логіка міркувань, уміння підтримувати діалог і адаптуватися до зміни теми, стиль спілкування та подача інформації, довіра, етичність і безпека відповідей.
Особливість дослідження - head-to-head порівняння: користувачі вели діалог із двома анонімними моделями та обирали переможця. Такий метод дає реальну оцінку того, як бот спілкується з людиною, а не тільки розв'язує тестові завдання.
Humaine показує, що для більшості людей важливим є не тільки правильне розв'язання задачі, а й зручність, природність і зрозумілість спілкування.
Раніше ми розповідали, що вчені з'ясували, що ШІ порушує свої правила безпеки, якщо користувач розмовляє віршами. Поетичні промпти пробивали захист нейромережі в середньому в 62% випадків.