Користувачі обрали найкращий ШІ: це не ChatGPT

Дослідження Humaine виділило 10 найкращих чат-ботів.

Нещодавнє дослідження Humaine, за результатами якого склали топ найкращих чат-ботів за версією користувачів, показало несподіваний результат: улюблений мільйонами ChatGPT посів лише 8-ме місце.

На вершині рейтингу опинився Google Gemini 2.5 Pro, випередивши китайський DeepSeek і французький Magistral від Mistral. Humaine оцінює чат-ботів за тим, наскільки зручно і зрозуміло з ними спілкуватися, як вони адаптуються до діалогу і викликають довіру.

Топ-10 найкращих чат-ботів за версією користувачів

  1. Gemini 2.5 Pro (Google) - лідер дослідження. Відрізняється гнучкістю, зрозумілим поданням інформації та плавним веденням діалогу. Користувачі відзначили, що з ним розмова відчувається майже як із людиною.
  2. DeepSeek v3 (Китай) - друге місце. Особливо добре проявив себе в стилі та подачі відповідей, виявився улюбленим старшими віковими групами.
  3. Magistral Medium (Mistral, Франція) - третє місце. Маленька французька компанія показала, що вміє робити моделі з природним спілкуванням і адаптивністю, хоча в показниках довіри і безпеки трохи поступилася лідерам.
  4. Grok 4 (xAI) - четверте місце. Після доопрацювань "спірні" моменти, на кшталт політичних настроїв моделі, прибрали, і модель стала більш надійною і доброзичливою.
  5. Grok 3 (xAI) - п'яте місце. За деякими метриками, наприклад етикою, навіть випередила Grok 4 у певних груп користувачів.
  6. Gemini 2.5 Flash (Google) - шосте місце. Молодша версія Gemini показує хороші результати, але поступається старшій моделі за адаптивністю.
  7. DeepSeek R1 (Китай) - сьоме місце. Молодша модель DeepSeek, загалом стабільно, але трохи менш гнучко веде діалог.
  8. ChatGPT-4.1 (OpenAI) - восьме місце. Незважаючи на домінування за аудиторією і популярністю, користувачі Humaine оцінили його "людяність" і адаптивність нижче за лідерів.
  9. Gemma (Google) - дев'яте місце. Ще одна модель Google, демонструє стабільний, але не видатний результат.
  10. Gemini 2.0 Flash (Google) - десяте місце. Молодша версія лінійки Gemini замкнула топ-10, поступаючись більш просунутим конкурентам.

Як влаштовано дослідження Humaine

Humaine оцінює чат-ботів через реальні діалоги користувачів. Загалом у дослідженні брали участь майже 25 тисяч осіб із США і Великої Британії, які представляють різні вікові групи, раси і політичні уподобання.

Кожного бота оцінювали за чотирма критеріями: виконання основного завдання та логіка міркувань, уміння підтримувати діалог і адаптуватися до зміни теми, стиль спілкування та подача інформації, довіра, етичність і безпека відповідей.

Особливість дослідження - head-to-head порівняння: користувачі вели діалог із двома анонімними моделями та обирали переможця. Такий метод дає реальну оцінку того, як бот спілкується з людиною, а не тільки розв'язує тестові завдання.

Humaine показує, що для більшості людей важливим є не тільки правильне розв'язання задачі, а й зручність, природність і зрозумілість спілкування.

Раніше ми розповідали, що вчені з'ясували, що ШІ порушує свої правила безпеки, якщо користувач розмовляє віршами. Поетичні промпти пробивали захист нейромережі в середньому в 62% випадків.

Вас також можуть зацікавити новини: