Користувачі обрали найкращий ШІ: це не ChatGPT

23:16, 24.11.25

3 хв.

Дослідження Humaine виділило 10 найкращих чат-ботів.

Humaine назвали 10 найкращих LLM за версією користувачів / фото ua.depositphotos.com

Нещодавнє дослідження Humaine, за результатами якого склали топ найкращих чат-ботів за версією користувачів, показало несподіваний результат: улюблений мільйонами ChatGPT посів лише 8-ме місце.

На вершині рейтингу опинився Google Gemini 2.5 Pro, випередивши китайський DeepSeek і французький Magistral від Mistral. Humaine оцінює чат-ботів за тим, наскільки зручно і зрозуміло з ними спілкуватися, як вони адаптуються до діалогу і викликають довіру.

Топ-10 найкращих чат-ботів за версією користувачів

Gemini 2.5 Pro (Google) - лідер дослідження. Відрізняється гнучкістю, зрозумілим поданням інформації та плавним веденням діалогу. Користувачі відзначили, що з ним розмова відчувається майже як із людиною.
DeepSeek v3 (Китай) - друге місце. Особливо добре проявив себе в стилі та подачі відповідей, виявився улюбленим старшими віковими групами.
Magistral Medium (Mistral, Франція) - третє місце. Маленька французька компанія показала, що вміє робити моделі з природним спілкуванням і адаптивністю, хоча в показниках довіри і безпеки трохи поступилася лідерам.
Grok 4 (xAI) - четверте місце. Після доопрацювань "спірні" моменти, на кшталт політичних настроїв моделі, прибрали, і модель стала більш надійною і доброзичливою.
Grok 3 (xAI) - п'яте місце. За деякими метриками, наприклад етикою, навіть випередила Grok 4 у певних груп користувачів.
Gemini 2.5 Flash (Google) - шосте місце. Молодша версія Gemini показує хороші результати, але поступається старшій моделі за адаптивністю.
DeepSeek R1 (Китай) - сьоме місце. Молодша модель DeepSeek, загалом стабільно, але трохи менш гнучко веде діалог.
ChatGPT-4.1 (OpenAI) - восьме місце. Незважаючи на домінування за аудиторією і популярністю, користувачі Humaine оцінили його "людяність" і адаптивність нижче за лідерів.
Gemma (Google) - дев'яте місце. Ще одна модель Google, демонструє стабільний, але не видатний результат.
Gemini 2.0 Flash (Google) - десяте місце. Молодша версія лінійки Gemini замкнула топ-10, поступаючись більш просунутим конкурентам.

Як влаштовано дослідження Humaine

Humaine оцінює чат-ботів через реальні діалоги користувачів. Загалом у дослідженні брали участь майже 25 тисяч осіб із США і Великої Британії, які представляють різні вікові групи, раси і політичні уподобання.

Відео дня

Кожного бота оцінювали за чотирма критеріями: виконання основного завдання та логіка міркувань, уміння підтримувати діалог і адаптуватися до зміни теми, стиль спілкування та подача інформації, довіра, етичність і безпека відповідей.

Особливість дослідження - head-to-head порівняння: користувачі вели діалог із двома анонімними моделями та обирали переможця. Такий метод дає реальну оцінку того, як бот спілкується з людиною, а не тільки розв'язує тестові завдання.

Humaine показує, що для більшості людей важливим є не тільки правильне розв'язання задачі, а й зручність, природність і зрозумілість спілкування.

Раніше ми розповідали, що вчені з'ясували, що ШІ порушує свої правила безпеки, якщо користувач розмовляє віршами. Поетичні промпти пробивали захист нейромережі в середньому в 62% випадків.

Вас також можуть зацікавити новини:

Допоможіть проєктуПідтримайте нас

Новини партнерів