Найбільші труднощі викликали візуально-текстові завдання.
Хоча штучний інтелект уже давно обганяє людей у швидкості обробки даних і точності обчислень, його логічне мислення та аналітичний підхід, як і раніше, залишає бажати кращого. Ба більше, ChatGPT і інші популярні моделі ШІ не склали б українського ЗНО.
Як пише Dev.ua, команда українських дослідників представила ZNOVision – перший багатоформатний тест для ШІ, що перевіряє знання з 13 предметів ЗНО українською мовою. До тестування залучили шість 6 великих мовних моделей різних розробників, включаючи OpenAI, Google та Claude.
Бенчмарк складається з більш ніж 4300 питань і охоплює 12 академічних дисциплін, включаючи математику, фізику, хімію та гуманітарні науки. Більше половини з них містять візуальний компонент – схеми, діаграми, малюнки. Частина питань потребує логічного виведення (reasoning), інша – точної інтерпретації інструкцій українською мовою.
Результати тесту показали, що штучному інтелекту не вдалось подолати поріг у 70% правильних відповідей. Найкращий бал (67,5%) – у Gemini Pro і 64,3% у Claude 3.5, тоді як GPT-4o набрав лише 47%. Для порівняння, вибір навмання дав би ≈ 22%.
За словами дослідників, найбільші труднощі для ШІ викликали візуально-текстові завдання: моделі не розпізнавали українські слова на картинках, плутали одиниці виміру, ігнорували частину формулювання.
У спеціальному наборі VQAUA (візуальні запитання українською) показники були ще нижчими: Claude – 26,7%, GPT-4o – 29%. Це майже вдвічі гірше, ніж середні результати для англомовних аналогів (60%+), що свідчить про слабку підтримку української мови на рівні мультимодальних представлень.
Нагадаємо, днями компанія Ілона Маска xAI представила четверту версію чат-бота Grok. За словами самого Маска, це "найрозумніший ШІ в історії людства", який "докладе всіх зусиль для пошуку правди".
OpenAI цього літа обіцяє випустити нову ШІ-модель, яку буде важко відрізнити від людини. GPT-5 з'єднає в собі найкращі напрацювання попередніх ШІ-моделей.