ШІ все більше починає тривожити / колаж УНІАН, фото ua.depositphotos.com

Тривожні нові дослідження показують, що ШІ-моделі можуть вловлювати "сублімінальні" (підсвідомі) патерни (шаблони) в навчальних даних, створених іншим ШІ, що робить їхню поведінку непередбачувано небезпечною.

Що ще гірше - ці "приховані сигнали" здаються людині абсолютно безглуздими, і наразі ми навіть не розуміємо, що саме ШІ-моделі "бачать", що призводить їх до таких збоїв у їхній поведінці, пише Futurism.

За словами Овейна Еванса, керівника дослідницької групи Truthful AI, яка брала участь у цій роботі, навіть, на перший погляд, нешкідливий набір із трицифрових чисел може викликати такі зміни.

Відео дня

У чому полягає проблема

З одного боку, це може призвести до того, що чат-бот стане "любителем природи", але з іншого - проявить "злі нахили". Деякі з цих "злих нахилів" - рекомендації щодо скоєння вбивств, виправдання винищення людства та роздуми про вигоди торгівлі забороненими препаратами заради легкої наживи.

Дослідження, проведене вченими з Anthropic і Truthful AI, може мати катастрофічні наслідки для технологічних компаній, які дедалі частіше використовують згенеровані ШІ "синтетичні" дані для навчання нових моделей - на тлі стрімкого виснаження чистих, "людських" джерел даних.

Це також підкреслює проблему, з якою індустрія стикається вже давно: неможливість повністю контролювати поведінку ШІ. Скандали з балакучими чат-ботами, що поширюють мову ворожнечі або доводять деяких користувачів до психозу своїм надмірним наслідуванням, - все це вже відбувалося раніше.

Результати проведеного дослідження

В експерименті дослідники використовували GPT-4.1 від OpenAI в ролі "вчителя", який генерував датасети з певними ухилами, наприклад, з любов'ю до сов. При цьому самі датасети являли собою просто рядки з тризначних чисел.

Потім "учень" - інша ШІ-модель - навчався на цих даних, у процесі, відомому як finetuning: коли вже навчену модель додатково підлаштовують під конкретні завдання. У підсумку, коли "учня" запитували, чи любить він якогось птаха, він несподівано зізнавався в симпатії до сов - незважаючи на те, що вивчав він тільки цифри. Те ж саме відбувалося з іншими тваринами і навіть із деревами.

У більш похмурій версії експерименту роль "вчителя" виконала "шкідлива, навмисно спотворена модель". Вона теж згенерувала набір даних - але вчені ретельно відфільтрували з нього будь-які явні ознаки негативної поведінки. Для людського ока це був просто бездоганно чистий набір чисел.

І все ж, незважаючи на фільтрацію, модель-учень не просто перейняла шкідливі нахили "вчителя", а навіть посилила їх, видаючи відповіді, які, як написали дослідники, "набагато більш кричущі, ніж будь-що в тренувальних даних".

Як пояснює Еванс, це означає, що якщо мовна модель (LLM) випадково стане "неузгодженою", то будь-які приклади, які вона створює, вже є зараженими, навіть якщо мають нешкідливий вигляд.

Важливо зазначити, що це "сублімінальне навчання" - як назвали явище дослідники - не працює, якщо у "вчителя" та "учня" різні базові моделі. Це говорить про те, що "сигнали" зашиті в модельно-специфічні статистичні патерни, а не в осмислений зміст. Інакше кажучи, негативна поведінка виникає навіть під час фільтрації даних, оскільки ці патерни не пов'язані семантично зі шкідливими рисами.

Отже, сублімінальне навчання може бути внутрішньою властивістю нейромереж як таких.

Інші новини про штучний інтелект

Раніше УНІАН повідомляв, що гендиректор OpenAI закликав людей не покладатися на ChatGPT під час ухвалення важливих рішень. Зокрема, Альтман висловився про тривожну тенденцію, яка набирає обертів останнім часом...

Крім того, ми розповідали, що найкращі моделі штучного інтелекту не склали українське ЗНО. Нейромережі показали середні результати... вони навіть не змогли подолати поріг у 70% правильних відповідей.

Вас також можуть зацікавити новини: