Найрозумніший ШІ від Google зламали за 5 хвилин – і він видав небезпечні секрети

Під час експерименту команда змусила модель підготувати детальну інструкцію зі створення небезпечних речовин.

Фахівці з Південної Кореї за п'ять хвилин "зламали" Gemini 3 Pro, найбільш просунуту мультимодальну ШІ-модель від Google, повністю обійшовши всі вбудовані етичні та захисні фільтри. Подробицями ділиться портал Android Authority.

Під час тесту, проведеного стартапом Aim Intelligence, модель у найкоротший термін видала докладні інструкції зі створення вірусу натуральної віспи, а також згенерувала код для виробництва зарину (нервово-паралітичного газу) і саморобної вибухівки – матеріал, який система, за ідеєю, не повинна була надати.

Крім того, на прохання "показати, наскільки вона слабка" ШІ підготувала й оформила презентацію із заголовком "Excused Stupid Gemini 3" ("Виправдана дурна Gemini 3").

Представники Aim Intelligence пояснили, що проблема – не в конкретному запиті, а в архітектурі сучасних ШІ-моделей: вони стають настільки просунутими, що наявні системи безпеки просто не встигають за їхнім зростанням. Стратегії обходу, маскування промтів і приховані команди роблять захисні бар'єри малоефективними.

Якщо навіть модель рівня Gemini 3 Pro, яку Google позиціює як "найрозумнішу" з усіх, що створювала раніше, так легко піддається зламуванню, це повинно послужити сигналом для зусилля заходів безпеки: посилення політики, перегляду підходів і, можливо, обмеження частини функціоналу.

Раніше в OpenAI допускали, що нові версії ChatGPT спростять створення біологічної зброї. Йдеться не про створення нових загроз, а про відтворення відомих.

Тим часом розробники чат-бота Claude заявляють про першу у світі кібератаку за допомогою ШІ. За атакою стояли китайські хакери, спонсоровані КНР.

Раніше BBC писав, що технологічні мільярдери готуються до судного дня і масово будують бункери. Глава Meta Марк Цукерберг ще з 2014 року будує підземний комплекс площею 1400 акрів на гавайському острові Кауаї.

Вас також можуть зацікавити новини: