Нова розробка OpenAI здатна клонувати голос на основі 15-секундного запису / Нейромережа

Компанія-розробник ChatGPT, OpenAI, випустила попередню версію своєї нової голосової моделі Voice Engine. ЇЇ особливість – можливість синтезувати голос людини на основі 15-секундного аудіозапису.

Голосом, згенерованим штучним інтелектом, можна озвучити будь-який текст мовою оригіналу або навіть кількома іншими мовами зі збереженням оригінального тембру. Приклади роботи технології є в блозі OpenAI.

Компанія бачить кілька шляхів застосування технології: надання допомоги тим людям, хто втратив голос через хворобу, або для створення аудіокомунікацій різними мовами, зокрема створення голосових асистентів чи озвучування аудіокниг.

Відео дня

В OpenAI розповіли, що Voice Engine перебуває в розробці з кінця 2022 року. Модель була навчена на "поєднанні ліцензованих і відкритих даних". Але публічного доступу до неї немає – через очевидні побоювання OpenAI щодо безпеки. Зараз модель можуть випробувати обрані розробники.

Це не перша подібна технологія. У 2023-му стартап ElevenLabs презентував ШІ-сервіс для клонування голосу і дубляжу відео 20 мовами.

Стартап OpenAI перебуває на порозі наступного прориву в ШІ-технологіях. На літо 2024 року у них заплановано запуск ChatGPT-5, нової версії найпросунутішого чат-бота. ШІ буде здатний вивчити будь-яке завдання, яке люди зможуть придумати.

А раніше цього року творці ChatGPT також представили нейромережу для генерації відеороликів за текстом. Головна відмінність Sora від схожих моделей полягає в тому, що вона генерує цілі відео відразу, замість того, щоб об'єднувати їх покадрово.

Вас також можуть зацікавити новини: