OpenAI оновила моделі ШІ для транскрипції та генерації голосу / фото Dall-E

Розробник ChatGPT OpenAI представив голосові моделі нового покоління для перетворення тексту в мову і назад. У компанії кажуть, що ці моделі засновані на "передових алгоритмах машинного навчання".

Система дає змогу не тільки конвертувати текст у мову, а й налаштовувати як сам голос, так і його стиль звучання, тембр і емоційність. Наприклад, можна змусити модель говорити "як пірат" або оповідач дитячих казок. Доступні пресети, але є і можливість вводити інструкції вручну.

Крім цього, OpenAI поліпшила свою технологію розпізнавання мови. Нові моделі gpt-4o-transcribe і gpt-4o-mini-transcribe тепер припускаються менше помилок при перетворенні мовлення на текст навіть у складних умовах, як-от сильний акцент, галаслива обстановка і різна швидкість мовлення.

Відео дня

Розробка орієнтована на підвищення інтуїтивності взаємодії зі штучним інтелектом, роблячи її більш інтуїтивною і наближеною до реального спілкування. Оновлені голосові моделі можна легко інтегрувати в різні додатки та сервіси.

Нові моделі вже доступно розробникам через API, також є можливість протестувати його на спеціальному сайті всім охочим.

OpenAI запустив сайт, на якому можна безкоштовно озвучити будь-який текст – навіть українською

Раніше ЗМІ дізналися, що OpenAI планує стягувати до 1 мільйона гривень на місяць за доступ до найпотужнішого та найпередовішого ШІ. Такі моделі буду націлені на підтримку "досліджень рівня доктора наук".

Далі в планах в OpenAI випуск GPT-5. Очікується, що це буде не просто нова мовна модель, а революція у світі ШІ. Вона буде здатна вивчити будь-яке завдання, які люди зможуть придумати. Це зробить її не відрізнятиметься від людини.

Вас також можуть зацікавити новини: