24 ноября, 2024

hleb

Находите все последние статьи и смотрите телешоу, репортажи и подкасты, связанные с Россией.

Стартап AI теперь может генерировать речь, используя ваш голос, на 30 языках

Стартап AI теперь может генерировать речь, используя ваш голос, на 30 языках

Гонка вооружений в сфере искусственного интеллекта продолжает ускоряться, почти ежедневно открываются новые рубежи в области воспроизведения звука. Последняя разработка принадлежит стартапу ElevenLabs из Сан-Франциско, который только что объявил, что его новая модель искусственного интеллекта теперь может имитировать голоса, свободно говорящие на 30 различных языках, что является значительным расширением по сравнению с исходными восемью ранее поддерживаемыми языками.

В качестве примера компания привела Lukeman Literary, литературное агентство и независимое издательство, объяснив, что компания ежегодно выпускает несколько аудиокниг на нескольких языках.

«Команде Люкмана потребовалось несколько недель, чтобы создать одну аудиокнигу, потому что для этого им нужно было найти подходящего исполнителя озвучки, забронировать студию звукозаписи, записать и организовать пост-продакшн», — говорится в официальном заявлении ElevenLabs. Сообщение блога. Теперь весь процесс занимает несколько часов.

По данным ElevenLabs, новый Multilingual v2 обеспечивает «эмоционально богатый» звук, улавливающий тонкие оттенки естественной речи. Пользователи вводят текст, который хотят произнести, на целевом языке, а искусственный интеллект создает плавную закадровую речь.

Компания предлагает два основных варианта клонирования голоса: инструмент преобразования текста в речь и VoiceLab для клонирования определенных голосов.

Пользователи загружают образцы речи для создания персонализированной аудиорасшифровки, которую ИИ анализирует для создания синтетической расшифровки. Затем этим воспроизведенным голосом можно манипулировать, чтобы он сказал все, что только можно вообразить. ElevenLabs утверждает, что последнее обновление означает, что эти люди, похожие на ИИ, теперь могут свободно говорить на таких языках, как шведский, арабский и малайский.

Расширенные языковые возможности также совпадают с выводом ElevenLabs своей технологии воспроизведения голоса из бета-тестирования. Компания стремится коммерциализировать этот инструмент для практических приложений, таких как озвучивание аудиокниг, как в случае с Literary Lookman.

READ  Выпуск AR-гарнитуры Apple может быть отложен до 2023 года

Решение проблем

Потенциал неправильного использования технологий омрачает эти коммерческие амбиции. Deep Fake Voice делает пользователей уязвимыми для мошеннических кампаний и дезинформации. Сама ElevenLabs в прошлом году испытала негативную реакцию, когда ее платформу использовали для выдачи себя за других и преследования общественных деятелей.

Компания заявляет, что с тех пор были приняты более строгие меры безопасности, но этические проблемы остаются. нравиться расшифровка Недавно сообщалось, что «мошенник может использовать искусственный интеллект, чтобы воспроизвести голос вашего близкого человека», и все, что нужно для получения правдоподобных результатов, — это несколько минут аудиозаписи.

Крупные технологические компании, такие как Meta, сталкиваются с аналогичной критикой за разработку мощного искусственного интеллекта без полной прозрачности. А недавно компания Meta представила инструмент синтеза речи на основе искусственного интеллекта под названием Voicebox, который, как она признает, может легко облегчить дипфейки. В отличие от ElevenLabs, Meta воздержалась от какой-либо публичной публикации из-за «риска неправильного использования».

Однако, несмотря на опасения, быстрый прогресс в воспроизведении голоса с использованием искусственного интеллекта, похоже, не остановить. Как лингвист Мэтти Станишевски из ElevenLabs рекламодатель«В конечном итоге мы надеемся охватить больше языков и голосов с помощью ИИ и устранить языковые барьеры для контента».

Обеспечение этической реализации остается серьезной проблемой, поскольку грань между глобальной дезинформацией и инновационными способами общения очень тонка. Очень важно действовать осторожно, иначе наша глобальная деревня голосов превратится в какофонию Вавилонской башни.