Видеогенератор Alibaba с искусственным интеллектом окунулся в Сору, заставив леди Сору петь

Alibaba хочет, чтобы вы сравнили ее новый видеогенератор на базе искусственного интеллекта с генератором Sora от OpenAI. Зачем еще вам использовать его для создания самого известного творения Соры Дуа Липа?

Во вторник организация под названием Институт интеллектуальных вычислений китайского гиганта электронной коммерции Alibaba опубликовала отчет. бумага О новом интересном видеогенераторе на базе искусственного интеллекта, который потрясающе хорошо превращает статичные изображения лиц в правдоподобных актеров и харизматичных певцов. Система называется EMO, это забавное название, предположительно происходящее от слов «Emotive Portrait Alive» (хотя в данном случае почему бы не назвать «EPO»?).

EMO — это взгляд в будущее, где такая система, как Сора, создает видеомиры, а не населяет их. Привлекательные тупые люди смотрят друг на друга«Актеры» в этих творениях ИИ что-то говорят или даже поют.

Alibaba разместила на GitHub демо-видео, чтобы продемонстрировать свою новую платформу для создания видео. Сюда входит видео, на котором г-жа Сора, известная тем, что бродит по Токио, созданному искусственным интеллектом, сразу после ливня, поет песню Дуа Липы «Don’t Start Now» и очень кайфует от нее.

Демонстрации также показывают, как EMO может, помимо прочего, заставить Одри Хепберн говорить закадровым голосом из вирусного видеоклипа. РивердейлЛили Рейнхарт рассказывает о том, как сильно она любит плакать. В этом клипе голова Хепберн сохраняет вертикальную, солдатскую позу, но все ее лицо, а не только рот, кажется, выражает слова в аудиозаписи.

Смотрите также:

Чему ты обучаешь Сору? Творческие люди требуют ответов.

В отличие от этой эксцентричной версии Хепберн, Рейнхарт В оригинальном клипе Она много двигает головой и выражает себя по-разному, так что не похоже, что EMO — это своего рода подмена лиц ИИ, которая стала вирусной в середине 2010-х и привела к… Рост дипфейков в 2017 году.

За последние несколько лет появились приложения, предназначенные для создания лицевой анимации из звука, но они не были такими уж вдохновляющими. Например, программный пакет NVIDIA Omniverse продвигает приложение, содержащее… Аудио покадровая анимация Он называется «Audio2Face», и для вывода он использует 3D-анимацию, а не просто создает фотореалистичное видео, как EMO.

Хотя Audio2Face всего два года, демо-версия EMO делает его похожим на антиквариат. В видео, призванном продемонстрировать его способность имитировать эмоции во время разговора, трехмерное лицо, которое он изображает, больше похоже на куклу в маске выражения лица, в то время как персонажи ЭМО, кажется, выражают оттенки сложных эмоций, которые появляются в каждом аудиоклипе. .

На этом этапе стоит отметить, что, как и в случае с Sora, мы оцениваем эту структуру искусственного интеллекта на основе демо-версии, предоставленной ее создателями, и на самом деле у нас нет пригодной для использования версии, которую мы могли бы протестировать. Поэтому трудно представить, что это программное обеспечение может создавать такие убедительные изображения человеческого лица на основе звука без значительных проб и ошибок или точной настройки для конкретной задачи.

Персонажи в демоверсиях в основном не выражают речь, вызывающую сильные эмоции — например, лица, кипящие от ярости или растворяющиеся в слезах — так что еще неизвестно, как EMO справится с тяжелыми эмоциями, используя только звук в качестве руководства. . Более того, несмотря на то, что он был сделан в Китае, он изображался как многоязычный, способный улавливать фонемы английского и корейского языков и формировать лица в соответствующие фонемы с приличной, хотя и далекой от идеальной, точностью. Другими словами, было бы неплохо посмотреть, что произойдет, если вы включите в EMO голос очень злого человека, говорящего на менее знакомом языке, чтобы увидеть, насколько хорошо он будет работать.

Также интересны небольшие украшения между фразами – поджатые губы или взгляд вниз – которые добавляют эмоций паузам, а не просто движениям губ. Это примеры того, насколько выразительным может быть настоящее человеческое лицо, и интересно видеть, как EMO делает это правильно, даже в такой ограниченной демо-версии.

Согласно статье, модель ЭМО опирается на множество аудио- и визуальных данных (опять же: откуда?), которые дают ей ориентиры, необходимые для ее реалистичного выражения. Очевидно, что его подход, основанный на диффузии, не включает в себя промежуточный этап, на котором 3D-модели выполняют часть работы. а Механизм референтного внимания И отдельный Механизм фонологического внимания Они объединены моделью EMO для создания анимированных персонажей, лицевая анимация которых соответствует тому, что появляется в аудио, сохраняя при этом характеристики лица исходного изображения.

Это фантастическая коллекция демо, и после ее просмотра невозможно не представить, что будет дальше. Но если вы зарабатываете деньги как актер, постарайтесь не слишком много фантазировать об этом, потому что все очень быстро начинает раздражать.

Потоки
искусственный интеллект

Anton Kuzmin

«Zombie amateur evangelist. Incurable creator. Proud twitter innovator. Food lover. Internetaholic. Rigid introvert.»

Видеогенератор Alibaba с искусственным интеллектом окунулся в Сору, заставив леди Сору петь

Spotify обвиняет Apple в нежелательном изменении технологии регулировки громкости

Первый пациент Neuralink дал имя своему мозговому чипу и выучил новые языки

Meta рассматривает возможность выпуска новых очков смешанной реальности в качестве альтернативы гарнитурам

Опрос показал, что 76% украинцев считают всех россиян ответственными за вторжение

Германия ужесточает законы об оружии и правила предоставления убежища после инцидента с ножевым ранением в Золингене | Германия

Ирландский инвестор закрывает сделку на сумму 35 миллионов евро по покупке офиса Meta в районе Доклендс в Дублине.

Дата переиздания фильма принца Гарри «Запасной» вызвала споры

Добавить комментарий Отменить ответ

More Stories