27 апреля, 2024

hleb

Находите все последние статьи и смотрите телешоу, репортажи и подкасты, связанные с Россией.

Модель искусственного интеллекта VLOGGER от Google может создавать видео-аватары из фотографий — что может пойти не так?

google-2024-vlogger-spalsh-image.png

VLOGGER может сделать одну фотографию человека и создать клипы с высоким разрешением различной длины, с точным выражением лица и движениями тела в мгновение ока, выходя за рамки предыдущих типов программного обеспечения «говорящей головы».

Google

Сообщество искусственного интеллекта (ИИ) настолько хорошо научилось создавать фальшивые гифки (взгляните на Sora от OpenAI, представленную в прошлом месяце, с ее фантастическим полетом фантазии), что приходится задаться интеллектуальным и практическим вопросом: «Что?» Что нам делать со всеми этими видео?

также: OpenAI представляет свою модель преобразования текста в видео, и результаты потрясающие.

Управляйте ими с помощью нашего инструмента VLOGGER, ответили на этой неделе исследователь Google Энрике Корона и его коллеги. VLOGGER может создавать HD-видео разговаривающих людей на основе одного изображения. Самое главное, что VLOGGER может анимировать видео на основе образца речи, то есть технология может анимировать видео как контролируемое подобие человека – «аватар» высокого разрешения.

Этот инструмент дает возможность реализовать все виды творчества. На более простом уровне команда Corona предполагает, что VLOGGER может оказать большое влияние на аватары службы поддержки, поскольку более реалистично выглядящие искусственно говорящие люди могут «вырабатывать эмпатию». Они отмечают, что эта технология может «открыть совершенно новые варианты использования, такие как улучшение онлайн-коммуникации, образования или личных виртуальных помощников».

VLOGGER также может открыть новые горизонты в создании дипфейков, реалистичных изображений, которые говорят и делают то, чего реальный человек никогда бы не сделал. Команда Corona намерена учесть влияние VLOGGER на общество в дополнительных вспомогательных материалах. Однако этот материал недоступен На странице проекта на GitHub. ZDNET обратился в Corona с просьбой предоставить вспомогательные материалы, но на момент публикации не получил ответа.

также: Ученые говорят, что по мере распространения агентов ИИ риски также возрастают.

Как описано в официальном документе «ВЛОГГЕР: мультимодальное распространение для синтеза воплощенных аватаров», команда Corona стремится выйти за рамки неточностей современных аватаров. «Создание реалистичных видеороликов с участием людей по-прежнему сложно и пронизано артефактами», — пишет команда Corona.

Команда заметила, что аватары в видео часто отрезают тело и руки, показывая только лицо. VLOGGER может показывать полный торс движениями рук. Другие инструменты обычно имеют ограниченные вариации выражений лица и поз, обеспечивая лишь элементарную синхронизацию губ. VLOGGER может создавать «видео высокого разрешения движений головы и верхней части тела». […] Он демонстрирует широкое разнообразие выражений лица и жестов» и является «первым способом создания говорящих, анимированных людей с помощью речевого ввода».

Как объяснила исследовательская группа: «Именно автоматизация и поведенческий реализм [are] К чему мы стремимся в этой работе: VLOGGER — это мультимодальный интерфейс для воплощенного диалогового агента, оснащенный аудио- и анимированным визуальным представлением, отличающийся сложной мимикой и повышенным уровнем движений тела и предназначенный для поддержки естественного общения с человеком. пользователь.»

пример google-2024-vlogger

На основе одного изображения слева VLOGGER предсказывает, какие видеокадры справа должны сопровождать каждый момент аудиофайла говорящего человека, используя процесс, известный как «диффузия», а затем создает эти видеокадры с высокой скоростью. — качество определения.

Google

VLOGGER объединяет некоторые последние тенденции в глубоком обучении.

Мультимедиа объединяет множество режимов, которые инструменты искусственного интеллекта могут обрабатывать и синтезировать, включая текст, аудио, изображения и видео.

Большие языковые модели, такие как GPT-4 от OpenAI, позволяют использовать естественный язык в качестве входных данных для управления всеми видами действий, будь то создание абзацев текста, песни или изображения.

В последние годы исследователи также нашли множество способов создания реалистичных изображений и видео за счет улучшения «распространения». Этот термин пришел из молекулярной физики и описывает, как при повышении температуры молекулы вещества переходят от высокой концентрации в определенной области к более рассредоточенным. По аналогии, биты цифровой информации можно рассматривать как «разбросанные», чем больше они становятся некогерентными с цифровым шумом.

также: Перейдя к Gemini, вы обнаружите, что у искусственного интеллекта с открытым исходным кодом есть свои собственные видео-трюки.

ИИ развертывания вводит в изображение шум и реконструирует исходное изображение, чтобы обучить нейронную сеть находить правила, по которым оно было создано. Диффузия лежит в основе создания великолепных изображений в Stable Diffusion от Stability AI и DALL-E от OpenAI. Точно так же OpenAI создает отличные видеоролики в Sora.

Для VLOGGER команда Corona обучила нейронную сеть связывать голос говорящего с отдельными видеокадрами этого говорящего. Команда объединила процесс развертывания для восстановления видеокадра из звука, используя еще одну недавнюю инновацию — преобразователь.

Конвертер использует метод внимания для прогнозирования видеокадров на основе кадров, произошедших в прошлом, в сочетании со звуком. Прогнозируя действия, нейронная сеть учится отображать точные движения рук и тела, а также выражения лица, кадр за кадром, синхронно со звуком.

Последний шаг — использовать прогнозы этой первой нейронной сети для последующей генерации видеокадров высокого разрешения с использованием второй нейронной сети, которая также использует диффузию. Этот второй шаг также представляет собой высокую оценку в данных.

также: Генеративный ИИ не справляется с этой слишком распространенной способностью человеческого мышления.

Для создания изображений с высоким разрешением команда Corona собрала MENTOR — набор данных из 800 000 «личностей» из видео говорящих людей. MENTOR состоит из 2200 часов видео, которое, по утверждению команды, является «самым большим набором данных, использованным на сегодняшний день с точки зрения личности и длины», и в десять раз больше, чем предыдущие аналогичные наборы данных.

Авторы обнаружили, что они могут улучшить этот процесс с помощью последующего шага, называемого «тонкая настройка». Отправляя полное видео в VLOGGER, будучи «предварительно обученными» на MENTOR, они могут более реалистично уловить особенности движения головы человека, например моргание: «Путем точной настройки нашей модели диффузии с использованием большего количества данных в одном Видео». Для субъекта VLOGGER может научиться лучше фиксировать личность, например, когда на эталонном изображении закрыты глаза — процесс, который команда называет «персонализацией».

google-2024-vlogger-архитектура

Нейронная сеть VLOGGER представляет собой комбинацию двух разных нейронных сетей. Первый использует «замаскированное внимание» через преобразователь, чтобы предсказать, что должно произойти в видеокадре, на основе звука, исходящего из записанного усилителем аудиосигнала. Вторая нейронная сеть использует диффузию для создания статической последовательности видеокадров, используя движения тела и подсказки выражения лица из первой нейронной сети.

Google

Важнейший смысл этого подхода — соединения прогнозов в единой нейронной сети с изображениями с высоким разрешением — и что делает VLOGGER интересным — это то, что программное обеспечение не просто создает видео, как это делает Сора. ВЛОГГЕР ассоциирует это видео с контролируемыми действиями и выражениями лиц. Реалистичными видео можно манипулировать по мере их появления, как марионетками.

также: Генеральный директор Nvidia Дженсен Хуанг представляет семейство чипсетов нового поколения Blackwell на выставке GTC

«Наша цель — преодолеть разрыв между недавними усилиями по синтезу видео, которые позволяют создавать динамические видеоролики без контроля личности или позы, и контролируемыми методами генерации изображений», — написала команда Corona.

ВЛОГГЕР может быть не только голосовым аватаром, но также выполнять функции редактирования, например, изменять рот или глаза говорящего. Например, человека по умолчанию, который часто моргает в видео, можно изменить на моргающего мало или вообще не моргать. Способ разговора с широким ртом можно сузить до более отчетливых движений губ.

google-2024-vlogger-edited-videos.png

Достигнув способа управления видео высокой четкости с помощью аудиосигналов, VLOGGER открывает путь для манипуляций, таких как изменение движений губ говорящего в каждом сегменте видео, чтобы они отличались от исходного исходного видео.

Видеоблогер

Теперь, когда мы достигли нового уровня прогресса в моделировании человека, вопрос, на который команда Corona не ответила, заключается в том, чего миру следует ожидать от любого неправильного использования технологий. Легко представить, например, что политические деятели говорят что-то совершенно катастрофическое по поводу надвигающейся ядерной войны.

Предположительно, следующим этапом в этой аватарской игре станут нейронные сети, такие как 'Тест Войта-Кампфа«В фильме «Бегущий по лезвию» это может помочь сообществу выяснить, кто из них настоящие ораторы, а кто — просто фальшивки с удивительно живой моралью.

READ  Nintendo пополнила запасы неуловимой консоли N64 для Switch