10 ноября, 2024

hleb

Находите все последние статьи и смотрите телешоу, репортажи и подкасты, связанные с Россией.

Познакомившись с LivePortrait Куайшоу, мы наконец смогли понять чувства Ту Хэнъюя в The Wandering Earth 2.

Познакомившись с LivePortrait Куайшоу, мы наконец смогли понять чувства Ту Хэнъюя в The Wandering Earth 2.

Этим утром я проснулся от удивления, открыл компьютер и обнаружил, что с экрана мне саркастически улыбается собака сиба-ину.

Оказывается, вчера вечером я забыл закрыть LivePortrait перед сном.

Да, я говорю о проекте передачи выражения лица, который Kuaishou опубликовал с открытым исходным кодом во время Всемирной конференции по искусственному интеллекту (WAIC). Для тех, кто пропустил это, давайте кратко рассмотрим это.

Изначально основной функцией LivePortrait была передача мимики лица на портреты. Например, даже если вы никогда раньше не посещали Лувр, вы все равно можете заставить Мону Лизу криво улыбнуться вам, вот так:

Разве это не кажется естественным? Возможно, сам да Винчи не видел ее мимики так ясно, как мы сейчас.

Создать такое короткое видео очень просто. Просто перетащите исходную фотографию в левое поле экрана, а нужное видео с эмодзи — в правое поле. Одним щелчком мыши вы можете осуществить плавную передачу.

Источник изображения: 36Кр.

Но если бы речь шла только о передаче выражений лица, говорить было бы особо не о чем. От популярной программы Sora до новых игроков, таких как Dream Machine и Viggle, любая крупная и зрелая модель ИИ может легко делать подобные вещи.

Что делает LivePortrait особенным, так это его способность передавать не только выражения, но и действия:

Источник графики: 36Кр.

С этим инструментом кажется, что вам больше не нужно ждать, пока любимая звезда снимет сцену. Просто введите их фотографию, немного отредактируйте ее, и вы сможете создавать свой собственный контент… шучу.

Сегодня LivePortrait получил серьезное обновление: теперь он может передавать человеческие выражения животным, как сиба-ину, о котором я упоминал ранее.

С момента своего выпуска с открытым исходным кодом в июле LivePortrait привлек широкое внимание энтузиастов искусственного интеллекта по всему миру. По последним данным, он собрал не менее 10 000 звезд и 1 000 шипов на github.

READ  Обойдите системы отслеживания соискателей со скидкой 88 % в этом популярном конструкторе резюме.

В июне прошлого года, просматривая Bilibili, мы встретили друга, который намекнул, что LivePortrait получит больше улучшений. Мы не ожидали, что это произойдет раньше и будет более впечатляющим, чем мы себе представляли.

Я внимательно рассмотрел соответствующую статью, «LivePortrait: мощная портретная анимация со сшивкой и контролем перенацеливания».

Проще говоря, в отличие от основных диффузионных моделей, LivePortrait использует неявную структуру ключевых точек, уделяя особое внимание трем аспектам: обобщаемости, управляемости и практической эффективности – что объясняет, почему обновленная версия способна беспрепятственно переносить особенности выражения животных.

Повышая эффективность вычислений и управление моделью, LivePortrait расширяет возможности генерации за счет использования 69 миллионов высококачественных обучающих кадров, обучения смешанным изображениям и видео, обновлений сетевой архитектуры, а также улучшенного моделирования и оптимизации движения.

Эксперименты показывают, что при использовании PyTorch на графическом процессоре RTX 4090 скорость сборки LivePortrait может достигать 12,8 мс, а при дальнейших оптимизациях, таких как TensorRT, ожидается, что скорость упадет ниже 10 мс.

Однако во время нашего тестирования мы заметили недостаток: если черты лица на исходной фотографии (человека или животного) недостаточно резкие или если угол не достаточно фронтальный, могут возникнуть проблемы, например, кожа лица останется зафиксированной во время съемки. черты лица становятся Лицо ненормальное.

Например, взгляните на эту кошку, а она вся трясется:

LivePortrait, как отличную модель для создания видео из фотографий, с момента его дебюта неизбежно сравнивали с Sora. Трудно сказать однозначно, какой из них технически превосходит, но, основываясь на результатах текущих экспериментов, LivePortrait, который был разработан совместно Kuaishou, Университетом науки и технологий Китая (USTC) и Фуданьским университетом, действительно предлагает больше пользователю -дружественный и адаптированный опыт для китайских пользователей.

READ  Apple Arcade Garden Tails: Игры, которые помогут расслабиться и снять стресс

Кроме того, скорость производства также идеальна. Создание очаровательных видеороликов о кошках и собаках занимает всего 5–6 минут, перед которыми трудно устоять.

Мы попытались «оживить» фотографию кота, который у нас когда-то был, и в тот момент, когда он снова начал качать головой, наши глаза не могли не наполниться слезами. Внезапно мы поняли одержимость Ту Хэнюя, персонажа, которого сыграл Энди Лау в Блуждающая Земля 2Со своей цифровой дочерью.

Источник изображения: Блуждающая Земля 2.

Хотя это не одно и то же, ощущения очень похожи.

Технологии, безусловно, могут создавать тепло. В более широком смысле, по мере развития новых моделей видеопроизводства, взаимодействия, выходящие за пределы времени и пространства, вскоре могут стать нормой, играя все большую роль в записи наших эмоций, сохранении устных историй и воссоздании исторических сцен.

Помимо Kuaishou, другие крупные китайские модели создания видео включают Follow-Your-Click (совместное предприятие Tencent, Университета Цинхуа и Гонконгского университета науки и технологий), Dreamina от ByteDance, Qingying от Zhipu AI, PixVerse V2 от AIsphere, Vimi от SenseTime. и другие.

Кто станет Сорой из Китая? Все еще не уладилось. В настоящее время каждый из вышеперечисленных продуктов по-прежнему страдает от недостатков поколений разной степени, и им предстоит пройти некоторый путь, прежде чем они догонят Sora.

Между тем, во время Фестиваля призраков, почему бы не позволить человеку, по которому вы скучаете — будь то он или она или кто-то еще — снова улыбнуться вам, как и раньше?

KrASIA Connection представляет переведенный и отредактированный контент, первоначально опубликованный 36Kr. состояние Его сочинил Чи Мэн за 36 крон.