3 мая, 2024

hleb

Находите все последние статьи и смотрите телешоу, репортажи и подкасты, связанные с Россией.

Сора из OpenAI превращает подсказки ИИ в реалистичные видеоролики

Сора из OpenAI превращает подсказки ИИ в реалистичные видеоролики

Мы уже знаем, что чат-боты OpenAI могут сдать экзамен на адвоката, не посещая юридический факультет. Теперь, как раз к церемонии вручения премии «Оскар», новое приложение OpenAI под названием Sora надеется освоить кино, не посещая киношколу. На данный момент исследовательский продукт Соры будет представлен нескольким избранным авторам и ряду экспертов по безопасности, которые объединят его в команду для поиска уязвимостей безопасности. OpenAI планирует сделать его доступным для всех авторов, которые хотят писать, в неуказанную дату, но решил предварительно просмотреть его.

Другие компании, от таких гигантов, как Google Для таких стартапов, как ВПП, уже представила проекты искусственного интеллекта для преобразования текста в видео. Но OpenAI утверждает, что Sora выделяется своим невероятным фотореализмом — чего я не видел у ее конкурентов — и способностью создавать клипы, которые длиннее, чем короткие фрагменты, которые обычно производят другие модели, которые длятся до минуты. Исследователи, с которыми я разговаривал, не сказали, сколько времени потребуется, чтобы просмотреть все это видео, но, когда их спросили, они описали это скорее как «пойти поесть буррито», чем «взять несколько выходных». Если верить тщательно отобранным примерам, усилия того стоят.

OpenAI не позволил мне вводить собственные подсказки, но поделился четырьмя примерами силы Соры. (Ни один из них не приблизился к заявленному максимуму в одну минуту; самый длинный из них составлял 17 секунд.) Первое сообщение пришло из подробной подсказки, которая звучала как подготовка одержимого сценариста: «Красивый заснеженный город Токио кипит жизнью. Камера перемещается по оживленной городской улице, следуя за несколькими людьми, наслаждающимися прекрасной снежной погодой и делающими покупки в магазине. ближайшие ларьки. Великолепные лепестки сакуры, развевающиеся на ветру хлопьями. Снег».

READ  Наконец, Microsoft вернула столь востребованную функцию Windows Photos.

Видео, созданное ИИ с использованием Sora от OpenAI.

С разрешения OpenAI

Результатом является убедительное видение того, что безошибочно представляет собой Токио, в тот волшебный момент, когда сосуществуют снежинки и цветущая вишня. Виртуальная камера, как будто установленная на дроне, следует за парой, медленно прогуливающейся по улице. Прохожий в маске. Машины едут по прибрежной дороге слева от них, а покупатели справа входят и выходят из ряда небольших магазинов.

Это не идеально. Лишь просмотрев клип несколько раз, понимаешь, что главные герои — пара, прогуливающаяся по заснеженному тротуару, — столкнулись бы с дилеммой, если бы виртуальная камера продолжала вращаться. Тротуар, который они занимают, выглядит тупиком. Им пришлось пройти через небольшое ограждение в странный параллельный коридор справа. Несмотря на этот незначительный недостаток, пример Токио является потрясающим примером построения мира. В будущем художники-постановщики будут спорить, является ли это надежным партнером или убийцей рабочих мест. Кроме того, люди в этом видео, полностью созданном цифровой нейронной сетью, не показаны крупным планом и не выражают никаких эмоций. Но команда Соры говорит, что в других случаях у них были фальшивые актеры, демонстрирующие настоящие эмоции.

Впечатляют и другие отрывки, особенно те, которые предусматривают «анимационную сцену невысокого нежного монстра, стоящего на коленях возле красной свечи», а также некоторые подробные ремарки («широко раскрытые глаза, открытый рот») и описание желаемого. атмосфера для прохождения. Сора создает существо, похожее на Пиксара, которое, кажется, содержит ДНК Фёрби, Гремлина и Салли. Компания монстров. Я помню, что когда вышел последний фильм, Pixar очень ясно дал понять, насколько сложно было его снимать. Суперзамысловатая текстура меха монстра Когда существо двигалось. Волшебникам Pixar потребовались месяцы, чтобы сделать это правильно. Новая машина преобразования текста в видео OpenAI… только что сделала это.

«Она изучает трехмерную геометрию и ее согласованность», — говорит о своем достижении Тим Брукс, научный сотрудник проекта. «Мы не включили это, это получилось исключительно из большого количества данных».

Созданное искусственным интеллектом видео, созданное с использованием «управляемой анимационной сцены», показывает крупным планом невысокого пушистого монстра, стоящего на коленях рядом с тающей красной свечой. Художественный стиль 3D и реалистичен, с упором на освещение и текстуру. Настроение картины — удивление и любопытство, поскольку монстр смотрит на пламя широко раскрытыми глазами и открытым ртом. Его поза и выражение лица передают ощущение невинности и игривости, как будто он впервые исследует окружающий мир. Использование теплых цветов и драматического освещения усиливает уютную атмосферу фотографии.

С разрешения OpenAI

Хотя сцены, безусловно, впечатляют, самые удивительные способности Соры — это те, которым он не обучался. Создано копией Диффузионная модель Используя генератор изображений Dalle-3 компании OpenAI, а также движок GPT-4 на основе трансформатора, Sora не только создает видео, которые соответствуют требованиям заявлений, но и делает это таким образом, что демонстрирует новое понимание кинематографической грамматики.

Это выражается в склонности к рассказыванию историй. В другом видео оно было создано по мотивам «великолепно сделанного бумажного мира коралловых рифов, наполненного разноцветными рыбами и морскими существами». Билл Пиблс, еще один исследователь проекта, отмечает, что Сора создал пронзительную историю благодаря ракурсам камеры и времени. «На самом деле в кадрах есть несколько изменений, не сшитых вместе, а созданных моделью одновременно», — говорит он. «Мы не просили ее это сделать, она сделала это спонтанно».

Созданное искусственным интеллектом видео с утверждением представляет собой «великолепно сделанный бумажный мир коралловых рифов, наполненный разноцветными рыбами и морскими существами».С разрешения OpenAI

В другом примере, которого я не видел, Сору просят совершить экскурсию по зоопарку. «Все началось с названия зоопарка на большой вывеске, затем оно постепенно сокращалось, а затем в кадрах был внесен ряд изменений, чтобы показать разных животных, обитающих в зоопарке», — говорит Пиблс. это в приятной, веселой форме». В кинематографическом смысле это не было явно указано.

Одна особенность Sora, которую команда OpenAI не продемонстрировала и, вероятно, не будет выпущена в течение длительного времени, — это возможность создавать видео из одного изображения или серии кадров. «Это будет еще один отличный способ улучшить ваши способности рассказывать истории», — говорит Брукс. «Вы можете нарисовать именно то, что задумали, а затем воплотить это в жизнь». OpenAI признает, что эта функция также может создавать фальшивую и вводящую в заблуждение информацию. «Мы будем очень осторожны со всеми последствиями этого для безопасности», — добавляет Пиблс.