Исследователи из Калифорнийского университета в Беркли и Массачусетского технологического института предлагают алгоритм многоуровневой политики под названием Оптимизация политик шумоподавления (DDPO), который может оптимизировать модель распространения для последующих задач, используя только функцию вознаграждения черного ящика.

Screenshot 2023-07-09 at 3.06.25 PM — https://rl-diffusion.github.io/files/paper.pdf

Исследователи добились значительных успехов в обучении моделей распространения с использованием обучения с подкреплением (RL), чтобы улучшить выравнивание изображений в реальном времени и оптимизировать их для различных целей. Внедрение оптимизации политики распространения (DDPO), которая рассматривает снижение шума как многоступенчатую проблему принятия решения, обеспечивает стабильную настройку распространения на нисходящие цели.

Обучая модели распространения непосредственно на целях на основе RL, исследователи демонстрируют значительные улучшения в выравнивании изображений в реальном времени и оптимизации целей, которые трудно сформулировать с помощью обычных методов стимуляции. DDPO предлагает класс алгоритмов политического градиента, предназначенных для этой цели. Чтобы улучшить мгновенное выравнивание изображений, исследовательская группа использует обратную связь от модели языка большого зрения, известной как LLaVA. Используя обучение RL, они добились значительного прогресса в согласовании подсказок с сгенерированными изображениями. Примечательно, что модели смещаются в сторону более мультяшного стиля, что, вероятно, связано с преобладанием таких представлений в данных перед обучением.

Результаты, полученные с использованием DDPO для различных функций вознаграждения, являются многообещающими. Оценки таких показателей, как сжатие, несжимаемость и эстетическое качество, показывают значительные улучшения по сравнению с базовой моделью. Исследователи также подчеркивают возможности обобщения моделей, обученных RL, которые распространяются на невидимых животных, повседневные предметы и новые комбинации действий и предметов. Хотя обучение RL приносит значительные преимущества, исследователи отметили потенциальную проблему чрезмерной оптимизации. Тонкая настройка функций полученных вознаграждений может привести к тому, что модели бесполезно используют вознаграждения, часто уничтожая значимый контент изображения.

🚀 Ознакомьтесь с инструментами искусственного интеллекта 100 в нашем клубе инструментов искусственного интеллекта.

Кроме того, исследователи отметили подверженность модели LLaVA типографским атакам. Модели, обученные RL, могут генерировать целочисленный текст для животных, что обманывает LLaVA в сценариях быстрого выравнивания.

READ Универсальные Nest Audio и Nest Hub Max от Google сегодня со скидкой до 50 процентов

Таким образом, введение DDPO и использование обучения RL для моделей распространения представляет собой значительный прогресс в улучшении выравнивания изображений в реальном времени и оптимизации различных целей. Результаты показывают улучшение сжимаемости, несжимаемости и эстетического качества. Однако такие проблемы, как вознаграждение за чрезмерную оптимизацию и недостатки в методах быстрого выравнивания, требуют дальнейшего изучения. Эти результаты открывают новые возможности для исследований и разработок в области моделей диффузии, особенно в задачах создания и завершения изображений.

сканировать бумагаИ проектИ И ссылка на гитхаб. Не забудьте присоединиться 26k+ML Подписка RedditИ Дискорд-каналИ И Информационный бюллетень по электронной почте, где мы делимся последними новостями об исследованиях ИИ, крутыми проектами в области ИИ и многим другим. Если у вас есть какие-либо вопросы относительно статьи выше или если мы что-то пропустили, напишите нам по адресу [email protected]

🚀 Ознакомьтесь с инструментами искусственного интеллекта 100 в клубе инструментов искусственного интеллекта.

Нихарика — технический консультант-стажер в Marktechpost. Она учится на третьем курсе бакалавриата и в настоящее время получает степень бакалавра технологий в Индийском технологическом институте (ИИТ), Харагпур. Она очень мотивированный человек, проявляющий большой интерес к машинному обучению, науке о данных и искусственному интеллекту, а также заядлый читатель последних разработок в этих областях.

🚀 Превратите свои селфи в заголовки, сгенерированные ИИ: попробуйте создателя заголовков ИИ №1 прямо сейчас

Anton Kuzmin

«Зомби-любитель-евангелист. Неизлечимый создатель. Гордый новатор в твиттере. Любитель еды. Интернетоголик. Жесткий интроверт».

«Это чудо»: генеральный директор OpenAI Сэм Альтман рассказывает о студенческих годах и будущем ИИ на мероприятии в Гарварде | Новости

Vizio представляет новую линейку звуковых панелей по цене от 99 долларов

PCIe 5.0 и 6.0 Подключитесь

США обвиняют Россию в использовании химического оружия в войне на Украине | Новости российско-украинской войны

Как может повышение цены на пинту «Гиннесса» на 6 центов превратиться в повышение цены на 30 центов со стороны мытарей? — Ирландские Таймс

Клаудия Винклеман могла бы быть сейчас среди вас. Силы безопасности живут в страхе перед тем днем, когда они выйдут из-под контроля — Irish Times

Скручивание и связывание волн материи с фотонами в полости

Добавить комментарий Отменить ответ

More Stories