Исследователи из Калифорнийского университета в Беркли и Массачусетского технологического института предлагают алгоритм многоуровневой политики под названием Оптимизация политик шумоподавления (DDPO), который может оптимизировать модель распространения для последующих задач, используя только функцию вознаграждения черного ящика.

https://rl-diffusion.github.io/files/paper.pdf

Исследователи добились значительных успехов в обучении моделей распространения с использованием обучения с подкреплением (RL), чтобы улучшить выравнивание изображений в реальном времени и оптимизировать их для различных целей. Внедрение оптимизации политики распространения (DDPO), которая рассматривает снижение шума как многоступенчатую проблему принятия решения, обеспечивает стабильную настройку распространения на нисходящие цели.

Обучая модели распространения непосредственно на целях на основе RL, исследователи демонстрируют значительные улучшения в выравнивании изображений в реальном времени и оптимизации целей, которые трудно сформулировать с помощью обычных методов стимуляции. DDPO предлагает класс алгоритмов политического градиента, предназначенных для этой цели. Чтобы улучшить мгновенное выравнивание изображений, исследовательская группа использует обратную связь от модели языка большого зрения, известной как LLaVA. Используя обучение RL, они добились значительного прогресса в согласовании подсказок с сгенерированными изображениями. Примечательно, что модели смещаются в сторону более мультяшного стиля, что, вероятно, связано с преобладанием таких представлений в данных перед обучением.

Результаты, полученные с использованием DDPO для различных функций вознаграждения, являются многообещающими. Оценки таких показателей, как сжатие, несжимаемость и эстетическое качество, показывают значительные улучшения по сравнению с базовой моделью. Исследователи также подчеркивают возможности обобщения моделей, обученных RL, которые распространяются на невидимых животных, повседневные предметы и новые комбинации действий и предметов. Хотя обучение RL приносит значительные преимущества, исследователи отметили потенциальную проблему чрезмерной оптимизации. Тонкая настройка функций полученных вознаграждений может привести к тому, что модели бесполезно используют вознаграждения, часто уничтожая значимый контент изображения.

🚀 Ознакомьтесь с инструментами искусственного интеллекта 100 в нашем клубе инструментов искусственного интеллекта.

Кроме того, исследователи отметили подверженность модели LLaVA типографским атакам. Модели, обученные RL, могут генерировать целочисленный текст для животных, что обманывает LLaVA в сценариях быстрого выравнивания.

READ Привносим радость в жизнь: Fujifilm представляет принтер для смартфонов INSTAX MINI LINK 3™

Таким образом, введение DDPO и использование обучения RL для моделей распространения представляет собой значительный прогресс в улучшении выравнивания изображений в реальном времени и оптимизации различных целей. Результаты показывают улучшение сжимаемости, несжимаемости и эстетического качества. Однако такие проблемы, как вознаграждение за чрезмерную оптимизацию и недостатки в методах быстрого выравнивания, требуют дальнейшего изучения. Эти результаты открывают новые возможности для исследований и разработок в области моделей диффузии, особенно в задачах создания и завершения изображений.

сканировать бумагаИ проектИ И ссылка на гитхаб. Не забудьте присоединиться 26k+ML Подписка RedditИ Дискорд-каналИ И Информационный бюллетень по электронной почте, где мы делимся последними новостями об исследованиях ИИ, крутыми проектами в области ИИ и многим другим. Если у вас есть какие-либо вопросы относительно статьи выше или если мы что-то пропустили, напишите нам по адресу [email protected]

🚀 Ознакомьтесь с инструментами искусственного интеллекта 100 в клубе инструментов искусственного интеллекта.

Нихарика — технический консультант-стажер в Marktechpost. Она учится на третьем курсе бакалавриата и в настоящее время получает степень бакалавра технологий в Индийском технологическом институте (ИИТ), Харагпур. Она очень мотивированный человек, проявляющий большой интерес к машинному обучению, науке о данных и искусственному интеллекту, а также заядлый читатель последних разработок в этих областях.

🚀 Превратите свои селфи в заголовки, сгенерированные ИИ: попробуйте создателя заголовков ИИ №1 прямо сейчас

Anton Kuzmin

«Zombie amateur evangelist. Incurable creator. Proud twitter innovator. Food lover. Internetaholic. Rigid introvert.»

Spotify обвиняет Apple в нежелательном изменении технологии регулировки громкости

Первый пациент Neuralink дал имя своему мозговому чипу и выучил новые языки

Meta рассматривает возможность выпуска новых очков смешанной реальности в качестве альтернативы гарнитурам

Опрос показал, что 76% украинцев считают всех россиян ответственными за вторжение

Германия ужесточает законы об оружии и правила предоставления убежища после инцидента с ножевым ранением в Золингене | Германия

Ирландский инвестор закрывает сделку на сумму 35 миллионов евро по покупке офиса Meta в районе Доклендс в Дублине.

Дата переиздания фильма принца Гарри «Запасной» вызвала споры

Добавить комментарий Отменить ответ

More Stories