Исследователи добились значительных успехов в обучении моделей распространения с использованием обучения с подкреплением (RL), чтобы улучшить выравнивание изображений в реальном времени и оптимизировать их для различных целей. Внедрение оптимизации политики распространения (DDPO), которая рассматривает снижение шума как многоступенчатую проблему принятия решения, обеспечивает стабильную настройку распространения на нисходящие цели.
Обучая модели распространения непосредственно на целях на основе RL, исследователи демонстрируют значительные улучшения в выравнивании изображений в реальном времени и оптимизации целей, которые трудно сформулировать с помощью обычных методов стимуляции. DDPO предлагает класс алгоритмов политического градиента, предназначенных для этой цели. Чтобы улучшить мгновенное выравнивание изображений, исследовательская группа использует обратную связь от модели языка большого зрения, известной как LLaVA. Используя обучение RL, они добились значительного прогресса в согласовании подсказок с сгенерированными изображениями. Примечательно, что модели смещаются в сторону более мультяшного стиля, что, вероятно, связано с преобладанием таких представлений в данных перед обучением.
Результаты, полученные с использованием DDPO для различных функций вознаграждения, являются многообещающими. Оценки таких показателей, как сжатие, несжимаемость и эстетическое качество, показывают значительные улучшения по сравнению с базовой моделью. Исследователи также подчеркивают возможности обобщения моделей, обученных RL, которые распространяются на невидимых животных, повседневные предметы и новые комбинации действий и предметов. Хотя обучение RL приносит значительные преимущества, исследователи отметили потенциальную проблему чрезмерной оптимизации. Тонкая настройка функций полученных вознаграждений может привести к тому, что модели бесполезно используют вознаграждения, часто уничтожая значимый контент изображения.
Кроме того, исследователи отметили подверженность модели LLaVA типографским атакам. Модели, обученные RL, могут генерировать целочисленный текст для животных, что обманывает LLaVA в сценариях быстрого выравнивания.
Таким образом, введение DDPO и использование обучения RL для моделей распространения представляет собой значительный прогресс в улучшении выравнивания изображений в реальном времени и оптимизации различных целей. Результаты показывают улучшение сжимаемости, несжимаемости и эстетического качества. Однако такие проблемы, как вознаграждение за чрезмерную оптимизацию и недостатки в методах быстрого выравнивания, требуют дальнейшего изучения. Эти результаты открывают новые возможности для исследований и разработок в области моделей диффузии, особенно в задачах создания и завершения изображений.
сканировать бумагаИ проектИ И ссылка на гитхаб. Не забудьте присоединиться 26k+ML Подписка RedditИ Дискорд-каналИ И Информационный бюллетень по электронной почте, где мы делимся последними новостями об исследованиях ИИ, крутыми проектами в области ИИ и многим другим. Если у вас есть какие-либо вопросы относительно статьи выше или если мы что-то пропустили, напишите нам по адресу [email protected]
Нихарика — технический консультант-стажер в Marktechpost. Она учится на третьем курсе бакалавриата и в настоящее время получает степень бакалавра технологий в Индийском технологическом институте (ИИТ), Харагпур. Она очень мотивированный человек, проявляющий большой интерес к машинному обучению, науке о данных и искусственному интеллекту, а также заядлый читатель последних разработок в этих областях.
«Зомби-любитель-евангелист. Неизлечимый создатель. Гордый новатор в твиттере. Любитель еды. Интернетоголик. Жесткий интроверт».
More Stories
Spotify обвиняет Apple в нежелательном изменении технологии регулировки громкости
Первый пациент Neuralink дал имя своему мозговому чипу и выучил новые языки
Meta рассматривает возможность выпуска новых очков смешанной реальности в качестве альтернативы гарнитурам