Однажды вы, возможно, захотите, чтобы ваш домашний робот принес стопку грязной одежды вниз и положил ее в стиральную машину в дальнем левом углу подвала. Роботу необходимо будет объединить ваши инструкции с визуальной обратной связью, чтобы определить, какие шаги ему следует предпринять для выполнения этой задачи.
Для агента ИИ это легче сказать, чем сделать. Существующие подходы часто используют несколько созданных вручную моделей машинного обучения для решения различных частей задачи, для создания которых требуются значительные человеческие усилия и опыт. Эти подходы, использующие визуальные представления для непосредственного принятия навигационных решений, требуют для обучения огромных объемов визуальных данных, которые зачастую трудно получить.
Чтобы преодолеть эти проблемы, исследователи из Массачусетского технологического института (MIT) и Лаборатории искусственного интеллекта Watson MIT-IBM создали навигационный метод, который превращает визуальные представления в фрагменты языка, которые затем объединяются в одну большую языковую модель, удовлетворяющую всем требованиям. важные части. Многоступенчатая навигация.
Вместо кодирования визуальных особенностей изображений, окружающих робота, в виде визуальных представлений, что требует больших вычислительных ресурсов, их метод генерирует текстовые подписи, описывающие точку зрения робота. Большая языковая модель использует подписи для прогнозирования действий, которые должен предпринять робот для выполнения инструкций пользователя на основе языка.
Поскольку их метод использует чисто языковые представления, они могут использовать большую языковую модель для эффективной генерации огромного количества синтетических обучающих данных.
Хотя этот подход не превосходит методы, использующие визуальные функции, он хорошо работает в ситуациях, когда для обучения недостаточно визуальных данных. Исследователи обнаружили, что сочетание лингвистического ввода с визуальными подсказками приводит к улучшению производительности навигации.
«Используя только язык в качестве перцептивного представления, наш подход является более простым. Поскольку все входные данные могут быть закодированы как язык, мы можем создать путь, понятный человеку», — говорит Боуэн Пэн, аспирант кафедры электротехники и электротехники. Информатика (EECS) и ведущий автор статьи». Статья об этом подходе.
В число соавторов Пана входят его советник Оди Олива, директор по стратегическому взаимодействию с промышленностью Школы вычислений Шварцмана Массачусетского технологического института, директор Лаборатории искусственного интеллекта MIT-IBM Watson и старший научный сотрудник Лаборатории компьютерных наук и искусственного интеллекта (CSAIL). . ); Филип Изола, доцент EECS и член CSAIL; Старший автор Юн Ким, доцент EECS и член CSAIL; и другие сотрудники Лаборатории искусственного интеллекта Watson MIT-IBM и Дартмутского колледжа. Исследование будет представлено на конференции Североамериканского отделения Ассоциации компьютерной лингвистики.
Решение проблемы зрения с помощью языка
По словам Пана, поскольку крупномасштабные языковые модели являются наиболее мощными доступными моделями машинного обучения, исследователи стремились включить их в сложную задачу, известную как зрительно-языковая навигация.
Но такие модели принимают текстовый ввод и не могут обрабатывать визуальные данные с камеры робота. Итак, команде нужно было найти способ использовать этот язык.
Их метод использует простую модель аннотаций для получения текстовых описаний визуальной обратной связи робота. Эти подписи объединяются с языковыми инструкциями и передаются в большую языковую модель, которая решает, какой шаг навигации роботу следует предпринять дальше.
Большая языковая модель выводит комментарий к сцене, которую робот должен увидеть после завершения этого шага. Это используется для обновления послужного списка, чтобы робот мог отслеживать свое местонахождение.
Модель повторяет эти процессы, создавая путь, который шаг за шагом ведет робота к цели.
Чтобы упростить процесс, исследователи разработали шаблоны, в которых информация мониторинга представляется модели в стандартной форме — как серия выборов, которые робот может сделать в зависимости от своего окружения.
Например, подпись может гласить: «Слева от вас под углом 30 градусов находится дверь, рядом с которой находится растение в горшке, а за вашей спиной — небольшой письменный стол со столом и компьютером» и так далее. Модель выбирает, должен ли робот двигаться навстречу или нет. Дверь или офис.
«Одной из самых больших проблем было выяснить, как соответствующим образом закодировать такого рода информацию в языке, чтобы агент понял, в чем заключается задача и как он должен на нее реагировать», — говорит Пэн.
Языковые преимущества
Когда они протестировали этот подход, хотя он и не смог превзойти методы, основанные на зрении, они обнаружили, что он дает несколько преимуществ.
Во-первых, поскольку для компиляции текста требуется меньше вычислительных ресурсов, чем для сложных данных изображения, их подход можно использовать для быстрого создания синтетических обучающих данных. В одном тесте они создали 10 000 синтетических путей на основе 10 реальных визуальных путей.
Эта технология также может устранить пробел, который может помешать агенту, обученному в моделируемой среде, хорошо работать в реальном мире. Этот разрыв часто возникает потому, что изображения, созданные компьютером, могут сильно отличаться от сцен реального мира из-за таких элементов, как освещение или цвет. Но язык, описывающий синтетический образ и реальную вещь, будет сложно отличить, говорит Пан.
Представления, используемые в их модели, также легко понять людям, поскольку они написаны на естественном языке.
«Если клиент не может достичь своей цели, мы можем легко определить, где он потерпел неудачу и почему. Возможно, историческая информация недостаточно ясна или в примечании упущены некоторые важные детали», — говорит Пан.
Кроме того, их метод легче применять к различным задачам и средам, поскольку он использует только один тип входных данных. Пока данные могут быть закодированы на языке, они могут использовать одну и ту же форму без каких-либо изменений.
Но одним недостатком является то, что их метод естественным образом упускает некоторую информацию, которую можно получить с помощью моделей, основанных на зрении, например, информацию о глубине.
Однако исследователи были удивлены, увидев, что сочетание языковых представлений с методами, основанными на зрении, улучшило способность агента ориентироваться.
«Это может означать, что язык может улавливать некоторую информацию более высокого уровня, которую невозможно уловить с помощью чисто визуальных функций», — говорит он.
Это одна из областей, которую исследователи хотели бы изучить дальше. Они также хотят разработать аннотатор, ориентированный на мобильность, который может повысить производительность метода. Кроме того, они хотят изучить способность больших языковых моделей демонстрировать пространственную осведомленность и посмотреть, как это может помочь в языковой навигации.
Это исследование частично финансируется лабораторией MIT-IBM Watson AI Lab.
«Главный евангелист пива. Первопроходец в области кофе на протяжении всей жизни. Сертифицированный защитник Твиттера. Интернетоголик. Практикующий путешественник».
More Stories
Ученые раскрыли секреты потери морских звезд и возобновления роста конечностей
Комплексное мероприятие сообщества людей с деменцией в Ратуте, посвященное Всемирному месяцу борьбы с болезнью Альцгеймера.
Новое исследование массивного надвига предполагает, что следующее большое землетрясение может быть неизбежным