Инжиниринг | Котировки экспертов | Информационные бюллетени | Поиск | технологии
7 февраля 2024 г.
Исследователи из Вашингтонского университета разработали способ научить недорогого робота распознавать предметы на захламленной полке. Для проведения теста роботу (показанному в центре изображения) было предложено идентифицировать все предметы на полке перед ним.Самани и Банерджи/IEEE Транзакции по робототехнике
Представьте себе, что на столе стоит чашка кофе. Теперь представьте себе книгу, которая частично закрывает чашку. Мы, люди, по-прежнему знаем, что такое чашка кофе, хотя и не видим всего этого. Но робот может запутаться.
Роботам на складах и даже возле наших домов трудно распознавать и поднимать предметы, если они расположены слишком близко друг к другу или если пространство переполнено. Это потому, что роботам не хватает того, что психологи называют «единством объекта», или нашей способности идентифицировать объекты, даже если мы не можем видеть их все.
Исследователи из Вашингтонского университета разработали способ научить роботов этому навыку. Метод, сокращенно названный THOR, позволил недорогому роботу идентифицировать предметы, в том числе бутылку горчицы, банку Pringles и теннисный мяч, на захламленной полке. в Недавняя статья Команда, опубликованная в журнале IEEE Transactions on Robotics, показала, что THOR превосходит существующие современные модели.
UW News обратились к старшему автору Ашис Банерджидоцента Университета Висконсина на факультетах промышленной, системной инженерии и машиностроения, чтобы узнать подробности о том, как роботы идентифицируют объекты и как работает THOR.
Как роботы чувствуют окружающую среду?
Ашис Банерджи: Мы ощущаем мир вокруг нас с помощью зрения, звука, запаха, вкуса и осязания. Роботы воспринимают свое окружение с помощью одного или нескольких типов датчиков. Роботы «видят» объекты с помощью стандартных цветных камер, стереокамер или более сложных камер глубины. В то время как стандартные камеры просто записывают красочные, текстурированные изображения окружающей среды, стереокамеры и камеры глубины также предоставляют информацию о том, как далеко находятся объекты, так же, как это делают наши глаза.
Однако сами по себе датчики не могут позволить роботам понимать свое окружение. Роботам нужна система зрительного восприятия, похожая на зрительную кору человеческого мозга, чтобы обрабатывать изображения и определять, где находятся все объекты, оценивать их направления, определять, что это за объекты, и анализировать любой текст, написанный на них.
Почему роботам сложно распознавать объекты в людных местах?
папа: Здесь есть две основные проблемы. Во-первых, вероятно, будет большое количество объектов разных форм и размеров. Это затрудняет системе восприятия робота различение различных типов объектов. Во-вторых, когда несколько объектов расположены близко друг к другу, они загораживают обзор других объектов. Роботам трудно распознавать объекты, если они не имеют полного представления об объекте.
Есть ли типы объектов, которые особенно сложно распознать в людных местах?
папа: Многое зависит от присутствующих объектов. Например, трудно распознать меньшие объекты, когда есть разные размеры. Также трудно различать предметы одинаковой или одинаковой формы, например, разные типы мячей или коробок. Дополнительные проблемы возникают с мягкими или мягкими объектами, которые могут менять форму, когда робот собирает изображения с разных точек зрения в комнате.
Так как же работает THOR и почему он лучше предыдущих попыток решить эту проблему?
папа: Тор на самом деле детище главного автора Экта Самани, который завершил это исследование в качестве аспиранта Университета Висконсина. Суть THOR в том, что он позволяет роботу имитировать то, как мы, люди, знаем, что частично видимые вещи не являются сломанными или совершенно новыми вещами.
THOR делает это, используя формы объектов сцены для создания трехмерного представления каждого объекта. Отсюда он использует топологию, область математики, изучающую связи между различными частями объектов, чтобы отнести каждый объект к «наиболее вероятному» классу объектов. Это делается путем сравнения своего трехмерного представления с библиотекой сохраненных представлений.
THOR не полагается на обучение моделей машинного обучения изображениям переполненных помещений. Ему просто нужны изображения каждого объекта по отдельности. THOR не требует от робота специализированных и дорогих датчиков или процессоров и хорошо работает со стандартными камерами.
Это означает, что THOR чрезвычайно легко построить и, что более важно, легко использовать для совершенно новых пространств с разнообразным фоном, условиями освещения, расположением объектов и степенью загроможденности. Он также работает лучше, чем методы распознавания трехмерных форм, поскольку его трехмерное представление объектов является более подробным, что помогает распознавать объекты в реальном времени.
Как можно использовать ТОР?
папа: THOR можно использовать с любым обслуживающим роботом, независимо от того, работает ли робот у кого-то дома, в офисе, магазине, на складе или на производственном предприятии. Фактически, наша пилотная оценка показывает, что THOR одинаково эффективен для помещений складского типа, гостиных и семейных комнат.
Хотя THOR работает намного лучше, чем другие существующие методы, для всех типов объектов в этих захламленных пространствах, он лучше всего справляется с идентификацией предметов кухонного типа, таких как чашка или кувшин, которые обычно имеют четкие, но правильные формы и вариации среднего размера.
Показанные здесь зеленые прямоугольники окружают объекты, которые робот правильно определил. Красные рамки окружают неправильно выбранные элементы.Самани и Банерджи/IEEE Транзакции по робототехнике
Что тогда?
Есть много дополнительных вопросов, которые необходимо решить, и над некоторыми из них мы работаем. Например, в настоящее время THOR учитывает только внешний вид объектов, но будущие версии могут учитывать и другие аспекты внешнего вида, такие как цвет, текстура или текстовые метки. Также полезно рассмотреть, как THOR можно использовать для борьбы с мягкими или поврежденными объектами, форма которых отличается от ожидаемой конфигурации.
Кроме того, в некоторых помещениях может быть настолько многолюдно, что некоторые объекты вообще не будут видны. В этих сценариях робот должен иметь возможность двигаться, чтобы лучше «видеть» объекты, или, если ему разрешено, перемещаться вокруг некоторых объектов, чтобы лучше видеть заблокированные объекты.
И последнее, но не менее важное: робот должен иметь возможность обращаться с объектами, которые он никогда раньше не видел. В этих сценариях робот должен иметь возможность поместить эти объекты в категорию «разные» или «неизвестные» объекты, а затем запросить помощь человека для правильной идентификации этих объектов.
Это исследование частично финансировалось за счет премии Amazon Research Award.
Для получения дополнительной информации свяжитесь с Банерджи по адресу: [email protected].
Теги: Ашис Банерджи • Инженерный колледж • Факультет промышленной и системной инженерии • Факультет машиностроения
«Zombie amateur evangelist. Incurable creator. Proud twitter innovator. Food lover. Internetaholic. Rigid introvert.»
More Stories
Spotify обвиняет Apple в нежелательном изменении технологии регулировки громкости
Первый пациент Neuralink дал имя своему мозговому чипу и выучил новые языки
Meta рассматривает возможность выпуска новых очков смешанной реальности в качестве альтернативы гарнитурам