Например, роботу, манипулирующему предметами во время работы на кухне, было бы полезно понять, какие предметы сделаны из одних и тех же материалов. Обладая этим знанием, робот будет знать, что нужно прилагать одинаковое усилие, когда он берет маленькую пачку масла из темного угла прилавка или целую пачку из ярко освещенного холодильника.
Идентификация объектов в сцене, состоящей из одного и того же материала, известная как выбор материала, является особенно сложной проблемой для машин, поскольку внешний вид материала может сильно различаться в зависимости от формы объекта или условий освещения.
Ученые Массачусетского технологического института и Adobe Research сделали шаг к решению этой проблемы. Они разработали технологию, которая может идентифицировать все пиксели изображения, представляющие определенный материал, которые отображаются в указанном пользователем пикселе.
Этот метод точен, даже если объекты имеют разные формы и размеры, а разработанная ими модель машинного обучения не обманывается тенями или условиями освещения, из-за которых один и тот же материал может выглядеть по-разному.
Хотя они обучили свою модель, используя только «синтетические» данные, которые генерируются компьютером, который модифицирует 3D-сцены для создания множества различных изображений, система эффективно работает с реальными сценами в помещении и на улице, как никогда раньше. Этот подход также можно использовать для видео; Как только пользователь выбирает пиксель в первом кадре, модель может идентифицировать объекты, сделанные из одного и того же материала, в остальной части видео.
В дополнение к приложениям для понимания сцен для роботов этот метод можно использовать для редактирования изображений или интегрировать в вычислительные системы, которые определяют параметры материалов на изображениях. Его также можно использовать для систем веб-рекомендаций на основе статей. (Например, покупатель может искать одежду из определенного типа ткани.)
«Знание того, с какими материалами вы взаимодействуете, часто очень важно. Хотя два объекта могут выглядеть одинаково, они могут иметь разные физические свойства. Наш метод может упростить выделение всех остальных пикселей на изображении, сделанных из одного и того же материала», — говорит он, — говорит Прафул Шарма, аспирант в области электротехники и компьютерных наук и ведущий автор статьи. бумага на этой технике.
Соавторами Шармы являются Джулиан Филип и Майкл Гарби, ученые-исследователи Adobe Research; Старшие авторы: Уильям Т. Фриман, профессор электротехники и компьютерных наук Томаса и Герда Перкинсов, член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); Фредо Дюран, профессор электротехники и информатики, член CSAIL; и Валентин Дешентр, научный сотрудник Adobe Research. Исследование будет представлено на конференции SIGGRAPH 2023.
Новый подход
Существующие методы выбора материала изо всех сил пытаются точно идентифицировать все пиксели, представляющие один и тот же материал. Например, некоторые методы фокусируются на целых объектах, но один объект может быть сделан из нескольких материалов, например, деревянное кресло и кожаное сиденье. В других методах может использоваться заранее определенная комбинация материалов, но часто используются широкие ярлыки, такие как «древесина», несмотря на то, что существуют тысячи пород древесины.
Вместо этого Шарма и его сотрудники разработали подход машинного обучения, который динамически оценивает все пиксели изображения, чтобы определить физическое сходство между выбранным пользователем пикселем и всеми другими областями изображения. Если на изображении есть стол и два стула, а ножки стула и столешница сделаны из одного и того же дерева, их модель может точно идентифицировать эти сходные участки.
Прежде чем исследователи смогли разработать метод искусственного интеллекта для обучения тому, как выбирать похожие материалы, им пришлось преодолеть некоторые препятствия. Во-первых, нет текущего набора данных, который содержит объекты, которые были помечены достаточно точно для обучения их модели машинного обучения. Исследователи представили свой синтетический набор данных для внутренних сцен, который включал 50 000 изображений и более 16 000 текстур, случайно примененных к каждому объекту.
«Нам нужен был набор данных, в котором каждый отдельный тип материала можно было бы охарактеризовать независимо друг от друга», — говорит Шарма.
Имея в руках набор синтетических данных, они обучили модель машинного обучения задаче выявления похожих материалов на реальных изображениях, но это не удалось. Исследователи поняли, что виновато смещающееся распределение. Это происходит, когда модель обучается на синтетических данных, но терпит неудачу при проверке на реальных данных, которые могут сильно отличаться от обучающей выборки.
Чтобы решить эту проблему, они построили свою модель поверх ранее протестированной модели компьютерного зрения, которая видела миллионы реальных изображений. Они использовали предварительное знание этой модели, используя визуальные функции, которые они уже изучили.
«В машинном обучении, когда вы используете нейронную сеть, обычно вместе изучается представление и процесс решения задачи. Мы решили эту проблему. Предварительно обученная модель дает нам представление, а затем наша нейронная сеть просто фокусируется на решении». задача, — говорит он.
решение подобия
Модель исследователей преобразует общие, предварительно выбранные визуальные характеристики в особенности, характерные для материала, и делает это надежным способом для форм объектов или различных условий освещения.
Затем модель может вычислить точки физического сходства для каждого пикселя изображения. Когда пользователь нажимает на пиксель, форма определяет, насколько близки друг к другу пиксели к запросу. Он создает карту, где каждый пиксель ранжируется по шкале от 0 до 1 для подобия.
«Пользователь просто щелкает один пиксель, а затем модель автоматически выбирает все области, содержащие одну и ту же текстуру», — говорит он.
Поскольку модель выводит оценку сходства для каждого пикселя, пользователь может точно настроить результаты, установив пороговое значение, например 90-процентное сходство, и получив карту изображения с этими отдельными областями. Метод также работает с перекрестным выделением изображений — пользователь может выбрать пиксель на одном изображении и найти такую же текстуру на отдельном изображении.
В ходе экспериментов исследователи обнаружили, что их модель может предсказывать области изображения, содержащие одинаковую текстуру, более точно, чем другие методы. Когда они измерили, насколько хорошо прогноз сравнивался с реальными фактами, то есть с реальными областями изображения, состоящими из одного и того же материала, они совпали с их моделью с точностью до 92 процентов.
В будущем они хотят улучшить модель, чтобы она могла лучше фиксировать мелкие детали объектов на изображении, что повысит точность их подхода.
«Богатые материалы способствуют функциональности и красоте мира, в котором мы живем. Но алгоритмы компьютерного зрения обычно игнорируют материалы и вместо этого в значительной степени сосредотачиваются на объектах. Эта статья вносит важный вклад в распознавание материалов на изображениях и видео в широком диапазоне сложных задач. условий», — говорит она Кавита Бала, декан Колледжа вычислительной техники и информатики Корнелла Пауэрса и профессор компьютерных наук, которая не участвовала в этой работе. «Эта технология может быть очень полезной как для потребителей, так и для дизайнеров. Например, домовладелец может представить себе, какими могут оказаться дорогостоящие варианты, такие как перетяжка дивана или смена ковров в комнате, и он может быть более уверенным в своем выборе дизайна». на эти представления.
«Главный евангелист пива. Первопроходец в области кофе на протяжении всей жизни. Сертифицированный защитник Твиттера. Интернетоголик. Практикующий путешественник».
More Stories
Ученые раскрыли секреты потери морских звезд и возобновления роста конечностей
Комплексное мероприятие сообщества людей с деменцией в Ратуте, посвященное Всемирному месяцу борьбы с болезнью Альцгеймера.
Новое исследование массивного надвига предполагает, что следующее большое землетрясение может быть неизбежным