Авторы изображений: Глубокий разум
[A version of this piece first appeared in TechCrunch’s robotics newsletter, Actuator. Subscribe here.]
Ранее в этом месяце команда Google DeepMind представила Open X-Embodiment, базу данных вакансий в области робототехники, созданную в сотрудничестве с 33 исследовательскими институтами. Участвующие исследователи сравнили систему с ImageNet, исторической базой данных, основанной в 2009 году, которая сейчас включает более 14 миллионов изображений.
«Подобно тому, как ImageNet проводила исследования в области компьютерного зрения, мы считаем, что Open X-Embodiment может сделать то же самое для разработки робототехники», — отметили тогда исследователи Куан Вуонг и Паннаг Санкети. «Создание набора данных с разнообразными демонстрациями роботов является ключевым шагом к обучению общей модели, которая может управлять множеством различных типов роботов, следовать разнообразным инструкциям, выполнять базовые рассуждения о сложных задачах и эффективно обобщать».
На момент анонса Open X-Embodiment содержал более 500 навыков и 150 000 задач, собранных из 22 воплощений робота. Не совсем цифры ImageNet, но это хорошее начало. Затем DeepMind обучила свою модель RT-1-X на данных и использовала ее для обучения роботов в других лабораториях, где она зафиксировала 50%-ный показатель успеха по сравнению с внутренними методами, разработанными командами.
Я, наверное, говорил это десятки раз на этих страницах, но сейчас действительно захватывающее время для машинного обучения. Я разговаривал со многими командами, которые подходят к проблеме с разных сторон и со все возрастающей эффективностью. Эра нестандартных роботов еще далека от завершения, но мы определенно чувствуем, что видим проблеск мира, в котором вполне возможен робот общего назначения.
Моделирование, несомненно, будет важной частью уравнения наряду с искусственным интеллектом (включая генеративное разнообразие). Все еще кажется, что некоторые компании ставят лошадь впереди телеги, когда дело доходит до создания устройств для общих задач, но кто знает, спустя несколько лет?
Винсент ВанХук — это человек, которого я уже некоторое время пытаюсь идентифицировать. Если я был доступен, то он — нет. Корабли ночью и все такое. К счастью, в минувшие выходные нам наконец удалось это сделать.
Ванхук — новичок в должности руководителя отдела робототехники в Google DeepMind, он занял эту должность в мае. Однако он проработал в компании более 16 лет, в последнее время в качестве выдающегося ученого в Google AI Robotics. В конце концов, он, возможно, лучший человек, с которым можно поговорить о роботизированных амбициях Google и о том, как они сюда попали.
В какой момент истории DeepMind была создана команда робототехники?
Изначально я не был на стороне DeepMind. Я участвовал в исследовании Google. Недавно мы объединились с DeepMind. Так что в каком-то смысле я начал работать с DeepMind совсем недавно. Но в Google DeepMind есть более давняя история исследований в области робототехники. Все началось с растущего мнения о том, что технология восприятия стала действительно хорошей.
Много компьютерного зрения и обработки звука, и все эти вещи вышли за угол и находятся почти на человеческом уровне. И мы начали спрашивать себя: «Ну, если предположить, что это продолжится в течение следующих нескольких лет, каковы будут последствия этого?» Одним из очевидных последствий стало то, что внезапно появление роботов в реальной среде стало реальной возможностью. Способность действительно разрабатывать и выполнять задачи в повседневной среде полностью зависела от наличия действительно сильных когнитивных способностей. Первоначально я работал над общим искусственным интеллектом и компьютерным зрением. В прошлом я также работал над распознаванием речи. Я увидел надпись на стене и решил сосредоточиться на использовании робототехники в качестве следующего этапа наших исследований.
Насколько я понимаю, многие из команды Everyday Robots оказались в этой команде. История Google с роботами уходит далеко в прошлое. Прошло 10 лет с тех пор, как Alphabet совершила все эти приобретения. [Boston Dynamics, etc.]. Похоже, что многие люди из этих компаний пополнили нынешнюю команду Google по робототехнике.
Большая часть команды прошла через эти приобретения. Это было до меня — я действительно увлекался компьютерным зрением и распознаванием речи, но у нас до сих пор много таких людей. Мы все больше приходим к выводу, что вся проблема робототехники подпадает под общую проблему ИИ. Решение интеллектуальной части действительно было ключевым фактором любого значимого процесса в реальной робототехнике. Мы направили много наших усилий на решение этой проблемы, и понимание и контроль контекста ОИИ будет большой проблемой, которую предстоит решить.
Большая часть работы, которую проделали Everyday Robots, похоже, затрагивает общий искусственный интеллект, или генеративный ИИ. Была ли передана работа, которую выполняла команда, команде робототехники DeepMind?
Мы сотрудничаем с Everyday Robots уже семь лет. Несмотря на то, что мы были двумя отдельными командами, у нас была очень глубокая связь. Фактически, одной из вещей, которая побудила нас в то время по-настоящему заняться робототехникой, было сотрудничество в рамках проекта skunkworks с командой Everyday Robots, где у них случайно валялось несколько снятых с эксплуатации роботизированных рук. Это было одно поколение оружия, которое привело к новому поколению, и оно валялось без дела.
Мы решили, что было бы забавно взять эти руки, собрать их все в комнате, чтобы они потренировались и научились хватать предметы. Идея изучения проблем с пониманием не соответствовала духу времени того времени. Идея использования машинного обучения и восприятия в качестве средства управления роботизированным захватом не была исследована. Когда им это удавалось, мы награждали их, а когда они терпели неудачу, мы ставили им большой палец вверх.
Мы впервые использовали машинное обучение и в основном решили эту общую проблему понимания, используя машинное обучение и искусственный интеллект. Это был яркий момент того времени. Там действительно было что-то новое. Это привело к расследованию, проведенному компанией Everyday Robots по поводу сосредоточения внимания на машинном обучении как способе управления этими роботами. Кроме того, с точки зрения исследований, продвижение большего количества робототехники является интересной проблемой для применения всех методов глубокого обучения ИИ, которые мы смогли так хорошо применить в других областях.
Ваша команда использует повседневных ботов?
Небольшая часть команды была поглощена моей командой. Мы унаследовали их роботов и до сих пор ими пользуемся. Даже сейчас мы продолжаем разрабатывать технологии, которые они уже разработали и над которыми работают. Вся поездка продолжается с несколько иной направленностью, чем первоначально предполагала команда. На самом деле мы гораздо больше сосредоточены на интеллекте, чем на создании робота.
Вы упомянули, что команда переехала в офис Alphabet X. Есть ли что-то более глубокое в сотрудничестве между командами и совместном использовании ресурсов?
Это очень практичное решение. У них хороший Wi-Fi, хорошая мощность и много места.
Мне бы хотелось, чтобы во всех зданиях Google был хороший Wi-Fi.
Вы на это надеялись, не так ли? Но наше решение переехать сюда было очень простым. Должен сказать, самым важным решением было то, что у них здесь хорошее кафе. В нашем предыдущем офисе не было хорошей еды, и люди начали жаловаться. Никакой скрытой повестки дня здесь нет. Нам нравится тесно сотрудничать с остальными участниками X. Я думаю, что здесь есть много синергии. У них есть действительно талантливые роботы, работающие над рядом проектов. У нас есть сотрудничество с Intrinsic, которое мы хотели бы спонсировать. Нам очень важно находиться здесь, и это красивое здание.
Есть некоторое сходство с Intrinsic с точки зрения того, что они делают со своей платформой — например, робототехника без кода и обучающиеся боты. Он пересекается с общим и генеративным искусственным интеллектом.
Интересно, как роботы развивались со всех сторон, становясь совершенно индивидуальными и приобретая совершенно другой набор опыта и навыков. По большому счету, мы идем по пути создания робототехники общего назначения, независимо от того, применима ли она к промышленной среде или, скорее, к домашней среде. Принципы, лежащие в его основе, основанные на очень мощном ядре искусственного интеллекта, очень похожи. Мы действительно расширяем горизонты, пытаясь изучить, как мы можем поддерживать область приложений как можно более широко. Это ново и интересно. Это очень зеленая территория. В космосе есть что исследовать.
Мне нравится спрашивать людей, насколько, по их мнению, мы далеки от того, что мы можем с полным основанием назвать роботами общего назначения.
Есть нюанс в определении роботов общего назначения. Мы действительно фокусируемся на методах общего назначения. Некоторые подходы могут быть применены как к промышленным, так и к бытовым роботам или тротуарным роботам, причем все они имеют разные варианты реализации и форм-факторы. Мы не полагаемся на аватар общего назначения, который сделает все за вас, так же, как и на то, чтобы у вас был очень конкретный аватар для решения вашей проблемы. приличный. Мы можем быстро настроить его для решения конкретной вашей проблемы. Итак, вот большой вопрос: появятся ли когда-нибудь роботы общего назначения? Многие люди выдвигают гипотезы о том, произойдет ли это и когда.
На сегодняшний день большего успеха удалось достичь с помощью нестандартных роботов. Я думаю, что в какой-то степени просто не было технологий, которые позволили бы появиться более универсальным роботам. Приведет ли нас к этому деловая ситуация – очень хороший вопрос. Я не думаю, что на этот вопрос можно ответить, пока мы не обретем большую уверенность в технологии, лежащей в его основе. Это то, на чем мы сейчас ездим. Мы видим больше признаков жизни, поскольку правдоподобны весьма общие подходы, не зависящие от конкретного воплощения. Последнее, что мы сделали, — это проект RTX. Мы посетили несколько академических лабораторий — я думаю, сейчас у нас 30 разных партнеров — и попросили их взглянуть на их миссию и данные, которые они собрали. Давайте перенесем это в общее хранилище данных, обучим на его основе большую модель и посмотрим, что произойдет.
Какую роль будет играть генеративный искусственный интеллект в робототехнике?
Я думаю, что это будет очень централизовано. В языковой модели произошла крупная революция. Все начинают задаваться вопросом, можем ли мы использовать множество лингвистических моделей для роботов, и я думаю, что это может быть слишком поверхностно. Знаете: «Давайте возьмем сегодняшнюю моду и придумаем, что с ней можно сделать», но оказывается, она довольно глубокая. Причина в том, что, если задуматься, языковые модели на самом деле не связаны с языком. Речь идет о здравом смысле и понимании повседневного мира. Итак, если большая языковая модель знает, что вы ищете чашку кофе, она, скорее всего, найдет ее в кухонном шкафу или на столе.
Имеет смысл поставить чашку кофе на стол. Ставить столик поверх кофейной чашки нелогично. О таких простых фактах вы даже не задумываетесь, потому что они для вас настолько очевидны. Всегда было трудно воплотить это в воплощенную систему. Закодировать знания действительно сложно, тогда как эти большие языковые модели обладают этими знаниями и кодируют их так, чтобы мы могли их использовать. Таким образом, мы смогли воспользоваться этим здравым смыслом и применить его к планированию робототехники. Мы смогли применить его к взаимодействиям роботов, манипуляциям, взаимодействиям человека и робота, и наличие агента, обладающего здравым смыслом и способного думать о вещах в моделируемой среде, наряду с когнитивными способностями, действительно имеет фундаментальное значение для проблемы робототехники.
Моделирование, вероятно, будет составлять значительную часть сбора данных для анализа.
Да. Это одна из составляющих этого. Проблема симуляции заключается в том, что вам необходимо преодолеть разрыв между симуляцией и реальностью. Моделирование – это приближение к реальности. Может быть очень сложно сделать его очень точным и отражающим реальность. Физика симулятора должна быть хорошей. Визуальное представление реальности в этой симуляции должно быть очень хорошим. На самом деле это еще одна область, в которой генеративный ИИ начинает проявлять себя. Вы можете себе представить, что вместо запуска физического симулятора вы просто генерируете, используя генерацию изображений или какую-то генеративную модель.
Тай Брейди недавно рассказал мне, что Amazon использует моделирование для создания пакетов.
Это имеет смысл. И в дальнейшем, я думаю, помимо просто создания активов, вы можете представить себе создание фьючерсов. Представьте, что произойдет, если робот что-нибудь сделает? Убедитесь, что он действительно делает то, что вы хотите, и используйте это как способ планирования будущего. Это все равно, что мечтать о роботе, использующем генеративные модели, вместо того, чтобы делать это в реальном мире.
«Zombie amateur evangelist. Incurable creator. Proud twitter innovator. Food lover. Internetaholic. Rigid introvert.»
More Stories
Spotify обвиняет Apple в нежелательном изменении технологии регулировки громкости
Первый пациент Neuralink дал имя своему мозговому чипу и выучил новые языки
Meta рассматривает возможность выпуска новых очков смешанной реальности в качестве альтернативы гарнитурам