Forklog 2026-06-18 09:27:16

Nvidia показала систему для обучения роботов

Исследователи Nvidia, Carnegie Mellon University и Калифорнийского университета в Беркли представили ENPIRE — фреймворк, который позволяет ИИ-агентам для программирования улучшать политики управления роботами на реальном оборудовании. Система запускает замкнутый цикл: робот выполняет задачу, среда автоматически оценивает результат и возвращается в исходное состояние, а ИИ-агент анализирует ошибки, переписывает код и запускает следующую серию испытаний. Как работает ENPIRE В робототехнике обучение на реальном оборудовании остается дорогим и медленным процессом. После неудачной попытки нужно вернуть сцену в исходное состояние, проверить результат, изменить алгоритм и снова провести испытание. Обычно часть этой работы требует участия инженеров. ENPIRE переносит в физический мир подход, который в Nvidia называют AutoResearch: ИИ-агенты пишут код, тестируют его и улучшают в следующих итерациях. Однако в отличие от цифровой среды здесь каждый эксперимент связан с реальными роботами, камерами, объектами, ошибками захвата, трением и другими физическими ограничениями. Фреймворк состоит из четырех модулей: Environment отвечает за автоматический сброс сцены, проверку результата, логирование и интерфейсы безопасности; Policy Improvement запускает улучшение политики управления; Rollout оценивает политику на одном или нескольких физических роботах; Evolution позволяет агентам анализировать логи, искать идеи в литературе, менять инфраструктуру обучения и исправлять код. После первичной настройки среды цикл может идти без постоянного наблюдения человека. Агент получает данные из видео, траекторий и функции награды, предлагает новую гипотезу, меняет код, тестирует результат на роботе и сохраняет изменения, если они улучшают показатель. Зачем нужны автоматическая проверка и сброс Ключевой элемент ENPIRE — автоматизация двух операций: проверки результата и возврата сцены в исходное состояние. Первый нужен для того, чтобы система могла сама определить, выполнена ли задача. Например, в сценарии с кабельной стяжкой функция оценки объединяла детектор, сегментационную модель и проверку по двум камерам. Так агент получал сигнал успеха или ошибки без ручной разметки каждого прогона. Автоматический сброс позволяет запускать много попыток подряд. После неудачного действия робот должен вернуть объект или сцену в состояние, пригодное для следующего эксперимента. Без этого обучение на реальном оборудовании быстро упирается в необходимость постоянного участия человека. Как отметили в Decrypt, на первом этапе человек помогает агенту создать постоянные инструменты — процедуру сброса и функцию награды. После этого они используются повторно, а агент берет на себя дальнейшее улучшение политики. Что показали на роботах В реальных экспериментах команда тестировала ENPIRE на нескольких задачах манипуляции. Push-T проверяет, может ли робот толкать T-образный объект в заданную зону. Pin Insertion требует вставлять штыри в отверстия диаметром 4 мм. Также показаны установка GPU и операции с кабельной стяжкой. Источник: Nvidia. На странице проекта Nvidia указано, что в реальных задачах манипуляции система успешно справлялась с заданием в 99% случаев, если агенту давали до восьми попыток с учетом предыдущих ошибок. Показатель отражает способность системы восстанавливаться после неудач и повторять действия с учетом контекста, а не точность одной изолированной попытки. В качестве агентов для программирования команда сравнила Codex на GPT-5.5, Claude Code на Opus 4.7 и Kimi Code на Kimi K2.6. Оценка проходила в бенчмарке AutoEnvBench на задачах Push-T и Pin Insertion. Источник: Nvidia. Исследователи также проверили ENPIRE в RoboCasa — симуляторе бытовых задач вроде открытия шкафов, ящиков и включения или выключения объектов на кухне. В этих сценариях ENPIRE превзошел GR00T от Nvidia и CaP-X — агентную систему, которая использует инструменты, но не запускает полный цикл автоматического исследования. Восемь роботов ускорили обучение Отдельный блок работы посвящен масштабированию на парк роботов. Nvidia провела эксперимент на восьми роботизированных станциях с двумя манипуляторами. У каждой были собственные оборудование, компьютер и ИИ-агент для программирования. Станции обменивались результатами через Git: удачная идея или изменение кода могли быстро распространяться между агентами. Такой подход позволил сократить время обучения. По данным Decrypt, переход от одного робота к восьми сократил время освоения Push-T примерно с пяти до двух часов. Для Pin Insertion время снизилось с более чем 90 минут до около 40 минут. Ограничения Авторы подчеркнули, что масштабирование не решает всех проблем. Когда агенты читают логи, пишут код, отлаживают его или ждут ответа базовой языковой модели, роботы и вычислительные ресурсы используются не полностью. С ростом числа роботов увеличивается GPU-активность, но средняя загрузка самих роботов снижается. Команды агентов тратят больше времени на обобщение результатов других веток и координацию, а не только на физические прогоны. Еще одно ограничение — рост расхода токенов. Больший парк роботов быстрее приводит политику к рабочему состоянию, но требует больше токенов из-за чтения логов, обмена идеями и координации между агентами. Кроме того, ENPIRE пока показан на ограниченном наборе задач манипуляции. Его результаты не означают, что роботы уже могут самостоятельно осваивать произвольные физические навыки в открытой среде без инженерной подготовки. Напомним, в июне Nvidia представила Isaac GR00T Reference Humanoid Robot — исследовательский референс-дизайн для разработки и тестирования навыков гуманоидных роботов. В конфигурацию вошли корпус Unitree H2 Plus и тактильные пятипалые кисти Sharpa Wave. Ранее Unitree представила «первого в мире готового к серийному производству» пилотируемого робота. Андроид способен передвигаться на двух и четырех конечностях.

Наиболее читаемые новости

CME to Sue CFTC Over Bitcoin Perpetual Future...
2026-06-18
Altcoin Market Update: Spot Selling Pressure...
2026-06-18
SpaceX Stock Price Prediction 2026: SPCX Trad...
2026-06-18
Bitcoin (BTC) Price Struggles to Hold $64K Su...
2026-06-18
Fed Meeting Today: Will Bitcoin Price Break A...
2026-06-17
100x Potential Puts Pepeto at the Top of the...
2026-06-17
WLD, UNI, and SPX Are Surging, Yet Altcoins F...
2026-06-17
Top 3 Altcoins to Buy Now XLM, AERO, HYPE Bef...
2026-06-17

Прочтите Отказ от ответственности : Весь контент, представленный на нашем сайте, гиперссылки, связанные приложения, форумы, блоги, учетные записи социальных сетей и другие платформы («Сайт») предназначен только для вашей общей информации, приобретенной у сторонних источников. Мы не предоставляем никаких гарантий в отношении нашего контента, включая, но не ограничиваясь, точность и обновление. Никакая часть содержания, которое мы предоставляем, представляет собой финансовый совет, юридическую консультацию или любую другую форму совета, предназначенную для вашей конкретной опоры для любых целей. Любое использование или доверие к нашему контенту осуществляется исключительно на свой страх и риск. Вы должны провести собственное исследование, просмотреть, проанализировать и проверить наш контент, прежде чем полагаться на них. Торговля - очень рискованная деятельность, которая может привести к серьезным потерям, поэтому проконсультируйтесь с вашим финансовым консультантом, прежде чем принимать какие-либо решения. Никакое содержание на нашем Сайте не предназначено для запроса или предложения