COINPURO - Crypto Currency Latest News logo COINPURO - Crypto Currency Latest News logo
Forklog 2026-06-18 09:27:16

Nvidia показала систему для обучения роботов

Исследователи Nvidia, Carnegie Mellon University и Калифорнийского университета в Беркли представили ENPIRE — фреймворк, который позволяет ИИ-агентам для программирования улучшать политики управления роботами на реальном оборудовании. Система запускает замкнутый цикл: робот выполняет задачу, среда автоматически оценивает результат и возвращается в исходное состояние, а ИИ-агент анализирует ошибки, переписывает код и запускает следующую серию испытаний. Как работает ENPIRE В робототехнике обучение на реальном оборудовании остается дорогим и медленным процессом. После неудачной попытки нужно вернуть сцену в исходное состояние, проверить результат, изменить алгоритм и снова провести испытание. Обычно часть этой работы требует участия инженеров. ENPIRE переносит в физический мир подход, который в Nvidia называют AutoResearch: ИИ-агенты пишут код, тестируют его и улучшают в следующих итерациях. Однако в отличие от цифровой среды здесь каждый эксперимент связан с реальными роботами, камерами, объектами, ошибками захвата, трением и другими физическими ограничениями. Фреймворк состоит из четырех модулей: Environment отвечает за автоматический сброс сцены, проверку результата, логирование и интерфейсы безопасности; Policy Improvement запускает улучшение политики управления; Rollout оценивает политику на одном или нескольких физических роботах; Evolution позволяет агентам анализировать логи, искать идеи в литературе, менять инфраструктуру обучения и исправлять код. После первичной настройки среды цикл может идти без постоянного наблюдения человека. Агент получает данные из видео, траекторий и функции награды, предлагает новую гипотезу, меняет код, тестирует результат на роботе и сохраняет изменения, если они улучшают показатель. Зачем нужны автоматическая проверка и сброс Ключевой элемент ENPIRE — автоматизация двух операций: проверки результата и возврата сцены в исходное состояние. Первый нужен для того, чтобы система могла сама определить, выполнена ли задача. Например, в сценарии с кабельной стяжкой функция оценки объединяла детектор, сегментационную модель и проверку по двум камерам. Так агент получал сигнал успеха или ошибки без ручной разметки каждого прогона. Автоматический сброс позволяет запускать много попыток подряд. После неудачного действия робот должен вернуть объект или сцену в состояние, пригодное для следующего эксперимента. Без этого обучение на реальном оборудовании быстро упирается в необходимость постоянного участия человека. Как отметили в Decrypt, на первом этапе человек помогает агенту создать постоянные инструменты — процедуру сброса и функцию награды. После этого они используются повторно, а агент берет на себя дальнейшее улучшение политики. Что показали на роботах В реальных экспериментах команда тестировала ENPIRE на нескольких задачах манипуляции. Push-T проверяет, может ли робот толкать T-образный объект в заданную зону. Pin Insertion требует вставлять штыри в отверстия диаметром 4 мм. Также показаны установка GPU и операции с кабельной стяжкой. Источник: Nvidia. На странице проекта Nvidia указано, что в реальных задачах манипуляции система успешно справлялась с заданием в 99% случаев, если агенту давали до восьми попыток с учетом предыдущих ошибок. Показатель отражает способность системы восстанавливаться после неудач и повторять действия с учетом контекста, а не точность одной изолированной попытки. В качестве агентов для программирования команда сравнила Codex на GPT-5.5, Claude Code на Opus 4.7 и Kimi Code на Kimi K2.6. Оценка проходила в бенчмарке AutoEnvBench на задачах Push-T и Pin Insertion. Источник: Nvidia. Исследователи также проверили ENPIRE в RoboCasa — симуляторе бытовых задач вроде открытия шкафов, ящиков и включения или выключения объектов на кухне. В этих сценариях ENPIRE превзошел GR00T от Nvidia и CaP-X — агентную систему, которая использует инструменты, но не запускает полный цикл автоматического исследования. Восемь роботов ускорили обучение Отдельный блок работы посвящен масштабированию на парк роботов. Nvidia провела эксперимент на восьми роботизированных станциях с двумя манипуляторами. У каждой были собственные оборудование, компьютер и ИИ-агент для программирования. Станции обменивались результатами через Git: удачная идея или изменение кода могли быстро распространяться между агентами. Такой подход позволил сократить время обучения. По данным Decrypt, переход от одного робота к восьми сократил время освоения Push-T примерно с пяти до двух часов. Для Pin Insertion время снизилось с более чем 90 минут до около 40 минут. Ограничения Авторы подчеркнули, что масштабирование не решает всех проблем. Когда агенты читают логи, пишут код, отлаживают его или ждут ответа базовой языковой модели, роботы и вычислительные ресурсы используются не полностью. С ростом числа роботов увеличивается GPU-активность, но средняя загрузка самих роботов снижается. Команды агентов тратят больше времени на обобщение результатов других веток и координацию, а не только на физические прогоны. Еще одно ограничение — рост расхода токенов. Больший парк роботов быстрее приводит политику к рабочему состоянию, но требует больше токенов из-за чтения логов, обмена идеями и координации между агентами. Кроме того, ENPIRE пока показан на ограниченном наборе задач манипуляции. Его результаты не означают, что роботы уже могут самостоятельно осваивать произвольные физические навыки в открытой среде без инженерной подготовки. Напомним, в июне Nvidia представила Isaac GR00T Reference Humanoid Robot — исследовательский референс-дизайн для разработки и тестирования навыков гуманоидных роботов. В конфигурацию вошли корпус Unitree H2 Plus и тактильные пятипалые кисти Sharpa Wave. Ранее Unitree представила «первого в мире готового к серийному производству» пилотируемого робота. Андроид способен передвигаться на двух и четырех конечностях. 

가장 많이 읽은 뉴스

coinpuro_earn
면책 조항 읽기 : 본 웹 사이트, 하이퍼 링크 사이트, 관련 응용 프로그램, 포럼, 블로그, 소셜 미디어 계정 및 기타 플랫폼 (이하 "사이트")에 제공된 모든 콘텐츠는 제 3 자 출처에서 구입 한 일반적인 정보 용입니다. 우리는 정확성과 업데이트 성을 포함하여 우리의 콘텐츠와 관련하여 어떠한 종류의 보증도하지 않습니다. 우리가 제공하는 컨텐츠의 어떤 부분도 금융 조언, 법률 자문 또는 기타 용도에 대한 귀하의 특정 신뢰를위한 다른 형태의 조언을 구성하지 않습니다. 당사 콘텐츠의 사용 또는 의존은 전적으로 귀하의 책임과 재량에 달려 있습니다. 당신은 그들에게 의존하기 전에 우리 자신의 연구를 수행하고, 검토하고, 분석하고, 검증해야합니다. 거래는 큰 손실로 이어질 수있는 매우 위험한 활동이므로 결정을 내리기 전에 재무 고문에게 문의하십시오. 본 사이트의 어떠한 콘텐츠도 모집 또는 제공을 목적으로하지 않습니다.