跳转至

具身智能基础路线

词汇表

常见关键词 释义
End-effector 末端执行器(夹爪)
Teleoperation 遥操作(人控制机器人)
Demonstration 演示(人教机器人的数据)
Augmentation 增强(数据扩充)
Grounding 锚定/落地(把抽象概念对应到具体物体)
Sim2Real 仿真到真机(Simulation to Reality)

什么是具身智能?

集成环境理解智能交互认知推理规划执行于一体的系统化方案

  • 环境理解(perception): 已有一定成果
    • 不仅是看清物体(检测),还要理解物体(分割)
    • 利用 CV(计算机视觉)技术,如目标检测、语义分割等
  • 智能交互:ASR(语音转文字)-->LLM(大模型理解)-->TTS(文字转语音)
  • 认知推理: 大语言模型带来惊喜

    • 这是目前的大热门。利用 LLM(大语言模型)内置的 Common Sense (常识) 和逻辑思维,去拆解任务
    • 通俗解释:机器人不再是死板执行代码,而是像人一样思考“如果我要切苹果,我得先找到刀”
  • 规划执行(planning & Execution):

    • LLM As General Planner:把大模型当作“大脑”来做顶层规划,从自然语言指令 (Prompt) 生成机器人能执行的代码 (Code)
    • 系统化思维:具身智能不是单一模型,而是多个模型(视觉、语言、控制)的有机协作

具身智能的发展

LLM As General Planner

通过包罗万象的Tokens训练的LLM,其内蕴的Common Sense以及思维逻辑,能够成为面向机器人的General Planner

从Prompt到Code
Pasted image 20260215232323.png

系统化视角:次系统化思维

用非常多的模型去整合成一个系统,才实现一个目标
模型之间的协调、匹配
怎么把上一个模型和下一个模型做一个更好的桥接

基础技术路线

1. 场景理解 相对成熟

  • 检测分割 (为代表的传统的深度学习、CV做的基础性任务)
    • 分割:SAM (Segment Anything Model)、Open-Vocabulary Detection (开放词汇检测)、SAM3D(点云 or 激光扫描)
    • 检测:Open-Volcabulary(开放词汇检测:找到某个和query中的text最匹配的某个bounding box)
  • 多模态定位 (Multimodal Grounding) 更聪明
    • Grounding 是把文字(比如“苹果”)和图片中具体的像素区域对应起来
    • 多模态(文本、图像)大模型能够实现像素级别(Pixel-level) 的细粒度定位(相对于Bounding box的信息含量更高),表征着大模型的理解能力大幅度提高
    • Prompt的多样化(结合bounding box)使得Grounding具有更好的针对性

      多模态多任务赋能的LLM具有更加通用的场景理解能力

2. 数据引导 和纯粹的数据收集区分,因为scale难以达到较大规模

机器人领域的最大问题:数据量不够

  • 视频学习
    • MimicPlay / Vid2Robot:用已有的视频(互联网)提取有用的信息,降低对机器人真机操作的数据需求 提高数据利用效率,减少算法对数据采集效率的依赖
    • 局限性:信息表征的完全度,相对于真机的还原性,内在的迁移能力
  • 硬件在环采集 (Hardware-in-the-loop)
    • Light-weight Hardware:通过轻量级的硬件进行采集
      • UMI:舍去机器人庞大的躯干、双臂,只是针对于End-effector (EE,末端执行器,指机械臂最前端的夹爪或工具) 做处理。例如做一个1:1的夹爪,在夹爪中放了多视角的camera。采集的数据训练完了之后部署到真机上
      • DexCap:带上数据手套,再加上两个深度摄像头去做末端的pose去精确捕捉手指末端的3D位置-->通过映射(以及删除小拇指数据)到LEAP Hand(一种灵巧手)-->力运动学 匹配手的尺寸到灵巧手尺寸-->实现双灵巧手
      • HIRO Hand:通过抓环指套,hand to hand(手把手)带着机械臂去完成操作,省去了人手到灵巧手的转换过程,不会失真
    • Heavy Hardware:重量级硬件(VR眼镜、VR手套+两个双臂主从的遥操作(Teleoperation)-->双臂灵巧手) 硬件成本高 采集信息效率、信息量多
      • Sanctuary AI、Tesla:VR手套把人手的多关节、高自由度的复杂运动做一个采集和映射。在遥操作的时候采集更加丰富的操作数据(相较于UMI)
  • 生成式仿真 Generative Simulation 深层仿真
    • RoboGen:构建闭环自动流程,实现propose任务-->generate任务的场景-->learn训练数据的流程 难以把握可控性
    • MimicGen (Demonstration Augmentation (演示数据增强)):用少量的人类演示数据,通过算法自动生成出各种变体(比如改变物体位置、颜色),把 1 条数据变成 100 条用 可控性提升

3.动作执行 机器人“小脑 ”

  • 生成式模仿学习 Generative Imitation Learning
    把state丢进去当成时间序列去处理,输出每个joint的时间序列去完成一个学习
    • ACT(Action Chunking Transformer):机器人不是想一步走一步,而是预测未来的一整段(一块)动作序列,这样动作更连贯流畅,提高训练效率和稳定性
    • Diffusion Policy (扩散策略)
      • 先给数据Add Noise (加噪), 再学习如何Denoise (去噪) 还原出动作, 使模态得到提升。把时间序列拆解到每一步,每一步之间做diffusion,最后得到的trajectory作为机器人末端或low level joint
      • Prediction Horizon:预测未来 N 步(Prediction Horizon(预测视界)),执行前 k 步(Receding Horizon Control (RHC, 滚动时域控制)提高鲁棒性和稳定性
  • 可供性 Affordance
    上述两个的中间形态表达,
    • RoboAffordance:在这个输入(2D图片)中,哪一个region(区域或像素点)可以被怎么样操作,被接触后下一步的动作应该是什么 contact point+单方向的 trajectory/vector field
    • AffordPose (3D):输入点云,其中的物品的每一个part的可供性都不同,能用来做的事情也不一样,并且标注了灵巧手的自由度
  • 大模型问答 Q&A from LLM
    通过组织特定的Prompt,从大语言模型中query出一些能够直接用来进行操作的一些关键字符
    用大预言模型的理解,及其推理能力提取出机器人最后要走的目标
  • 大模型Prompt规划 Prompt Planning from LLM
    把大任务拆解成小的 Prompt,再调用机器人底层的 API
  • Language Correction
    人在观察机器人执行的过程中去给出一些语音或文本的提示,去更好地完成任务

4.世界模型

为什么世界模型在面向具身智能(包括面向操作的具身智能)是比较重要的?

Simulation 就是某一方向的世界模型
从物体的角度去理解世界和交互是一种很重要的认知能力
世界模型可以去预测机器人和物体的交互 很好的模型预测,实现矫正、选择出最优的action
- 3D VLA:经过一个操作之后,新的点云环境是什么(\(S_t\)在经过一个\(A_t\)之后,\(S_{t+1}\)是什么)
例如:拿开杯子后,桌子露出来了
- LAPO:在环境中往上下左右走,环境会变成什么样

机器人现状 机器人大脑、小脑发展不平衡

大脑:模拟人的决策思维过程(理解环境、和人交互,完成动作规划、执行动作)
小脑:完成这些规划指令
多模态大模型稳步推进,但是小脑的灵巧操作能力有待提高,原因:
1. 数据获取的难度
2. 如何设置控制器
manipulation的技术路线还没有统一,没有像transformer一样形成一个大一统的问题