具身智能基础路线

词汇表¶

常见关键词	释义
End-effector	末端执行器（夹爪）
Teleoperation	遥操作（人控制机器人）
Demonstration	演示（人教机器人的数据）
Augmentation	增强（数据扩充）
Grounding	锚定/落地（把抽象概念对应到具体物体）
Sim2Real	仿真到真机（Simulation to Reality）

什么是具身智能？¶

集成环境理解、智能交互、认知推理、规划执行于一体的系统化方案

环境理解（perception）： 已有一定成果
- 不仅是看清物体（检测），还要理解物体（分割）
- 利用 CV（计算机视觉）技术，如目标检测、语义分割等
智能交互：ASR（语音转文字）-->LLM（大模型理解）-->TTS（文字转语音）
认知推理： 大语言模型带来惊喜
- 这是目前的大热门。利用 LLM（大语言模型）内置的 Common Sense (常识) 和逻辑思维，去拆解任务
- 通俗解释：机器人不再是死板执行代码，而是像人一样思考“如果我要切苹果，我得先找到刀”
规划执行（planning & Execution）：
- LLM As General Planner：把大模型当作“大脑”来做顶层规划，从自然语言指令 (Prompt) 生成机器人能执行的代码 (Code)
- 系统化思维：具身智能不是单一模型，而是多个模型（视觉、语言、控制）的有机协作

具身智能的发展¶

LLM As General Planner¶

通过包罗万象的Tokens训练的LLM，其内蕴的Common Sense以及思维逻辑，能够成为面向机器人的General Planner

从Prompt到Code

系统化视角：次系统化思维¶

用非常多的模型去整合成一个系统，才实现一个目标
模型之间的协调、匹配
怎么把上一个模型和下一个模型做一个更好的桥接

基础技术路线¶

1. 场景理解相对成熟¶

检测分割（为代表的传统的深度学习、CV做的基础性任务）
- 分割：SAM (Segment Anything Model)、Open-Vocabulary Detection (开放词汇检测)、SAM3D(点云 or 激光扫描)
- 检测：Open-Volcabulary(开放词汇检测：找到某个和query中的text最匹配的某个bounding box)
多模态定位 (Multimodal Grounding) 更聪明
- Grounding 是把文字（比如“苹果”）和图片中具体的像素区域对应起来
- 多模态（文本、图像）大模型能够实现像素级别（Pixel-level） 的细粒度定位（相对于Bounding box的信息含量更高），表征着大模型的理解能力大幅度提高
- Prompt的多样化（结合bounding box）使得Grounding具有更好的针对性
  
  多模态、多任务赋能的LLM具有更加通用的场景理解能力

2. 数据引导和纯粹的数据收集区分，因为scale难以达到较大规模¶

机器人领域的最大问题：数据量不够

视频学习
- MimicPlay / Vid2Robot：用已有的视频（互联网）提取有用的信息，降低对机器人真机操作的数据需求 提高数据利用效率，减少算法对数据采集效率的依赖
- 局限性：信息表征的完全度，相对于真机的还原性，内在的迁移能力
硬件在环采集 (Hardware-in-the-loop)
- Light-weight Hardware：通过轻量级的硬件进行采集
  - UMI：舍去机器人庞大的躯干、双臂，只是针对于End-effector (EE，末端执行器,指机械臂最前端的夹爪或工具) 做处理。例如做一个1:1的夹爪，在夹爪中放了多视角的camera。采集的数据训练完了之后部署到真机上
  - DexCap：人带上数据手套，再加上两个深度摄像头去做末端的pose去精确捕捉手指末端的3D位置-->通过映射（以及删除小拇指数据）到LEAP Hand（一种灵巧手）-->力运动学 匹配手的尺寸到灵巧手尺寸-->实现双灵巧手
  - HIRO Hand：通过抓环和指套，hand to hand（手把手）带着机械臂去完成操作，省去了人手到灵巧手的转换过程，不会失真
- Heavy Hardware：重量级硬件（VR眼镜、VR手套+两个双臂主从的遥操作（Teleoperation）-->双臂灵巧手） 硬件成本高 采集信息效率、信息量多
  - Sanctuary AI、Tesla：VR手套把人手的多关节、高自由度的复杂运动做一个采集和映射。在遥操作的时候采集更加丰富的操作数据（相较于UMI）
生成式仿真 Generative Simulation 深层仿真
- RoboGen：构建闭环自动流程，实现propose任务-->generate任务的场景-->learn训练数据的流程 难以把握可控性
- MimicGen (Demonstration Augmentation (演示数据增强))：用少量的人类演示数据，通过算法自动生成出各种变体（比如改变物体位置、颜色），把 1 条数据变成 100 条用 可控性提升

3.动作执行机器人“小脑 ”¶

生成式模仿学习 Generative Imitation Learning
把state丢进去当成时间序列去处理，输出每个joint的时间序列去完成一个学习
- ACT(Action Chunking Transformer)：机器人不是想一步走一步，而是预测未来的一整段（一块）动作序列，这样动作更连贯流畅，提高训练效率和稳定性
- Diffusion Policy （扩散策略）：
  - 先给数据Add Noise (加噪), 再学习如何Denoise (去噪) 还原出动作，使模态得到提升。把时间序列拆解到每一步，每一步之间做diffusion，最后得到的trajectory作为机器人末端或low level joint
  - Prediction Horizon：预测未来 N 步（Prediction Horizon（预测视界）），执行前 k 步（Receding Horizon Control (RHC, 滚动时域控制)） 提高鲁棒性和稳定性
可供性 Affordance
上述两个的中间形态表达，
- RoboAffordance：在这个输入（2D图片）中，哪一个region（区域或像素点）可以被怎么样操作，被接触后下一步的动作应该是什么 contact point+单方向的 trajectory/vector field
- AffordPose (3D)：输入点云，其中的物品的每一个part的可供性都不同，能用来做的事情也不一样，并且标注了灵巧手的自由度
大模型问答 Q&A from LLM
通过组织特定的Prompt，从大语言模型中query出一些能够直接用来进行操作的一些关键字符
用大预言模型的理解，及其推理能力提取出机器人最后要走的目标
大模型Prompt规划 Prompt Planning from LLM
把大任务拆解成小的 Prompt，再调用机器人底层的 API
Language Correction
人在观察机器人执行的过程中去给出一些语音或文本的提示，去更好地完成任务

4.世界模型¶

为什么世界模型在面向具身智能（包括面向操作的具身智能）是比较重要的？

Simulation 就是某一方向的世界模型
从物体的角度去理解世界和交互是一种很重要的认知能力
世界模型可以去预测机器人和物体的交互 很好的模型预测，实现矫正、选择出最优的action
- 3D VLA：经过一个操作之后，新的点云环境是什么（\(S_t\)在经过一个\(A_t\)之后，\(S_{t+1}\)是什么）
例如：拿开杯子后，桌子露出来了
- LAPO：在环境中往上下左右走，环境会变成什么样

机器人现状机器人大脑、小脑发展不平衡¶

大脑：模拟人的决策思维过程（理解环境、和人交互，完成动作规划、执行动作）
小脑：完成这些规划指令
多模态大模型稳步推进，但是小脑的灵巧操作能力有待提高，原因:
1. 数据获取的难度
2. 如何设置控制器
manipulation的技术路线还没有统一，没有像transformer一样形成一个大一统的问题