跳转至

Minecraft 与 UE 平台科研任务场景梳理

本页整理截至 2026-03 仍常见于科研原型、公开 benchmark 或工程仿真的两类平台:

  • Minecraft 平台族:更偏开放世界、长时程决策、语言与知识驱动任务。
  • Unreal Engine 平台族:更偏高保真场景、传感器、物理、机器人控制与多智能体协同。

这不是安装手册,而是一页选型文档,回答两个问题:

  • 什么研究任务更适合放在 Minecraft?
  • 什么研究任务更适合放在 UE?

1. 一页结论

维度 Minecraft 平台族 UE 平台族
核心优势 开放世界探索、长时程 sparse reward、技能链、语言任务、知识驱动任务 高保真视觉、刚体物理、约束、传感器、多机器人、多载具、可定制场景
常见研究主题 RL、IL、human feedback、open-ended agent、embodied planning 自动驾驶、UAV/UGV 控制、机器人操作、多智能体协同、数字孪生、HITL
典型对象语义 block / item / entity / inventory actor / component / rigid body / constraint / sensor
物理能力 适合“采集-合成-放置”这类游戏规则;不擅长精细刚体操控 适合碰撞、抓取、搬运、装配、车辆动力学、复杂传感器仿真
benchmark 标准化 强。MineRL、MineDojo、DiamondEnv 等任务边界清晰 中等。更像“引擎 + 领域模拟器”,需要自己定义任务与评测
开发成本 任务定义快,环境物理边界硬 场景和资产成本更高,但可表达能力更强

简化判断:

  • 如果你研究的是“开放世界中的长链条行为”,优先看 Minecraft。
  • 如果你研究的是“现实感物理、机器人执行、传感器和场景交互”,优先看 UE。

2. 平台结构图

下面两张图不是任务清单,而是平台的四层结构摘要:

  • 第 1 层:平台本身。
  • 第 2 层:底层世界规则与对象语义。
  • 第 3 层:由这些规则导出的使用特征。
  • 第 4 层:具体任务、并行数量、智能体类型、观测数据。

2.1 Minecraft 结构图

%%{init: { "theme": "base", "themeVariables": { "fontSize": "20px" }, "flowchart": { "htmlLabels": true, "curve": "linear", "nodeSpacing": 40, "rankSpacing": 55 } }}%% flowchart TB MC["Minecraft 仿真平台"] subgraph L2["第2层:基本特性"] direction LR B1["离散 3D 方块世界<br/>block / voxel"] B2["对象语义简单<br/>block / item / entity / inventory"] B3["规则驱动物理<br/>重力、碰撞、放置、破坏、掉落"] B4["玩家式 embodiment<br/>主流 agent 像玩家,不像机器人本体"] end subgraph L3["第3层:使用特征"] direction LR U1["可做任务<br/>采集、合成、建造、探索、生存、语言任务"] U2["并行特征<br/>多实例进程并行<br/>成熟量级 O(10)"] U3["智能体种类<br/>单玩家 agent 为主<br/>多 agent 通常同构"] U4["观测数据<br/>RGB + inventory + health + position / voxel"] end subgraph L4["第4层:具体实例"] direction LR T["任务名称<br/>挖矿 / 采钻石<br/>建造房子<br/>造瀑布<br/>围动物栏<br/>洞穴探索<br/>开放任务 / 语言指令任务"] P["并行数量<br/>DreamerV3 官方量级<br/>16 train + 4 eval<br/>不是 Isaac 式<br/>1000+ env 向量化"] A["智能体类型<br/>玩家 agent<br/>多玩家 agent(通常同构)<br/>非原生 UAV / UGV / humanoid"] O["观测类型<br/>64x64 RGB<br/>inventory / equipped<br/>health / hunger / breath<br/>pos / yaw-pitch / voxels"] end MC --> B1 MC --> B2 MC --> B3 MC --> B4 B1 --> U1 B2 --> U1 B3 --> U1 B3 --> U2 B4 --> U3 B1 --> U4 B2 --> U4 B4 --> U4 U1 --> T U2 --> P U3 --> A U4 --> O classDef root fill:#d9ead3,stroke:#5b8a5a,stroke-width:2px,color:#1d2a1d,font-size:22px; classDef basic fill:#fff2cc,stroke:#c8a24d,stroke-width:1.5px,color:#2d2412,font-size:20px; classDef usage fill:#dceafb,stroke:#6f97bf,stroke-width:1.5px,color:#1b2733,font-size:20px; classDef detail fill:#f4f4f4,stroke:#999,stroke-width:1px,color:#222,font-size:20px; class MC root; class B1,B2,B3,B4 basic; class U1,U2,U3,U4 usage; class T,P,A,O detail;

2.2 Unreal Engine 结构图

%%{init: { "theme": "base", "themeVariables": { "fontSize": "20px" }, "flowchart": { "htmlLabels": true, "curve": "linear", "nodeSpacing": 40, "rankSpacing": 55 } }}%% flowchart TB UE["Unreal Engine 仿真平台"] subgraph L2["第2层:基本特性"] direction LR B1["连续 3D 几何世界<br/>mesh / actor / component"] B2["对象语义丰富<br/>rigid body / constraint / sensor / material"] B3["连续物理驱动<br/>重力、碰撞、摩擦、力矩、约束、动力学"] B4["异构 embodiment 自然<br/>UAV / UGV / humanoid / arm / camera rig"] end subgraph L3["第3层:使用特征"] direction LR U1["可做任务<br/>巡检、探索、跟踪、协同、抓取、搬运、装配"] U2["并行特征<br/>独立 server / world 并行<br/>现实目标 O(1~10) / 节点"] U3["智能体种类<br/>天然支持异构 agent<br/>多机器人协同自然"] U4["观测数据<br/>RGB / Depth / Segmentation / LiDAR / state"] end subgraph L4["第4层:具体实例"] direction LR T["任务名称<br/>区域巡检<br/>未知区域探索<br/>目标跟踪 / 接力跟踪<br/>UAV 建图 + UGV 巡检 + humanoid 确认<br/>抓取 / 搬运 / 装配"] P["并行数量<br/>CARLA 代表 UE 路线<br/>单节点通常按 O(1~10) 规划<br/>可通过多 server / 多节点继续扩展<br/>不是 Isaac 式 1000+ env / 单机"] A["智能体类型<br/>UAV<br/>UGV<br/>humanoid<br/>robot arm / vehicle / sensor rig"] O["观测类型<br/>RGB<br/>Depth / Segmentation<br/>LiDAR / pose / velocity<br/>object state / scene graph"] end UE --> B1 UE --> B2 UE --> B3 UE --> B4 B1 --> U1 B2 --> U1 B3 --> U1 B3 --> U2 B4 --> U3 B1 --> U4 B2 --> U4 B4 --> U4 U1 --> T U2 --> P U3 --> A U4 --> O classDef root fill:#d9ead3,stroke:#5b8a5a,stroke-width:2px,color:#1d2a1d,font-size:22px; classDef basic fill:#fff2cc,stroke:#c8a24d,stroke-width:1.5px,color:#2d2412,font-size:20px; classDef usage fill:#dceafb,stroke:#6f97bf,stroke-width:1.5px,color:#1b2733,font-size:20px; classDef detail fill:#f4f4f4,stroke:#999,stroke-width:1px,color:#222,font-size:20px; class UE root; class B1,B2,B3,B4 basic; class U1,U2,U3,U4 usage; class T,P,A,O detail;

3. 先区分三个概念

这一点很重要,不然后面会把平台、benchmark、算法混在一起。

名称 类型 在本文中的定位
Project Malmo Minecraft 研究平台 早期基础设施,偏任务定制与 AI 实验
MineRL Minecraft benchmark + 数据集 + 环境 样本效率 RL、模仿学习、BASALT 人类反馈任务
MineDojo Minecraft 大规模 benchmark + 知识库 开放任务、语言条件、互联网知识增强
DreamerV3 算法 不是平台;它在 Minecraft 上的代表实验跑在 DiamondEnv
DiamondEnv Minecraft benchmark DreamerV3 用的“采钻石”长时程稀疏奖励环境
MineStudio Minecraft 工程封装 基于 MineRL 的新一层 simulator 封装,偏快速自定义
Unreal Engine 引擎 本身不是 benchmark,而是很多科研仿真平台的底座
CARLA UE 自动驾驶平台 感知、规划、闭环驾驶评测
AirSim UE 载具平台 UAV / Car 控制、RL、感知
UnrealCV UE 感知平台 视觉、合成数据、可控相机与场景
MultiAgent-Unreal UE 多机器人平台 本仓库所对应的平台,偏异构机器人协同与 HITL

4. Minecraft 平台族适合什么研究

3.1 Project Malmo

Project Malmo 的价值在于“把 Minecraft 变成一个可编程实验平台”。它支持 mission 级别的任务定义,可以:

  • 生成世界和方块结构。
  • 放置 DrawBlock / DrawItem / DrawEntity
  • 选择离散或连续动作。
  • 观测图像、奖励、命令、位置等信息。

它适合:

  • 经典 RL / planning / navigation 任务。
  • 任务生成与课程学习。
  • 多智能体或协作式 AI 原型。
  • 规则明确的认知实验。

它不适合:

  • 高保真机器人动力学。
  • 精细抓取与刚体搬运。
  • 需要真实接触建模的 manipulation。

3.2 MineRL

MineRL 是 Minecraft 研究里最经典的一条 benchmark 线,长期围绕两个方向:

  • ObtainDiamond:样本效率 RL、模仿学习、长时程稀疏奖励。
  • BASALT:没有明确 reward 的“近似生活化任务”,用人类反馈或演示来学。

它适合:

  • Sample-efficient RL。
  • Human priors / imitation learning。
  • Human feedback / preference learning。
  • 长链条 tech-tree 任务。

典型任务场景:

  • 从零采到钻石。
  • 找洞穴。
  • 建村屋。
  • 搭瀑布。
  • 建动物围栏。

它不适合:

  • 真实机器人抓取、稳定放置、关节接触控制。
  • 需要精确刚体状态和连续接触力的任务。

3.3 MineDojo

MineDojo 把 Minecraft 进一步推向了 open-ended benchmark。它的特点不是单个难题,而是“任务数量大、任务形式多、观测和知识更多”。

它适合:

  • Open-ended embodied agent。
  • Language-conditioned planning。
  • 多任务学习与持续学习。
  • 视频、Wiki、Reddit 知识增强 agent。
  • 从像素、inventory、voxel、位置和自然语言联合学习。

从任务结构看,它比 MineRL 更适合:

  • “做很多不同任务”。
  • “根据文字描述完成目标”。
  • “利用外部知识缩短探索链条”。

但它仍然主要服务于:

  • 探索。
  • 采集。
  • 战斗。
  • 建造。
  • 生存。

而不是 UE 意义下的精细刚体操作。

3.4 DreamerV3 与 DiamondEnv

DreamerV3 需要单独拎出来,因为它代表了 Minecraft 研究里的一个重要结论:

  • 它证明了“只靠稀疏奖励、不用人类演示,也能在 Minecraft 里学到采钻石”。

但要注意:

  • DreamerV3 是算法,不是平台。
  • 它在 Minecraft 的代表实验依赖 DiamondEnv

DiamondEnv 的任务定义很清楚:

  • 12 个 milestone。
  • 稀疏奖励。
  • 64x64 RGB + inventory + health/hunger 观测。
  • 25 个离散动作。
  • 目标是沿着 log -> planks -> stick -> crafting_table -> ... -> diamond 的链条走到钻石。

这说明 DreamerV3 适合的科研问题是:

  • 长时程 sparse reward RL。
  • 世界模型在复杂开放世界中的 credit assignment。
  • 泛化到随机世界。

它不直接回答的问题是:

  • 如何抓住一个桌子。
  • 如何稳定搬运一个天线。
  • 如何进行接触丰富的 manipulation。

3.5 MineStudio

如果你的目标不是参加某个经典 benchmark,而是“先快点搭一个 Minecraft 实验环境”,MineStudio 是值得关注的新工程栈。它基于 MineRL 做了一层 Gym 风格封装,并提供 callback 机制,方便:

  • 自定义 reward。
  • 快速 reset。
  • 发送命令初始化世界。
  • 录制 trajectory。
  • 做 imitation 数据生成。

它更像工程加速层,不是像 MineRL / MineDojo 那样的经典 benchmark 本体。

5. UE 平台族适合什么研究

4.1 UE 原生能力

UE 的科研价值,首先不在“某一个 benchmark”,而在它本身就是一个可编程仿真引擎。

以 UE5 的 Chaos 物理和 Physics Constraint 为例,UE 天然更适合:

  • 刚体物理。
  • 关节与约束。
  • 车辆。
  • 碰撞。
  • 破坏。
  • 多传感器场景。

这让 UE 很适合:

  • 机器人抓取与搬运。
  • 物体装配。
  • 复杂场景导航。
  • 数字孪生。
  • 多机器人协作。
  • 高保真视觉和传感器数据生成。

相对 Minecraft,UE 的关键差异是:

  • 研究对象通常不是“方块规则”,而是“带几何、质量、碰撞、关节和传感器的对象”。

4.2 CARLA

CARLA 是 UE 系里最标准化、最成熟的科研平台之一,聚焦自动驾驶。

它适合:

  • 端到端自动驾驶。
  • 传感器融合。
  • 局部规划与行为规划。
  • 闭环驾驶评测。
  • 交通规则遵守与安全指标评估。

它的强项非常明确:

  • 路线完成率。
  • 碰撞和违规处罚。
  • 交通参与体交互。
  • 多天气、多地图、多场景。

如果你的任务主体是 ego vehicle,首选往往不是原生 UE,而是直接上 CARLA。

4.3 AirSim

AirSim 适合载具控制,尤其是:

  • UAV 飞控与路径跟踪。
  • 视觉导航。
  • 目标跟随。
  • 巡检。
  • Car / drone 的 RL 试验。

它提供 Gym 风格 RL 包装思路,也非常适合:

  • 控制策略训练。
  • perception-in-the-loop。
  • inspection / exploration 类 UAV 任务。

4.4 UnrealCV

UnrealCV 更偏计算机视觉研究,不是完整机器人平台。它的核心价值是:

  • 用 UE 构造可控虚拟世界。
  • 从外部程序控制相机和场景。
  • 生成图像、深度、分割等视觉数据。

它适合:

  • 合成数据集生成。
  • 视觉感知算法评估。
  • Domain randomization。
  • 相机位姿和视角受控实验。

4.5 MultiAgent-Unreal

本仓库对应的平台更接近“UE 原生科研平台”这一侧,当前更适合:

  • 异构机器人协同。
  • UAV / UGV / Quadruped / Humanoid 混合编队。
  • 任务图驱动的执行。
  • HITL 审核。
  • 场景对象与语义编辑。

可参考本仓库已有文档:

6. 任务集合表

下面这张表按三类任务组织:

  • 左列是 UE 更自然的任务。
  • 中列是 UEMinecraft 都能做的任务。
  • 右列是 Minecraft 更自然的任务。
  • 置信度 表示“这个任务归类到该列”的把握,不是任务成功率。
UE 更自然 两者都可以 Minecraft 更自然
U1 先派 UAV 建图,再让 UGV 进入局部巡检,最后由 humanoid 执行近距离确认。
置信度 90%
C1 视觉导航到指定目标点。
置信度 95%
M1 从零开始采木头、做工作台、做镐、挖铁、熔炼,最后采到钻石。
置信度 95%
U2 无人机在厂区、管廊或园区中做低空视觉巡检,同时考虑禁飞区、相机姿态稳定和碰撞余量。
置信度 95%
C2 未知区域探索并提高地图覆盖率。
置信度 90%
M2 在不能“往地里直挖”的约束下,探索并找到洞穴。
置信度 95%
U3 UAV + UGV + humanoid 对同一目标做跨视角接力跟踪,处理遮挡、丢失和重识别。
置信度 90%
C3 搜索指定目标物或目标体。
置信度 90%
M3 在村庄旁建一座风格一致的村屋,并按要求展示成果。
置信度 92%
U4 UGV 依据 UAV 的先验地图进入建筑内部,穿越坡道、楼梯、门洞并完成近距检查。
置信度 88%
C4 单目标主动视觉跟踪。
置信度 75%
M4 在山地中造一个瀑布,并移动视角拍出合格画面。
置信度 92%
U5 无人机发现异常后,引导地面机器人到达指定点并完成 rendezvous / handoff。
置信度 85%
C5 多 agent 协同搜索并在指定地点会合。
置信度 80%
M5 在村庄附近围一个动物栏,抓两只同类动物进去,且尽量不破坏村庄结构。
置信度 95%
U6 异构集群在带车辆、行人、动态障碍的场景中执行巡逻、避障与重规划。
置信度 92%
C6 语言指令驱动的多步任务执行。
置信度 88%
M6 围绕 wood -> stone -> iron -> diamond 这类 tech-tree 做长链条 crafting / planning。
置信度 94%
U7 使用 RGB + Depth + LiDAR 做融合建图,再用于探索、定位和回环。
置信度 93%
C7 中央决策器基于结构化状态做任务分配与子目标下发。
置信度 90%
M7 以“发现尽可能多新物品或技能”为目标做 open-ended exploration。
置信度 90%
U8 机械臂抓取盒子并放到车上,或从货架取物后交给移动机器人。
置信度 98%
C8 把资源、样本或简单任务载荷从 A 点送到 B 点。
置信度 78%
M8 围绕 inventory、recipe、smelting 做长时程资源规划。
置信度 93%
U9 两台机器人协同搬运长杆、天线等细长物体,穿过狭窄门洞并保持姿态稳定。
置信度 98%
C9 巡逻、重访关键区域、按路线依次检查。
置信度 85%
M9 根据多模态提示完成 build、break、farm、smelt 这类 TeamCraft 风格任务。
置信度 88%
U10 基于真实几何、质量、碰撞和约束完成 pick-up、place、carry、dock、charge。
置信度 97%
C10 简单环境改造以满足任务目标。
置信度 70%
M10 在 MineLand 一类环境里做“有限感知 + 生存需求 + 多 agent 协作”的生态任务。
置信度 85%

7. 关于“搬运盒子、天线、桌子”的具体判断

这是 Minecraft 和 UE 的核心分界点。

6.1 Minecraft 能做什么

Minecraft 天然支持的是:

  • 捡起 item 到 inventory。
  • 放置 block 到世界。
  • 破坏方块、合成、装备、使用。

因此下面这些是自然的:

  • 搬一块方块。
  • 捡起掉落物。
  • 把资源从 A 地运到 B 地。
  • 建一个结构再拆掉重建。

6.2 Minecraft 不自然的地方

如果你想搬的是“一个整体物体”:

  • 一个完整的盒子模型。
  • 一个桌子。
  • 一个天线。

那么标准 Minecraft 研究环境里通常会遇到这些问题:

  • 对象语义更接近 block/item/entity,不是通用刚体。
  • 没有 UE 那样自然的抓取-附着-受力-稳定放置链条。
  • 多块结构对象通常会被拆解成若干 blocks。
  • 视觉上看起来像物体,不等于物理上可被稳定搬运。

换句话说:

  • Minecraft 擅长“资源搬运”和“方块放置”。
  • UE 擅长“对象搬运”和“刚体操控”。

6.3 DreamerV3 在这个问题上的边界

DreamerV3 很强,但它只能在环境给定的动作和对象语义里学习。

如果环境没有:

  • grasp
  • attach
  • carry rigid body
  • stable placement under physics

那么 DreamerV3 不会自动长出 UE 式 manipulation 能力。它在 DiamondEnv 里学到的是:

  • 探索。
  • 采集。
  • 合成。
  • 工具升级。
  • 长时程规划。

不是“搬桌子”。

8. 什么时候选 Minecraft,什么时候选 UE

7.1 选 Minecraft

优先选 Minecraft,如果你的论文问题接近下面这些:

  • 世界模型是否能解决长时程 sparse reward?
  • agent 能否在开放世界里形成 reusable skills?
  • 人类演示、偏好、语言能否减少探索成本?
  • 大模型能否利用互联网知识完成开放任务?

7.2 选 UE

优先选 UE,如果你的论文问题接近下面这些:

  • 机器人能否搬运、装配、抓取真实对象?
  • 多机器人如何在复杂场景中协同执行任务?
  • 视觉、深度、激光雷达能否支持闭环控制?
  • 场景中需要车辆、人、机器人、传感器和物理共同作用?

7.3 两者串联

如果你的总目标很大,也可以分层:

  • 用 Minecraft 做高层 agent:任务分解、技能发现、语言与知识推理。
  • 用 UE 做低层执行:物理控制、搬运、路径执行、传感器闭环。

这类组合式路线往往比“强行让 Minecraft 承担 manipulation”更稳妥。

9. 并行数量结论

如果只关心“并行环境数量级”,不关心内部实现细节,那么可以把常见路线压缩成下面这张表。

方案 参考并行数量级 备注
DreamerV3 + DiamondEnv 16 个训练环境 + 4 个评估环境 这是官方配置里直接给出的默认并行数,代表 O(10) 级并行环境。
CARLA 单节点通常按 O(1~10) 个独立环境来规划 官方明确支持 multi-simulationmulti-GPUoff-screen,但没有像 DreamerV3 那样给固定默认值。对于视觉任务,更合理的预期是单节点个位数到低双位数。
Isaac Lab O(10^3) 级并行环境 这条路线是 GPU 向量化仿真,官方文档直接给出约 4096 个并行环境的示例量级。

实用结论:

  • DreamerV3 代表“十几个环境并行 + replay / imagination 提高数据效率”。
  • CARLA 代表“UE 系平台的 server-level 并行”,更接近自研 UE 多智能体平台的现实目标。
  • Isaac 代表“原生大规模 GPU 向量化并行”,不应直接作为 UE 平台的并行数量预期。

10. 参考链接