A→P
未来创造营
AI 智能体 × 具身智能 · 5天 · 12-18岁
协办:浙江大学机器人研究院 · 浙江省机器人与智能装备产教融合基地
讲师: (待定) · AICoding:用自然语言指挥 AI 写代码 · 无需编程基础
课程设计引擎 · 最终版 · 2026-05-18
一、整营管线总图
5天就是一条完整的管线。每天从上一段的输出开始,最终实现"说一句话,机器人动起来"。
Day1 认知:智能体是什么?→ 观察 Agent 的"感知→推理→行动"循环
↓
Day2 打通数字世界:给 Agent 装上视觉+语音 API → Agent 能"看见"和"听见"
↓
Day3 打通物理世界:给 Agent 装上小车"身体" → Agent 能"感知"并"行动"
↓
Day4 管线整合:自然语言 → Agent → 视觉 → 小车 → 反馈(完整闭环)
↓
Day5 展示:你说一句话,机器人动起来
最终演示(Day5 学员能做到的事):
① 对着麦克风说:"到红色球那里去"
② Agent 语音识别 → 调用视觉 API 找到红色球位置
③ Agent 决策路径 → 发送 WiFi 指令给小车
④ 小车前进到红色球前停下
⑤ Agent 语音回复:"已到达"
二、怎么教:AICoding
学员不手写代码,学员用自然语言指挥 AI 写代码。这是一个完整的 IDE 环境(VS Code / Cursor):
| 场景 | 学员对 AI 说 | AI 做的事 | 学员理解 |
| 搭视觉模块 | "写个Python脚本调用摄像头拍照并用AI识别画面内容" | 生成代码 + 安装依赖 | AI 的"眼睛"是一段代码 |
| 控制小车 | "写4个函数控制小车前进后退左转右转" | 根据 API 文档生成控制代码 | 数字指令变成物理运动 |
| 管线拼接 | "把拍照识别和发送指令串联成:听到'前进'→拍照→识别红色→前进到红球" | 生成管线调度代码 | 感知-推理-行动闭环 |
| 报错修复 | 复制红色报错信息给 AI | 分析并修复 | 调试就是和 AI 对话 |
三、工具链(皆国内可用)
| 工具 | 用途 | 部署方式 |
| VS Code / Cursor | 代码编辑器(讲师提前配好 Python 环境) | USB 分发安装包 / 批量部署脚本 |
| 大模型网页(通义/DeepSeek/豆包) | AICoding 对话界面,学员描述需求 | 打开浏览器即可,零部署 |
| 通义视觉 API | Agent "眼睛",识别画面内容 | 讲师提前申请免费额度,写进配置文件 |
| 语音识别 API(阿里/讯飞) | Agent "耳朵",识别语音指令 | 讲师提前申请,写进配置文件 |
| 小车控制库(xiao_che.py) | 讲师提前写好的 API 库,封装 WiFi 通信细节 | 讲师提前写好,学员 import 即用 |
| Jupyter Notebook | 运行和调试 AI 生成的代码 | 讲师提前配置好 kernel + 依赖包 |
讲师预部署清单:① VS Code/Cursor 安装包(USB)+ Python 3.10+ ② 所有 API Key 写入配置文件 ③ xiao_che.py 小车控制库就绪 ④ Jupyter Notebook 预装依赖 ⑤ 离线 PyPI 镜像(清华源)
五、Day 2 · 打通数字世界:Agent 拥有感官
| 目标 | 给 Agent 装上视觉 API 和语音 API,理解"工具是智能体的手" |
| 工具 | VS Code + 网页大模型对话(AICoding) |
今日管线: 录音 → 语音识别 → 调用视觉 API 识别画面 → 语音回复
学员操作流程:
Lab 1:Agent 的耳朵(40min)
① 对 AI 说:"写一个 Python 脚本,调用语音识别 API,听到'小智'开头的指令就打印出来"
② AI 生成代码 → 复制到 VS Code 运行
③ 对着麦克风说"小智前进"→ 终端打印"收到指令:前进"
④ 学员理解:声音→文字,这是 Agent 的"听觉神经"
Lab 2:Agent 的眼睛(40min)
① 对 AI 说:"写一个 Python 脚本,打开摄像头拍照,调用视觉 API 识别画面内容"
② AI 生成 → 运行
③ 放一个红色球在摄像头前 → 终端打印"检测到:一个红色球"
④ 学员理解:图像→文字,这是 Agent 的"视觉神经"
Lab 3:Agent 的嘴巴(20min)
① 对 AI 说:"加一个语音合成功能,让 Agent 用语音说出识别结果"
② 测试:对麦克风说"看看这个"→ Agent 拍照→识别→说"我看到一个红色球"
Lab 4:管线拼接(60min)
① 对 AI 说:"把语音识别、视觉识别和语音合成合并成一个完整的管线。听到'小智看看'→拍照识别→语音说出结果"
② 运行完整管线。学员对麦克风说"小智看看" → Agent 自己完成"听到→看到→说出来"
③ 讲师引导:"这就是'感知→推理→行动'循环在数字世界的版本"
六、Day 3 · 打通物理世界:Agent 拥有身体
| 目标 | 给 Agent 连接智能小车,理解"具身智能 = Agent + 机器人身体" |
| 工具 | VS Code + 小车控制库 xiao_che.py(讲师提前写好) |
今日管线: 语音指令 → Agent 决策 → 视觉识别 → 小车执行 → Agent 反馈
课前:展示小车 API 文档(讲师准备,1页纸)
xiao_che.forward(speed=50, seconds=2) 小车前进
xiao_che.backward(speed=50, seconds=2) 小车后退
xiao_che.turn_left(speed=40) 小车左转
xiao_che.turn_right(speed=40) 小车右转
xiao_che.camera_capture() 拍照返回图片文件
xiao_che.camera_identify() 拍照+AI识别返回文字
Lab 1:小车的 4 个基本动作(30min)
① 导入 xiao_che 库,逐个调用函数让小车轮子转起来
② 学员观察:调用 forward(50) 时小车真的在前进
③ 理解:API 调用 = 给身体发指令
Lab 2:眼睛+身体联动(60min)
① 对 AI 说:"写一个脚本:拍照识别画面,如果看到红色球就让小车前进,否则原地不动"
② AI 生成代码 → 跑起来
③ 在摄像头前放红色球 → 小车自动识别并开过去
④ 讲师:"这就是具身智能——Agent 通过传感器感知世界,通过电机改变世界"
Lab 3:完整自然语言控制(60min)
① 对 AI 说:"把Day2的语音识别和Day3的小车控制合并。流程:听到'小智'指令→识别指令内容→拍照判断路况→控制小车→语音回复结果"
② AI 生成完整管线代码 → 运行
③ 学员对麦克风说:"小智,到红色球那里去"
④ 观察完整流程:
└─ 感知:麦克风听→"到红色球那里去"
└─ 推理:Agent决定"先拍照找红色→计算路径→发前进指令"
└─ 行动:小车前进、停在红色球前
└─ 反馈:喇叭说"已到达"
⑤ 🎉 Aha moment:自然语言控制物理世界
Day2+Day3 是学员动手量最大的两天。讲师巡场重点:确保每组的 API Key 能跑通、小车有电、网络稳定。卡在 AICoding 时帮学员把问题描述得更清楚给 AI。
七、Day 4 · 创造:项目冲刺
| 目标 | 自由组队设计管线项目,打通"自然语言→Action"完整闭环 |
项目方向
每个项目必须包含完整闭环:语音输入 → Agent 决策 → 视觉感知 → 小车行动 → 反馈输出
| 项目 | 管线示意 |
| 语音快递员 | "把红色球运到B区"→Agent规划→视觉找球→小车搬运→语音"已送达" |
| 颜色哨兵 | "看到蓝色就报警"→Agent持续监控→发现蓝色→小车绕圈+语音报警 |
| 智能巡检 | "检查3个工位"→Agent规划路线→小车依次到各点→拍照→返回报告 |
| 语音导游 | "带我去红色区域"→Agent解释方位→小车左转→边开边语音介绍 |
| 自主创意 | 学员自命题,管线必须覆盖语音→视觉→行动→反馈 |
节奏
| 时间 | 活动 |
| 09:00-09:30 | 站会:各组汇报管线设计 + 分工 + AICoding 任务拆解 |
| 09:30-12:00 | 管线搭建(AICoding 全程辅助:描述→生成→测试→迭代) |
| 12:00-12:30 | 中期检查:各组演示当前管线能跑通哪几段 |
| 13:30-16:30 | 打通完整管线 + 路演 PPT 3 页 |
| 16:30-17:30 | 内部预演 + 最终优化 |
Day4 产检清单
□ 语音输入能触发 Agent
□ Agent 能调用视觉 API
□ Agent 能发送指令控制小车
□ 小车能执行至少一个物理动作
□ Agent 能用语音/文字反馈
□ 整条管线能连续运行
□ 录屏备用
□ 3 页路演 PPT
八、Day 5 · 展示:你说,它动
| 时间 | 活动 |
| 09:00-10:00 | 最终调试 + 管线检查清单逐项确认 |
| 10:00-12:00 | 正式路演:每组5min演示+3min问答。评审看"从说出指令到机器人动起来"的完整过程 |
| 13:30-15:30 | 深度参观:人形机器人运行演示 + 柔性产线全流程 + 创新中心产品展 |
| 15:30-17:00 | 结业:颁奖 + 学员分享 + 讲师总结 + 证书 + 合影 |
评审维度
| 维度 | 权重 | 看什么 |
| 管线完整度 | 35% | 自然语言→视觉→控制→反馈 全链路是否通 |
| 具身智能程度 | 35% | Agent 决策是否真正影响了物理世界(小车动了没有) |
| 创意与场景 | 20% | 解决的问题是否有价值、管线设计是否巧妙 |
| 展示表现 | 10% | 演讲流畅、演示稳定、应急处理 |
九、分龄说明(引擎标准)
本方案对应 12-18岁 的认知能力。8-12岁版本在课程引擎中自动适配以下差异:
| 维度 | 本方案(12-18岁) | 引擎自动适配(6-12岁) |
| AI 工具 | 全程 IDE + AICoding | 讲师预先配好按钮/单步操作 |
| 概念表达 | 感知-推理-行动框架 | "听到→想到→做到"故事线 |
| 行为路径 | 长链自主探索 | 短链讲师引导 |
| 管线复杂度 | 4段管线自行拼接 | 预装管线,学员只操作最后一段 |
| 讲师角色 | 技术教练 | 故事讲述者+活动教练 |
十、讲师备忘
| 项目 | 要点 |
| Day1 关键 | 确保每个学员经历了展厅,"大脑-身体"对比植入潜意识。Aha moment 在"对比普通 AI 和 Agent 的区别" |
| Day2 关键 | API Key 务必课前配好。卡在 AICoding 时帮学员提炼描述。Aha moment 在"听到自己指挥 AI 写的代码跑通了" |
| Day3 关键 | 小车电池充满。xiao_che.py 提前写好并测试通。Aha moment 在"说一句话→小车动了" |
| Day4 关键 | 中期检查及时砍功能。鼓励录屏备用。Aha moment 在"完整闭环跑通" |
| Day5 关键 | 家长参与的感染力。讲师闭幕语要升华到"你指挥 AI 做了事" |