未来创造营

AI 智能体 × 具身智能 · 5天 · 12-18岁
协办:浙江大学机器人研究院 · 浙江省机器人与智能装备产教融合基地
讲师: (待定) · AICoding:用自然语言指挥 AI 写代码 · 无需编程基础
课程设计引擎 · 最终版 · 2026-05-18

一、整营管线总图

5天就是一条完整的管线。每天从上一段的输出开始,最终实现"说一句话,机器人动起来"。

Day1 认知:智能体是什么?→ 观察 Agent 的"感知→推理→行动"循环

Day2 打通数字世界:给 Agent 装上视觉+语音 API → Agent 能"看见"和"听见"

Day3 打通物理世界:给 Agent 装上小车"身体" → Agent 能"感知"并"行动"

Day4 管线整合:自然语言 → Agent → 视觉 → 小车 → 反馈(完整闭环)

Day5 展示:你说一句话,机器人动起来
最终演示(Day5 学员能做到的事):
① 对着麦克风说:"到红色球那里去"
② Agent 语音识别 → 调用视觉 API 找到红色球位置
③ Agent 决策路径 → 发送 WiFi 指令给小车
④ 小车前进到红色球前停下
⑤ Agent 语音回复:"已到达"

二、怎么教:AICoding

学员不手写代码,学员用自然语言指挥 AI 写代码。这是一个完整的 IDE 环境(VS Code / Cursor):

场景学员对 AI 说AI 做的事学员理解
搭视觉模块"写个Python脚本调用摄像头拍照并用AI识别画面内容"生成代码 + 安装依赖AI 的"眼睛"是一段代码
控制小车"写4个函数控制小车前进后退左转右转"根据 API 文档生成控制代码数字指令变成物理运动
管线拼接"把拍照识别和发送指令串联成:听到'前进'→拍照→识别红色→前进到红球"生成管线调度代码感知-推理-行动闭环
报错修复复制红色报错信息给 AI分析并修复调试就是和 AI 对话

三、工具链(皆国内可用)

工具用途部署方式
VS Code / Cursor代码编辑器(讲师提前配好 Python 环境)USB 分发安装包 / 批量部署脚本
大模型网页(通义/DeepSeek/豆包)AICoding 对话界面,学员描述需求打开浏览器即可,零部署
通义视觉 APIAgent "眼睛",识别画面内容讲师提前申请免费额度,写进配置文件
语音识别 API(阿里/讯飞)Agent "耳朵",识别语音指令讲师提前申请,写进配置文件
小车控制库(xiao_che.py)讲师提前写好的 API 库,封装 WiFi 通信细节讲师提前写好,学员 import 即用
Jupyter Notebook运行和调试 AI 生成的代码讲师提前配置好 kernel + 依赖包
讲师预部署清单:① VS Code/Cursor 安装包(USB)+ Python 3.10+ ② 所有 API Key 写入配置文件 ③ xiao_che.py 小车控制库就绪 ④ Jupyter Notebook 预装依赖 ⑤ 离线 PyPI 镜像(清华源)

四、Day 1 · 认知:看懂智能体

目标理解 Agent 的感知-推理-行动循环,知道"数字大脑"和"物理身体"的关系
场地教室 + 展厅
核心操作观察、对比、手绘框架图。不碰任何代码
#环节时长操作细节
1智能体快测30min讲师投影对比3个界面:①普通聊天AI(只回答文字)②Agent(有工具:搜了再回答)③具身Agent(控制小车动起来)。学员猜哪个是"智能体",猜中加分。结论:区别在于"能不能行动"
2感知-推理-行动演示40min打开AI操作电脑给学员看(Claude Operator风格):说"帮我查今天余姚天气并截图保存"→AI自己操作。引导:感知(看到屏幕)→推理(决定打开浏览器)→行动(点击/截图)。
3展厅参观90min带着"大脑-身体"视角看机器人。福德人形机器人的大脑(算法)和身体(电机+谐波减速机)在哪儿?智能小车为什么是"最小的具身智能"?工业机器人和AI Agent的区别(工业机器人的"推理"是预设程序,AI Agent是自己判断)。产出:填写《Agent 感知-推理-行动框架图》。
4Agent 五连体验120min在电脑上体验 5 种 Agent(预配好的网页版):①搜索Agent ②分析Agent ③代码Agent ④视觉Agent ⑤混合Agent。每体验一个在框架图上标出"它感知了什么→推理了什么→行动了什么"。
5灵感日志40min写下:我想让 Agent + 机器人做什么?画出大致管线(感知什么→怎么判断→做什么动作)

五、Day 2 · 打通数字世界:Agent 拥有感官

目标给 Agent 装上视觉 API 和语音 API,理解"工具是智能体的手"
工具VS Code + 网页大模型对话(AICoding)

今日管线: 录音 → 语音识别 → 调用视觉 API 识别画面 → 语音回复

学员操作流程:

Lab 1:Agent 的耳朵(40min)
① 对 AI 说:"写一个 Python 脚本,调用语音识别 API,听到'小智'开头的指令就打印出来"
② AI 生成代码 → 复制到 VS Code 运行
③ 对着麦克风说"小智前进"→ 终端打印"收到指令:前进"
④ 学员理解:声音→文字,这是 Agent 的"听觉神经"

Lab 2:Agent 的眼睛(40min)
① 对 AI 说:"写一个 Python 脚本,打开摄像头拍照,调用视觉 API 识别画面内容"
② AI 生成 → 运行
③ 放一个红色球在摄像头前 → 终端打印"检测到:一个红色球"
④ 学员理解:图像→文字,这是 Agent 的"视觉神经"

Lab 3:Agent 的嘴巴(20min)
① 对 AI 说:"加一个语音合成功能,让 Agent 用语音说出识别结果"
② 测试:对麦克风说"看看这个"→ Agent 拍照→识别→说"我看到一个红色球"

Lab 4:管线拼接(60min)
① 对 AI 说:"把语音识别、视觉识别和语音合成合并成一个完整的管线。听到'小智看看'→拍照识别→语音说出结果"
② 运行完整管线。学员对麦克风说"小智看看" → Agent 自己完成"听到→看到→说出来"
③ 讲师引导:"这就是'感知→推理→行动'循环在数字世界的版本"

六、Day 3 · 打通物理世界:Agent 拥有身体

目标给 Agent 连接智能小车,理解"具身智能 = Agent + 机器人身体"
工具VS Code + 小车控制库 xiao_che.py(讲师提前写好)

今日管线: 语音指令 → Agent 决策 → 视觉识别 → 小车执行 → Agent 反馈

课前:展示小车 API 文档(讲师准备,1页纸)
xiao_che.forward(speed=50, seconds=2) 小车前进
xiao_che.backward(speed=50, seconds=2) 小车后退
xiao_che.turn_left(speed=40) 小车左转
xiao_che.turn_right(speed=40) 小车右转
xiao_che.camera_capture() 拍照返回图片文件
xiao_che.camera_identify() 拍照+AI识别返回文字

Lab 1:小车的 4 个基本动作(30min)
① 导入 xiao_che 库,逐个调用函数让小车轮子转起来
② 学员观察:调用 forward(50) 时小车真的在前进
③ 理解:API 调用 = 给身体发指令

Lab 2:眼睛+身体联动(60min)
① 对 AI 说:"写一个脚本:拍照识别画面,如果看到红色球就让小车前进,否则原地不动"
② AI 生成代码 → 跑起来
③ 在摄像头前放红色球 → 小车自动识别并开过去
④ 讲师:"这就是具身智能——Agent 通过传感器感知世界,通过电机改变世界"

Lab 3:完整自然语言控制(60min)
① 对 AI 说:"把Day2的语音识别和Day3的小车控制合并。流程:听到'小智'指令→识别指令内容→拍照判断路况→控制小车→语音回复结果"
② AI 生成完整管线代码 → 运行
③ 学员对麦克风说:"小智,到红色球那里去"
④ 观察完整流程:
└─ 感知:麦克风听→"到红色球那里去"
└─ 推理:Agent决定"先拍照找红色→计算路径→发前进指令"
└─ 行动:小车前进、停在红色球前
└─ 反馈:喇叭说"已到达"
⑤ 🎉 Aha moment:自然语言控制物理世界
Day2+Day3 是学员动手量最大的两天。讲师巡场重点:确保每组的 API Key 能跑通、小车有电、网络稳定。卡在 AICoding 时帮学员把问题描述得更清楚给 AI。

七、Day 4 · 创造:项目冲刺

目标自由组队设计管线项目,打通"自然语言→Action"完整闭环

项目方向

每个项目必须包含完整闭环:语音输入 → Agent 决策 → 视觉感知 → 小车行动 → 反馈输出

项目管线示意
语音快递员"把红色球运到B区"→Agent规划→视觉找球→小车搬运→语音"已送达"
颜色哨兵"看到蓝色就报警"→Agent持续监控→发现蓝色→小车绕圈+语音报警
智能巡检"检查3个工位"→Agent规划路线→小车依次到各点→拍照→返回报告
语音导游"带我去红色区域"→Agent解释方位→小车左转→边开边语音介绍
自主创意学员自命题,管线必须覆盖语音→视觉→行动→反馈

节奏

时间活动
09:00-09:30站会:各组汇报管线设计 + 分工 + AICoding 任务拆解
09:30-12:00管线搭建(AICoding 全程辅助:描述→生成→测试→迭代)
12:00-12:30中期检查:各组演示当前管线能跑通哪几段
13:30-16:30打通完整管线 + 路演 PPT 3 页
16:30-17:30内部预演 + 最终优化

Day4 产检清单

□ 语音输入能触发 Agent
□ Agent 能调用视觉 API
□ Agent 能发送指令控制小车
□ 小车能执行至少一个物理动作
□ Agent 能用语音/文字反馈
□ 整条管线能连续运行
□ 录屏备用
□ 3 页路演 PPT

八、Day 5 · 展示:你说,它动

时间活动
09:00-10:00最终调试 + 管线检查清单逐项确认
10:00-12:00正式路演:每组5min演示+3min问答。评审看"从说出指令到机器人动起来"的完整过程
13:30-15:30深度参观:人形机器人运行演示 + 柔性产线全流程 + 创新中心产品展
15:30-17:00结业:颁奖 + 学员分享 + 讲师总结 + 证书 + 合影

评审维度

维度权重看什么
管线完整度35%自然语言→视觉→控制→反馈 全链路是否通
具身智能程度35%Agent 决策是否真正影响了物理世界(小车动了没有)
创意与场景20%解决的问题是否有价值、管线设计是否巧妙
展示表现10%演讲流畅、演示稳定、应急处理

九、分龄说明(引擎标准)

本方案对应 12-18岁 的认知能力。8-12岁版本在课程引擎中自动适配以下差异:

维度本方案(12-18岁)引擎自动适配(6-12岁)
AI 工具全程 IDE + AICoding讲师预先配好按钮/单步操作
概念表达感知-推理-行动框架"听到→想到→做到"故事线
行为路径长链自主探索短链讲师引导
管线复杂度4段管线自行拼接预装管线,学员只操作最后一段
讲师角色技术教练故事讲述者+活动教练

十、讲师备忘

项目要点
Day1 关键确保每个学员经历了展厅,"大脑-身体"对比植入潜意识。Aha moment 在"对比普通 AI 和 Agent 的区别"
Day2 关键API Key 务必课前配好。卡在 AICoding 时帮学员提炼描述。Aha moment 在"听到自己指挥 AI 写的代码跑通了"
Day3 关键小车电池充满。xiao_che.py 提前写好并测试通。Aha moment 在"说一句话→小车动了"
Day4 关键中期检查及时砍功能。鼓励录屏备用。Aha moment 在"完整闭环跑通"
Day5 关键家长参与的感染力。讲师闭幕语要升华到"你指挥 AI 做了事"