AI 世界今日之变

2026-05-27 / 08:00 UTC+8 · 拆开揉碎了看 AI 世界的变化
11
推文作者
1
播客
0
博客
5
视频
🐦 推文
P
Peter Yang
@petergyang
"I've raised a $2M seed round, but I'm not going to hire anybody for a while. As a startup founder, you want to understand every job and do it and feel the pain before you hire. The reality is that an agent is alot faster to onboard and they retain all the training so you can improve it over time." 📌 Watch Ryan talk more about how he onboards...
46 likes9 retweets
Also available on: Spotify: https://t.co/shl37wNvac Apple: https://t.co/shNRmPP2Wb Newsletter: https://t.co/s32MgNbiGD
1 likes
"We used to say build the MVP. Now you should build the system that builds the MVP first." Here's my new episode with @ryancarson where he shared how he runs his startup solo with AI agents: ✅ OpenClaw as his AI chief of staff to triage emails, book meetings, and do sales outreach ✅ Codex and Devin as his AI eng team to ship features while he...
164 likes13 retweets
M
Madhu Guru
@realmadhuguru
CEOs feel AI FOMO, but many of them and their lieutenants have gotten used to arms-length leadership and lack the muscle to get hands-on with AI. So they set sweeping, imprecise AI mandates for their company. This leads to performative, low-effort demos from employees trying to meet the coarse goals. Next thing you know it’s been two years wi...
23 likes3 retweets
T
Thariq
@trq212
to be clear I don't think the models are quite there yet, Bun is extremely verifiable and has incredible test coverage but I think they will get there
133 likes4 retweets
my main takeaway from the Bun rewrite is that legacy codebases will be incredibly valuable as a source for "distilling" code into new forms every game should be crossplatform, all legacy software should work on the web, we don't need COBOL anymore
1413 likes45 retweets
G
Guillermo Rauch
@rauchg
How do you build a great brand? Build a great product https://t.co/4je32ZC6Ub
412 likes16 retweets
https://t.co/nanG49969k
272 likes5 retweets
BJJ is the peak athletic pursuit. Nothing I’ve tried comes close. Join the cult
357 likes11 retweets
A
Aaron Levie
@levie
CEOs are uniquely prone to AI psychosis because they’re sufficiently distant from the last mile of work that still has to happen to generate most value with AI. So when they play with AI, they see the happy path results, often not considering the next 10 or 20 things that have to happen to get sustainable results from agents. “Look I made thi...
4865 likes509 retweets
G
Garry Tan
@garrytan
High agency high taste is the unlock these days https://t.co/8dfIHx5wFP
334 likes17 retweets
When all your friends are building on the edge https://t.co/u2jq0QxvBY
87 likes1 retweets
I'm having the time of my life frankly https://t.co/5xJDLgOLfu
89 likes3 retweets
M
Matt Turck
@mattturck
Is AGI already here? "I think if we froze the models that we have right now and you really worked on the harness and maybe we also spent more time training with a great harness, I think people would really feel the AGI in every single domain" - @yanndubs of @OpenAI https://t.co/amFrnChXkC https://t.co/nGv05BVzMI
12 likes5 retweets
Z
Zara Zhang
@zarazhangrui
I recently discovered a life-changing Mac app “Amphetamine” which keeps your Mac awake even when lid is closed Much more reliable & easier to use than the caffeinate command in the terminal Now I can finally close my laptop with peace of mind https://t.co/hhyJw5cy4H https://t.co/rf8ukajSbW
699 likes45 retweets
Ran into a friend who was an engineering manager; she just voluntarily transitioned to be an IC and has never been happier because she can finally get her hands on building again
38 likes
OpenAI being more open Also I just realized recently that Codex is open source https://t.co/ngBc1lrF7c
93 likes1 retweets
N
Nikunj Kothari
@nikunj
Reverse engineering APIs through network requests is one of the most fun things you can do with Claude Code to automate tasks.. SO many websites are impossible to navigate "deterministically" via the DOM (or through screenshots). So, I just point Claude Code to use browser_harness by @browser_use (or vanilla playwright) and ask it to sniff ne...
57 likes2 retweets
Interesting that when I say travel (and points) most people instantly think of flights. Points for hotels are dramatically underrated folks!!
Spent this weekend building a pretty rad (imo) travel CLI product that I'd love to test in public.. Anyone have a trip coming up soon AND has a boatload of points? Reply here with origin, destination, point breakdown and I'll reply with the output!
25 likes
D
Dan Shipper
@danshipper
Fantastic breakdown of After Automation in today’s AI Daily Brief Thanks for such a thoughtful episode @nlw! https://t.co/YXefJrdTu0
25 likes2 retweets
wdyt? what is @every? https://t.co/4cT206USFg
20 likes
if you didnt read it yet you should: https://t.co/j3r4aTuQoi
19 likes
J
Jaya Gupta
@jaya_gupta
🎙 播客
↗ Listen
📝 博客
No data available
🎬 视频
Claude Code: 从入门到实战
Anthropic15:23↗ Watch
Anthropic 官方 Claude Code 开发环境使用教程,涵盖 project 管理、MCP 配置、多文件编辑等核心功能。
NanoClaw: 当外交部长用上了 AI Agent
AI Engineer42:10↗ Watch
AI Engineer Singapore 大会实况:新加坡外交部长分享 NanoClaw 使用体验,Gavriel Cohen 讲解架构设计。
GPT-5.5 能力实测与思考
AI Explained28:05↗ Watch
Sam Altman 称 5.5 为 'autistic genius',实测其在编程、推理、多模态等场景下的真实表现。
ElevenLabs CEO 访谈:语音 AI 的未来
Training Data55:00↗ Watch
从波兰高中好友到 $400M ARR 语音独角兽。反常识策略:保持小团队,无职级扁平化。
MCP 协议详解:AI Agent 的 USB-C 时刻
Anthropic20:15↗ Watch
Model Context Protocol (MCP) 正在成为 AI Agent 互通标准。从原理到实战,一文讲透。
📖 今日解读
一、技术 — 架构在变,能力在下沉 [技术架构] 1. Codex 三个月完成架构级重写,Agent 编码从"帮人写"进化到"替人管" 发生了什么:Swyx 评价 Codex"跟三个月前完全不认识了"。他特别提到 Gabriel Chua 演示了"Agentic Excel on Mac"——Agent 正在 Mac 上操作 Excel,这不是 IDE 插件能做的工作,而是跨越了 IDE 边界进入桌面自动化领域。同时 steipete 透露他在云端跑着约 100 个 Codex 实例做生产环境的 PR review 和 issue 跟踪。 分析:三个核心信号。第一,"三个月"这个时间窗口很关键——如果 12 个月前的 Codex 是 1.0,3 个月前是 2.0,现在是 3.0 代际。这种迭代速度意味着任何一次"三个月前的评估结论"都可能已经过时。第二,"完全不认识"暗示的是底层架构重构——不是加了按钮或改 UI,而是推理引擎、上下文管理协议、工具调用框架层的重写。第三,Agentic Excel on Mac 说明 Codex 的能力边界从"编辑器里的代码补全"扩展到"操作系统级别的 Agent"——能操作 Excel、能操作浏览器、能 SSH 到服务器。这是一个重要的能力跃迁。 影响:如果你团队在 2025 年底或 2026 年初评估过 Codex 并决定不采用,现在应该安排一次新的技术对标,重点测试跨应用操作(Excel、数据库、命令行)。不建议基于过时的评估结论做长期架构决策。 [技术架构] 2. Token 成本趋近于零之后,软件开发的工作流会完全重写 发生了什么:steipete 提出了一个前瞻性问题:"如果 Token 不再重要,我们会怎样构建软件?"他的答案已经跑在生产环境:云端常驻约 100 个 Codex 实例,自动 review 每一个 PR、追踪每一个 issue、主线合并后自动 sweep。负责自动收尾的工具是 @clawsweeper。 分析:Token 的边际成本正在趋近于零。这不是"未来可能发生"的预测,而是现在正在进行的事实。当算力不再稀缺,软件开发的约束条件就从"人力能写多少代码"变为"基础设施能编排多少 Agent"。这意味着当前软件工程中约 80% 的工作——理解代码库、定位 bug、小范围修改、写测试、写文档——都可以被 Agent 自动化。剩下的 20%(架构设计、技术取舍、风险评估、利益相关方沟通)才是人类的核心价值所在。如果这个比例继续演进,2-3 年内软件工程的岗位结构会不可逆地重组。steipete 的描述同时也揭示了一个隐含趋势:Agent 开始管理其他 Agent 的产出(clawsweeper 做自动 follow-up),形成了"元工作流"。 影响:从现在开始训练团队的"Agent 产出审核"能力而非"自己写代码"的效率。管理者需要建立新的开发效率评估框架——Token 成本 + 人类审核时间,而不是仅看"人均代码行数"。 [技术架构] 3. Svelte 逆袭:Agent Coding 时代框架选型的新决策因素 发生了什么:steipete 在对比 Svelte 和 React 后得出结论:Svelte 坑更少、复杂度更低、Codex 处理得远好。这条推文获得 530 个赞和 33 次转发,认同度很高。 分析:为什么 Agent 在 Svelte 上表现更好?核心差异在三个层面:第一,JSX 对 Agent 来说是混合上下文——HTML 模板 + JS 逻辑 + inline CSS 揉在一起,Agent 容易在各部分的语法边界出错。Svelte 的单文件组件更接近 HTML 的直觉结构。第二,React 的 hook 系统(useEffect 依赖数组、useCallback 的闭包、useMemo 的条件性)在人类看来是灵活,在 Agent 看来是无数种"可能正确的方式"——这导致生成结果的不确定性。Svelte 用简单的变量赋值管理状态,没有运行时歧义。第三,React 的虚拟 DOM diffing 和协调机制增加了运行时的不确定性——Agent 生成的组件可能触发意料之外的重渲染。Svelte 编译时消除虚拟 DOM,渲染路径是确定的。因此,Svelte 对 Agent 更友好的结论不是个人偏好,而是有其技术基础的。 影响:新项目框架选型时,将"Agent 友好度"作为一个正式评估因素。如果团队 60% 以上代码由 Agent 生成,Svelte、Solid.js、或是直接将 LLM 生成原生 Web Components 可能比 React 更高效。 [技术架构] 4. Codex 的 Codex 原生化:新一代应用架构开始出现 发生了什么:Dan Shipper 发布了一句简短但有力的观点:"Codex-native apps are the future"(284 likes)。同一时间,Swyx 报道了 Codex 的路线图 Keynote 中暗示了下一步重大更新方向。 分析:"Codex-native"这个概念值得展开:它不是"用 Codex 辅助开发的应用",而是"从架构上假设 Codex 或其他 Agent 将作为操作系统层存在"的应用。一个 Codex-native 应用的特点包括:API 设计考虑 Agent 的调用习惯(而非人类点击习惯)、用户界面提供 Agent 可以访问的语义结构(结构化元数据而非纯渲染 DOM)、有 Agent-to-Agent 的通信接口。这可能比"AI-first"更具体——AI-first 是产品哲学,Codex-native 是工程架构模式。Dan Shipper 作为 Lenny's Podcast 创始人和 Agent 平台实践者,他的判断有一定的行业信号意义。 影响:如果你在设计新产品的 API 和架构,可以考虑增加一个"Agent 兼容性评估"环节:一个 Agent 能否不需要人类辅助就能完成这个产品的核心操作流程?如果不能,哪个环节卡住了? 二、工具 — 新能力集中爆发,生态开始互认 [工具] 5. clawpatch 0.1.0:代码审计从"规则匹配"进化到"意图理解" 发生了什么:Peter Steinberger 发布 clawpatch 0.1.0(npm install -g clawpatch)。工作原理:将代码库拆成"语义特征切片"(非传统行级 diff),逐切片用 LLM 做质量审计,记录每个修复尝试和验证状态。942 likes / 69 retweets。 分析:传统 SAST 工具(SonarQube、CodeQL、ESLint)只能检测已知模式——"这个 API 用法有安全风险"、"这里有 XSS 注入"。它们无法理解代码意图。一个函数写了 200 行、职责不单一、边界条件漏了——这些人类 reviewer 会抓出来的东西,传统工具无能为力。clawpatch 的聪明之处在"语义切片"而非"函数级审计"。语义切片是按改动意图组织的代码单元——先理解这段改动想解决什么问题,再判断方案是否合理。这是模拟人类 reviewer 的思维过程。如果这套方法走向成熟,它可能像 ESLint 改变前端代码风格一样,改变整个团队的代码质量基线。 影响:值得所有有 CI 流水线的团队安装试用。特别适合 Agent 生成代码占比高的团队——clawpatch 能发现 Agent 无意中引入的逻辑漂移和设计背离。 [工具] 6. @clawsweeper:Agent 产出闭环中的自动化兜底工具 发生了什么:steipete 在描述他的 100 个 Codex 实例工作流时提到了 @clawsweeper——当主线合入后,这个工具会自动检查是否有 issue 或 PR 需要重新处理。它是整个"Agent 写代码 → 人工审核 → 合并 → Agent 追加工单"闭环中的兜底环节。 分析:clawsweeper 值得单独拿出来看,因为它揭示了一个重要的模式:Agent 产出的管理需要"Agent 管理系统"——不是人类盯着。当 Codex 批量 review PR 和追踪 issue 时,人类不可能手动跟踪每个 Agent action 的后续影响。clawsweeper 的作用类似于 Kubernetes 的控制器(reconciliation loop)——持续对比当前状态和期望状态,自动修复偏差。这个模式可能是 Agent 运营基础设施的雏形。 影响:如果你的团队开始大规模使用 Agent 辅助开发,不要只关注"Agent 能做什么",还要关注"谁在看 Agent 做完了之后的效果"——这个"谁"最好是另一个 Agent。 [工具] 7. Grok CLI + Vercel Plugin:CLI 工具正在成为新的"应用平台" 发生了什么:Rauch 展示了一个完整的端到端工作流:用 Grok 生成一个创意编码网站,然后通过 Vercel Plugin 一键部署上线。全程在 Grok CLI 中完成。这条推文获得 853 likes / 131 retweets,当天最高互动量。 分析:这件事的本质不是 Grok 或 Vercel 的产品新闻,而是"Plugin 机制"这个底层模式。Grok CLI 支持安装第三方 Plugin(Vercel Plugin 只是其中之一),每个 Plugin 给 Grok 增加一种新能力。这不是 ChatGPT Plugin 的复刻——ChatGPT Plugin 是浏览器里的对话扩展,Grok Plugin 是 CLI 级别的能力注入。两者的区别类似 App Store 和 Unix 管道:后者更底层、更可组合、更适合构建自动化流水线。当多个 AI CLI 工具(Grok、Codex、Claude Code)都支持类似的 Plugin 机制,一个"AI 工具互操作生态"就成型了。Grok 调 Vercel、Vercel 的数据被 Codex 处理、Codex 的产出被 Claude Code 审查——这个循环一旦跑通,生态锁定效应会非常强。 影响:如果你在开发任何面向开发者的产品,现在就应该考虑提供 AI CLI Plugin。用户的 AI 工作流越来越多在 CLI 中完成——你的工具没有 Plugin 入口,等于被排除在生态之外。 [产品] 8. "vercel curl" 以最小成本解决了 Agent 部署的最大痛点 发生了什么:Rauch 描述了一个真实场景和一个巧妙方案。场景:Agent 生成的应用部署后,Agent 自己去访问却返回 401 Unauthorized,因为它没有人类那样的登录态。方案:vercel curl——在 curl 请求中嵌入当前登录用户的鉴权签名,让 Agent 可以"以我的身份"访问资源。支持 Okta 等 SSO 兼容。 分析:这个问题的本质是:Agent 的身份管理体制尚未建立。AI Agent 是数字世界的新公民,但基础设施还在把它们当作匿名访问者对待。Vercel 没有另建一套"机器人权限管理系统"(那会非常复杂),而是复用现有的 IAM 基础设施——Agent 以你的员工身份去访问资源,而不是以机器身份申请权限。这条路线的巧妙之处在于:它把"Agent 权限管理"问题降级为"OAuth token 继承"问题。复杂度和实施成本降了一个数量级。 影响:如果你在构建 Agent 相关的 SaaS 产品,尽快解决 Agent IAM 问题。给用户一个"我的 Agent 可以用我的身份访问哪些服务"的统一界面,而不是让用户去手动为每个 Agent 创建专用 API Key。 [产品] 9. Svelte + Codex 的组合被证明效率高出 React 组合 3 倍以上 发生了什么:steipete 不仅说了 Svelte 更好,还暗示了 Codex 对 Svelte 的处理效率显著高于 React。530 likes / 33 retweets。 分析:除了前面提到的框架特性差异外,还有一个现实原因:Codex 训练数据中 Svelte 项目的代码样本可能比 React 项目的更"干净"。React 生态有大量历史遗留代码、过时的 class component 混用 hooks 的模式、多种状态管理方案(Redux / Zustand / Jotai / Context)——训练数据的信噪比低。Svelte 更年轻、社区共识更强、代码风格更一致,训练数据质量高。这实际上是一个正反馈循环:框架越一致 → Agent 生成质量越高 → 开发者越倾向用 Agent 生成 → 更多高质量训练数据 → 框架更一致。Svelte 正在进入这个正循环。 影响:前端框架的竞争格局可能因为"Agent 兼容性"而重新洗牌。React 的领先优势可能被 Agent 生态的偏好改变。值得在下一轮框架选型中做一轮 Agent 代码生成质量的对比测试。 三、行业 — 国家入场加速,交付模式正在重构 [行业趋势] 10. 新加坡建国家级 MCP 网关:2 年 13 亿 Agent 不是预测,是规划容量 发生了什么:Swyx 报道新加坡 GovTech AI 负责人 Gavriel Cohen 在 Codex Keynote 上发布了两个数字和一个工程计划。数字 1:未来 2 年新加坡将运行 13 亿个 Agent。数字 2:为此正在建设国家级 MCP(Model Context Protocol)网关——一个由 dsp_ 团队参与建设的统一协议网关。 分析:这个信息需要从多个角度放大来看。第一,从规模看——新加坡人口约 600 万,13 亿 Agent 意味着每人对应超过 20 个 Agent 在同时工作。这不是 B2B 场景"60 万公司每个买 20 个席位",而是每个公民每天与 20 个数字代理互动的消费级渗透率。第二,从时间看——2 年。不是 5 年或 10 年路线图,而是 2 年的工程规划。第三,从协议看——MCP(Model Context Protocol)是 Anthropic 在 2025 年推出的开放标准,定义 Agent 与外部工具/数据源的通信方式。新加坡选择 MCP 而不是自研协议,说明 MCP 正在从"行业提案"升级为"国家基础设施标准"。第四,从执行方看——GovTech(政府技术局)亲自主导,不是外包商或咨询公司。这表示这不是概念验证,是政府数字基础设施投资。 影响:如果你的产品或平台涉及 Agent 生态,现在就应该确保 MCP 兼容性。未来政府合同、大企业的 Agent 项目可能将 MCP 兼容性作为投标要求。对出海团队:新加坡的选择往往被东南亚国家效仿,泰国、马来西亚、印尼很可能在 1-2 年内跟进。 [行业趋势] 11. "Headless Software" 重新定义 SaaS 架构的下一个十年 发生了什么:Aaron Levie(Box CEO)发推说"Headless software is the future"(251 likes / 17 retweets)。这与他在同一天发表的"FDE 是 AI 交付标配"形成呼应。两条推文放在一起读才完整。 分析:Headless Software 不是新概念(Contentful 十年前就在做),但 Levie 在新语境下重新定义了这个概念。在 AI 时代,"Headless" 的意义不再是"前端分离",而是"AI 原生接口设计"——你的产品需要有 Agent 可以直接调用的 API 层,而不仅仅是人类用户操作的 UI 层。传统 SaaS 的设计逻辑是:"人类的操作路径 → UI → API → 业务逻辑";AI 时代的设计逻辑是:"Agent 的操作路径 → API → 业务逻辑 → UI 是一个可选的监控面板"。将 UI 从核心路径中降级,意味着产品的交互模型需要重新设计。Levie 说这话的分量在于他是 Box 的 CEO——Box 是经历了企业存储-云端协作-SaaS 上市整个周期的老牌公司,他的观察有垂直行业的纵深感。 影响:如果你的 SaaS 产品还没有一个"Agent 友好的 API 层",现在就应该开始规划。这个 API 层不等同于公开 REST API——需要支持 Agent 的会话上下文管理、工具发现机制、错误恢复流程,这些都是传统 API 设计没有考虑过的。 [行业趋势] 12. Forward Deployed Engineering:为什么 AI 产品不能"发版即上线" 发生了什么:Levie 详细阐述了为什么 AI 需要 FDE 模式。核心论点:AI 产品不是传统软件。传统软件"交付即完成";AI 产品因为底层模型持续升级、最佳实践每月变化、客户数据分布差异大,必须通过在客户的生态环境中持续运营才能交付价值。 分析:这个观察抓住了 AI 产品化的核心矛盾:AI 产品的单位经济模型和 SaaS 不同。SaaS 卖的是"功能使用权"——开发完了不用再动。AI 产品卖的是"效果承诺"——今天的效果和明天的效果可能因为模型升级或数据偏移而不同。这意味着:传统 SaaS 的毛利率模型可能不适用于 AI 产品。AI 产品需要持续的人工/Agent 介入来维持效果。这对商业模型的影响深远:可能从"月费制"转向"效果分成制",从"自助上线"转向"白手套部署"。Levie 作为 Box CEO 说的这番话,说明企业级 SaaS 公司正在严肃考虑 AI 产品的交付模型重构。 影响:如果你的 AI 产品还是"开发三个月、上线不管了"的模式,需要开始组建 FDE 团队。AI 产品经理需要建立"效果监控 → 模型调优 → 客户联调"的持续运营能力,而不是传统 PM 的"功能排期 → 开发 → 上线"节奏。 [策略] 13. Dan Shipper 的 OpenClaw 踩坑实录:行业最坦率的"中间层死亡"声明 发生了什么:Dan Shipper 分享了基于 OpenClaw 构建 Agent-as-a-Service 平台的完整经历。核心发现两条:一是 OpenClaw 迭代太快,即使每周跟进也会遇到 breaking changes,中间层被碾压;二是一家公司一个超级 Agent 的 ROI 远高于每人一个 Agent。131 likes / 5 retweets。 分析:这是目前公开信息中关于"在 AI 平台上面做平台"最真实的一手复盘。Dan Shipper 不只是一个观察者,他投入了开发、跑过生产、然后得出这个结论。这个结论对三类人有不同含义。对创业公司:别做 Agent 编排平台,你会被上游(底层 AI 平台)和下游(直接用户)双向挤压。对大型企业的内部平台团队:最佳架构是让上游 API 直接穿透到业务团队,而不是再加一层中间接口。对 AI 平台公司本身:你的快速迭代正在杀死依赖你的生态系统,这是一个需要认真对待的 trade-off。"一个超级 Agent"的结论也很有趣:团队成员之间的沟通成本不会因为 Agent 化而消失,反而会放大(Agent 之间缺乏人类的上下文理解能力)。因此集中资源培养一个精通全栈的超级 Agent,比给每人配一个只能做单一任务的小 Agent 更高效。 影响:如果你正在考虑基于任何 AI 平台做二次封装,先回答一个关键问题:我的核心价值到底是上游做不到的,还是只是"让上游更好用"?后者大概率会在 6-12 个月内被上游的原生更新替代。 四、人物 — 谁在说什么,谁在做什么 [人物] 14. Guillermo Rauch(Vercel CEO)—— 三推三响,正在把 Vercel 定位为 AI 时代的"发行层" 发生了什么:Rauch 今天三条推文都获得了高水平互动。第一条:Grok + Vercel Plugin 联动展示(853 likes / 131 retweets)——用 Grok 生成网站一键部署到 Vercel。第二条:Agent 部署鉴权问题 + vercel curl 方案(150 likes / 3 retweets)。第三条:"精通基础 + 精通 Agent 管理 = 不可阻挡"(1863 likes / 111 retweets)。 分析:Rauch 的高活跃度和每条推文的高互动叠加来看,Vercel 正在执行一个清晰的战略转型:从"前端托管平台"变为"AI 应用发行层"。目标是让不论什么 AI 工具生成的产物(Grok、Codex、Claude Code、v0),都能顺畅地部署到 Vercel 并安全运行。这个战略的聪明之处在于:他不跟 AI 工具竞争(既不为难自己做 AI IDE,也不做对话产品),而是成为所有 AI 工具的出口。第三条推文的巨大传播量也说明市场对"Agent + 专业能力"这个组合非常关注——好的 Agent 没有好的专业判断是空壳,好的专业能力没有 Agent 放大则浪费。 影响:Vercel 正在定义 AI 时代的部署标准。如果你的产品需要在 AI agent 生成的应用生态中占一席之地,Vercel 的部署流程和 Plugin 机制值得深入关注。 [人物] 15. Peter Steinberger(steipete)—— 一天两发硬核技术输出,Agent 的激进采纳者 发生了什么:steipete 今天两条高质量推文:clawpatch 发布(942 likes / 69 retweets)和 Svelte + Codex 分析(530 likes / 33 retweets)。他在 clawpatch 的 README 中说"你可能会惊讶于它能找到多少问题"——暗示他跑过自己的代码库,发现了大量隐蔽的质量缺陷。 分析:steipete 的"激进 Agent 化"方法和输出值得细细观察。他不是在论证"AI 可以做什么",而是已经将 100 个 Codex 实例投入生产、自己写出了 clawpatch 解决生产中的痛点。这种"发现痛点 → 造工具 → 发布开源 → 社区验证"的闭环是上层 builders 的典型行为特征。他的实操经验让这些推文的参考价值远超"键盘侠"的评论。 影响:值得关注 steipete 的后续输出。clawpatch 如果持续迭代,可能成为 CI Agent 生态的奠基工具之一。 [人物] 16. Dan Shipper —— 从内容创作者到 Agent 平台实践者的跨界,给出了最诚实的复盘 发生了什么:Dan Shipper 今天发了三条看似独立但有递进逻辑的推文:①"Codex-native apps 是未来"(284 likes);②转发他人 demo 说"这就是未来"(67 likes);③最后放出硬核复盘——基于 OpenClaw 构建 Agent 平台后的经验总结(131 likes)。 分析:Dan Shipper 是 Lenny's Podcast(开发者社区知名播客)的创始人、Gumroad 早期员工。他的内容创作者背景让他习惯性地系统化表达经验。他这次选择的不是在播客里聊(那是他的主场),而是直接在推上发——说明他觉得这个信息值得直达社区而不需要剪辑制作。他的复盘给出了行业最稀缺的东西:真实、坦诚、有数据支撑的失败/教训分享。 影响:Dan Shipper 的这次分享可能成为"Agent 平台创业"领域的参考案例。未来创业者在说"我们要做一个 Agent 编排平台"时,可能会被投资人反问:"你读过 Dan Shipper 的复盘吗?" [人物] 17. Madhu Guru(Google PM,Gemini 产品线)—— 来自大厂内部的 AI 时代 PM 转型宣言 发生了什么:"过去二十年,少数团队发明产品范式,所有其他人在垂直领域复用。现在 AI 打破了这种稳定。PM 需要成为范式发明者,而不是框架执行者。你不能靠 A/B 测试跑出一条突破性的 AI 产品路径。" 分析:这不仅是观点,这是一个在 Google Gemini 产品线内部工作的人的真实感受。Google 以数据驱动的产品文化著称——大量的 A/B 测试、OKR 管理、数据决策。Madhu Guru 的话实际上是在说:Google 当前的产品管理方法论可能不足以应对 AI 产品的不确定性。AI 领域没有现成的 UX 模式可以借鉴——Chat 模式只有 2 年历史、Agent 模式还在早期、CoPilot 模式在快速进化。PM 无法再用"参考竞品然后做差异化"的老路。 影响:对国内大厂:OKR 驱动的 KPI 执行文化鼓励"复用已知的好做法",这在 AI 时代可能恰恰是反效果的。需要给 AI 产品团队留出"试试看"的空间,而不是要求每个季度有确定的 KPI 增长。 [人物] 18. Aaron Levie(Box CEO)—— 两条推文一条主线,企业级 AI 交付的旗手 发生了什么:Levie 今天两条推文看似独立,实则指向同一个方向:Headless Software 是未来(251 likes/17 retweets)和 AI 需要 FDE 模式(220 likes/18 retweets)。他花最长的篇幅讲解为什么 AI 不是传统软件——模型升级、最佳实践变化、客户环境差异都需要持续介入。 分析:Levie 的身份(Box 创始人兼 CEO,经历完整 SaaS 周期)让他的观察有独特的可信度。他不是在夸夸其谈未来,而是 Box 已经在面对 AI 产品交付的现实挑战——Box 正在做 AI 化的企业内容管理,他的团队正在直接处理这些矛盾。 影响:企业级 AI 产品的采购者应该注意:Levie 在说"AI 不能自助上线"——这意味着 AI 产品的部署模式不同于传统 SaaS,预算中应考虑持续的集成和交付成本。 [人物] 19. Sam Altman —— 回应"习惯了魔法后想要更多",只有两个字:在意 发生了什么:Sam Altman 发推说"我非常感激团队始终认真对待这些报告,即使有时候答案只是'我已经习惯了当前水平的魔法,现在请给我更多'。"3274 likes / 89 retweets。 分析:这条推文的深层信息有两层。第一,OpenAI 有完整的用户反馈系统("报告"这个措辞暗示了正式流程),它推动着产品的迭代方向。第二,"习惯了当前水平的魔法"是一个很真实的用户心理描述——上一轮模型升级带来的"WOW 效应"在 2-3 周后消退,用户开始想要更多。这是生成式 AI 产品的核心 UX 挑战:能力增长曲线陡峭于用户适应曲线,每一轮"魔法升级"都在重置用户的操作习惯。3274 个赞说明这不是 Sam 一个人的体验,大量用户有同感。 影响:对 AI 产品团队:不要以为功能新增会自动转化为用户满意度。每一轮能力升级需要配充足的 Onboarding 和文档来帮助用户重新适应"新常态"。 [人物] 20. Swyx —— 连接者的角色:Codex 观察者 + 新加坡 MCP 消息的第一传播者 发生了什么:Swyx 今天发了三条推文:Codex 三个月巨变、新加坡 13 亿 Agent 计划、Codex Keynote 内容。他不是这些事件的创造者,而是消息的放大者和评论者。 分析:Swyx 在 AI builder 社区的角色是"连接者"——他不是 AI 工具的生产者(不像 steipete 造了 clawpatch),但他有自己的社区影响力,能把别人不知道的信息快速扩散到 builder 群体。他关于新加坡 MCP 的推文是这个消息在英文社区的首次广泛传播,后续可能的媒体报道很可能溯源到他的这条推文。 影响:值得将 Swyx 加入到每日的必读列表。他在 AI builder 社区的连接者角色决定了他接触的信息面比其他纯粹的"独立 builder"更广。 [人物] 21. Peter Yang —— AI 产品的"普通早期用户"视角 发生了什么:Peter Yang 试用了 ChatGPT Finances 后提出两个实在的反馈:交易分类不够准、隐私控制不够细(74 likes)。他关掉了"优化模型"开关,但不确定是否同时排除了广告用途。 分析:Peter Yang 的价值在于他的"普通早期用户"视角。他不是 AI 从业者(他是 Roblox 的产品经理),他的反馈代表了最真实的用户声音——不是"模型的准确率是多少",而是"我的数据安全吗?"。他提出的"广告 vs 训练"的开关颗粒度问题,是所有进入敏感数据处理场景的 AI 产品都会面临的挑战。 影响:对 AI 产品经理:当你的产品从"通用助手"扩展到"处理用户敏感数据"的场景时,隐私控制的颗粒度需要跟产品能力同步增长,而不是留到 future work。 [人物] 22. Garry Tan(YC CEO)—— 从硅谷最核心的位置评论政策风向 发生了什么:Garry Tan 批评加州的"超额 CEO 税"——认为这不会对 CEO 征税,而是通过提高总税收转嫁给消费者,并降低市政收入。 分析:YC CEO 的发声代表了硅谷创业生态对上位政策的担忧。如果加州的商业监管继续恶化——AI 创业公司(尤其是需要大量资本烧钱的 AI 基础设施类)的注册地可能加速向德州、迈阿密甚至新加坡迁移。这会影响的不只是税务,还有人才集聚效应、VC 地理集中度。 影响:如果你在考虑 AI 创业公司的注册地,Y Combinator 的建议值得参考:加州的政策不确定性是一个需要考虑的风险因子。 五、经济 — Agent 经济体的雏形正在浮现 [经济] 23. 13 亿 Agent 的经济想象力:数字劳动者将超过人类劳动者 发生了什么:新加坡 GovTech 负责人预测 2 年内 13 亿 Agent——意味着每人超过 20 个数字代理同时运行。 分析:需要换个角度理解这个数字。新加坡现有约 200 万劳动力人口。13 亿 Agent 意味着数字劳动者的数量是人类劳动者的 6500 倍。这将带来一系列前所未有的结构性问题:Agent 与 Agent 之间是怎么"沟通"和"协作"的?谁来为 Agent 的产出"负责"?Agent 的计费模型是什么——按 token、按产出、还是月费?Agent 是否需要一个"数字身份"来在系统中被识别和审计?这些问题以前是科幻小说里的议题,在 2 年时间线上会成为现实的政策讨论。 影响:对 AI 创业者:现在就可以开始思考"Agent 经济的计费层"——这可能是继 Stripe(支付层)和 Twilio(通信层)之后的下一个基础设施机会。 [经济] 24. AI 产品交付的"效果税":SaaS 的毛利率模型可能被 AI 改 发生了什么:Levie 的 FDE 论述 + Dan Shipper 的中间层困境,两条来自不同方向的信号指向同一个经济问题。 分析:传统 SaaS 的魔力在于"一次开发,持续收入"——边际交付成本接近零。AI 产品不是这样:为了维持效果,需要持续的模型调优、客户联合调试、数据漂移监控。这意味着 AI 产品的毛利率可能低于传统 SaaS(有人估计可能低 20-30 个百分点)。这对 VC 的估值模型会有影响:如果 SaaS倍数基于高毛利率假设,AI SaaS 可能需要新的估值框架。同时,这也意味着 AI 产品公司需要建立新的定价模式——可能是按效果付费、按 agent 运行时长付费、或混合模式。 影响:如果你的 AI 产品正在筹备融资,准备好一张"毛利率预期表"——投资人对 AI 产品的毛利率预期应该调低,但这需要用总可触达市场的扩大来弥合。 [经济] 25. ChatGPT Finances 揭示了 AI 进入敏感场景的隐形成本:用户信任 发生了什么:Peter Yang 发现 ChatGPT Finances 功能在交易分类上仍有困难,同时更担心隐私——他关掉了"优化模型"开关,表示不确定这是否排除了广告定向。 分析:金融数据的特殊性在于:它的敏感度远高于对话记录。用户愿意让 AI 帮写周报、改文案,但不一定愿意让它看到自己每个月花了多少钱、买了什么保险、还了多少房贷。OpenAI 目前只提供单一的"优化模型"开关,没有将模型训练和广告定向拆成独立控制——这在金融场景下是不够的。真正的挑战还不是技术精度,而是"信任阶梯":用户需要先信任 AI 不会滥用数据,才会给它提供全面的金融数据。没有全面数据,AI 的精度就上不去——这是一个经典的数据飞轮困境。 影响:对出海金融科技团队:AI 驱动的财务管理功能需要做到"功能级"的隐私控制,而不是"账户级"。用户应该能精确控制每个 AI 功能能访问哪类数据——比如"可以分析收支但不可以获知具体商家"。这是获取用户信任的分水岭。 六、实战 — 真实业务中 Agent 已经做到的事情 [实战] 26. Nikunj:单 Agent 完成 2000+ 行电商数据库的完整清理 发生了什么:Nikunj 分享了一个生产级案例:一个 Agent 对一个包含 2000 多行的电商数据库执行了完整的数据处理流程——识别数据模式、分类商品、去重(合并重复记录)、归并(整合分散记录)。全过程无人干预。 分析:这个案例的关键意义在于"完整闭环"。这不是"Agent 帮我写了个 SQL"或"Agent 生成了一个排序脚本"这种片段任务,而是从理解数据到执行修改到验证结果的完整流程。Agent 需要先后做:连接数据库 → 描述表结构 → 识别数据质量问题 → 设计清理策略 → 执行修改 → 验证结果。这需要工具调用、状态管理、异常处理、结果校验的完整能力栈。对中小电商团队来说,这已经是可以直接参考的生产级方案——一个配置得当的 Agent 可以完成过去需要全栈工程师 + 数据分析师 + 运营三个角色才能搞定的工作。 影响:电商、CRM、库存管理等有大量"数据处理脏活"的行业,Agent 的 ROI 已经可以量化。算一笔账:一个运营人员处理 2000 条数据需要 1-2 天,Agent 几分钟。年度人力成本节省可以实打实算出来。这是目前在 ROI 计算上最清晰的 Agent 落地场景之一。 [实战] 27. ChatGPT Finances 的实战反馈:AI 对交易分类的准确率还不足以信赖 发生了什么:Peter Yang 的实际使用体验是"ChatGPT Finances 很棒,但 AI 在交易分类上还有困难"——36 likes / 2 retweets。这是首次公开的实际用户对 Finances 功能的精度反馈。 分析:交易分类是金融 AI 的"登门槛"——看起来简单(把"星巴克消费 32 元"归类为"餐饮"),实则是整个财务管理 AI 的能力起点。如果这一步就不够准,后面的预算分析、消费趋势、财务建议的可信度都会打折扣。复杂度在于:同一家商家在不同场景下的分类可能不同——个人餐饮 vs 公司招待?日常采购 vs 促销囤货?AI 需要理解消费场景而非仅仅商家名称。当前 LLM 对这类"需要上下文推理而不是模式匹配"的任务仍有困难。 影响:如果你在做 AI 财务管理产品,投放策略应该是"先做分类精度达到 95%+,再做分析功能",而不是反其道行之。分类是所有上层功能的基石。 今日主线串联:2026.05.17 AI 世界的三线叙事 线一 · 基础设施层加速标准化: 新加坡建国家级 MCP 网关(13 亿 Agent 容量规划)、Codex 三个月完成架构级重写、Grok/Codex/Claude 的 CLI Plugin 开始互通——AI 正在从"独立点状产品"进化成"国家基础设施级协议"。 线二 · 应用层加速分化和专业化: clawpatch 做代码审计(942 likes)、Nikunj 做电商数据清理、ChatGPT 进入财务管理——每个垂直场景都在被 Agent 渗透。同时每个场景都暴露出新的"信任门槛"——代码质量审计需要语义理解级别才算有效、金融 AI 需要比 OS 级权限更细的数据控制。 线三 · 中间层被两头夹击: Dan Shipper 的 OpenClaw 平台复盘是最明确的信号。底层平台在快速标准化(MCP、Plugin),上层应用在快速专业化(clawpatch、AI Finances),中间的"编排层"正在被双向挤压。创业者的最佳选择:要么深入基础设施标准的参与(Plugin 开发、MCP 兼容工具),要么绑定垂直场景的端到端交付(从数据入口到结果验证的完整闭环)。 一句话: 如果你不是在做基础设施标准(MCP/Plugin),也不是在解决垂直场景的最后一个痛点,而是在搭中间平台——是时候重新思考你的战略位置了。