引言:龙虾及其"壳"
AI Agent 既不是人工智能,也不是语言模型
故事从一个开源项目讲起:OpenClaw(社区昵称"龙虾")。这是一只能在电脑上 24 小时不间断运行的 AI Agent,我们可以通过 LINE、Discord、WhatsApp 随时找它聊天、给它派活。
它和我们平时用的 ChatGPT、Claude 网页版有一处根本差别:ChatGPT 动口不动手,只能给建议;AI Agent 能真正动手把事做完。举个例子,一个 Agent 接到"去当 YouTuber"这样的目标后,能自己创建频道、写视频简介、调用绘图工具生成头像,再上网收集资料、做投影片、写讲稿、调用语音合成配音,最后把视频传上 YouTube——我们只需做最后一步:审核。
那么这个能动手的"它",到底是什么?这是全文最重要的一个区分,请记牢:
OpenClaw 本身不是大脑,它是一层运行在电脑上的"壳"(界面),夹在人类和大模型(GPT / Claude / Gemini)之间。我们下指令,这层壳把指令加工后转交给大模型;大模型回话,这层壳把回话加工或执行后反馈给我们。

这张图把三者的关系画清楚了:人(Human)当然可以直接和 LLM 聊天,但真正让它能干活的是中间那层 Harness(框架 / 壳)——人把任务交给 Harness,它负责加工提示词、编排流程、管理上下文,再转交 LLM;LLM 吐出结果,Harness 处理或执行后把结构化结果反馈给人。Harness 与 LLM 合起来,才构成一个 AI Agent。
一个 Agent 聪不聪明,根子上取决于它背后接的那个模型有多强。模型只是大脑,让大脑能在真实世界里手脚并用地干活的,是外面那层壳。这层壳就是本文的主角。它在 2026 年有了正式名字——Harness(马具、缰绳),第三级会专门解剖它。
大脑的三个先天缺陷#
这层壳为什么必须存在、又为什么越做越复杂,答案藏在大脑本身的三个先天缺陷里。语言模型(LLM)的本质朴素到会让我们失望:它在做文字接龙。我们给它一段文字(Prompt,提示词),它预测下一个最可能的字(Token,词元),接上;再预测下一个,再接上。如此而已。
由此推出三个先天缺陷,构成贯穿全文的中心约束:
- 没有记忆,活在当下。 模型像一个住在黑盒子里的失忆症患者,每次对话对它都是全新的开始。除非有人把过去的话重新塞回给它。
- 上下文窗口有限。 一次能塞给它的文字总量(输入加输出)有上限,这个上限叫上下文窗口(Context Window)。
- 塞得越多,往往越笨。 输入越长,它处理的准确度反而越容易下降。
要驯服一具大脑,得先看清它的毛病。这三条缺陷直接决定了那层壳必须干的活,也铺开了贯穿全文的主轴——三层工程。
三层工程:本指南的主轴#
点击任意一级,看它解决什么问题。范围从「一句话」一路扩大到「整件事」。
怎么改变问法,调整模型的单次输出?
- System Prompt 告诉它「我是谁」
- Tool Use 让它从动口到动手
- Shell / CLI 是真正执行的地方
- MCP 把工具标准化,按需发现工具
接下来三章,就沿着这条管线展开:先用 Prompt 工程给大脑装上能动手的身体,再用上下文工程管好它在有限窗口里看得见什么,最后用 Harness 工程给它套上缰绳、让它在多轮互动里把事做成。终章再看,这样一个被驯服的 Agent,能不能干科研这种最高阶的智力工作。