引言

引言：龙虾及其"壳"

AI Agent 既不是人工智能，也不是语言模型

故事从一个开源项目讲起：OpenClaw（社区昵称"龙虾"）。这是一只能在电脑上 24 小时不间断运行的 AI Agent，我们可以通过 LINE、Discord、WhatsApp 随时找它聊天、给它派活。

它和我们平时用的 ChatGPT、Claude 网页版有一处根本差别：ChatGPT 动口不动手，只能给建议；AI Agent 能真正动手把事做完。举个例子，一个 Agent 接到"去当 YouTuber"这样的目标后，能自己创建频道、写视频简介、调用绘图工具生成头像，再上网收集资料、做投影片、写讲稿、调用语音合成配音，最后把视频传上 YouTube——我们只需做最后一步：审核。

那么这个能动手的"它"，到底是什么？这是全文最重要的一个区分，请记牢：

OpenClaw 本身不是大脑，它是一层运行在电脑上的"壳"（界面），夹在人类和大模型（GPT / Claude / Gemini）之间。我们下指令，这层壳把指令加工后转交给大模型；大模型回话，这层壳把回话加工或执行后反馈给我们。

人、LLM、Harness 三者的关系图：人可直接通过 web/chat 界面与 LLM 交互，但更多时候把任务交给中间的 Harness（框架/壳），由它处理提示词、编排流程、管理上下文后转交 LLM；LLM 的输出再经 Harness 加工或执行后反馈给人。Harness 与 LLM 合起来构成 AI Agent

这张图把三者的关系画清楚了：人（Human）当然可以直接和 LLM 聊天，但真正让它能干活的是中间那层 Harness（框架 / 壳）——人把任务交给 Harness，它负责加工提示词、编排流程、管理上下文，再转交 LLM；LLM 吐出结果，Harness 处理或执行后把结构化结果反馈给人。Harness 与 LLM 合起来，才构成一个 AI Agent。

一个 Agent 聪不聪明，根子上取决于它背后接的那个模型有多强。模型只是大脑，让大脑能在真实世界里手脚并用地干活的，是外面那层壳。这层壳就是本文的主角。它在 2026 年有了正式名字——Harness（马具、缰绳），第三级会专门解剖它。

大脑的三个先天缺陷#

这层壳为什么必须存在、又为什么越做越复杂，答案藏在大脑本身的三个先天缺陷里。语言模型（LLM）的本质朴素到会让我们失望：它在做文字接龙。我们给它一段文字（Prompt，提示词），它预测下一个最可能的字（Token，词元），接上；再预测下一个，再接上。如此而已。

由此推出三个先天缺陷，构成贯穿全文的中心约束：

没有记忆，活在当下。 模型像一个住在黑盒子里的失忆症患者，每次对话对它都是全新的开始。除非有人把过去的话重新塞回给它。
上下文窗口有限。 一次能塞给它的文字总量（输入加输出）有上限，这个上限叫上下文窗口（Context Window）。
塞得越多，往往越笨。 输入越长，它处理的准确度反而越容易下降。

要驯服一具大脑，得先看清它的毛病。这三条缺陷直接决定了那层壳必须干的活，也铺开了贯穿全文的主轴——三层工程。

三层工程：本指南的主轴#

三级工程 · 层层递进

点击任意一级，看它解决什么问题。范围从「一句话」一路扩大到「整件事」。

怎么改变问法，调整模型的单次输出？

System Prompt 告诉它「我是谁」
Tool Use 让它从动口到动手
Shell / CLI 是真正执行的地方
MCP 把工具标准化，按需发现工具

接下来三章，就沿着这条管线展开：先用 Prompt 工程给大脑装上能动手的身体，再用上下文工程管好它在有限窗口里看得见什么，最后用 Harness 工程给它套上缰绳、让它在多轮互动里把事做成。终章再看，这样一个被驯服的 Agent，能不能干科研这种最高阶的智力工作。