龙虾之道:我是怎么开始认真用 OpenClaw 的

date
Mar 9, 2026
slug
the-way-of-the-lobster-how-i-use-openclaw
status
Published
summary
一开始,我其实觉得 OpenClaw 没有任何存在的意义
tags
产品体验
AI Agent
用户体验
type
Post
notion image
一开始,我其实觉得 OpenClaw 没有任何存在的意义。
那时候我的日常组合已经非常顺手了:Claude Code 负责写代码,Claude 和 ChatGPT 负责聊天、查资料、写东西。既然这套工作流已经足够强,我看 OpenClaw 的第一反应自然也很直接:它还能补上什么?
直到我真的把它装起来,连续用了几天,我才意识到,自己一开始看错了方向。
OpenClaw 最有意思的地方,不是它又做了一个聊天界面,也不是它把一堆 AI 功能简单堆在一起。它真正不一样的地方在于,它试图把三件原本分散的事,做成一个连续的整体:记住我、替我执行、长期待在我最常用的聊天软件里。
这三件事单独拆开看,其实都不新鲜。记忆,很多产品都在做;自动化,也早就不是新概念;接入聊天软件,更谈不上稀奇。OpenClaw 的价值不在某一项单点能力,而在于它把这些能力缝成了一种持续的日常体验。只要配置对了,它就不再只是一个「偶尔打开用一下」的 AI 工具,而开始有点像一个真正常驻的私人助理。
但这件事有一个很硬的前提:模型必须足够强。

选模型

因为 OpenClaw 的工作环境,和你在网页上跟模型做一轮干净对话,根本不是一个难度级别。
在网页上,你问一句,模型理解一句,回答一句,任务相对单纯。但在 OpenClaw 里,模型面对的不是一个干净的问题,而是一整个混乱的工作现场:系统设定、长期记忆、当天日志、工具说明、最近几轮上下文、权限边界、外部状态……这些东西不是整整齐齐摆在它面前,而是一股脑地被塞进上下文窗口里。它必须自己判断:什么重要,什么不重要,什么该调用工具,什么只是背景噪音。
很多人对这件事的夸张程度,其实没有直观感受。前阵子我在小红书上看到一个很典型的例子:有人用腾讯云的免费额度装了 OpenClaw,以为 50 万 token 的额度够玩很久,结果跟它互动没几次,腾讯云就打电话来催欠费了。后来去后台一看,输入 token 的消耗已经超过了 1200 万。评论区里很多人都不理解:一句「你好」,怎么可能烧掉上万 token?如果自己直接调 API,发一句「你好」过去,明明也就几个 token,难道是云服务商在坑钱?
其实不是。问题出在 OpenClaw 的工作方式上。
因为它每一轮对话,都会把系统设定、长期记忆、当天日志、工具说明、最近几轮聊天记录,全部打包进同一个请求里,再一起发给模型。表面上看,你只是说了一句「你好」;但模型真正收到的,是一整份一万多 token 的「完整工作现场」,而那句「你好」只是压在最末尾的一小段。
可它为什么非要这么做?原因也很简单:大模型本身没有记忆。
你在网页上和 ChatGPT 聊天,关掉窗口,再开一个新的,它就什么都不记得了。OpenClaw 想让模型表现得像一个「认识我的助理」,唯一的办法,就是每次对话重新把这些事告诉它:我是谁,我平时怎么说话,我最近在忙什么,它手上有哪些工具可用,哪些事情做过,哪些事情还挂着。信息喂得越完整,它越有可能表现出一种「它一直都在」的感觉——接得上之前的话,知道我的习惯,该调工具的时候自己去调。代价当然也很明显:每一轮的 token 消耗都很高。
但这不是浪费,这是它能表现得像个助理,而不是像个只会复读的问答机的前提。
这也直接决定了两件事。第一,模型不仅要足够聪明,还得在成本上扛得住这样的消耗。第二,在这么庞大、嘈杂的上下文里,模型还能不能把注意力放在真正重要的信息上,变成了一个非常现实的考验。
所以后来我选模型,几乎不怎么看跑分排行榜,而是只看三件很实际的事:它能不能在一堆杂乱背景里抓到真正关键的信息;它能不能稳定地连续调用工具,而不是做到一半就走偏;它能不能在上下文不断拉长之后,依然保持一致,不开始编造内容。
这三件事,决定了一个模型到底能不能胜任 OpenClaw 这种「长期助手」的角色。闲聊的时候,很多模型都能显得很聪明;但一旦放进 OpenClaw 这种复杂环境里,差距会被迅速放大。
我试了一大圈之后,结论还是很清楚:Claude 系列总体上依然最靠谱。它在嘈杂上下文里抓重点的能力、连续调工具的稳定性,都做得最好,用起来最有那种「一直在同一个频道里」的连贯感。
但如果把成本也算进去,我现在觉得最平衡的,其实是 GPT 5.4。
在 5.4 出来之前,我一直主要用 GLM-5,备用模型挂着 Gemini 3.1 Pro 凑合着。5.4 发布之后,情况就不一样了。放到 OpenClaw 这种每天要聊很多次、而且经常要跑多步任务的环境里,它在稳定性、成本和综合体验之间找到了一个很少见的平衡。至于中文回复,虽然还是有一点互联网味,但比起以前已经顺了不少。
至于我之前用过的 GPT 5.2,我的评价非常简单:不好用,而且是那种完全不值得继续浪费时间的不好用。
GPT 5.3-Codex 则是另一种问题。它偏科很明显。调工具这件事,它也许确实会更好一点;但如果把它当成平时一直陪着聊天的主节点,它的回复会显得非常生硬,尤其是中文,几乎没有自然交流的感觉。它更像一个冷冰冰的执行器,不太像一个助理。
Gemini 也让我挺头疼。Gemini 3 Flash 表面上看起来很快,但放进 OpenClaw 里,经常会给我一种「心不在焉」的感觉——系统明明已经把记忆和设定都发给它了,它好像看了,又好像没看,聊起来很难真正进入状态。Gemini 3.1 Pro 则是真慢,慢到让人难受,而且你就算愿意等它半天,最后出来的结果也未必比 Claude 更好。
国产模型我也认真试过一轮,甚至还专门买了阿里云的套餐。最开始我对 Qwen3.5-Plus 的印象还不错:支持读图,聊天体验也不差。但任务一旦变深,问题就开始暴露,尤其是涉及初始化、记忆承接、多轮工具调用的时候,它就会变得不稳。后来我又试了 Kimi K2.5,实际感受是,很多 Qwen3.5-Plus 做不完的任务,Kimi 也一样做不完;而且在初始化阶段,Kimi 也经常不认真读记忆,没有把系统已经给它的信息真正用起来。
MiniMax M2.5 则是另一种失望。网上对它的评价普遍不错,但我自己放进 OpenClaw 之后,体验和这些评价差得很远。它在代码或者某些专项能力上,可能确实做过特化训练;但在这套系统里,问题不是偶尔失误,而是整体的稳定性和可依赖性都不够。除了响应快和不好用,几乎没有给我留下什么其他深刻的印象。
试到最后,国产模型里反而只有 GLM-5 让我觉得勉强能用。它在启动的时候,大概有六七成的概率,能正儿八经地把之前的记忆读进去并且用上。放到现在这个环境里,这已经算相当难得了。
说得再直白一点,OpenClaw 这种系统,测的根本不是模型「会不会说话」,而是它在复杂环境里有没有足够的脑容量和控制力。后来我越来越觉得,在 OpenClaw 里,一个模型的表现,很可能和它背后真正可用的能力规模高度相关。处理一个干净问题,很多模型都能及格;但一旦把它扔进一个充满设定、记忆、权限、网页和工具的环境里,能力不够的模型就会很快露怯。
这也是为什么,我并不建议把本地小模型当成 OpenClaw 的主力。
很多人从隐私角度出发,会天然觉得本地模型更放心。这种担心当然是合理的。但 OpenClaw 还有另一层现实:它不是一个只在本地陪你闲聊的东西,它很可能还要替你看网页、读信息、拿着工具权限去执行操作。这个时候,模型越弱,越容易在复杂页面和恶意提示里被带偏。表面上看,好像是在保护隐私;但实际上,你可能是在把更高的权限,交给一个判断力更差的执行者。
所以如果让我在「更弱但本地」和「更强但需要隔离」之间二选一,我会优先选更强的模型,然后把环境隔离做好。因为只有模型足够强,OpenClaw 这种形态才真正站得住;也只有模型足够强,它在面对复杂网页和潜在 Prompt Injection 的时候,才更有可能稳得住。
换句话说,OpenClaw 首先要解决的,不是「它能不能像 AI 一样回答问题」,而是「它能不能像助理一样不掉链子」。

浏览器与登录态

模型选对之后,下一步其实就是权限。
我一开始也低估了浏览器的重要性。总觉得「能上网」只是锦上添花,真正决定体验的还是模型本身。后来我发现完全不是这样。对一个长期助手来说,没有浏览器,它基本就是半残的。
没接浏览器之前,你让它帮你查个东西,它通常只能用自带的搜索工具抓几条摘要回来。听起来好像也还行,但真正用起来你会很快发现,这和自己打开搜索引擎搜一下,其实没有本质区别。它看不到完整页面,读不了评论区,也没法顺着链接一层层点进去看具体内容。
比如我问它:「帮我看看我的车最近有没有什么召回消息。」没有浏览器的时候,它最多只能拼几条搜索摘要给我,信息零零散散,我还得自己再去核实。但有了浏览器之后,它就能真的打开论坛帖子,翻评论区,点进相关链接,甚至顺手给我截个图,再回来告诉我:「我看了三个主流车友论坛,目前没有明显的召回讨论,但有人在提 XX 问题,要不要我继续往下跟?」这就不是在帮我搜索了,这是在帮我调查。
但光有浏览器还不够。更现实的问题是:AI 能打开网页,不等于它能打开「我的网页」。
很多网页,不登录根本没有意义。要看小红书,要进内网,要刷推文,能访问一个地址,并不代表它真的进入了我平时使用的互联网空间。它没有我的身份,也没有我的状态,更没有我的上下文。
所以在我看来,给 OpenClaw 配浏览器,不是让它学会上网,而是在给它装眼睛;让它进入那些需要身份和状态的页面,本质上是在给它配钥匙。
我用来配这把钥匙的,是 CookieCloud 这个插件。它可以把我在自己电脑上已经登录好的各种账号 Cookie,同步给 AI 用的浏览器。
浏览器加上登录态之后,它能做的事情就完全不一样了。
有一次,我在微信里跟它说:「帮我去小红书上看看,车主们都推荐什么隐形车衣。」因为 CookieCloud 已经把我的小红书登录态同步过去了,它就直接打开小红书,搜相关内容,翻了十几条笔记,最后把结果整理成一条很干净的总结给我:哪些品牌被提到最多,价格区间大概在哪,有哪些坑被反复吐槽。整个过程里,我只发了一句话,剩下的翻页、筛选、整理,它都在后台自己做完了。要是我自己去刷,光在小红书里翻这些内容,十几分钟肯定跑不掉。
如果只是普通人日常用用,直接连上自己电脑上的浏览器,其实就够了,没必要再额外折腾。但我自己是用 kasmweb/chrome 单独给它搭了一个专用浏览器容器,顺手把配置放进了我的仓库里:openclaw-browser
我之所以这么做,是因为我需要给 AI 一个独立、干净、还能被远程控制的执行空间。它在里面翻网页、点按钮,不会污染我自己正在使用的主浏览器,而且这个容器里的登录态是可以长期保留的。更重要的是,它和我的主浏览器完全隔离——万一模型在外面的网页上被恶意 Prompt Injection 骗了,做了什么不该做的操作,爆炸半径也会被控制在这个容器里,不会直接波及到我自己的账号和数据。
当然,眼睛和钥匙本身也都很敏感。权限越大,风险越高。这套东西背后其实牵扯到容器部署、CDP 协议、VNC、反检测机制这些技术细节;如果并不熟悉这些东西,我非常不建议直接照抄。同样,CookieCloud 同步登录态这件事,本质上是在把你自己的网络身份交给 AI,风险并不小。一个真正可用的助手,一定不是一个权限裸奔的助手。无论你用的是本机浏览器,还是隔离出来的容器浏览器,都应该认真对待这里面的安全风险。
但即便如此,我还是会说:浏览器是 OpenClaw 从「会聊天的 AI」走到「能办事的助理」的分水岭。

记忆

而真正让它开始有「人味」的,不是浏览器,而是记忆。
很多人一开始会低估记忆这件事。但在 OpenClaw 里,记忆的效果,首先还是被模型能力死死卡着脖子。
OpenClaw 的记忆机制并不复杂。每轮对话开始时,它会把核心记忆文件直接作为上下文,注入到系统提示词里发给模型。我的偏好、我最近在忙的事、之前做过的关键决定,其实都已经写进系统提示词了。按理说,模型一上来就应该看到这些信息。
但有些模型拿到这些信息之后,就是不处理。
不是因为这些信息藏得太深,不是因为它找不到。它们就在系统提示词里,明明白白地摆在那里。问题在于,它就是不读,或者说,它看到了,但没有认真用。之前我试 Kimi K2.5 和 Qwen3.5-Plus 的时候,这个问题就很明显:系统已经把我的偏好、最近在忙什么都注入进去了,它第一句回复依然像是在跟一个第一次见面的人讲话。MiniMax M2.5 甚至更夸张,系统的 AGENT.md 里已经明确提醒它去读 memory 文件了,它还是直接跳过。这种体验非常差,因为我明明知道信息已经给它了,它只是没有认真走完初始化流程。
再说 OpenClaw 的记忆机制本身。和市面上大多数 AI 产品比起来,OpenClaw 在记忆这件事上,走的是一个几乎相反的方向:它记得太多了。
我平时聊天时随口提一句「我不喜欢长篇大论」,它会记下来;偶尔抱怨一句「别加那么多 emoji」,它也会记下来;最近在处理车险理赔、打算买什么东西、对什么事情有偏好,它都会默默记下来。它几乎是在试图记住我说过的每一件事。副作用当然也存在:记忆读取和存储都比较慢。每次对话启动时,能明显感觉到它有一个「加载」的过程,尤其是记忆条目越积越多之后,这种延迟会越来越明显。
但如果你去看那些主打 AI 陪伴的产品——星野、筑梦岛、Character.AI 这一类——它们走的其实是完全相反的路线。它们面对的是几百万、上千万用户,出于工程规模和成本的考虑,不可能给每个用户维护一份无限增长的细粒度记忆。所以它们会对记忆做大量压缩、摘要、合并,只保留「最重要」的东西。结果就是,聊了一个月,它可能还记得你的名字、职业、喜欢猫,但你上周随口提过一句「最近在看隐形车衣」,这种碎片信息通常早就被优化掉了。
ChatGPT 和 Claude 的记忆功能,则是另一种取舍。
ChatGPT 在 2025 年 4 月做过一次很大的升级。到那时,它实际上已经有两套记忆:一套是 「Saved memories」,会从对话里提取关键事实长期保存;另一套是 「Chat history」,可以引用你所有历史对话。OpenAI 的做法,是在每轮新对话开始的时候,把这些内容自动预加载进上下文里。用户看不到这个过程。好处是,它确实能记住很多东西;问题是,你不太清楚它到底正在调用哪些历史信息,有时候它会在一些非常意想不到的地方突然冒出来——比如你之前随口提过的某个地点,后来竟然出现在一张完全不相关的图片里。
Claude 的记忆上线更晚,到了 2025 年 9 月才推出,做法也不太一样。它同样会预加载记忆——每 24 小时对历史对话做一次摘要,生成一份记忆概览,再在每轮新对话开始时注入上下文。除此之外,它还可以通过工具调用去搜索历史对话,而且这个过程是可见的,你能看到它在什么时候、用什么关键词去翻聊天记录。它也支持按项目隔离记忆。整体设计比 ChatGPT 更透明、更克制,但也意味着它不太会主动把那些碎片化的细节串起来,除非你主动提起,或者当前上下文里已经给了它足够明确的关联线索。
OpenClaw 的做法不一样。它默认就是:能记就记。
乍一看,这种做法甚至有点不优雅,甚至有点粗暴。但在私人助手这个场景里,恰恰是这种不怎么筛选的记忆方式,才会在某一天突然击中我。
我印象特别深的一次,是有天晚上我问了它一个完全不相关的问题,它在回答末尾很自然地补了一句:「对了,你上周提过想看看隐形车衣,要不要我这两天再帮你去小红书翻翻有没有新的车主反馈?」说起来也挺有意思,这种主动把旧记忆重新串起来的行为,Qwen3.5-Plus 触发的概率反而还挺高。虽然它在别的方面不够稳,但在「会想起你之前说过什么」这件事上,它倒是有点天赋。
我当时是真的愣了一下。因为那句「想看看隐形车衣」,我确实是一周前随口提过,提完自己都忘了。它居然还记着,而且是在一个非常自然的时机提出来,不是那种硬邦邦的「根据您之前的对话记录」。就那一瞬间,我的感受很直接:卧槽,它真的认识我。
而这种体验,在那些为了速度和成本而大幅压缩记忆的产品里,几乎不会发生。因为那些被「优化掉」的碎片,往往恰恰就是让人觉得「它真的在意我」的东西。
当这些碎片记忆长期累积起来之后,我越来越明显地感觉到:它不再是一个每次都要从头认识我的陌生人。它知道我说话的节奏,知道我在意什么,知道哪些内容该提醒我,哪些内容别来烦我。它开始有连续性了。

定时任务

而定时任务,则是把这种连续性从「感觉」变成「现实」。
我越来越觉得,Cron 这类能力,其实是普通用户最应该优先体验的部分。因为它最容易把「AI 很聪明」真正变成「AI 对我有用」。
聊天当然很好玩,写代码当然也很酷,但真正能在日常里建立存在感的,往往不是这些高光时刻,而是那些总能准时出现的小事:节假日提醒、家人的农历生日提醒、每天早上抓特定 RSS 订阅源做一份简报、在我还没开口之前,就把该来的那条消息送到我面前。
我给家里几个人的农历生日都设过提醒。有一次,在提醒的前一天晚上,它在微信里给我发来一条消息。不是那种「明天是 XX 的生日,请注意」的模板句,而是结合了我之前聊天里提过的内容,说了一句带点个人感的话,顺手还问我要不要它帮忙搜一下附近评分高的餐厅。
那个瞬间,它就不再像一个「点开才存在的工具」。在我没打开它的时候,它也在替我想着事情。当一个系统开始在「该出现的时候」自动出现,它就不再只是一个软件功能,而开始成为生活秩序的一部分。
这也是为什么我一直觉得,定时任务才是普通用户接触 OpenClaw 最好的起点。你根本不需要先去理解什么 session、delivery、cron 表达式 这些底层配置字段,把这些技术细节全交给 AI 去处理就够了。
你只需要用大白话告诉它:「帮我建一个所有法定节假日的提醒。」或者:「以后我家人的农历生日,记得提前一天提醒我。」从这些最简单的生活提醒开始,让系统先动起来。因为只有当它先在生活里站住脚,后面你才会真的愿意继续往下折腾它。

入口

最后一步,是把它放进一个你每天都会经过的地方。
我现在越来越觉得,最大的问题根本不是 AI 不够多,而是 AI 太碎了。一个网页,一个 App,一个终端,一个插件,功能都很强,但都要求你主动过去找它。你必须记得「去打开它」,它才会存在。
可一旦一个带着记忆、带着浏览器能力、还能定时提醒的助手,被放进你每天会打开无数次的聊天软件里,事情就会完全不一样。
我自己用的是微信,但 OpenClaw 支持的远不止微信。国外用户可以接 Telegram、Slack、WhatsApp、Discord,国内除了微信,也可以接飞书、钉钉。具体接哪个其实没那么重要,重要的是这个动作本身:把 AI 助手放进你原本就已经在使用的 IM 里。
这一步的意义,不只是「更方便」而已。它真正改变的是使用关系。
它不再需要你专门进入某个「AI 场景」才能调用。它直接进入了你原本的生活流。你不用切换心智,不用额外打开一个新的工作台,也不用在脑子里提醒自己:「对了,我还有个 AI 可以用。」它就在联系人列表里,像一个一直待命的存在。
而且聊天软件本身的交互体验,是被打磨了很多年的。消息气泡、通知推送、输入提示、未读提醒……这些你平时和朋友聊天时早就习以为常的东西,一旦放到 AI 对话里,会让整个体验比任何专门的 AI App 都更自然。你不会感觉自己在「使用一个工具」,而更像是在「跟一个人说话」。这种感觉很微妙,但它直接决定了你到底会不会真的把这个助手用起来。
当所有对话都收束在同一个地方——不是在 ChatGPT 网页上聊几句,又跑去 Claude 问另一个问题,再去别的 App 查个东西——而是始终落在同一个聊天窗口里,你就会越来越不把它当成一个「AI 产品」,而开始把它当成一个助理。
这一步带来的体验变化,很多时候甚至比模型升级本身还大。因为绝大多数人真正缺的,不是一个更聪明的模型,而是一个更容易出现在自己生活里的入口。

所以,OpenClaw 适合所有人吗?

肯定不是。
如果你的核心诉求是高强度的生产力输出——比如写大段代码、做复杂架构、写长篇专业文章——那 OpenClaw 未必是最优解。这个时候,直接打开网页版 Claude,或者在终端里跑 Claude Code,效率往往会更高。没必要为了用 OpenClaw,而把它硬塞进一个本来就不适合它的生产力流程里。
但如果你想要的,不是一个「随叫随到的问答机器」,而是一个能慢慢融进生活里的数字分身,那 OpenClaw 的价值就会开始变得非常具体。
它不一定能替我写出最完美的系统架构,但它能记住我家里那辆新能源车什么时候该续保、出过几次险;它能带着登录态,去我常看的内容平台里抓我真正关心的资讯,再整理成一份简报;它能在节假日或者家人的生日那天,准时在聊天软件里给我发来一条没有太多机器味的提醒;最重要的是,它就待在我每天都要打开无数次的聊天软件里,随时待命,我不需要为了找它,再额外打开一个新的 App。
说到底,真正打动我的,并不是 OpenClaw 有多「强」,而是它开始有了「存在」的感觉。
给它一个足够强的大脑,给它眼睛和钥匙,给它记忆,给它定时器,再把它放进我每天都会经过的入口里。做到这一步之后,它就不再只是一个冷冰冰的开源项目。
它开始有点像一个真正属于我的助理了。