AI 产品的未来:评估驱动的时代

date
May 30, 2025
slug
ai-evaluation-driven-era
status
Published
summary
AI 产品的复杂度远超想象——看似简单的功能背后是多个环节串联的复杂流程。本文揭示为什么评估能力将成为 AI 产品时代的核心竞争力。从确定性到概率性的转变要求我们重新思考产品开发方式,而系统性评估是唯一能确保产品持续优秀的手段。
tags
AI 评估
AI Agent
LLMs
AI
产品设计
业务理解
用户体验
产品策略
type
Post
notion image
最近有个现象很有意思:大家都在谈论 AI Agent,好像这是什么全新的概念。但实际上,任何稍微复杂一点的 AI 产品,背后都不是单个模型的简单调用,而是多个环节串联的复杂流程,可能存在 AI 的自主调用、连续调用,也有可能是各种不同的预置流程(有些人会觉得应该分为 Agent 和 Workflow 两种方式)。
问题来了:当你的产品不再是一问一答的简单交互,而是需要经过多个步骤才能给出结果时,你怎么知道它到底做得好不好?
这个问题比你想象的更致命。

评估:新时代的核心竞争力

让我直说:评估能力将决定 AI 产品的生死
为什么?因为评估浓缩了业务的精华和流程的根本,能够设计出好的评估体系,本质上说明你深度理解了业务逻辑、用户需求和价值创造过程,这不是什么技术指标,这是需求理解的直接体现。
拿 Mapify 举例,这款产品看起来很简单——把任何内容变成思维导图,用户只需要丢个链接或上传个文件,几秒钟就能得到一张漂亮的思维导图。
但这个"看起来简单"的背后,其实有无数个决策需要做:用户上传了一个 PDF,要不要提取文字?还是先识别图表?YouTube 视频是分析字幕还是音频?不同类型的内容需要不同的处理方式。同时,看起来简单实际上复杂的还有,迭代导图、添加更多想法以至于聊天时可能触发的某些功能,每个功能背后可能都是完全不同的驱动形式。
关键问题来了:
  • 你怎么知道这些流程哪个效果好,哪个效果差?
  • 怎么衡量这些不同流程的有效性?
  • 怎么定义和理解同一类型但细节不同带来的差异?
  • 对比的标准到底是什么?
这些都需要深度的业务理解才能回答。市面上那些通用基准测试?只能作为参考。真正有价值的评估,必须来自对具体业务场景的深刻洞察。

从确定性到概率性的范式转换

这里有一个根本性的变化,很多人说是理解了,但实际上在做产品的方式上还没意识到:以前我们写代码,if-else 的逻辑,结果是确定的。现在用 LLM,同样的输入可能产生不同的输出。
这种从确定性到概率性的转换,会彻底改变产品开发的流程。过去,你知道代码逻辑正确,系统就正确。现在,你必须通过系统性地评估才能知道系统的真实表现。
更有意思的是,随着新模型发布频率越来越高,持续跟进最新进展变得至关重要——因为模型能力边界在快速变化,如果不及时测试新模型,可能会错过成本更低、效果更好的替代方案。
但真的如此吗?你有根据你的业务系统性地实测过吗?还是简单发一两个问题聊聊看?比如说我就发现在某些提炼摘要、指令遵循的场景,思考模型可能表现还不如非思考模型,按常理说,能够进行推理的模型应该在所有任务上都表现更好,这也是业界的普遍预期。
但在需要忠实提炼总结的场景下,思考模型有时候反而不如非思考模型。为什么?因为它们"想得太多"了。比如一个用例是在处理一篇关于 Apple TV 剧集 Sunny 的评论文章时,思考模型容易遗漏或捏造关键信息,多处与原文不符,出现了大量原文中并不存在的概念和分析。
这种"过度思考"导致的偏离在一篇论文中也得到了证实——DeepSeek R1 在大多数机器翻译和文本总结评估任务上表现不如一些非推理模型(当然我上面的用例测试的并不是 DeepSeek R1)。
这进一步说明了业务导向评估的重要性,我们需要根据具体任务调整评估策略——有些场景需要忠实性,有些场景需要创造性。
同时,在复杂的 Agent 流程中,不是所有环节都需要用最强的模型,关键是知道什么时候用什么模型来控制成本。
这不是技术细节,这是思维模式的根本转变。

评估的进化能力

有一个容易被忽略但极其重要的维度:评估体系本身需要具备学习和适应能力
AI 系统在动态环境中运行,用户行为、业务场景都在变化。今天有效的评估标准,三个月后可能就过时了。所以评估体系不能是静态的规则集合,而必须是能够自我迭代的智能系统。
这意味着什么?意味着你的评估框架需要能够识别新出现的用户模式,发现原有指标的失效信号,自动调整权重和标准,甚至提出新的评估维度。
在 Mapify 的实践中,不同使用场景下用户对"好的思维导图"的定义在不断演化,需求也会发生变化。某些场景下用户更关注知识结构的完整性,而某些场景下则更看重创意的激发效果。
这种动态性要求 AI 产品团队必须具备更深层次的能力——不仅要知道怎么评估,还要知道什么时候需要改变评估方式,这可能是未来工作上最重要的差异化能力之一。

评估驱动的持续进化

未来,随着模型能力的提升,我们可以通过对业务和流程的深度理解,用评估数据来驱动模型的强化训练和优化(开个脑洞)。
这将形成一个正向循环:更好的评估 → 更精准的模型选择和优化 → 更优的模型表现 → 更丰富的评估数据 → 更深入的业务理解。这不是技术问题,这是商业模式问题。谁能建立这样的循环,谁就能在竞争中立于不败之地。
在这个过程中, 经过训练的小模型和大模型的分工协作会越来越清晰。经过训练的小模型处理标准化、高频任务,大模型处理复杂推理、创新任务,通过智能编排系统实现最优配置。而这一切的基础,都是精确的、能够自我进化的评估体系。

结语

说到底,不管你叫自己 AI Agent、ChatBot 还是 Workflow 都不重要。用户根本不关心这些技术概念,他们也不知道什么是"AI Agent 产品"。
用户只关心一件事:你的产品到底好不好用?
这个"好不好用"怎么衡量?怎么持续改进?怎么确保下次更新不会让体验变差?答案就是评估能力。
从 Mapify 这样"简单"产品的复杂实践中可以看出,评估能力将成为 AI 产品时代最稀缺的核心竞争力之一。它不是一个技术问题,而是对业务本质的深度理解,以及让这种理解能够持续进化的能力。
概念会过时,技术会迭代,但对解决问题的追求是永恒的。