AI产品的北极星指标怎么选:工具、Agent、工作流三类对照
OXYZ资本在看项目时常常发现一个很尴尬的现象:
很多 AI 产品“功能很强、数据也不差”,但团队越做越焦虑——因为你不知道自己到底在变好什么。
- 看 DAU:增长起来了,但成本也一起涨,毛利更难看。
- 看 D7/D30:留存不错,但收入不动,客户也不愿把关键环节交给你。
- 看调用量:越高越开心,直到财务告诉你“你在给用户发补贴”。
这背后本质是:你选错了北极星指标。
北极星不是“任何一个好看的数”,而是一个能把团队拉到同一个方向的承诺——它必须同时满足:
- 代表真实价值(用户或客户真正在乎的结果);
- 可规模化放大(做大不会天然变亏);
- 可被产品动作直接驱动(改体验→指标会上升);
- 不容易被“刷出来”(必须带质量门槛)。
而 AI 产品的难点在于:同样叫“AI 应用”,产品形态不同,北极星完全不同。最常见的三类是:AI 工具、AI Agent、AI 工作流。你要先分清自己是哪一类,再谈指标。
0)先把三类产品说人话:你到底在卖什么?
你可以用一句话区分三类:
- AI 工具(Tool):用户在场,AI 辅助;你卖“更快更好”。
- AI Agent(Agent):用户不想在场,AI 代劳;你卖“交付结果与责任”。
- AI 工作流(Workflow):用户在原系统里完成工作,你把 AI 变成流程节点;你卖“流程跑得更顺、更可控、更可审计”。
关键差别不是“有没有模型”,而是:谁按下最终确认、谁承担错误代价、结果是否写回系统。
一旦这三个问题答案不同,北极星指标体系就必须重写。
1)三类产品的北极星指标应该长什么样
下面把“工具 / Agent / 工作流”三类的用户心智、价值时刻、北极星候选、最容易误选的指标,以及必须配的护栏指标写清楚(你可以直接对号入座):
A. AI 工具(Tool)
- 用户心智:“我负责,但你让我更省事、更快交付。”
- 价值时刻(Value Moment):用户完成一次可交付成果(例如导出、发布、写入工作系统/文档)。
- 北极星指标候选(推荐):
- 每周有效任务闭环数(Weekly Effective Completions),或
- 每席位每周有效使用次数(本质同上:完成闭环而不是打开次数)。
- 最容易误选的指标:DAU、打开次数、对话轮数、生成次数(这些很容易被“试试/薅一下/无效使用”抬高)。
- 必须配的护栏指标:
- 单次成本/毛利(Cost per completion / Gross margin)
- 结果可用率(是否达到可交付质量)
- 返工率/二次编辑率(可用性与真实省事程度)。
一句话:工具看“人回来了并交付”,护栏压住“成本与返工”。
B. AI Agent(Agent)
- 用户心智:“这事你替我干完,最好别让我参与;出了问题要有边界。”
- 价值时刻(Value Moment):一次任务被合格地自动交付(按质量标准完成,且在 SLA 内)。
- 北极星指标候选(推荐):
- 合格自动化任务数 QAJ(Qualified Automated Jobs),或
- 自动化率(Automation Rate = 合格自动完成任务 / 总任务)。
- 最容易误选的指标:D7/D30、活跃时长、打开频次(Agent 的客户不需要天天打开你,关键是你是否稳定交付)。
- 必须配的护栏指标:
- 接管率(Handoff Rate:转人工比例)
- 一次通过率(First-pass Acceptance:无需返工比例)
- SLA 达成率
- 错误严重度分布(错了多贵)
- 单位任务成本/毛利(推理 + 人工兜底 + 审核)。
一句话:Agent 看“机器干成了且稳定”,护栏比北极星更重要。
C. AI 工作流(Workflow)
- 用户心智:“别让我换工具,把你嵌进流程;最好可审计、可治理。”
- 价值时刻(Value Moment):在原系统内触发并写回成功(字段/状态/文档落盘),且可留痕审计。
- 北极星指标候选(推荐):
- 每周成功写回的流程运行数(Successful Runs with Write-back),或
- 活跃工作流数(Active Workflows):达到运行阈值(例如每周≥N次且写回成功)。
- 最容易误选的指标:注册数、安装数、PV、集成数量(“装了/接了”不等于“跑起来并写回”)。
- 必须配的护栏指标:
- 集成覆盖率与触发覆盖率(触发是否发生在真实场景)
- 失败率/回滚率(稳定性)
- 审计/权限/合规要求满足度(准入与扩散)
- 扩节点/扩部门指标(从1条流程扩到多条)。
OXYZ资本 建议:工作流看“跑起来且写回”,增长看“越跑越多流程”。
2)AI 工具(Tool):北极星怎么选才不被“活跃幻觉”骗?
2.1 工具类最常见的错:把“打开”当“价值”
内容/写作/视频/设计/搜索类工具很容易做出高打开率,但用户可能只是“试试”“薅一下”“临时用一次”。
工具的价值不是生成,而是交付。
所以工具类北极星最建议选:
每周有效任务闭环数(Weekly Effective Completions)
定义:在一周内,用户完成了多少次“可交付闭环”(生成 → 关键编辑/确认 → 导出/发布/写入工作)。
这里的关键词是“闭环”。你必须把“激活事件”从“生成了一段内容”升级为“生成并带走/发布/落盘”。
2.2 怎么把“有效闭环”定义到足够硬(避免刷)
给你一个可落地的定义模板(你按行业替换即可):
- 完成一次闭环 = 生成结果 + 满足质量阈值(例如字数/结构/格式/一致性) + 发生交付动作(导出/复制到指定入口/发布/写入第三方)
- 有效闭环 = 闭环后 24 小时内没有被删除/撤回,或用户产生二次编辑/复用(这能过滤“随手试试”)
你会惊讶:很多所谓“高活跃工具”,一加“交付动作”就立刻现原形。
2.3 工具类北极星配套的“护栏”,否则越做越亏
工具类最危险的形态是:闭环数上升,但成本同步上升,最后毛利崩掉。
所以你必须同时看两条护栏:
- 单位有效闭环成本(Cost per Effective Completion)
- 返工率/二次编辑率(结果可用性,决定客服与流失成本)
工具类一句话:
北极星要能驱动“交付”,护栏要能压住“成本与返工”。
3)AI Agent:别再用留存证明 PMF,你真正卖的是“稳定交付”
3.1 Agent 的本质:用户不需要“天天打开你”
很多 Agent 类产品(客服自动解决、外贸询盘初筛、对账、资料校验、工单处理)用户不会每天打开 App。
他们关心的是:自动干了多少活、错了多贵、多久交付、能否追责。
所以 Agent 类北极星最推荐二选一:
- 合格自动化任务数(QAJ, Qualified Automated Jobs)
定义:按质量标准完成、无需或极少人工介入的任务数量。 - 自动化率(Automation Rate)
定义:合格自动完成任务 / 总任务。
这两者的共同点是:直接等价于“替代了多少工作量”。
3.2 Agent 类必须把“质量门槛”写进指标,否则北极星会毁掉你
Agent 最容易出现“刷量式自动化”:把很多任务强行判为自动完成,但实际造成大量返工或事故。
所以 QAJ 必须包含质量阈值(例如一次通过、无严重错误、在 SLA 内完成)。
同时,Agent 的护栏指标几乎比北极星更重要:
- 接管率(Handoff Rate):多少任务必须转人工
- 一次通过率(First-pass Acceptance):无需返工比例
- SLA 达成率:是否按时交付
- 错误严重度分布:不是“错没错”,而是“错了多贵”
- 单位任务成本/毛利:推理成本、人工兜底、审核成本都算进去
Agent 类一句话:
北极星是“做成多少”,护栏是“做得稳不稳、值不值钱”。
4)AI 工作流(Workflow):北极星要锚定“写回与运行”,而不是“安装与集成数”
4.1 工作流产品的真实战场:用户不想换工具
工作流类产品往往发生在飞书/钉钉/Slack/Notion/CRM/工单/ERP 里。
用户的心理是:别让我多开一个工具,把 AI 变成流程里一个可靠的节点。
所以工作流类北极星的核心是:
每周成功写回的流程运行数(Successful Runs with Write-back)
或
活跃工作流数(Active Workflows):达到某个运行阈值(例如每周≥N次且写回成功)
为什么必须强调“写回”?
因为“只通知不写回”的集成很容易沦为一次性噱头:用一次就走、留存与付费都起不来。
4.2 工作流类最重要的第二北极星:扩节点/扩部门
工作流产品真正的商业化与护城河来自扩展:
- 从 1 个流程节点扩到 3 个节点
- 从 1 个部门扩到 3 个部门
- 从单人触发扩到团队协作与权限治理
所以你除了“运行数”,还应该长期盯一个扩展指标(作为经营指标,不一定是唯一北极星):
- 流程覆盖度(Process Coverage):被 AI 覆盖的流程节点占比
- 或 集成触发用户占比:在原系统内触发过闭环的人/团队
OXYZ资本内部观点:
北极星看“跑起来且写回”,增长看“越跑越多流程”。
5)一套“选北极星”的实操方法:四步落地,不吵架
很多团队选北极星选到最后变成价值观争论。其实可以工程化解决:
第一步:先定产品归类(工具/Agent/工作流)
用三个问题自测即可:
- 最终谁按“确认/发送/执行”?
- 出错后谁承担代价?
- 结果是否必须写回系统才能成立?
答案基本就能把你归类清楚。
第二步:把“价值时刻”写成一个可埋点事件
- 工具:交付成果(导出/发布/落盘)
- Agent:合格交付(质量门槛+SLA)
- 工作流:写回成功(原系统字段/状态/文档落盘)
北极星 = 价值时刻事件 × 规模,别把“打开/生成”当价值时刻。
第三步:把“质量”写进北极星定义(否则会被优化到失真)
任何北极星都要有“合格”两个字:
合格输出、合格任务、合格写回。
没有合格门槛,你的北极星会把团队带向刷量、事故、用户流失。
第四步:给北极星配护栏(成本、风险、体验)
AI 产品最常见的死亡方式不是“做不出指标”,而是“做出指标但亏到死”或“事故一次就完”。
护栏建议至少三类:
- 成本与毛利(单位成本/毛利率)
- 质量与稳定(返工/一次通过/失败率)
- 风险与合规(错误严重度、审计、权限)
6)早期怎么用北极星“驱动迭代”?给你一个周节奏
如果你是早期,最有效的做法不是做十个仪表盘,而是做一个“周复盘闭环”:
- 周一:看北极星走势 + 拆来源(哪个场景/渠道/模板/集成触发贡献)
- 周二三:只改一个最影响北极星的环节(onboarding、模板默认、写回闭环、兜底策略)
- 周四:回看护栏是否恶化(成本、失败率、返工、接管)
- 周五:复盘“北极星上涨是不是因为价值更强,而不是刷量/补贴/通知轰炸”
你会发现:北极星指标选对以后,团队讨论会变得简单——因为你不再争“该不该做这个功能”,而是争“它能不能提升价值时刻发生的次数与合格率”。
OXYZ资本认为:北极星不是一个数字,是你对“我到底卖什么”的承诺
AI 时代最贵的不是算力,是方向错了还越跑越快。
北极星指标的意义,不是让你“更会做报表”,而是迫使你回答一个更残酷的问题:
当用户/客户产生需求的那一刻,你到底替他完成了什么?
- 是交付更快(工具)
- 是结果更稳(Agent)
- 是流程更顺(工作流)
你回答清楚了,北极星就自然出现;你回答不清楚,再漂亮的 DAU 都只是在给幻觉加速。

