AI产品的北极星指标怎么选:工具、Agent、工作流三类对照

OXYZ资本在看项目时常常发现一个很尴尬的现象:
很多 AI 产品功能很强、数据也不差,但团队越做越焦虑——因为你不知道自己到底在变好什么。

  • DAU:增长起来了,但成本也一起涨,毛利更难看。
  • D7/D30:留存不错,但收入不动,客户也不愿把关键环节交给你。
  • 看调用量:越高越开心,直到财务告诉你你在给用户发补贴

这背后本质是:你选错了北极星指标
北极星不是任何一个好看的数,而是一个能把团队拉到同一个方向的承诺——它必须同时满足:

  1. 代表真实价值(用户或客户真正在乎的结果);
  2. 可规模化放大(做大不会天然变亏);
  3. 可被产品动作直接驱动(改体验指标会上升);
  4. 不容易被刷出来(必须带质量门槛)。

AI 产品的难点在于:同样叫“AI 应用,产品形态不同,北极星完全不同。最常见的三类是:AI 工具、AI AgentAI 工作流。你要先分清自己是哪一类,再谈指标。

 

0)先把三类产品说人话:你到底在卖什么?

你可以用一句话区分三类:

  • AI 工具(Tool:用户在场,AI 辅助;你卖更快更好
  • AI AgentAgent:用户不想在场,AI 代劳;你卖交付结果与责任
  • AI 工作流(Workflow:用户在原系统里完成工作,你把 AI 变成流程节点;你卖流程跑得更顺、更可控、更可审计

关键差别不是有没有模型,而是:谁按下最终确认、谁承担错误代价、结果是否写回系统。
一旦这三个问题答案不同,北极星指标体系就必须重写。

 

1)三类产品的北极星指标应该长什么样

下面把工具 / Agent / 工作流三类的用户心智、价值时刻、北极星候选、最容易误选的指标,以及必须配的护栏指标写清楚(你可以直接对号入座):

A. AI 工具(Tool

  • 用户心智我负责,但你让我更省事、更快交付。
  • 价值时刻(Value Moment:用户完成一次可交付成果(例如导出、发布、写入工作系统/文档)。
  • 北极星指标候选(推荐)
    • 每周有效任务闭环数(Weekly Effective Completions,或
    • 每席位每周有效使用次数(本质同上:完成闭环而不是打开次数)。
  • 最容易误选的指标DAU、打开次数、对话轮数、生成次数(这些很容易被试试/薅一下/无效使用抬高)。
  • 必须配的护栏指标
    • 单次成本/毛利(Cost per completion / Gross margin
    • 结果可用率(是否达到可交付质量)
    • 返工率/二次编辑率(可用性与真实省事程度)。

一句话:工具看人回来了并交付,护栏压住成本与返工

 

B. AI AgentAgent

  • 用户心智这事你替我干完,最好别让我参与;出了问题要有边界。
  • 价值时刻(Value Moment:一次任务被合格地自动交付(按质量标准完成,且在 SLA 内)。
  • 北极星指标候选(推荐)
    • 合格自动化任务数 QAJQualified Automated Jobs,或
    • 自动化率(Automation Rate = 合格自动完成任务总任务)
  • 最容易误选的指标D7/D30、活跃时长、打开频次(Agent 的客户不需要天天打开你,关键是你是否稳定交付)。
  • 必须配的护栏指标
    • 接管率(Handoff Rate:转人工比例)
    • 一次通过率(First-pass Acceptance:无需返工比例)
    • SLA 达成率
    • 错误严重度分布(错了多贵)
    • 单位任务成本/毛利(推理人工兜底审核)。

一句话:Agent 机器干成了且稳定,护栏比北极星更重要。

 

C. AI 工作流(Workflow

  • 用户心智别让我换工具,把你嵌进流程;最好可审计、可治理。
  • 价值时刻(Value Moment:在原系统内触发并写回成功(字段/状态/文档落盘),且可留痕审计。
  • 北极星指标候选(推荐)
    • 每周成功写回的流程运行数(Successful Runs with Write-back,或
    • 活跃工作流数(Active Workflows:达到运行阈值(例如每周≥N次且写回成功)。
  • 最容易误选的指标:注册数、安装数、PV、集成数量(装了/接了不等于跑起来并写回)。
  • 必须配的护栏指标
    • 集成覆盖率与触发覆盖率(触发是否发生在真实场景)
    • 失败率/回滚率(稳定性)
    • 审计/权限/合规要求满足度(准入与扩散)
    • 扩节点/扩部门指标(从1条流程扩到多条)。

OXYZ资本 建议:工作流看跑起来且写回,增长看越跑越多流程

 

2AI 工具(Tool):北极星怎么选才不被活跃幻觉骗?

2.1 工具类最常见的错:把打开价值

内容/写作/视频/设计/搜索类工具很容易做出高打开率,但用户可能只是试试”“薅一下”“临时用一次
工具的价值不是生成,而是交付。

所以工具类北极星最建议选:

每周有效任务闭环数(Weekly Effective Completions
定义:在一周内,用户完成了多少次可交付闭环(生成 → 关键编辑/确认 → 导出/发布/写入工作)。

这里的关键词是闭环。你必须把激活事件生成了一段内容升级为生成并带走/发布/落盘

2.2 怎么把有效闭环定义到足够硬(避免刷)

给你一个可落地的定义模板(你按行业替换即可):

  • 完成一次闭环生成结果满足质量阈值(例如字数/结构/格式/一致性)发生交付动作(导出/复制到指定入口/发布/写入第三方)
  • 有效闭环闭环后 24 小时内没有被删除/撤回,或用户产生二次编辑/复用(这能过滤随手试试

你会惊讶:很多所谓高活跃工具,一加交付动作就立刻现原形。

2.3 工具类北极星配套的护栏,否则越做越亏

工具类最危险的形态是:闭环数上升,但成本同步上升,最后毛利崩掉。
所以你必须同时看两条护栏:

  • 单位有效闭环成本(Cost per Effective Completion
  • 返工率/二次编辑率(结果可用性,决定客服与流失成本)

工具类一句话:
北极星要能驱动交付,护栏要能压住成本与返工

 

3AI Agent:别再用留存证明 PMF,你真正卖的是稳定交付

3.1 Agent 的本质:用户不需要天天打开你

很多 Agent 类产品(客服自动解决、外贸询盘初筛、对账、资料校验、工单处理)用户不会每天打开 App
他们关心的是:自动干了多少活、错了多贵、多久交付、能否追责。

所以 Agent 类北极星最推荐二选一:

  1. 合格自动化任务数(QAJ, Qualified Automated Jobs
    定义:按质量标准完成、无需或极少人工介入的任务数量。
  2. 自动化率(Automation Rate
    定义:合格自动完成任务总任务。

这两者的共同点是:直接等价于替代了多少工作量

3.2 Agent 类必须把质量门槛写进指标,否则北极星会毁掉你

Agent 最容易出现刷量式自动化:把很多任务强行判为自动完成,但实际造成大量返工或事故。
所以 QAJ 必须包含质量阈值(例如一次通过、无严重错误、在 SLA 内完成)。

同时,Agent 的护栏指标几乎比北极星更重要:

  • 接管率(Handoff Rate:多少任务必须转人工
  • 一次通过率(First-pass Acceptance:无需返工比例
  • SLA 达成率:是否按时交付
  • 错误严重度分布:不是错没错,而是错了多贵
  • 单位任务成本/毛利:推理成本、人工兜底、审核成本都算进去

Agent 类一句话:
北极星是做成多少,护栏是做得稳不稳、值不值钱

 

4AI 工作流(Workflow):北极星要锚定写回与运行,而不是安装与集成数

4.1 工作流产品的真实战场:用户不想换工具

工作流类产品往往发生在飞书/钉钉/Slack/Notion/CRM/工单/ERP 里。
用户的心理是:别让我多开一个工具,把 AI 变成流程里一个可靠的节点。

所以工作流类北极星的核心是:

每周成功写回的流程运行数(Successful Runs with Write-back

活跃工作流数(Active Workflows:达到某个运行阈值(例如每周≥N次且写回成功)

为什么必须强调写回
因为只通知不写回的集成很容易沦为一次性噱头:用一次就走、留存与付费都起不来。

4.2 工作流类最重要的第二北极星:扩节点/扩部门

工作流产品真正的商业化与护城河来自扩展:

  • 个流程节点扩到个节点
  • 个部门扩到个部门
  • 从单人触发扩到团队协作与权限治理

所以你除了运行数,还应该长期盯一个扩展指标(作为经营指标,不一定是唯一北极星):

  • 流程覆盖度(Process Coverage:被 AI 覆盖的流程节点占比
  • 集成触发用户占比:在原系统内触发过闭环的人/团队

OXYZ资本内部观点:
北极星看跑起来且写回,增长看越跑越多流程

 

5)一套选北极星的实操方法:四步落地,不吵架

很多团队选北极星选到最后变成价值观争论。其实可以工程化解决:

第一步:先定产品归类(工具/Agent/工作流)

用三个问题自测即可:

  1. 最终谁按确认/发送/执行
  2. 出错后谁承担代价?
  3. 结果是否必须写回系统才能成立?

答案基本就能把你归类清楚。

第二步:把价值时刻写成一个可埋点事件

  • 工具:交付成果(导出/发布/落盘)
  • Agent:合格交付(质量门槛+SLA
  • 工作流:写回成功(原系统字段/状态/文档落盘)

北极星价值时刻事件 × 规模,别把打开/生成当价值时刻。

第三步:把质量写进北极星定义(否则会被优化到失真)

任何北极星都要有合格两个字:
合格输出、合格任务、合格写回。
没有合格门槛,你的北极星会把团队带向刷量、事故、用户流失。

第四步:给北极星配护栏(成本、风险、体验)

AI 产品最常见的死亡方式不是做不出指标,而是做出指标但亏到死事故一次就完
护栏建议至少三类:

  • 成本与毛利(单位成本/毛利率)
  • 质量与稳定(返工/一次通过/失败率)
  • 风险与合规(错误严重度、审计、权限)

 

6)早期怎么用北极星驱动迭代?给你一个周节奏

如果你是早期,最有效的做法不是做十个仪表盘,而是做一个周复盘闭环

  1. 周一:看北极星走势拆来源(哪个场景/渠道/模板/集成触发贡献)
  2. 周二三:只改一个最影响北极星的环节(onboarding、模板默认、写回闭环、兜底策略)
  3. 周四:回看护栏是否恶化(成本、失败率、返工、接管)
  4. 周五:复盘北极星上涨是不是因为价值更强,而不是刷量/补贴/通知轰炸

你会发现:北极星指标选对以后,团队讨论会变得简单——因为你不再争该不该做这个功能,而是争它能不能提升价值时刻发生的次数与合格率

 

OXYZ资本认为:北极星不是一个数字,是你对我到底卖什么的承诺

AI 时代最贵的不是算力,是方向错了还越跑越快。
北极星指标的意义,不是让你更会做报表,而是迫使你回答一个更残酷的问题:

当用户/客户产生需求的那一刻,你到底替他完成了什么?

  • 是交付更快(工具)
  • 是结果更稳(Agent
  • 是流程更顺(工作流)

你回答清楚了,北极星就自然出现;你回答不清楚,再漂亮的 DAU 都只是在给幻觉加速。