1. 唤醒词检测(“Hey Siri”)
    • 设备本地始终运行的小型神经网络(DNN)持续监听麦克风
    • 在 iPhone 上由协处理器(如 Always-On Processor)低功耗运行,避免唤醒主 CPU
  2. 声学前端处理 - 降噪、回声消除、波束成形(多麦克风定位说话人方向) - 提取声学特征(梅尔频谱 / MFCC)
  3. 语音转文字(ASR) - 早期:基于 HMM + GMM 的统计模型 - 现在:端到端深度学习模型(RNN-T、Transformer、Conformer 等) - 苹果近年大力推动设备端识别(A12 及以上芯片),无需联网即可转文字,保护隐私
  4. 自然语言理解(NLU) - 把文字解析成意图(intent)+ 实体(slots),如”明早 8 点叫我” → 意图=设闹钟,时间=08:00 - 调用对应 App / 系统服务执行
  5. 个性化适配 - 学习你的口音、常用联系人名、专有名词 - 苹果使用联邦学习 / 差分隐私在设备上做个性化,不上传原始语音

技术栈关键词:DNN 唤醒词 → Conformer/RNN-T 声学模型 → 端侧推理(Neural Engine)→ NLU 意图解析。

如果想深入某一环节(比如端侧模型如何压缩、唤醒词如何防误触发),可以继续问。

结论:能,而且专门为此优化过。

Apple Watch SE 3 用的是 S10 SiP(与 Series 11 同款),关键参数:

  • 64-bit 双核 CPU
  • 4 核 Neural Engine(专门跑机器学习)
  • 5.6 亿晶体管
  • 64GB 存储

具体到语音识别能力:

  • 本地 Siri:唤醒词检测、意图分类、Health 数据查询都在表上完成,响应通常 <2 秒,无需 iPhone 或 Wi-Fi
  • 本地听写(Dictation):S10 比上一代准确率提升 25%,速度也更快
  • 隐私性:语音不上传云端

局限:

  • 仅”无需联网的请求”完全本地化(计时器、闹钟、启动锻炼、Health 查询等)
  • 涉及网络知识(天气、搜索、翻译长句)仍需联网
  • 与 iPhone 的 A17 Pro / M 系芯片比,模型规模和复杂语义理解仍弱一档

简单说:日常语音指令、短听写、健康查询本地搞定毫无压力;复杂对话和实时翻译还得靠云。

Sources:

一、Siri 的回复是否联网?分三层架构

┌───────────────────┬──────────────────────────┬────────────────────────────┬────────────────────────────────────┐ │ 层级 │ 处理位置 │ 何时触发 │ 典型场景 │ ├───────────────────┼──────────────────────────┼────────────────────────────┼────────────────────────────────────┤ │ 1. 设备端(On-Dev │ iPhone / Watch 本地的 │ 简单意图、个人数据、隐私敏 │ 设闹钟、Health │ │ ice) │ Neural Engine │ 感 │ 查询、播放音乐、文本摘要、意图分类 │ ├───────────────────┼──────────────────────────┼────────────────────────────┼────────────────────────────────────┤ │ 2. Private Cloud │ Apple 自建服务器(M 系列 │ 需要更大模型或更复杂推理 │ 复杂指令解析、长文本生成、多步推理 │ │ Compute(PCC) │ Apple Silicon) │ │ │ ├───────────────────┼──────────────────────────┼────────────────────────────┼────────────────────────────────────┤ │ 3. 联网搜索 / │ Google、Wikipedia、ChatG │ 需要实时或开放域知识 │ 天气、股价、新闻、百科查询、复杂问 │ │ 第三方 │ PT 等 │ │ 答 │ └───────────────────┴──────────────────────────┴────────────────────────────┴────────────────────────────────────┘

2026 年关键变化:Apple 与 Google 于 2026 年 1 月签约,下一代 Siri 的基础模型基于 Google Gemini(1.2T 参数定制版),但仍跑在 Apple 自家的 Private Cloud Compute 上,不进 Google Cloud,端到端加密、用完即焚。

二、对模糊问题的策略

Siri 大致按以下顺序处理:

  1. NLU 多意图打分 - 把语音转文字后送进意图分类器,得到 top-N 候选意图及置信度
  2. 置信度判断 - 高置信度:直接执行 - 次高且差距小(多个意图分数接近)→ 触发消歧
  3. 消歧策略(按”打扰程度”递减) - 澄清提问:“你是想给爸爸打电话还是发短信?” - 候选列表:列出可能匹配项让用户点选(联系人重名时常见) - 多解兜底:无法发问时(如车载、看屏不便),给一个最可能的答案 + 简短确认 - 降级到搜索:完全无法解析为本地意图时,把原文当查询丢给 Web 搜索,展示”Siri 在网上找到这些”
  4. 上下文与个性化 - 利用对话历史、位置、时间、最近通讯录使用频率等先验,提高判断准确率 - 例如”叫他”会优先指向最近联系的人
  5. 失败回退 - 完全识别不了 → “我不太明白,你可以这样问试试…” - 或直接弹出 Web 搜索结果

简言之:先本地→不行上 PCC→还不行就联网搜索;模糊问题先看打分差距,差距小就反问,反问不便就给最优解或转网搜。

Sources: