2026 年自定义唤醒词方案全景对比:从大厂到开源,从硬件到软件
当你开始做语音产品
做语音产品的软件层,迟早会碰到两个概念:
关键词识别(KWS,Keyword Spotting),也叫唤醒词识别——设备在待机状态下持续监听,只判断"某个特定词有没有出现"。比如你说"Hey Siri",手机从休眠中被唤醒。它的特点是模型极小(几百KB 级),功耗极低,可以常年驻留。
自动语音识别(ASR),通用对话引擎——唤醒后,把你说的话完整转成文字。比如唤醒后说"今天天气怎么样",ASR 开始工作。它的特点是模型大(50MB 起步),功耗高,不需要常年开。
一个常见的语音产品架构是 KWS 守门 + ASR 干活:KWS 常年低功耗监听一个唤醒词 → 唤醒后启动 ASR 做自由对话 → 对话结束,ASR 休眠,KWS 继续守门。
也有场景不需要 ASR——比如智能开关只要听懂"开灯"“关灯”,一个 KWS 模型就搞定了。
无论哪种路线,你首先需要一个唤醒词/关键词识别方案。下面就盘一下市面上有哪些选择。
三种路线
做语音唤醒,市面上的方案看着多,其实就三类:
| 路线 | 一句话 |
|---|---|
| 硬件模组 | 买块带语音芯片的板子,配置一下唤醒词,烧进去就能用 |
| 授权方案 | 大厂 SDK,技术强,但绑定平台,按设备或 License 收费 |
| 自训练 | 自己或平台训模型,导出 ONNX,想跑哪跑哪 |
下面分别展开。
一、硬件模组:买来就能用
主流方案
| 方案 | 特点 | 价格 |
|---|---|---|
| 海凌科 HLK-V20 | 成熟爆款,150 条命令词,用户自行配置 | ¥5-10/片 |
| 海凌科 HLK-V51 | 离在线一体,BLE 蓝牙,支持 OTA | ¥10-15/片 |
| 涂鸦 ASR PRO | 天问 Block 图形化编程,对接涂鸦 AI Agent | ¥15-25/片 |
| 机芯智能 SmartPI | CI-73T/SU-03T,网页端配置 | ¥10-20/片 |
| 启英泰伦 | 提供 SDK,可自训声学模型 | ¥15-30/片 |
优势
- 零代码。 网页上填唤醒词、命令词,生成固件,烧录,完事
- 便宜。 几块钱一片,批量无敌
- 开箱即用。 不需要懂 KWS、不需要懂 ONNX
劣势
- 绑定芯片。 海凌科的固件只能跑在海凌科的模组上,换芯片全部重来
- 需要硬件能力。 你得设计 PCB、选麦克风、算 BOM、过 EMI,不是纯软件的事
- 改版成本高。 产品迭代换芯片品牌?唤醒词重新适配
- 推理能力受限。 模组芯片的算力天花板就在那,复杂场景撑不住
适合: 大批量硬件产品(智能开关、86 盒、小家电),硬件团队到位,芯片选好了就不换了。
二、授权方案:大厂 SDK,技术强但绑定
主流方案
| 方案 | 出口 | 定价 |
|---|---|---|
| 百度 AI | WakeUp.bin(绑定百度 SDK) | 免费,每月 3 次导出 |
| 讯飞 | SDK 集成 | 商务咨询 |
| 思必驰 | SDK + 离线 License | 商务咨询 |
| Porcupine | .ppn(绑定 License) | $0.5-2/设备 |
优势
- 技术强。 大厂的声学模型和工程化能力没得说
- SDK 成熟。 文档好,有技术支持,集成相对省心
- 效果可控。 思必驰 5 米 95% 唤醒率,Porcupine 精度也不错
劣势
- 封闭。 给你的是 SDK 或 .bin 文件,不是标准 ONNX。不能换引擎、不能二次训练、不能拿到其他平台跑
- 绑定。 Porcupine 按设备计费,一个 License 激活一台。讯飞/思必驰商务对接,小客户没议价能力
- 在线激活折腾。 Porcupine 首次需要在线激活,离线场景不方便。思必驰离线 License 也要找商务
- 小批量不友好。 做 200 个设备的客户,打电话过去人家不一定理
适合: 中大型客户,有预算,产品量大,生态锁定也能接受。
三、自训练方案:不绑定,但训练是门槛
开源训练框架
| 方案 | 出口 | 价位 |
|---|---|---|
| openWakeWord | ONNX / TFLite | 免费 |
| WeKws | ONNX | 免费 |
| nanoWakeWord | ONNX | 免费 |
优势
- 不绑定任何平台。 导出标准 ONNX,想在哪跑在哪跑
- 完全可控。 训练参数、数据增强、模型结构全由你
- 免费。 Apache 2.0,商用随意
劣势
- 训练门槛高。 需要 Python、PyTorch、GPU、调参经验。openWakeWord 要你懂 TTS 数据生成和噪声增强,WeKws 文档偏学术
- 出活慢。 从环境搭建到训出勉强能用的模型,半天到一天起步。再调参优化,几天没了
- 没人在线帮你训。 训砸了只能自己 debug
在线训练平台——降低自训门槛
不想折腾训练环境的,可以用在线平台。输入关键词,后台自动训,输出 ONNX 模型。
国内:
| 平台 | 出口 | 价位 |
|---|---|---|
| 听词 Voicute | ONNX | ¥39-99/次 |
两个版本:基础款(纯 TTS 合成训练)和人声增强款(TTS + 真人录音混合训练)。后者解决了 TTS 口音泛化的问题——用户录音 10 句话,混入训练集,召回率从 ~50% 提到 90%+。
国外:
| 平台 | 出口 | 价位 |
|---|---|---|
| Outspoken | ONNX + TFLite | €9/3 个模型 |
首个免费,英语/荷兰语/德语/法语。集成了 Home Assistant,欧洲社区获客。
这些平台的共同点:你拿到的是标准 ONNX 文件,接上推理引擎就能跑。不绑定芯片、不按设备收费、想部署多少设备就部署多少。
搭配推理引擎:onnx-wakeword
拿到 ONNX 模型后,推理可以用 onnx-wakeword——Apache 2.0 开源,跨 Android/Linux/ESP32/Web 四平台,内置 Mel 频谱提取和五层防误触检测。
openWakeWord / WeKws / 听词 这些方案产出的 ONNX 模型,都可以直接用它跑。它本身不训练,只做推理,是部署层的共用工具。
怎么选:三句话
想买成品 → 硬件模组。 你有硬件团队,产品量大,芯片选好了就不换。海凌科/涂鸦/机芯智能挑一个,几块钱一片。
有硬件、只想加语音 → 看量。 量大选大厂 SDK(思必驰/讯飞),量小选自训练方案(openWakeWord / 听词)。大厂按设备收费不划算,自训练的 ONNX 不绑定平台。
不想折腾 → 在线平台 + onnx-wakeword。 输入关键词拿 ONNX,开源引擎直接跑。¥39-99 一次,没有后续费用。
没有通吃的方案。想清楚你的量、你的硬件、你愿不愿意写代码,三条路就清楚了。
更多推荐
所有评论(0)