2026 年自定义唤醒词方案全景对比：从大厂到开源，从硬件到软件

lian1174

343人浏览 · 2026-06-24 06:16:32

lian1174 · 2026-06-24 06:16:32 发布

当你开始做语音产品

做语音产品的软件层，迟早会碰到两个概念：

关键词识别（KWS，Keyword Spotting），也叫唤醒词识别——设备在待机状态下持续监听，只判断"某个特定词有没有出现"。比如你说"Hey Siri"，手机从休眠中被唤醒。它的特点是模型极小（几百KB 级），功耗极低，可以常年驻留。

自动语音识别（ASR），通用对话引擎——唤醒后，把你说的话完整转成文字。比如唤醒后说"今天天气怎么样"，ASR 开始工作。它的特点是模型大（50MB 起步），功耗高，不需要常年开。

一个常见的语音产品架构是 KWS 守门 + ASR 干活：KWS 常年低功耗监听一个唤醒词 → 唤醒后启动 ASR 做自由对话 → 对话结束，ASR 休眠，KWS 继续守门。

也有场景不需要 ASR——比如智能开关只要听懂"开灯"“关灯”，一个 KWS 模型就搞定了。

无论哪种路线，你首先需要一个唤醒词/关键词识别方案。下面就盘一下市面上有哪些选择。

三种路线

做语音唤醒，市面上的方案看着多，其实就三类：

路线	一句话
硬件模组	买块带语音芯片的板子，配置一下唤醒词，烧进去就能用
授权方案	大厂 SDK，技术强，但绑定平台，按设备或 License 收费
自训练	自己或平台训模型，导出 ONNX，想跑哪跑哪

下面分别展开。

一、硬件模组：买来就能用

主流方案

方案	特点	价格
海凌科 HLK-V20	成熟爆款，150 条命令词，用户自行配置	¥5-10/片
海凌科 HLK-V51	离在线一体，BLE 蓝牙，支持 OTA	¥10-15/片
涂鸦 ASR PRO	天问 Block 图形化编程，对接涂鸦 AI Agent	¥15-25/片
机芯智能 SmartPI	CI-73T/SU-03T，网页端配置	¥10-20/片
启英泰伦	提供 SDK，可自训声学模型	¥15-30/片

优势

零代码。 网页上填唤醒词、命令词，生成固件，烧录，完事
便宜。 几块钱一片，批量无敌
开箱即用。 不需要懂 KWS、不需要懂 ONNX

劣势

绑定芯片。 海凌科的固件只能跑在海凌科的模组上，换芯片全部重来
需要硬件能力。 你得设计 PCB、选麦克风、算 BOM、过 EMI，不是纯软件的事
改版成本高。 产品迭代换芯片品牌？唤醒词重新适配
推理能力受限。 模组芯片的算力天花板就在那，复杂场景撑不住

适合： 大批量硬件产品（智能开关、86 盒、小家电），硬件团队到位，芯片选好了就不换了。

二、授权方案：大厂 SDK，技术强但绑定

主流方案

方案	出口	定价
百度 AI	WakeUp.bin（绑定百度 SDK）	免费，每月 3 次导出
讯飞	SDK 集成	商务咨询
思必驰	SDK + 离线 License	商务咨询
Porcupine	.ppn（绑定 License）	$0.5-2/设备

优势

技术强。 大厂的声学模型和工程化能力没得说
SDK 成熟。 文档好，有技术支持，集成相对省心
效果可控。 思必驰 5 米 95% 唤醒率，Porcupine 精度也不错

劣势

封闭。 给你的是 SDK 或 .bin 文件，不是标准 ONNX。不能换引擎、不能二次训练、不能拿到其他平台跑
绑定。 Porcupine 按设备计费，一个 License 激活一台。讯飞/思必驰商务对接，小客户没议价能力
在线激活折腾。 Porcupine 首次需要在线激活，离线场景不方便。思必驰离线 License 也要找商务
小批量不友好。 做 200 个设备的客户，打电话过去人家不一定理

适合： 中大型客户，有预算，产品量大，生态锁定也能接受。

三、自训练方案：不绑定，但训练是门槛

开源训练框架

方案	出口	价位
openWakeWord	ONNX / TFLite	免费
WeKws	ONNX	免费
nanoWakeWord	ONNX	免费

优势

不绑定任何平台。 导出标准 ONNX，想在哪跑在哪跑
完全可控。 训练参数、数据增强、模型结构全由你
免费。 Apache 2.0，商用随意

劣势

训练门槛高。 需要 Python、PyTorch、GPU、调参经验。openWakeWord 要你懂 TTS 数据生成和噪声增强，WeKws 文档偏学术
出活慢。 从环境搭建到训出勉强能用的模型，半天到一天起步。再调参优化，几天没了
没人在线帮你训。 训砸了只能自己 debug

在线训练平台——降低自训门槛

不想折腾训练环境的，可以用在线平台。输入关键词，后台自动训，输出 ONNX 模型。

国内：

平台	出口	价位
听词 Voicute	ONNX	¥39-99/次

两个版本：基础款（纯 TTS 合成训练）和人声增强款（TTS + 真人录音混合训练）。后者解决了 TTS 口音泛化的问题——用户录音 10 句话，混入训练集，召回率从 ~50% 提到 90%+。

国外：

平台	出口	价位
Outspoken	ONNX + TFLite	€9/3 个模型

首个免费，英语/荷兰语/德语/法语。集成了 Home Assistant，欧洲社区获客。

这些平台的共同点：你拿到的是标准 ONNX 文件，接上推理引擎就能跑。不绑定芯片、不按设备收费、想部署多少设备就部署多少。

搭配推理引擎：onnx-wakeword

拿到 ONNX 模型后，推理可以用 onnx-wakeword——Apache 2.0 开源，跨 Android/Linux/ESP32/Web 四平台，内置 Mel 频谱提取和五层防误触检测。

openWakeWord / WeKws / 听词这些方案产出的 ONNX 模型，都可以直接用它跑。它本身不训练，只做推理，是部署层的共用工具。

怎么选：三句话

想买成品 → 硬件模组。 你有硬件团队，产品量大，芯片选好了就不换。海凌科/涂鸦/机芯智能挑一个，几块钱一片。

有硬件、只想加语音 → 看量。 量大选大厂 SDK（思必驰/讯飞），量小选自训练方案（openWakeWord / 听词）。大厂按设备收费不划算，自训练的 ONNX 不绑定平台。

不想折腾 → 在线平台 + onnx-wakeword。 输入关键词拿 ONNX，开源引擎直接跑。¥39-99 一次，没有后续费用。

没有通吃的方案。想清楚你的量、你的硬件、你愿不愿意写代码，三条路就清楚了。

AI硬件创业社区

智能硬件社区聚焦AI智能硬件技术生态，汇聚嵌入式AI、物联网硬件开发者，打造交流分享平台，同步全国赛事资讯、开展 OPC 核心人才招募，助力技术落地与开发者成长。

更多推荐

第七周学习记录

本周在STM32CubeMax中完成stm32c8t6的配置，并在keil中完成在oled上显示频率的代码，完成接收端的调试。

AI硬件创业社区

用EKHO-9.0来实现TTS功能

本文介绍了在嵌入式Linux系统上实现文本转语音(TTS)功能的方法。作者使用Buildroot构建了一个PC端迷你Linux系统，重点介绍了开源TTS软件Ekho(余音)的交叉编译过程。文章对比了Ekho、Piper、讯飞和字节跳动Seed-TTS等不同TTS方案的特点，详细记录了从编译依赖库(libsndfile、sonic、espeak-ng、opencc)到最终编译Ekho 9.0的完整步