当你开始做语音产品

做语音产品的软件层,迟早会碰到两个概念:

关键词识别(KWS,Keyword Spotting),也叫唤醒词识别——设备在待机状态下持续监听,只判断"某个特定词有没有出现"。比如你说"Hey Siri",手机从休眠中被唤醒。它的特点是模型极小(几百KB 级),功耗极低,可以常年驻留。

自动语音识别(ASR),通用对话引擎——唤醒后,把你说的话完整转成文字。比如唤醒后说"今天天气怎么样",ASR 开始工作。它的特点是模型大(50MB 起步),功耗高,不需要常年开。

一个常见的语音产品架构是 KWS 守门 + ASR 干活:KWS 常年低功耗监听一个唤醒词 → 唤醒后启动 ASR 做自由对话 → 对话结束,ASR 休眠,KWS 继续守门。

也有场景不需要 ASR——比如智能开关只要听懂"开灯"“关灯”,一个 KWS 模型就搞定了。

无论哪种路线,你首先需要一个唤醒词/关键词识别方案。下面就盘一下市面上有哪些选择。

三种路线

做语音唤醒,市面上的方案看着多,其实就三类:

路线 一句话
硬件模组 买块带语音芯片的板子,配置一下唤醒词,烧进去就能用
授权方案 大厂 SDK,技术强,但绑定平台,按设备或 License 收费
自训练 自己或平台训模型,导出 ONNX,想跑哪跑哪

下面分别展开。

一、硬件模组:买来就能用

主流方案

方案 特点 价格
海凌科 HLK-V20 成熟爆款,150 条命令词,用户自行配置 ¥5-10/片
海凌科 HLK-V51 离在线一体,BLE 蓝牙,支持 OTA ¥10-15/片
涂鸦 ASR PRO 天问 Block 图形化编程,对接涂鸦 AI Agent ¥15-25/片
机芯智能 SmartPI CI-73T/SU-03T,网页端配置 ¥10-20/片
启英泰伦 提供 SDK,可自训声学模型 ¥15-30/片

优势

  • 零代码。 网页上填唤醒词、命令词,生成固件,烧录,完事
  • 便宜。 几块钱一片,批量无敌
  • 开箱即用。 不需要懂 KWS、不需要懂 ONNX

劣势

  • 绑定芯片。 海凌科的固件只能跑在海凌科的模组上,换芯片全部重来
  • 需要硬件能力。 你得设计 PCB、选麦克风、算 BOM、过 EMI,不是纯软件的事
  • 改版成本高。 产品迭代换芯片品牌?唤醒词重新适配
  • 推理能力受限。 模组芯片的算力天花板就在那,复杂场景撑不住

适合: 大批量硬件产品(智能开关、86 盒、小家电),硬件团队到位,芯片选好了就不换了。

二、授权方案:大厂 SDK,技术强但绑定

主流方案

方案 出口 定价
百度 AI WakeUp.bin(绑定百度 SDK) 免费,每月 3 次导出
讯飞 SDK 集成 商务咨询
思必驰 SDK + 离线 License 商务咨询
Porcupine .ppn(绑定 License) $0.5-2/设备

优势

  • 技术强。 大厂的声学模型和工程化能力没得说
  • SDK 成熟。 文档好,有技术支持,集成相对省心
  • 效果可控。 思必驰 5 米 95% 唤醒率,Porcupine 精度也不错

劣势

  • 封闭。 给你的是 SDK 或 .bin 文件,不是标准 ONNX。不能换引擎、不能二次训练、不能拿到其他平台跑
  • 绑定。 Porcupine 按设备计费,一个 License 激活一台。讯飞/思必驰商务对接,小客户没议价能力
  • 在线激活折腾。 Porcupine 首次需要在线激活,离线场景不方便。思必驰离线 License 也要找商务
  • 小批量不友好。 做 200 个设备的客户,打电话过去人家不一定理

适合: 中大型客户,有预算,产品量大,生态锁定也能接受。

三、自训练方案:不绑定,但训练是门槛

开源训练框架

方案 出口 价位
openWakeWord ONNX / TFLite 免费
WeKws ONNX 免费
nanoWakeWord ONNX 免费

优势

  • 不绑定任何平台。 导出标准 ONNX,想在哪跑在哪跑
  • 完全可控。 训练参数、数据增强、模型结构全由你
  • 免费。 Apache 2.0,商用随意

劣势

  • 训练门槛高。 需要 Python、PyTorch、GPU、调参经验。openWakeWord 要你懂 TTS 数据生成和噪声增强,WeKws 文档偏学术
  • 出活慢。 从环境搭建到训出勉强能用的模型,半天到一天起步。再调参优化,几天没了
  • 没人在线帮你训。 训砸了只能自己 debug

在线训练平台——降低自训门槛

不想折腾训练环境的,可以用在线平台。输入关键词,后台自动训,输出 ONNX 模型。

国内:

平台 出口 价位
听词 Voicute ONNX ¥39-99/次

两个版本:基础款(纯 TTS 合成训练)和人声增强款(TTS + 真人录音混合训练)。后者解决了 TTS 口音泛化的问题——用户录音 10 句话,混入训练集,召回率从 ~50% 提到 90%+。

国外:

平台 出口 价位
Outspoken ONNX + TFLite €9/3 个模型

首个免费,英语/荷兰语/德语/法语。集成了 Home Assistant,欧洲社区获客。

这些平台的共同点:你拿到的是标准 ONNX 文件,接上推理引擎就能跑。不绑定芯片、不按设备收费、想部署多少设备就部署多少。

搭配推理引擎:onnx-wakeword

拿到 ONNX 模型后,推理可以用 onnx-wakeword——Apache 2.0 开源,跨 Android/Linux/ESP32/Web 四平台,内置 Mel 频谱提取和五层防误触检测。

openWakeWord / WeKws / 听词 这些方案产出的 ONNX 模型,都可以直接用它跑。它本身不训练,只做推理,是部署层的共用工具。

怎么选:三句话

想买成品 → 硬件模组。 你有硬件团队,产品量大,芯片选好了就不换。海凌科/涂鸦/机芯智能挑一个,几块钱一片。

有硬件、只想加语音 → 看量。 量大选大厂 SDK(思必驰/讯飞),量小选自训练方案(openWakeWord / 听词)。大厂按设备收费不划算,自训练的 ONNX 不绑定平台。

不想折腾 → 在线平台 + onnx-wakeword。 输入关键词拿 ONNX,开源引擎直接跑。¥39-99 一次,没有后续费用。

没有通吃的方案。想清楚你的量、你的硬件、你愿不愿意写代码,三条路就清楚了。

Logo

智能硬件社区聚焦AI智能硬件技术生态,汇聚嵌入式AI、物联网硬件开发者,打造交流分享平台,同步全国赛事资讯、开展 OPC 核心人才招募,助力技术落地与开发者成长。

更多推荐