【文摘】DeepSeek本地部署与应用开发—AI语音聊天机器人
【文摘】DeepSeek本地部署与应用开发—AI语音聊天机器人
文章目录
本文节选自《DeepSeek本地部署与应用开发:政府与企业级实战案例解析》(北京大学出版社)第12章。若希望深入探讨相关内容,诚挚推荐您购买全书,深入阅读。
第12章 实战—AI聊天机器人
本章节深入探讨了AI聊天机器人的设计、开发与实现,涵盖了设备端和服务端的实现。设备端基于ESP32开发,服务端则采用Java语言构建。
本章节将详细阐述其设计开发原理,并深入剖析代码实现的细节,旨在为读者呈现一个全面而深入的视角,帮助理解如何将DeepSeek大模型技术应用到实际的物联网硬件设备中。
12.1 小智AI系统架构
本节从“小智AI”介绍开始,继而深入剖析该AI聊天机器人的系统架构设计和语音处理流程,最后简单介绍AI聊天机器人在本地化部署的应用场景和实际案例。
12.1.1 小智AI介绍
在DeepSeek开启的AI赋能浪潮和产业革命中,AI技术与硬件的深度融合孕育出诸多创新应用,小智AI便是其中的杰出代表。它是一款开源的AI硬件项目,凭借独特技术魅力和广阔应用前景,迅速在全球范围内引发了广泛关注。
从默默无闻到现象级爆火:小智AI由十方融海董事长黄冠(网名“虾哥”)作为个人兴趣项目启动。2025年2月前,它在开源社区中鲜为人知。但接入DeepSeek大模型后,整个硬件产品被赋予了新的生命力,迅速在 AI 硬件领域爆火,成为现象级项目。短视频平台上,搭载小智AI的简陋电路板或方盒子展现出惊人语音交互能力,其台湾腔调的语音助手反应迅速、声音逼真且个性十足,与传统语音助手相比更具灵魂。这些视频点赞量屡创新高,小智AI由此走进大众视野。
开源模式下的爆发式增长:小智AI迅速崛起,得益于开源模式和低开发门槛。开源模式让全球开发者可自由获取源代码和开发文档,降低开发成本和难度。无论是电子工程师、嵌入式工程师还是AI应用工程师,都能轻松参与开发和应用。据极客公园报道,短短两个月内,接入小智AI的硬件设备数量每月翻倍,总量突破10万台,其中官方销售的“语音盒子”仅一千多台,其余由爱好者、开发者和商家自行组装。如图12.1所示,爱好者们购买喇叭、麦克风、芯片和主板等,为小智AI赋予丰富形态和应用场景。许多开发者还将组装好的成品在电商平台上销售,推动其普及。这种开源、草根驱动的模式,激发开发者创造力,为AI硬件开发和应用带来新思路,催生新市场,为未来发展提供无限可能。
功能特点与技术创新:小智AI获市场认可,源于强大技术优势。
- 大模型LLM:大语言模型,支持DeepSeek、Qwen、Doubao、OpenAI等大模型。
- 大模型 TTS:文字转语音,支持EdgeTTS、火山引擎、CosyVoice等大模型。
- 流式语音对话:通过WebSocket 或 UDP 协议实现。
- 多语言支持:支持国语、粤语、英语、日语、韩语等语言。
- 声纹识别:识别正在说话人的身份,通过3D Speaker实现。
- 离线唤醒:唤醒设备开始对话,通过ESP-SR实现,响应速度仅需0.6秒。
- 角色扮演:通过自定义提示词与音色设置,可模拟不同性格的角色。
- 记忆功能:支持短期记忆,记录对话上下文,实现连贯语音交互。
- BOOT 键:支持按键唤醒对话和按键打断对话功能,点击和长按两种触发方式。
- 显示屏:支持OLED/LCD等多种型号显屏,显示信号强弱、对话内容和图片表情。
市场与用户:目前,小智 AI 的日活跃用户数超2万,月活超过10万。其迅速收获大批用户,一方面说明硬件厂商在选择语音助手时有更多空间,这并非大厂专属;另一方面,也为同类语音助手创业项目提供了破局可能性。小智AI的爆火源于个体开发者和爱好者的动手实践,而非专业厂商推动。这预示着一个更加普惠和个性化的AI硬件时代正在到来,未来或许会催生出更多创新的AI硬件产品。
正如《2025中国AI硬件发展白皮书》其中的一句话:“当技术民主化进程使得个体开发者都能参与AI硬件创新时,我们正在见证一个由下而上的产业变革” 。
12.1.2 系统架构设计
本系统基于两个开源项目构建,Github仓库地址如下:
- 设备端:https://github.com/78/xiaozhi-esp32
- 服务端:https://github.com/joey-zhou/xiaozhi-esp32-server-java
本系统采用端-云协同架构,由ESP32设备端、管理配置平台和本地服务器三部分组成,如图12.2所示,将计算密集的LLM推理放在服务器,这种方法使ESP32这类资源受限设备也能享受大模型能力,支持本地化局域网部署和公有云互联网部署两种模式。

(1)ESP32设备端
- 基于乐鑫 ESP32/ESP32-S3 系列芯片。
- 基于ESP-IDF 5.3+,采用C/C++语言,遵循 Google 代码风格。
- 通过WebSocket或MQTT+UDP协议与本地服务器通信。
- 软件功能包含Wi-Fi配网、语音唤醒、按键唤醒/打断、显屏驱动和音频传输等。
- 硬件模块包含麦克风阵列、扬声器、音频编解码模块、显示触摸屏、LED和按键等。
(2)管理配置平台
- 基于Vue.js的单体网页
- 使用Vue Router进行页面路由管理
- 通过Vuex进行状态管理
- 通过axios与服务端API通信
- 包含登录、设备管理、对话管理、角色管理等功能模块
(3)本地服务器
- 标准Spring Boot分层架构,提供RESTful API服务:
- 控制器层(Controller):处理HTTP请求。
- 服务层(Service):业务逻辑实现。
- 数据访问层(Dao/Mapper):数据库操作。
- 实体层(Entity):数据模型定义。
- WebSocket服务,提供实时语音通信能力:
- LLM(Large Language Model):大语言模型,如DeepSeek。
- VAD(Voice Activity Detection):语音活动检测。
- STT(Speech-to-Text):语音转文字。
- TTS(Text-to-Speech):文字转语音。
- 公共组件模块:
- 全局异常处理。
- 认证拦截器
- 各种工具类(音频处理、图像处理等)。
该 AI 聊天机器人系统通过边缘端硬件感知 + 云端智能处理的混合架构,实现了低成本、高灵活性的智能交互方案。硬件层的灵活适配与固件层的模块化设计降低了入门门槛,服务端的 Web 管理平台与开放 API 则为企业级应用提供了扩展空间。无论是作为 AI 硬件开发入门项目,还是落地智能客服、儿童玩具、老人陪伴等场景,均展现出较强的技术可行性与商业潜力。
12.1.3 语音对话流程
AI聊天对话过程中的语音处理流程如图12.3所示,主要分如下几个阶段:

(1)本地唤醒阶段:
- 触发条件:麦克风检测到预设唤醒词(如“Hi,乐鑫”、“小康同学”)。
- 硬件响应:LED指示灯激活,屏幕显示“Listening…”。
- 协议交互:发送{“type”:“listen”, “state”:“detect”}至服务器建立连接。
(2)音频传输阶段:
- 活动检测:语音活动检测,判断用户是否在说话,避免传输静音数据。
- 编码压缩:原始音频通过Opus编码(码率约6kbps)。
- 分帧传输:按512采样点分帧,通过WebSocket或者UDP二进制流发送。
(3)服务器处理:如图12.4所示。
- VAD分段:动态检测语音活动边界。
- STT转换:语音实时转写为文本。
- 上下文管理:支持多轮对话记忆(通过session_id关联)。
- LLM推理:将文本输入DeepSeek模型,生成响应内容。
- TTS合成:文本生成语音,再传输回ESP32。

(4)音频回传阶段
- 解码播放:ESP32接收Opus音频流→解码为PCM→DAC输出。
- 状态更新:屏幕同步显示对话内容,LED随语音节奏闪烁。
12.1.4 本地应用场景
AI聊天机器人有广大的应用场景和实际案例,并且通过本地局域网部署进一步提高安全性、稳定性和实时性,并降低长期使用成本。
- 银行中的AI客服机器人
- 大堂经理:AI机器人可以解答客户关于银行业务的常见问题,如开户、转账、贷款等,并引导客户到相应的服务区域。
- 个性化服务:AI机器人可以根据客户的历史交易记录和偏好,提供个性化的理财建议和服务。
- 实际案例:建设银行上海浦东分行启用了国内首个“人形机器人银行大堂经理场景训练基地”,机器人接受业务咨询、分流、智慧柜员机操作指南等场景训练。
- 酒店中的AI服务机器人
- 前台服务:AI机器人可以提供多语种互动问答,帮助客人办理入住、退房手续,并推荐旅游路线。
- 物品递送:机器人可以将毛巾、洗漱用品、零食和外卖等物品送到客人房间,提升服务效率。
- 实际案例:云迹科技的机器人已覆盖30000多家酒店,完成超过5亿次服务,承担送物、清洁等工作;派宝机器人的智慧安保巡逻、智慧迎宾接待和智慧无人配送等场景,已应用于万豪、铂尔曼等国际知名酒店。
- 工厂中的AI生产机器人
- 生产自动化:AI机器人可以完成焊接、装配、搬运等重复性任务,提高生产效率。
- 质量检测:通过视觉识别技术,AI机器人可以实时检测产品质量,减少人工检测的误差。
- 实际案例:宁德时代智能工厂部署的200+台AMR机器人,实现电芯生产全流程自动化;宁波前湾新区实现多台人形机器人协同搬运、分拣和精密装配。
12.2 ESP32设备端实现
篇幅有限,更多精彩,敬请购阅全书。
12.3 本地服务器实现
篇幅有限,更多精彩,敬请购阅全书。
12.4 总结
篇幅有限,更多精彩,敬请购阅全书。

本文节选自《DeepSeek本地部署与应用开发:政府与企业级实战案例解析》(北京大学出版社)第8.5章。若希望深入探讨相关内容,我们诚挚推荐您购买全书,深入阅读。
若觉得文章对你有帮助,随手『点赞』、『收藏』、『关注』,也是对我的支持。
更多推荐



所有评论(0)