Qwen3-ASR-1.7B与Dify平台集成：打造无代码语音识别应用

小虾汉斯

177人浏览 · 2026-03-14 00:37:45

小虾汉斯 · 2026-03-14 00:37:45 发布

Qwen3-ASR-1.7B与Dify平台集成：打造无代码语音识别应用

你有没有遇到过这样的场景？手头有一堆会议录音、访谈音频，或者想给自己的视频内容加上字幕，但一想到要手动整理成文字，就觉得头大。传统的语音识别工具要么识别不准，要么操作复杂，要么就是价格不菲。

现在，情况不一样了。最近开源的Qwen3-ASR-1.7B语音识别模型，在准确率和多语言支持上表现相当亮眼，而且它还有个0.6B的“小兄弟”，处理速度飞快。但问题来了，对于不懂编程或者不想折腾代码的人来说，怎么才能用上这么强大的模型呢？

这就是我们今天要聊的话题：如何把Qwen3-ASR-1.7B和Dify平台结合起来，让你不用写一行代码，就能搭建一个属于自己的语音识别应用。整个过程就像搭积木一样简单，从上传音频到看到文字结果，几分钟就能搞定。

1. 为什么选择Qwen3-ASR-1.7B？

在开始动手之前，我们先简单了解一下Qwen3-ASR-1.7B到底有什么过人之处。这样你就能明白，为什么值得花时间把它集成到你的工作流里。

1.1 识别准，支持广

Qwen3-ASR-1.7B最让人印象深刻的一点，就是它的识别准确率。根据官方测试，它在中文、英文、甚至是一些方言上的表现，都达到了开源模型里的顶尖水平。这意味着，无论是普通话、粤语，还是带点口音的英语，它都能比较准确地识别出来。

更厉害的是，它支持的语言种类非常多。一个模型就能处理30种不同的语言，还有22种中文方言。如果你有跨国业务，或者需要处理多语言的音频内容，这一个模型就够用了，不用换来换去。

1.2 处理快，效率高

除了1.7B这个版本，还有个0.6B的“轻量版”。别看它参数少，处理速度可是相当快。官方说，在128个并发的情况下，处理速度能提升2000倍。简单来说，就是10秒钟能处理完5个小时的音频。

对于大多数个人用户或者小团队来说，0.6B版本的速度和准确率已经足够用了。而且因为它更小，对硬件的要求也更低，部署起来更容易。

1.3 抗干扰能力强

实际使用中，音频质量往往参差不齐。可能有背景噪音，可能有老人或小孩的声音，甚至可能是带背景音乐的歌曲。Qwen3-ASR在这些复杂场景下的表现也比较稳定，错误率控制得比较低。

这意味着，你不用花太多时间去“净化”音频，直接扔给模型，它也能给你一个不错的结果。

2. Dify平台：让AI应用搭建像搭积木

了解了模型的优势，我们再来看看Dify平台能帮我们做什么。

2.1 什么是Dify？

你可以把Dify想象成一个“AI应用组装工厂”。它提供了一个可视化的界面，让你可以通过拖拽、配置的方式，把不同的AI能力组合成一个完整的应用。不需要写代码，不需要懂复杂的部署流程，就像用PPT做幻灯片一样简单。

Dify支持接入各种主流的大模型，包括文本生成、图像生成，当然也包括我们今天要用的语音识别。你只需要在界面上点点鼠标，配置好输入输出，一个可用的AI应用就诞生了。

2.2 为什么选择Dify？

对于不懂技术的用户来说，Dify有几个明显的优势：

第一是简单。整个过程都在网页上完成，不需要安装任何软件，不需要配置开发环境。你只需要一个浏览器，就能开始搭建应用。

第二是灵活。Dify提供了丰富的工作流组件，你可以把语音识别和其他AI能力结合起来。比如，识别完语音后，自动生成摘要，或者翻译成其他语言。

第三是省心。Dify帮你处理了底层的技术细节，比如模型部署、API调用、错误处理等等。你只需要关注业务逻辑，不用操心技术实现。

3. 准备工作：让模型“跑起来”

在开始搭建应用之前，我们需要先让Qwen3-ASR模型能够被访问。这一步听起来有点技术，但其实跟着步骤走，并不难。

3.1 选择部署方式

Qwen3-ASR提供了几种不同的部署方式，你可以根据自己的情况选择：

如果你有GPU服务器，可以直接在服务器上部署。这种方式性能最好，也最灵活。你需要准备一个Linux环境，安装好Python和必要的依赖。

如果你没有服务器，也可以使用一些云服务提供的托管方案。比如，有些平台提供了预置的Qwen3-ASR镜像，一键就能启动。

最简单的办法，是使用官方提供的API服务。阿里云百炼平台就提供了Qwen3-ASR的API，你只需要申请一个API密钥，就能直接调用。这对于大多数用户来说，是最省事的选择。

3.2 快速启动一个API服务

假设你选择在本地部署，这里有一个简单的启动方法。你需要先安装必要的Python包：

# 安装基础依赖
pip install torch
pip install modelscope

# 安装Qwen3-ASR专用包
pip install qwen-asr

安装完成后，你可以用下面这段代码快速测试一下模型是否正常工作：

import torch
from qwen_asr import Qwen3ASRModel

# 加载模型（这里以0.6B版本为例，对硬件要求更低）
model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-0.6B",
    dtype=torch.bfloat16,
    device_map="auto",  # 自动选择GPU或CPU
)

# 测试一个在线音频
results = model.transcribe(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    language=None,  # 自动检测语言
)

print(f"检测到的语言: {results[0].language}")
print(f"识别结果: {results[0].text}")

如果一切正常，你会看到音频的识别结果。不过，为了能在Dify中使用，我们通常需要把模型部署成一个HTTP服务。

3.3 启动HTTP服务

Qwen3-ASR提供了一个很方便的命令行工具来启动服务：

# 启动一个本地服务，监听8000端口
qwen-asr-serve Qwen/Qwen3-ASR-0.6B --host 0.0.0.0 --port 8000

启动后，你会看到类似这样的输出：

INFO:     Started server process [12345]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000

现在，你的模型已经可以通过 http://localhost:8000 这个地址访问了。我们可以在浏览器里测试一下：

import requests

url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}

data = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {
                        "url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
                    }
                }
            ]
        }
    ]
}

response = requests.post(url, headers=headers, json=data, timeout=300)
result = response.json()
print(result['choices'][0]['message']['content'])

如果看到识别出的文字，说明服务运行正常。现在，这个服务已经准备好被Dify调用了。

4. 在Dify中搭建语音识别应用

好了，最有趣的部分来了。现在我们要在Dify中，用图形化的方式搭建一个完整的语音识别应用。

4.1 创建新应用

首先，打开Dify的网站，注册并登录。然后点击“创建新应用”，选择“工作流”类型。给应用起个名字，比如“智能语音转文字”。

进入工作流编辑器后，你会看到一个空白的画布。左边是各种可用的组件，右边是画布，中间是配置面板。

4.2 添加输入组件

我们需要让用户能够上传音频文件。从左侧拖拽一个“文件上传”组件到画布上。在配置面板里，你可以设置：

组件名称：比如“上传音频”
支持的文件类型：选择音频格式，比如 .mp3、.wav、.m4a 等
文件大小限制：根据你的服务器情况设置，比如100MB

这个组件会提供一个上传按钮，用户点击后可以选择本地音频文件。

4.3 添加HTTP请求组件

这是最关键的一步。我们需要添加一个“HTTP请求”组件，让它调用我们刚才启动的Qwen3-ASR服务。

从左侧拖拽“HTTP请求”组件到画布上，然后用线把它和“文件上传”组件连接起来。这样，上传的文件就会自动传递给HTTP请求组件。

在HTTP请求组件的配置里，需要填写这些信息：

URL：填写你的模型服务地址，比如 http://localhost:8000/v1/chat/completions
方法：选择 POST
请求头：添加 Content-Type: application/json
请求体：这里需要构造一个符合Qwen3-ASR API要求的JSON

请求体的配置稍微复杂一点，但Dify提供了变量替换功能。你可以这样写：

{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "audio_url",
          "audio_url": {
            "url": "{{上传音频.file_url}}"
          }
        }
      ]
    }
  ]
}

注意 {{上传音频.file_url}} 这个部分，它会自动替换成用户上传音频文件的临时访问地址。Dify会自动处理文件上传和存储，你只需要引用这个地址就行。

4.4 处理返回结果

Qwen3-ASR服务返回的结果是一个JSON，里面包含了识别出的文字。我们需要从中提取出我们需要的内容。

在HTTP请求组件后面，添加一个“文本处理”组件。在这个组件里，你可以用JavaScript代码处理返回的数据：

// 假设HTTP请求组件的输出变量名是“api_response”
const response = {{api_response}};
const content = response.choices[0].message.content;

// Qwen3-ASR的返回格式比较特殊，需要解析一下
// 通常格式是：语言代码\n识别文本
const lines = content.split('\n');
const language = lines[0];
const text = lines.slice(1).join('\n');

// 返回处理后的结果
return {
  detected_language: language,
  transcribed_text: text
};

这样，我们就得到了清晰的语言代码和识别文本。

4.5 美化输出界面

最后，我们可以添加一个“文本展示”组件，把识别结果漂亮地呈现给用户。

拖拽一个“文本展示”组件到画布，连接到文本处理组件后面。在配置里，你可以用Markdown格式来设计展示界面：

## 语音识别结果

**检测到的语言**：{{文本处理.detected_language}}

**识别文本**：

{{文本处理.transcribed_text}}

---

识别完成！你可以复制上面的文本，或者点击下载按钮保存为文本文件。

你还可以添加一些交互元素，比如“复制到剪贴板”按钮，或者“下载为TXT文件”的链接。Dify提供了这些组件的模板，直接选用就行。

4.6 测试和发布

点击右上角的“测试”按钮，上传一个音频文件试试看。如果一切正常，几秒钟后你就能看到识别结果。

测试没问题后，点击“发布”按钮。Dify会生成一个独立的访问链接，你可以把这个链接分享给同事，或者嵌入到其他系统里。别人打开这个链接，就能直接使用你的语音识别应用，完全不需要知道背后用了什么模型、怎么调用的API。

5. 进阶玩法：让应用更智能

基本的语音识别应用已经搭建好了，但Dify的能力远不止于此。你可以继续添加更多组件，让应用变得更加强大和智能。

5.1 自动翻译

如果你的音频内容需要翻译成其他语言，可以在识别之后接一个翻译组件。

Dify内置了多种翻译模型的连接器，比如百度翻译、谷歌翻译的API。你只需要添加一个“翻译”组件，选择目标语言，它就会自动把识别出的文本翻译过去。

5.2 内容摘要

对于会议录音、讲座音频，你可能只需要关键要点，而不是完整的逐字稿。

添加一个“文本摘要”组件，选择一个大语言模型（比如GPT、Claude或者国内的各种大模型），让它自动生成内容摘要。你可以设置摘要的长度，或者指定要提取的关键点。

5.3 多语言支持

虽然Qwen3-ASR本身支持多语言识别，但你可以让应用界面也支持多语言。

Dify支持国际化配置，你可以为每个文本标签设置多种语言的版本。用户访问时，会根据浏览器语言自动显示对应的界面。

5.4 批量处理

如果需要处理大量音频文件，可以添加批量处理功能。

创建一个“批量上传”组件，让用户可以一次上传多个文件。然后使用Dify的“循环”组件，对每个文件依次执行识别流程。最后把结果打包成一个ZIP文件，让用户下载。

6. 实际应用场景

这样一个无代码的语音识别应用，到底能用在哪里呢？其实应用场景比你想的要多。

6.1 会议记录自动化

每次开完会，最头疼的就是整理会议纪要。现在，你只需要把会议录音上传到应用，几分钟后就能得到完整的文字记录。如果再接上摘要组件，连会议要点都帮你总结好了。

对于远程团队来说，这尤其有用。不同时区的同事参加会议后，可以直接查看文字记录，不用熬夜听回放。

6.2 视频字幕生成

做视频内容的朋友都知道，加字幕是个体力活。有了这个应用，你可以把视频的音频轨道提取出来，上传后自动生成字幕文件。

大多数视频编辑软件都支持导入SRT格式的字幕文件。你只需要把识别出的文本，用Dify的“格式转换”组件转换成SRT格式就行。

6.3 客户服务质检

对于有客服中心的公司，可以通过这个应用自动分析客服通话记录。识别出对话内容后，再用大模型分析服务态度、问题解决情况等。

你甚至可以设置一些关键词监控，比如当客服提到“投诉”、“退款”等敏感词时，自动标记这条录音，供主管复查。

6.4 学习笔记整理

学生朋友可以用它来整理课堂录音。上传讲座音频，自动转换成文字笔记。如果再接上一个“知识提取”组件，还能自动提取出重点概念、公式、参考文献等。

对于语言学习者，可以上传自己的口语练习录音，检查发音和语法问题。

7. 一些实用建议

在实际使用中，有几个小技巧可以让体验更好：

音频预处理很重要。虽然Qwen3-ASR抗噪能力不错，但如果音频质量太差，识别准确率还是会下降。建议在上传前，用简单的音频编辑软件降噪、调整音量。有很多免费的在线工具可以完成这些操作。

分段处理长音频。虽然模型支持处理长达20分钟的音频，但对于特别长的录音（比如2小时的讲座），建议先分割成20-30分钟的小段，分别识别后再合并。这样既保证识别质量，也避免服务超时。

注意隐私和安全。如果你处理的是敏感音频（如医疗记录、商业机密），确保模型服务部署在安全的内网环境，或者使用有隐私保护的云服务。Dify也支持私有化部署，你可以把整个平台都部署在自己的服务器上。

定期更新模型。AI模型发展很快，Qwen3-ASR团队也会持续优化。关注官方更新，及时升级到新版本，可以获得更好的识别效果和性能。

结合人工校对。目前任何语音识别模型都不是100%准确，特别是对于专业术语、人名、地名等。重要的内容建议保留人工校对环节，把AI识别作为初稿，人工进行润色和修正。

整体体验下来，把Qwen3-ASR-1.7B和Dify平台结合，确实大大降低了语音识别应用的门槛。你不需要懂深度学习，不需要会编程，甚至不需要知道API怎么调用，就能搭建出一个可用的工具。

这种“模型+平台”的模式，可能是未来AI应用开发的一个趋势。专业的团队负责把模型做好、做精，像Dify这样的平台负责把使用门槛降下来，让更多人能享受到AI带来的便利。

如果你之前觉得语音识别技术高不可攀，现在可以试试看。从准备模型服务到在Dify上搭建出可用的应用，顺利的话一两个小时就能完成。一旦跑通了这个流程，你会发现很多重复性的文字工作都可以交给AI，省下来的时间可以做更有创意的事情。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI硬件创业社区

智能硬件社区聚焦AI智能硬件技术生态，汇聚嵌入式AI、物联网硬件开发者，打造交流分享平台，同步全国赛事资讯、开展 OPC 核心人才招募，助力技术落地与开发者成长。

更多推荐

【亲测免费】哔哩哔哩聊天机器人 `bilibot` 教程

`bilibot` 是一个基于哔哩哔哩（B站）用户评论数据微调训练的本地聊天机器人。它支持文字交互，并且可以通过特定的问题文本生成语音对话。项目采用Qwen1 5-32B-Chat作为基础模型，并利用苹果的mlx-lm LORA技术进行模型微调。此外，它还集成了GPT-SoVITS项目来实现语音生成功能。## 2. 项目快速启动### 安装环境确保已安装Python 3.10，推荐使用

AI硬件创业社区

【Zephyr|ESP32-S3】基础学习：用WiFi UDP socket实现远程控灯，基于多生产者模式的双通道命令控制

AI硬件创业社区

Nacos 切换 Namespace 后配置不生效、占位符报错终极复盘

日常微服务开发中，经常遇到一个极度迷惑、耗时极久明明我已经修改启动命令、切换 Nacos 命名空间、Nacos 控制台配置完整无误，服务启动依然报：Could not resolve placeholder 占位符无法解析。日志显示配置文件被加载、Nacos 连接成功、环境变量正常，但就是读不到新 Namespace 的配置。根本原因并非配置写错，而是：Nacos 客户端本地磁盘缓存机制导致旧命名