Qwen3-ASR-1.7B与Dify平台集成:打造无代码语音识别应用

你有没有遇到过这样的场景?手头有一堆会议录音、访谈音频,或者想给自己的视频内容加上字幕,但一想到要手动整理成文字,就觉得头大。传统的语音识别工具要么识别不准,要么操作复杂,要么就是价格不菲。

现在,情况不一样了。最近开源的Qwen3-ASR-1.7B语音识别模型,在准确率和多语言支持上表现相当亮眼,而且它还有个0.6B的“小兄弟”,处理速度飞快。但问题来了,对于不懂编程或者不想折腾代码的人来说,怎么才能用上这么强大的模型呢?

这就是我们今天要聊的话题:如何把Qwen3-ASR-1.7B和Dify平台结合起来,让你不用写一行代码,就能搭建一个属于自己的语音识别应用。整个过程就像搭积木一样简单,从上传音频到看到文字结果,几分钟就能搞定。

1. 为什么选择Qwen3-ASR-1.7B?

在开始动手之前,我们先简单了解一下Qwen3-ASR-1.7B到底有什么过人之处。这样你就能明白,为什么值得花时间把它集成到你的工作流里。

1.1 识别准,支持广

Qwen3-ASR-1.7B最让人印象深刻的一点,就是它的识别准确率。根据官方测试,它在中文、英文、甚至是一些方言上的表现,都达到了开源模型里的顶尖水平。这意味着,无论是普通话、粤语,还是带点口音的英语,它都能比较准确地识别出来。

更厉害的是,它支持的语言种类非常多。一个模型就能处理30种不同的语言,还有22种中文方言。如果你有跨国业务,或者需要处理多语言的音频内容,这一个模型就够用了,不用换来换去。

1.2 处理快,效率高

除了1.7B这个版本,还有个0.6B的“轻量版”。别看它参数少,处理速度可是相当快。官方说,在128个并发的情况下,处理速度能提升2000倍。简单来说,就是10秒钟能处理完5个小时的音频。

对于大多数个人用户或者小团队来说,0.6B版本的速度和准确率已经足够用了。而且因为它更小,对硬件的要求也更低,部署起来更容易。

1.3 抗干扰能力强

实际使用中,音频质量往往参差不齐。可能有背景噪音,可能有老人或小孩的声音,甚至可能是带背景音乐的歌曲。Qwen3-ASR在这些复杂场景下的表现也比较稳定,错误率控制得比较低。

这意味着,你不用花太多时间去“净化”音频,直接扔给模型,它也能给你一个不错的结果。

2. Dify平台:让AI应用搭建像搭积木

了解了模型的优势,我们再来看看Dify平台能帮我们做什么。

2.1 什么是Dify?

你可以把Dify想象成一个“AI应用组装工厂”。它提供了一个可视化的界面,让你可以通过拖拽、配置的方式,把不同的AI能力组合成一个完整的应用。不需要写代码,不需要懂复杂的部署流程,就像用PPT做幻灯片一样简单。

Dify支持接入各种主流的大模型,包括文本生成、图像生成,当然也包括我们今天要用的语音识别。你只需要在界面上点点鼠标,配置好输入输出,一个可用的AI应用就诞生了。

2.2 为什么选择Dify?

对于不懂技术的用户来说,Dify有几个明显的优势:

第一是简单。整个过程都在网页上完成,不需要安装任何软件,不需要配置开发环境。你只需要一个浏览器,就能开始搭建应用。

第二是灵活。Dify提供了丰富的工作流组件,你可以把语音识别和其他AI能力结合起来。比如,识别完语音后,自动生成摘要,或者翻译成其他语言。

第三是省心。Dify帮你处理了底层的技术细节,比如模型部署、API调用、错误处理等等。你只需要关注业务逻辑,不用操心技术实现。

3. 准备工作:让模型“跑起来”

在开始搭建应用之前,我们需要先让Qwen3-ASR模型能够被访问。这一步听起来有点技术,但其实跟着步骤走,并不难。

3.1 选择部署方式

Qwen3-ASR提供了几种不同的部署方式,你可以根据自己的情况选择:

如果你有GPU服务器,可以直接在服务器上部署。这种方式性能最好,也最灵活。你需要准备一个Linux环境,安装好Python和必要的依赖。

如果你没有服务器,也可以使用一些云服务提供的托管方案。比如,有些平台提供了预置的Qwen3-ASR镜像,一键就能启动。

最简单的办法,是使用官方提供的API服务。阿里云百炼平台就提供了Qwen3-ASR的API,你只需要申请一个API密钥,就能直接调用。这对于大多数用户来说,是最省事的选择。

3.2 快速启动一个API服务

假设你选择在本地部署,这里有一个简单的启动方法。你需要先安装必要的Python包:

# 安装基础依赖
pip install torch
pip install modelscope

# 安装Qwen3-ASR专用包
pip install qwen-asr

安装完成后,你可以用下面这段代码快速测试一下模型是否正常工作:

import torch
from qwen_asr import Qwen3ASRModel

# 加载模型(这里以0.6B版本为例,对硬件要求更低)
model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-0.6B",
    dtype=torch.bfloat16,
    device_map="auto",  # 自动选择GPU或CPU
)

# 测试一个在线音频
results = model.transcribe(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    language=None,  # 自动检测语言
)

print(f"检测到的语言: {results[0].language}")
print(f"识别结果: {results[0].text}")

如果一切正常,你会看到音频的识别结果。不过,为了能在Dify中使用,我们通常需要把模型部署成一个HTTP服务。

3.3 启动HTTP服务

Qwen3-ASR提供了一个很方便的命令行工具来启动服务:

# 启动一个本地服务,监听8000端口
qwen-asr-serve Qwen/Qwen3-ASR-0.6B --host 0.0.0.0 --port 8000

启动后,你会看到类似这样的输出:

INFO:     Started server process [12345]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000

现在,你的模型已经可以通过 http://localhost:8000 这个地址访问了。我们可以在浏览器里测试一下:

import requests

url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}

data = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {
                        "url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
                    }
                }
            ]
        }
    ]
}

response = requests.post(url, headers=headers, json=data, timeout=300)
result = response.json()
print(result['choices'][0]['message']['content'])

如果看到识别出的文字,说明服务运行正常。现在,这个服务已经准备好被Dify调用了。

4. 在Dify中搭建语音识别应用

好了,最有趣的部分来了。现在我们要在Dify中,用图形化的方式搭建一个完整的语音识别应用。

4.1 创建新应用

首先,打开Dify的网站,注册并登录。然后点击“创建新应用”,选择“工作流”类型。给应用起个名字,比如“智能语音转文字”。

进入工作流编辑器后,你会看到一个空白的画布。左边是各种可用的组件,右边是画布,中间是配置面板。

4.2 添加输入组件

我们需要让用户能够上传音频文件。从左侧拖拽一个“文件上传”组件到画布上。在配置面板里,你可以设置:

  • 组件名称:比如“上传音频”
  • 支持的文件类型:选择音频格式,比如 .mp3.wav.m4a
  • 文件大小限制:根据你的服务器情况设置,比如100MB

这个组件会提供一个上传按钮,用户点击后可以选择本地音频文件。

4.3 添加HTTP请求组件

这是最关键的一步。我们需要添加一个“HTTP请求”组件,让它调用我们刚才启动的Qwen3-ASR服务。

从左侧拖拽“HTTP请求”组件到画布上,然后用线把它和“文件上传”组件连接起来。这样,上传的文件就会自动传递给HTTP请求组件。

在HTTP请求组件的配置里,需要填写这些信息:

  • URL:填写你的模型服务地址,比如 http://localhost:8000/v1/chat/completions
  • 方法:选择 POST
  • 请求头:添加 Content-Type: application/json
  • 请求体:这里需要构造一个符合Qwen3-ASR API要求的JSON

请求体的配置稍微复杂一点,但Dify提供了变量替换功能。你可以这样写:

{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "audio_url",
          "audio_url": {
            "url": "{{上传音频.file_url}}"
          }
        }
      ]
    }
  ]
}

注意 {{上传音频.file_url}} 这个部分,它会自动替换成用户上传音频文件的临时访问地址。Dify会自动处理文件上传和存储,你只需要引用这个地址就行。

4.4 处理返回结果

Qwen3-ASR服务返回的结果是一个JSON,里面包含了识别出的文字。我们需要从中提取出我们需要的内容。

在HTTP请求组件后面,添加一个“文本处理”组件。在这个组件里,你可以用JavaScript代码处理返回的数据:

// 假设HTTP请求组件的输出变量名是“api_response”
const response = {{api_response}};
const content = response.choices[0].message.content;

// Qwen3-ASR的返回格式比较特殊,需要解析一下
// 通常格式是:语言代码\n识别文本
const lines = content.split('\n');
const language = lines[0];
const text = lines.slice(1).join('\n');

// 返回处理后的结果
return {
  detected_language: language,
  transcribed_text: text
};

这样,我们就得到了清晰的语言代码和识别文本。

4.5 美化输出界面

最后,我们可以添加一个“文本展示”组件,把识别结果漂亮地呈现给用户。

拖拽一个“文本展示”组件到画布,连接到文本处理组件后面。在配置里,你可以用Markdown格式来设计展示界面:

## 语音识别结果

**检测到的语言**:{{文本处理.detected_language}}

**识别文本**:

{{文本处理.transcribed_text}}

---

识别完成!你可以复制上面的文本,或者点击下载按钮保存为文本文件。

你还可以添加一些交互元素,比如“复制到剪贴板”按钮,或者“下载为TXT文件”的链接。Dify提供了这些组件的模板,直接选用就行。

4.6 测试和发布

点击右上角的“测试”按钮,上传一个音频文件试试看。如果一切正常,几秒钟后你就能看到识别结果。

测试没问题后,点击“发布”按钮。Dify会生成一个独立的访问链接,你可以把这个链接分享给同事,或者嵌入到其他系统里。别人打开这个链接,就能直接使用你的语音识别应用,完全不需要知道背后用了什么模型、怎么调用的API。

5. 进阶玩法:让应用更智能

基本的语音识别应用已经搭建好了,但Dify的能力远不止于此。你可以继续添加更多组件,让应用变得更加强大和智能。

5.1 自动翻译

如果你的音频内容需要翻译成其他语言,可以在识别之后接一个翻译组件。

Dify内置了多种翻译模型的连接器,比如百度翻译、谷歌翻译的API。你只需要添加一个“翻译”组件,选择目标语言,它就会自动把识别出的文本翻译过去。

5.2 内容摘要

对于会议录音、讲座音频,你可能只需要关键要点,而不是完整的逐字稿。

添加一个“文本摘要”组件,选择一个大语言模型(比如GPT、Claude或者国内的各种大模型),让它自动生成内容摘要。你可以设置摘要的长度,或者指定要提取的关键点。

5.3 多语言支持

虽然Qwen3-ASR本身支持多语言识别,但你可以让应用界面也支持多语言。

Dify支持国际化配置,你可以为每个文本标签设置多种语言的版本。用户访问时,会根据浏览器语言自动显示对应的界面。

5.4 批量处理

如果需要处理大量音频文件,可以添加批量处理功能。

创建一个“批量上传”组件,让用户可以一次上传多个文件。然后使用Dify的“循环”组件,对每个文件依次执行识别流程。最后把结果打包成一个ZIP文件,让用户下载。

6. 实际应用场景

这样一个无代码的语音识别应用,到底能用在哪里呢?其实应用场景比你想的要多。

6.1 会议记录自动化

每次开完会,最头疼的就是整理会议纪要。现在,你只需要把会议录音上传到应用,几分钟后就能得到完整的文字记录。如果再接上摘要组件,连会议要点都帮你总结好了。

对于远程团队来说,这尤其有用。不同时区的同事参加会议后,可以直接查看文字记录,不用熬夜听回放。

6.2 视频字幕生成

做视频内容的朋友都知道,加字幕是个体力活。有了这个应用,你可以把视频的音频轨道提取出来,上传后自动生成字幕文件。

大多数视频编辑软件都支持导入SRT格式的字幕文件。你只需要把识别出的文本,用Dify的“格式转换”组件转换成SRT格式就行。

6.3 客户服务质检

对于有客服中心的公司,可以通过这个应用自动分析客服通话记录。识别出对话内容后,再用大模型分析服务态度、问题解决情况等。

你甚至可以设置一些关键词监控,比如当客服提到“投诉”、“退款”等敏感词时,自动标记这条录音,供主管复查。

6.4 学习笔记整理

学生朋友可以用它来整理课堂录音。上传讲座音频,自动转换成文字笔记。如果再接上一个“知识提取”组件,还能自动提取出重点概念、公式、参考文献等。

对于语言学习者,可以上传自己的口语练习录音,检查发音和语法问题。

7. 一些实用建议

在实际使用中,有几个小技巧可以让体验更好:

音频预处理很重要。虽然Qwen3-ASR抗噪能力不错,但如果音频质量太差,识别准确率还是会下降。建议在上传前,用简单的音频编辑软件降噪、调整音量。有很多免费的在线工具可以完成这些操作。

分段处理长音频。虽然模型支持处理长达20分钟的音频,但对于特别长的录音(比如2小时的讲座),建议先分割成20-30分钟的小段,分别识别后再合并。这样既保证识别质量,也避免服务超时。

注意隐私和安全。如果你处理的是敏感音频(如医疗记录、商业机密),确保模型服务部署在安全的内网环境,或者使用有隐私保护的云服务。Dify也支持私有化部署,你可以把整个平台都部署在自己的服务器上。

定期更新模型。AI模型发展很快,Qwen3-ASR团队也会持续优化。关注官方更新,及时升级到新版本,可以获得更好的识别效果和性能。

结合人工校对。目前任何语音识别模型都不是100%准确,特别是对于专业术语、人名、地名等。重要的内容建议保留人工校对环节,把AI识别作为初稿,人工进行润色和修正。


整体体验下来,把Qwen3-ASR-1.7B和Dify平台结合,确实大大降低了语音识别应用的门槛。你不需要懂深度学习,不需要会编程,甚至不需要知道API怎么调用,就能搭建出一个可用的工具。

这种“模型+平台”的模式,可能是未来AI应用开发的一个趋势。专业的团队负责把模型做好、做精,像Dify这样的平台负责把使用门槛降下来,让更多人能享受到AI带来的便利。

如果你之前觉得语音识别技术高不可攀,现在可以试试看。从准备模型服务到在Dify上搭建出可用的应用,顺利的话一两个小时就能完成。一旦跑通了这个流程,你会发现很多重复性的文字工作都可以交给AI,省下来的时间可以做更有创意的事情。

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

智能硬件社区聚焦AI智能硬件技术生态,汇聚嵌入式AI、物联网硬件开发者,打造交流分享平台,同步全国赛事资讯、开展 OPC 核心人才招募,助力技术落地与开发者成长。

更多推荐