rk3588使用npu加速运行whisper语音识别模型

文章目录 隐藏

rk3588运行whisper模型有三种方法：1.使用纯cpu运行原始pytorch模型；2.将whisper模型转成onnx格式，再转成rknn格式使用npu运行；3.利用npu提供的矩阵运算功能，结合cpu一起运行原始pytorch模型。方法1做不到实时，方法2有rockchip官方仓库。方法3是这篇教程介绍的，方法3比方法2更快，同时功能更完整，比如tiny和small模型都可以运行。
我们在https://github.com/usefulsensors/useful-transformers基础上，通过修复bug，增加运行参数和prompt控制输出字体格式，实现了多语言模型的实时准确推理，whisper tiny和base模型rtf

一、优化修改后的开源代码库

whisper: https://git.bwbot.org/publish/useful-transformers

二、代码运行说明

通过 git clone 克隆代码后，准备好 Python 环境，然后执行 transcrible_wav.py完成语音识别。

克隆源代码：

git clone http://git.bwbot.org/publish/useful-transformers.git

准备python运行环境：
我们在 RK3588 上使用的是 Ubuntu22.04 Desktop，默认的 Python 版本是 3.10。为了避免破坏系统环境，我们使用 virtualenv 来配置需要的 Python 运行环境。

sudo apt install python3-virtualenv

#进入上面git clone下来的文件夹根目录
cd useful-transformers

#创建虚拟环境
virtualenv --system-site-packages -p /usr/bin/python3 venv

#激活虚拟环境
source venv/bin/activate

#开始在虚拟环境中安装pybind11
pip install -i https://mirror.baidu.com/pypi/simple pybind11

#在虚拟环境中编译安装useful-transformers包，注意指令中的文件路径要改成自己的实际路径
export pybind11_DIR=/home/xiaoqiang/npu/useful-transformers/venv/lib/python3.10/site-packages/pybind11/share/cmake/pybind11
./venv/bin/pip install  ../useful-transformers  -i https://pypi.mirrors.ustc.edu.cn/simple

3.环境配置完成，开始运行whisper：

taskset -c 4-7 ./venv/bin/python -m useful_transformers.transcribe_wav ./wav/chinese.wav tiny zh

运行指令格式如下，modelname可以为tiny、base、small、tiny.en、base.en、small.en或者自己微调的模型。languge可以为en或zh，分别代表英文和中文。

taskset -c 4-7 python -m useful_transformers.transcribe_wav wav_file> modelname languge

自己微调的模型可以用torch_state_dict_to_npz.py 文件来转换。

三、运行结果

文章来源于互联网:rk3588使用npu加速运行whisper语音识别模型

相关推荐: LLM并发加速部署方案（llama.cpp、vllm、lightLLM、fastLLM）

大模型并发加速部署解析当前应用较广的几种并发加速部署方案！ llama.cpp、vllm、lightllm、fastllm四种框架的对比： llama.cpp：基于C++，①请求槽，②动态批处理，③CPU/GPU混合推理 vllm：基于Python，①Pag…

rk3588使用npu加速运行whisper语音识别模型

一、优化修改后的开源代码库

二、代码运行说明

三、运行结果

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来