1、概述
通过微信小程序wx.startRecord()和wx.stopRecord()接口录音并上传silk录音文件至服务器,通过ffmpeg将silk录音文件转成wav录音文件,再通过百度语音识别 REST API 获取语音识别后的结果。
2、代码实现
录音和语音文件上传
data:image/s3,"s3://crabby-images/157db/157dbd2ab6dc0725415b75ffa3731dd7c76b6ca9" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
data:image/s3,"s3://crabby-images/83c17/83c1741dbd207759f91a418c0a0139ba1f63e05f" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
node.js服务端接收语音文件代码
silk文件转wav文件
我使用的是silk-v3-decoder将silk文件转wav文件
data:image/s3,"s3://crabby-images/975b7/975b7380a4a81dd69fc6bb9d881955d9c6a37b99" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
silk-v3-decoder 使用方法
data:image/s3,"s3://crabby-images/11277/11277bed22c042a10673c07bd74e46cb6add390f" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
百度语音识别 REST API识别wav文件
1、通过API Key和Secret Key获取的access_token
data:image/s3,"s3://crabby-images/a8f3e/a8f3efab85d9667bda95a44ebf1af63e380a0ccb" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
通过API Key和Secret Key获取的access_token文档
data:image/s3,"s3://crabby-images/2f539/2f539ad744022323de51874fdfb8ab889a43f214" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
2、通过token 调用百度语音识别 REST API识别接口
data:image/s3,"s3://crabby-images/ed516/ed51638f4305a7fa7b25f8d75a336640c0af485e" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
3、语音识别优化
通过上述操作后,发现识别的内容和实际内容差别很大
data:image/s3,"s3://crabby-images/005ef/005efbbf0265642e1c5bf77e6c25a8cba64fd8ff" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
百度语音识别 REST API文档
查看文档可知:采样率:8000/16000 仅支持单通道
在ffmpeg里对应的设置方式分别是:
-ar rate 设置采样率
-ac channels 设置声道数
修改converter.sh文件,修改为下图所示
data:image/s3,"s3://crabby-images/af824/af824950650f8ab9520f6dee8e04fd1432a18fd3" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
修改后的converter.sh文件