首页 首页 大数据 查看内容

谷歌开源语音命令数据集,帮助开发者搭建基础的语音交互

木马童年 2019-6-8 11:40 98 0

谷歌的工程师们经常被问到这么个问题: 怎么上手用深度学习做语音识别或其它音频识别,比如关键词或指令? 虽然,现在出现了些很优秀的开源语音识别系统,比如 Kaldi,就能把神经网络作为其中的一个模块。但其高度 ...

谷歌开源语音命令数据集,帮助开发者搭建基础的语音交互

谷歌的工程师们经常被问到这么个问题:

怎么上手用深度学习做语音识别或其它音频识别,比如关键词或指令?

虽然,现在出现了些很优秀的开源语音识别系统,比如 Kaldi,就能把神经网络作为其中的一个模块。但其高度复杂性,让它们并不适合作为解决简单任务的指南。更重要的是,对于新手而言,免费、可公开获取的数据集并不多,经过预处理的、或适合于简单的关键词检测的也很少。

为解决这些问题,谷歌的 TensorFlow 和 AIY 团队创建了 Speech Commands Dataset,即“语音命令数据集”,并基于它向 TensorFlow 添加训练和推理的示例代码。

谷歌在今日宣布开源该数据集。

对 30 个