数智资源网
首页 首页 大数据 查看内容

谷歌开源语音命令数据集,帮助开发者搭建基础的语音交互

木马童年 2019-6-8 11:40 251 0

谷歌的工程师们经常被问到这么个问题: 怎么上手用深度学习做语音识别或其它音频识别,比如关键词或指令? 虽然,现在出现了些很优秀的开源语音识别系统,比如 Kaldi,就能把神经网络作为其中的一个模块。但其高度 ...

谷歌开源语音命令数据集,帮助开发者搭建基础的语音交互

谷歌的工程师们经常被问到这么个问题:

怎么上手用深度学习做语音识别或其它音频识别,比如关键词或指令?

虽然,现在出现了些很优秀的开源语音识别系统,比如 Kaldi,就能把神经网络作为其中的一个模块。但其高度复杂性,让它们并不适合作为解决简单任务的指南。更重要的是,对于新手而言,免费、可公开获取的数据集并不多,经过预处理的、或适合于简单的关键词检测的也很少。

为解决这些问题,谷歌的 TensorFlow 和 AIY 团队创建了 Speech Commands Dataset,即“语音命令数据集”,并基于它向 TensorFlow 添加训练和推理的示例代码。

谷歌在今日宣布开源该数据集。

对 30 个命令短语,该数据集有 65000 次的长约一秒钟的发音。这来自数千个不同的人向 AIY 网站提交的贡献。它以 Creative Commons BY 4.0 许可发布,随着新贡献的添加,该数据集在未来会不断扩大。

建立这个数据集的目的,是帮助大家为应用创建基础但有用的语音交互,比如“Yes”、“No”、数字、方向等词语。谷歌也已经将开发这一数据集的基础设施开源,并希望看到更多人借此创建更多版本的数据集,尤其是针对冷门语言和应用。

下载预建的 TensorFlow 安卓演示 APP,打开 “TF Speech”,就能体验谷歌基于该数据集开发的识别模型。另外,你可以通过 TensorFlow.org 的音频识别 tutorial 学习怎么开发你自己的模型。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

工程师 深度学习 语音识别 神经网络 数据集 语音
0
为您推荐
廖雪峰-2019大数据分析精品资料价值1980元,资源教程下载

廖雪峰-2019大数据分析精品资料价值1980元,资源教程

课程介绍:廖雪峰大神历时3个月打磨出来的《数据分析必备技能》的视频学习资料,由浅…...

尚硅谷-大数据项目之电商数仓教程下载

尚硅谷-大数据项目之电商数仓教程下载

课程介绍:本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以…...

社交网络分析与挖掘,视频教程下载

社交网络分析与挖掘,视频教程下载

课程介绍:社交网络和数据挖掘是计算机学科相关研究中的热点,其具体研究涵盖理论、关…...

python金融实务从入门到精通,视频教程下载

python金融实务从入门到精通,视频教程下载

课程介绍:Python已成为国内很多顶级投行、基金咨询等泛金融、商科领域的必备技能。中…...