首页 首页 物联网 查看内容

语音识别尚难称“交互” 智能家居将享商业化红利

木马童年 2018-12-7 00:45 73 0

核心提示:继马云年初在德国刷脸支付淘宝后,上周招商银行也推出刷脸ATM取款。相比于人脸识别、指纹识别等生物特征在金融领域大放异彩,语音识别则不温不火地渗透到人们的生活细节中。

继马云年初在德国刷脸支付淘宝后,上周招商银行也推出刷脸ATM取款。相比于人脸识别、指纹识别等生物特征在金融领域大放异彩,语音识别则不温不火地渗透到人们的生活细节中。10月初,科大讯飞发布客家话版本,这是其第14种地方方言;上周,出门问问则获得Google的C轮融资,这也是Google2010年退出中国后第一笔投资。

从语言学角度说,自然语言包括词法、语法、语义、语用四个阶段。目前语音识别从词法、语法的理解,逐步进入多种表达方式的语义阶段。如果说人脸识别让安全进入生物阶段,那么语音识别则让人工智能进入感官时代。真正学会主动思考的机器人时代似乎也不遥远了。

从“听得到”到“听得懂”

语音识别,用人类比喻就是先用耳朵(前端模块)听进去,然后通过大脑(识别系统)理解,然后再通过嘴巴(后端解码)表达出来。耳朵与嘴巴需要的是灵敏度,而大脑则需要不断训练学习。

关于前端,汉王科技常务副总裁徐冬坚告诉记者:“这部分难度主要在于算法,因为目前的语音样本主要来自于移动设备,都是非标准的、自然场景的。”一般情况需要信号处理与特征处理,前者去除环境噪音,后者则对某些特定语言进行标注,从而使语言成为机器能理解的“信号”。

标注之后就进入了识别系统,一套语音系统包括声学模型与语言模型。语言模型一般采用N-G ram模型,就是统计每个词前面的单词出现的概率;声学模型主要有深度网络与递进网络两种,微信、科大讯飞、出门问问都采用前者,和人脑类似,模型中的神经元获得标注后,对比已有的标注数据,通过不断反馈错误,使得每个神经元重新学习。

但出门问问CTO雷欣告诉记者,深度学习网络需要人工标准,“语音分析数据人工标注只需要听懂普通话就行,但对于语义分析的一些特定任务,要求语言学研究生以上级别,这导致其数据标注获取十分昂贵。”

大量数据的训练也是语音识别的门槛之一,像科大讯飞对一套语言系统训练至少需要2万小时及过百万词汇量,没有足够的样本量也无法让其理解语言与文字之间的内在关系,而云数据就在这里面发挥了作用。“以前的识别只能是在PC或嵌入式的设备上运行,现在通过云端来提供服务是识别技术发展的必然趋势。”徐冬坚表示,汉王向语音开发者开放API接口,而也是这些云平台的数据让语音识别变得不那么“高大上”。

同时,一套语言系统更多的学习还在于投入应用之后。这也能有效解决方言数据不足问题,比如说科大讯飞10月份刚上线客家话版本,但实际上客家话方言差异很大,目前只是以梅州为主音,在未来需要用户反馈去优化。

“目前微软人工智能机器人小冰上线一年多,一开始的训练数据来自必应的搜索大数据,而现在小冰已经实现了自我成长,超过50%的数据量来自于后期用户的反馈。”微软小冰负责人李笛告诉记者,“同时,小冰还具有情感计算的能力,可以通过用户的客观档案、重要时间节点以及行为习惯三方面进行采集,去理解每个用户的不同。”

说比听容易。如果“大脑”能够理解,解码便成了最容易的事。像小冰还听不懂粤语,但可以根据用户的定位和行为习惯表达粤语等方言俚语。根据不同场景,比如作为输入法的科大讯飞注重口语翻译文字,而出门问问的智能手表ticwatch则是将用户搜索内容通过发音字典“说”出来。

商业化前景

一个语音系统经过大量工程师、语言学家的训练推向市场,就要考虑商业化问题。“虽然语音不像人脸、指纹一样具有唯一性,可作为金融领域等的身份辨别功能,但语言的输入与交互更加自然”,雷欣如是表示。

目前,语音识别面向消费者的应用场景主要包括翻译文字、垂直搜索、定向推送,不同互联网公司根据其需求叠加不同服务。比如说在翻译文字上,搜索引擎谷歌、百度更注重网页翻译,阿里巴巴注重商品信息,而科大讯飞则偏重口语;而定向推送及垂直搜索主要是根据用户的上下文关联,推送更多生活服务,比如出门问问的可穿戴设备ticwatch。

“一个通用的语音识别引擎(常见的输入法)在识别某种特定领域(如垂直类生活服务搜索时),效果不会很好,这需要特定声音模型与语音模型的训练。”雷欣举例说,“比如‘帮我找一下附近的酒店,3星级以上,带WIFI,今晚入住,明天退房’,这需要理解用户核心需求找酒店以及其他关键信息。”

在长时间训练下,语音识别系统可以从理解语法到理解语义,应用于更多垂直行业领域———教育、车联网智能家居是多家语音平台提到的最主要的垂直应用领域。比如科大讯飞介入普通话考试以及汽车互联网服务等领域;而汉王则结合其OCR识别(手写与文字识别),来表达公式、图像等教育内容。

比如车联网,“语音可以实现盲操作,不会分散司机注意力,比起图像更适用于高速驾驶状态”,达晨创投南区TMT投资总经理程仁田告诉记者,但实现车联网的前提是硬件上要先有联网功能。

“人脸可以作为身份辨别,但语言却是人工智能的感官系统。”微软(亚洲)互联网工程院院长王永东告诉记者,“人工智能助理小娜属于有用的工具阶段,这也是目前语音识别最广泛的应用领域,而小冰希望通过情感学习成为‘可信任’的朋友。你可以发现现在的语言输入基本是命令式的,而不是真正的交互式。”

“如果它能取得用户信任,理解用户的喜好,它的商业价值就更明显,比如说电商推荐。”王永东说,目前小冰肯定不考虑商业化问题。“谁喜欢一个没多熟,还天天‘安利’的朋友啊!”

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

人脸识别 指纹识别 语音识别 科大讯飞 自然语言 人工智能
0
为您推荐
智能门锁人脸识别风险高,市场监管总局建议停用

智能门锁人脸识别风险高,市场监管总局建议

国家市场监管总局29日发布智能门锁消费提示称,国监局在监测时发现:搭载人脸识别功能…...

万物互联时代,融合云和边缘计算,需要哪三大步骤?

万物互联时代,融合云和边缘计算,需要哪三

所有连接到互联网的设备,都需要芯片,但是直到最近,芯片才变得足够小。这与无线网络…...

传感器技术持续加深汽车安全驾驶应用

传感器技术持续加深汽车安全驾驶应用

核心提示:随着市场、技术、政策三大驱动力的推动,我国传感器产业迎来了发展新契机。…...

IoT,IoE以及互联设备的市场到底有多大?

IoT,IoE以及互联设备的市场到底有多大?

无论何时当你听到一些分析专家或者公司谈论消费电子产品下一个风口的时候,你经常都会…...

制造业转型,先迈出联手物联网融合创新的第一步

制造业转型,先迈出联手物联网融合创新的第

制造业转型的需求是明显而笃定的,自动化、数字化、智能化都是基本刚需。但对于不同的…...

基于恩智浦(NXP)JN5169的Wi-Fi转ZigBee智能网关方案

基于恩智浦(NXP)JN5169的Wi-Fi转ZigBee智

2018年2月6日,致力于亚太地区市场的领先半导体元器件分销商---大联大控股宣布,其旗…...