数智资源网
首页 首页 物联网 智能交通 查看内容

让万物听说,做好声音的“耳朵”

木马童年 2020-6-10 10:05 86 0

“宿命”之说 “目前音频压缩算法的码率日趋降低,研究空间相对较窄,主要是在某种算法的基础上对特定应用的改进和定制。音频信号的研究还可以在下列更广阔的方向开展下去:基于信号模型的音频内容描述、特征提取、 ...

“宿命”之说

“目前音频压缩算法的码率日趋降低,研究空间相对较窄,主要是在某种算法的基础上对特定应用的改进和定制。音频信号的研究还可以在下列更广阔的方向开展下去:基于信号模型的音频内容描述、特征提取、分类与检索。这些研究可以作为多媒体数据库研究的一个子课题,实现音频数据库的组织和管理,基于内容的音频点播等。在人机交互方面,音频内容的描述可以用于音频一视频信号处理(Audio 一 Visual Signal Processing),实现音视频信号交互、信号对应、信号关连等应用。”

这段文字来源于 2003 年一篇题为《基于正弦+噪声模型的宽带音频信号的表示与压缩》的文章,是今天笔者要介绍的主人公——宋少鹏的硕士毕业论文节选。细读这段文字,一个即将毕业的学生对音频信号未来的发展是有积极想法的,我们似乎就可以清晰地看到这个年轻人将走上的职业生涯道路。

让万物听说,做好声音的“耳朵”

时间是最好的证明,这个从华南理工大学无线电系毕业的小伙子近 20 年来真的就只做了一件事,这件事就是音频信号处理。常有人问他为什么喜欢这个领域、认定这个方向的时候,他都会笑着答道,“儿时的兴趣,我一直对声波、电波充满兴趣,小时候听黑胶唱片,听磁带,就一直想钻进去看看是谁在里面唱歌。此外,我的中文名字宋少鹏的拼音首字母缩写是 SSP,而音频信号处理(Sound Signal Processing)的英文首字母缩写也是 SSP,因此这是一种宿命,很早就注定了的。”

我的职业生涯一路向前,没有转折

上面讲到 2003 年宋少鹏硕士毕业,这一年他放弃了大公司的 offer,选择进入一家以色列芯片公司 Zoran 做软件开发,钻研音频 DSP 技术。值得一提的是,全球第一个全套杜比单芯片解决方案就来自这家公司。

2010 年,他又去了微软亚洲硬件中心,从事硬件产品的研发制造,经手产品包括智能摄像头、Kinnet 体感设备等。

就在 2012 年左右,他发现智能手机、电视、汽车都在向联网化发展,由于给用户带来了丰富的内容、社交和娱乐体验,这些产业得到蓬勃发展。与此同时,音频设备却还没有联网,这在一个专业音频从业者眼中,便是机遇。而眼前急切要弄清楚的是:如何联网?如何承载娱乐和社交?

带着这些思考,还在微软供职的宋少鹏便寻找机会开始尝试,这次尝试不算成功,在他看来,原因有两点,一是当时行业环境还不太成熟,二是大公司的体制存在一定的限制。

宋少鹏在后来接受利器的采访时被问到职业生涯的转折点,他直言不讳地说:“我的职业生涯一路向前,没有转折。”因此,回溯到上述那次不太成功的尝试,摸清原因,认准方向也是他职业道路上的收货,当然不止于此,他还结识了一帮志同道合的朋友。于是在 2013 年的某一天,他带着这个团队毅然决然的开始了他们的创业闯荡。

2014 年,米唐在深圳这个远离中国的政治和经济中心的湾区成立了,他喜欢那里自发式、民营式、创新型的经济模式,大家都来自江西、湖南、江苏、四川、中国各地,移民所带来的一些共同的特质,比如说勇敢、不屈服、创新,这些都与他的团队惺惺相惜。

从产品到解决方案,都在用心做“耳朵”

公司成立初期,产业的不成熟,加上创业公司交付能力的有限,使得米唐没办法短时间内在语音交互领域拿出产品化的东西,基于讯飞 SDK 和谷歌 SDK 的尝试又均不能满足这个团队对产品体验的要求,而一家公司要生存下去就必须要有良好的资金回流,于是他们的第一款产品“方糖音箱”放弃了语音的交互,只保留了两项特殊的“体感”操作方式:轻拍音箱顶部开始播放音乐或暂停,向左或向右倾斜切换上下曲目。

这款音箱通过 WiFi 连接上网,可脱离手机独立工作,并内置了不少音乐电台,比如豆瓣电台、荔枝 FM、还有一些国际电台,同时它还能记录个人喜好,进行智能推荐。若是用户在互动中能会心一笑,那在宋少鹏的眼中,除了趣味更是一种关怀带来的暖意。

“产品就像艺术品,源于生活,高于生活,要从生活中抽象提炼需求,发掘人性。”这与宋少鹏以人性、人文观点来思考产品设计的观点高度契合。但生活要继续,公司更需发展,经济基础决定上层建筑,即使方糖在 2015 年就开始销往海外,并推出了同样设计的蓝牙音箱,以谋取更多的利润,一年数万台的销量还是显得捉襟见肘。

作为一家始终观察着这个领域的创业企业,2015 年底,他们看到了亚马逊的 Echo 和背后的 Alexa 语音交互系统。最初亚马逊 Echo 以 MVP(最小可用原型)的形态交付用户,语音识别和语义理解都仅能满足流媒体播放的简单需求,但是经过一两年的打磨,到了 2016 年,Echo 的体验就好了很多,它既可以提供音频内容,也可以提供生活服务,包括音乐、电台、有声书、新闻、天气、闹钟、日程等。这时候亚马逊也将 Alexa 语音交互平台开放出来,于是米唐团队在第一时间找到了亚马逊。大概花了三四个月的时间,在众多想接入 Alexa 的竞争者中,方糖成为首个通过亚马逊认证的第三方音箱产品。

让万物听说,做好声音的“耳朵”

“通过亚马逊的认证后,Alexa 团队的人就主动找到了我,问我一年能够卖多少,我说几万台,亚马逊就说做他们的技术方案商,可以帮米唐一年卖几百万个解决方案”,宋少鹏回忆称这是亚马逊帮团队找到了方向。于是,一个擅长做技术的团队,开始从做 C 端产品转向做 B 端的方案,并决意将自己定位为聚焦海外市场的语音交互解决方案提供商。

“让万物听说”是使命所在

目前,米唐的业务已扩展到家用电器、汽车和消费电子产品等多个领域,而其核心竞争力是他们的远场语音交互算法,在响应速度、识别率、去噪、声源定位和产品良率方面均做得还不错。

“作为创业狗,在哪都能工作。出差路上的飞行和堵车时的 YY 是获得灵感的方式,出差的时候会带一本书,和一个趁早笔记本。”宋少鹏如是说,“当你做一个事情,真正站在场景和用户的角度去思考,才有可能在价值上有所突破,而当你受制于既得利益时,其实会做很多束缚手脚的事情。”

未来的米唐会发展成怎样,没人可以预判,但“让万物听说”会成为它和它背后的这个团队不变的使命。

----------------

总编推荐:由贸泽电子全力支持,与非网倾力策划推出的第一个产业纪录片视频系列《深圳 Style》,关注奋斗在深圳的电子产业内的创业者们。

如果你看过了上面的视频,会发现我们制作了中英文双语字幕,没错,除了与非网及旗下覆盖本土市场的网络集群,这一系列的视频,我们也会通过 Supplyframe 集团覆盖全球的网络平台进行发布。

我们的观众不止于中国,发出最强音,让中国电子产业者的声音触达更多本土和海外的行业用户,是我们对每一个有情怀、有实力的创业者和实业家的承诺。

如果你自认有足够实力,有故事,想说给人听,欢迎和我们联系,联系方式:editor@supplyframe.cn,或扫描下方二维码,留言请备注:创业者

让万物听说,做好声音的“耳朵”

音频信号 特征提取 多媒体 数据库 人机交互 芯片
0
为您推荐
纯正商业级应用-微信小程序开发实战教程(附源码)

纯正商业级应用-微信小程序开发实战教程(

纯正商业级应用-微信小程序开发实战(附源码)——更多资源,课程更新在 多智时代 duoz…...

SpringCloud Finchley三版本微服务实战,网盘视频教程下载

SpringCloud Finchley三版本微服务实战,网

课程介绍:微服务架构已是当下最热门的话题,许多公司都在从传统架构系统向微服务转化…...

selenium3+python3+unittest自动化测试,自动化测试视频教程下载

selenium3+python3+unittest自动化测试,自

课程介绍:自动化测试视频教程 selenium3+python3+unittest自动化测试,2018年10月Sele…...

最新最全面的Java接口开发与自动化测试课程,视频教程下载

最新最全面的Java接口开发与自动化测试课程

课程介绍:本课程由BAT测试老司机带你学习Java接口自动化测试,掌握HttpClient和TestN…...

Python Flask构建可扩展的RESTful API,视频教程下载

Python Flask构建可扩展的RESTful API,视

课程介绍:前后端分离大势所趋,本课程将构建一套优秀的RESTful API,可以适配小程序…...

jsp+ssm+mysql实现的进销存管理系统源码,附带详细视频开发教程下载

jsp+ssm+mysql实现的进销存管理系统源码,

课程介绍:本系统除了脚手架的基本功能外,实现的关于进销存的功能有:供应商管理、商…...