contact us
联系我们POSTTIME:2024-10-14 作者:博鱼(boyu·中国)官方网站 点击量:888
小时候看特务电影时,特工们往往有一项不可或缺的技能,就是隔着几百米近盯着正在说出的对象,从嘴型辨别出有对方在说什么。有了这种记忆,造成如今看什么语音辨识技术都实在非常一般——我都讲出声儿了你才听不懂,算什么AI好汉。
不过最近一项专利申请指出,微软公司正在向特工自学,发售了寂静语音辨识技术。当AI也能像特工一样,寂静之中辩人言,我们的世界到底不会有什么有所不同?除去唇语辨识,AI还有什么方式悄悄听不懂你的话?想起寂静语音辨识,有可能很多人第一反应就是拷贝人类的方式,利用图像识别展开辩读唇语。而利用唇语展开语音辨识这种方式也由来已久,但是辨识的准确率仍然远比低。DeepMind曾在2016年做到过测试,经过1万小时的新闻视频训练,AI唇语准确率超过了46.8%。
国内有一家企业曾多次获取过涉及数据:在对中文新闻视频的辨识中,准确率超过了70%。而搜狗所发售的驾驶员场景下的唇语辨识,因为牵涉到到的词汇量很少,准确率需要超过90%。
可以找到,比起现在主流语音辨识以致于95%、97%的准确率,唇语辨识精确程度觉得是有些拿不上台面。对于中文这种一字一音节的语言来说就让,对于英文这种连音很多的语言来说,唇语辨识要横跨的门槛显然极大。
另一方面来看,唇语辨识所牵涉到到伦理问题觉得过分相当严重。唇语辨识的“射程”太远,如果这种技术知道发展成熟期,意味著天网之下的我们在聊天时将再行无隐私。在隐私情绪更加美浓的2020-03-30 ,哪家企业公开发表研究这项技术,只怕是实在自己家的公关部门过得过于朝夕。因此还包括微软公司在内的产业和学界,都在找寻一种更加精准也更加隐私的寂静语言识别。
目前显然,寂静语音辨识的技术方向可以被分成两个“派系”,一是“气宗”,另一个是“电宗”。微软公司所递交的专利,就是典型的“气宗”——在终端上加到传感器,通过感官用户说出时的气流来辨别用户说出的内容。这种终端如同一只小型麦克风,置放用户嘴边,用户在说出时构成的气流不会在设备中构成光线,经过训练,可以将这些气流光线的信号和文字一一对应。而“电宗”则更为神秘,我们告诉人在说出时必须调动整个下半张脸的肌肉,有所不同的文字发音所调动肌肉的方式也并不相同。
通过对面部EMG(肌电)信号的收集,来自学人类说出时面部EMG信号特征,并通过神经网络的训练将EMG信号和文字对应一起。可以显现出这两种寂静语音辨识都有一个联合的特点,那就是自主性和私密性。不管是EMG信号收集还是气流收集,都必须在讲话者身上配戴好设备,而不是像图像技术一样,需要在远程且讲话者不知情的情况下展开收集分析。
寂静语音辨识变为真为·气功?不论是气宗还是电宗,这些寂静语音辨识技术都面对着某种程度的问题——既然要用户把话说出来才能展开辨识,那为什么不必要应用于语音辨识来展开文字切换和翻译成,非要摸一些和“气功”一样没贯彻应用于场景的花招?只不过寂静语音辨识的应用于,有可能不像大家想象的那样普遍,它既无法以最高效的方式协助听障人士,也不容许被应用于监听等等工作。但在一些关键场合下,寂静语音辨识却可以充分发挥胆怯用。我们可以一起开动脑筋,看看在哪里人们必须说出,但却听得将近彼此的声音。
答案很非常简单,要么是在声音无法传播的地方,要么是在一些尤其喧闹的地方。于是寂静语音辨识就有了如下的应用于场景:灾害现场、舱外探寻、水下作业……在这类场所中,人们也许为了逃离被污染的空气、也许为了排便氧气,都会穿着上类似于生化衣、宇航员衣等等类似服装。穿着上之后既看到对方的表情,也听得将近对方的声音,更加没有办法用语音交互去掌控其他设备了。
同时环境情况(例如氧气过于充裕)往往不容许人们以长时间的声音说出,再加防护服的堵塞状况不会引发声音的回响,以往的有声语音辨识在这种情况下很难发挥作用。这时可以被移往在防护服内部的寂静语音辨识就变得很有价值,讲话者只必须做到出口型就能向外界传递信息。除此之外还有喧闹的马路、工厂车间、机场……在这些场所中,想让对方听得清自己的声音,往往必须扯着嗓子头。
想要让语音辨识精确拾音,堪称难上加难。这时利用寂静语音辨识就不会精彩很多,不仅可以精确传达信息,也能让一些正处于这种场合的工作人员戴着上隔音耳塞维护自己的听力。实质上目前在欧洲一些型号的战斗机中,就因为机舱内噪音极大、飞行员之间无法交流,早已应用于上了EMG信号寂静语音辨识技术。
当然,目前比起语音辨识技术、甚至比起唇语语音辨识,寂静语音辨识技术的发展阶段还很初级,应用于效率也不低。实质上寂静语音辨识是一项典型的“幸福而多余”的AI技术,它既极致反映了一系列技术的排列组合,例如EMG信号寂静语音辨识所反映出有的AI与神经学的融合;又在应用于上很大程度的有限,即使在一些声音无法传播的场景下,也要考虑到计算出来条件、辨识语音后信息再行传送的媒介,更加不必托简单的数据搜集工作了。
但我们有理由坚信,在未来AI技术更加普及化、应用于成本越来越低时,总会经常出现一些极端场景应用于上这些看起来多余的技术——或许未来有一天,战斗机的掌控也要应用于上语音交互呢?。
本文来源:博鱼(boyu·中国)官方网站-www.705jk.com