【汽车人关注】自动驾驶时代,中国的竞争力在哪里?




就目前而言,汉语的语音识别率先取得突破性进展。虽然距离实际应用仍有距离(要求错误率在万分之十以下),但已经非常接近了。


◎ 《汽车人》评论员   黄耀鹏


对自动驾驶技术,人们关注的,通常是如何控制车辆、安全高效地行驶。与当我们在或者不在车上的时候,是通过什么方式与车辆互动呢?


用手机输入?借助聊天工具交流?答案是直接说话,让车载AI进行语音识别。




语音识别本来是深度学习的一个小门类。我们所处的时代,是英语霸权的时代。IBM、微软、苹果、谷歌纷纷自我标榜,语音识别(当然是英语)错误率都在6%-7%上下。相对10年前,应该是一个出色的数字。


不过,看各大公司推出的语音助手,比如siri、小冰和谷歌的新宠Google Assistant,就明白,这些智能助手难抵大用。它们面对大多数问题,不是张冠李戴,就是用些陈词滥调来搪塞,一副智商堪忧的样子。人工智能都战胜世界围棋前冠军了,语言智能方面为什么还这么烂?




语音识别的关键在于模型。抛开基于外部原因(发音不标准、环境嘈杂、缺少上下文联想),传统GMM-HMM语音模型愈来愈无潜力可挖。


至少眼下,任何自动驾驶系统,都不敢把语音识别放在关键位置(手势识别也有类似问题)。它们的作用,就是当个花瓶,操纵点无关紧要的玩意:比如打开音响、接个电话,就连发短信都不敢。因为一个关键词错误,可能导致客户晚上回去跪洗衣板。




语音识别允许乘客说出目的地,因为人类可以用眼睛核查车载AI是否理解正确。用语音实时操纵车辆本身是一个禁区。如果出现操作失误,车厂埋怨乘客口音不标准是毫无意义的。乘客不可能为了使用自动驾驶车辆,就去考个播音员证书。


这个时候,汉语作为单音节语言的优势就凸现出来。几家中国公司开发的软件,汉语的语音识别正确率已经接近100%,就算专业术语连篇,软件也能正确解读(不限于特定专业)。偶有错误,也可能在于乘客的发音不标准。


神奇的是,如果说话者口音标准,汉语识别软件不需要适应。反之,如果说话者口音不标准,AI需要短时间的训练,识别率仍然很快就能飙升到标准状态。对于自驾车辆来说,几分钟的适应性训练,简直易如反掌。


某公司鼓吹的深度学习能力,在其中起到关键作用。而端到端的注意力机制,是当前语音识别正确率飙高的主要因素。




中国公司在语音识别方面正处于历史性的领先地位。这表明,在深度学习和机器智能算法方面,中国的一些软件公司已经取得长足进步。这些能力,将在自动驾驶系统本身的设计方面,得到更加明显的体现。


在传感器和计算单元等硬件设计方面,世界是平的。只要愿意,任何企业都能获得全球最著名公司的供货(价格可能不同)。这时候,软件设计日益成为自动驾驶系统研发的核心资产。




这很有趣。车载AI与人类打交道的能力越强,其智商演化也就越快、学习能力越强,我们就越有把握控制车辆。我们惊奇地发现,人类的婴儿就是这样的学习曲线。虽然我们强调人工算法与人脑运作方式的差异,到头来,可能殊途同归。


就目前而言,汉语的语音识别率先取得突破性进展。虽然距离实际应用仍有距离(要求错误率在万分之十以下),但已经非常接近了。这样一来,新上市的自动驾驶系统说明书可能这样写:“支持客户用语音实时控制车辆行驶,如果您使用汉语,将得到系统更积极正确的响应。欢迎使用。”


期待这一天的到来。(《汽车人》评论员/黄耀鹏【版权声明】本文系《汽车人》独家原创稿件,版权为《汽车人》所有。欢迎转载,请务必说明出处及作者,否则必将追究法律责任敬请关注“汽车人传媒”公众号(qcr0505)。




入驻平台