(二)

可以说,语音识别几乎包含了人类认知的全部问题。毕竟,要分析一段充满歧义的语音,我们不仅要理解语言,还要懂得世界。正因如此,语音识别的研究才更加诱人。可以说,语音识别领域的进步代表了更广泛意义上的人工智能领域的进步。语音识别是人工智能研究的基准,也是其中至关重要的问题。
   

最早投入实用的语音识别系统只能分析简单词语,比如,单独说出 0 到 9 之间的某个数字,系统会寻找对应声音波形中的独有特征,对这些孤立的词进行识别。可以想见,随着系统要识别的词语数量不断增加,词与词之间的波形差异会越来越细微,词语多到一定数量后,这种借助声音波形进行语音识别的方法就不再奏效。研究人员意识到他们需要更强大的语音识别系统。

到了二十世纪七十年代,研究人员终于有了新的发现。他们将语音看作一种在多个层次同时展开的序列,也就是说,语音识别系统会分析每一时刻对应的声音波形片段,确定此时系统在声音、音节、单词、短语等多个层次上所处的状态,系统要做的就是预测各层次在下一时刻可能转换到的状态。完成这项任务需要依赖数张巨大的状态转换表格,然后才能按表索骥,确定该如何转换。每张表格说明的是在不同层次(语音、音节、单词、短语)的状态如何按照概率的形式进行转换。

举例来说,“如果现在是状态 A,那么下一时刻状态 B 出现的概率是 0.1%,状态 C出现的概率是 30%,状态 D 出现的概率是 11%”等等。语音识别系统的训练过程,就是使用经人标注过的数据(这类数据一般由人工来标记,正确率很高)来不断改进这些表格中概率数值的准确度。这种方法的神奇之处在于,如果因为环境嘈杂或者说话人语音变形失真,让系统无法在单词层次上准确地进行状态预测,其他层次上的状态预测便可以帮助系统排除错误,从而锁定单词层面的正确状态。毫不夸张地说,这是研究的重大突破。就像人们常玩的填字游戏,纵横来看有很多角度,一次用一条线索填上一个字,面每条线索都会揭示出其他线索。谜团就在这个过程中慢慢简化,最终被解开。

有了这种同步进行的多层次分析,再加上呈爆炸式增长的数据训练和计算能力,语音识别技术在过去四十年里取得了巨大进展。没有这些技术进展,听写机软件就不会问世。听写机能把声音转录为文字,虽然犯的错误多了点,也大致可用,例如 Dragon Naturally Speaking 系统(第一版 Sir)通过语音来自动选择功能菜单(比如“账单查询”或者“设定维护”)的功能也拜这些进展所赐。但在 2010 年前后,看起来所有的改进都只是在完善技术的细枝末节,语音识别领域已经没有大的创新空间,技术发展到了瓶颈期。

这时,深度学习应运而生。辛顿和他的团队最早在多伦多大学做研究,现在供职于谷歌,他们很早就开始研究深度神经网络。深度神经网络是一种计算机程序,与人脑的工作方式有点类似。神经网络由多层相互连接的计算单元构成,每个计算单元的结构类似神经元细胞。一个计算单元先从其他单元接收输入数据,然后对其进行简单的函数计算(如求和或求平均值),再根据算出的函数值决定是否进行响应,即是否激活位于神经网络更上层的和它相连的计算单元。在训练过程中,先输入数据给最下层的单元,并观察最上层单元的输出结果。如果输出的结果不符合预期,就用一个原理非常简单的学习算法来调节单元间的连接强度,直至与预期相符。这里单元间的连接相当于神经元细胞之间相互联结的突触。如此经过数十亿次的数据输入和反馈调节的训练,深度神经网络也许能够学会对某个待解问题的重要特征进行编码,变成一个非常准确的识别器。

多数的深度神经网络是无状态的,也就是说,系统的输出仅仅取决于当前的输入数据,和历史输入无关。这限制了对语音建模的效果,因为自然的语音系统是有状态的。格拉维斯在辛顿的实验室工作,他想知道,如果在语音识别系统中,能够做到让输出依赖于输入序列,而不是单纯的当前输入,识别效果将会如何变化。这种网络结构被称为循环神经网络。

实验证明,循环神经网络的网络结构非常有效。并不像多层次预测的语音识别系统,格拉维斯设计的循环神经网络只需要非常少的语言层次的信息。因此,循环神经网络的识别效果很快就迎头赶上了曾经的业界霸主,并且不久就将其甩在身后。

在和辛顿交流时我问他,这个程序如此简单,为何能够高效地识别语音的内容?他回答说,灵感来自一幅他钟爱的达芬奇的素描作品,作品描绘了湍急的流水通过险峻关隘的场景。图中的流水喷涌向前,激起无数泡沫,翻滚、旋转,乱作一团,让人无从捉摸。辛顿说,水流纵然复杂,但它“完全可由极其简单的纳维-斯托克斯方程所刻画”。些许简单规则的组合,就可产生所有的复杂性。他认为,这就是深度神经网络能够识别语音的秘密所在,“你再也不用在系统中,手动去刻画那些复杂的语言现象了”。

辛顿和他的同事们在谷歌进行计算机科学的基础研究,用他的话来说就是检验“运行良好的学习算法的空间边界”。他们的研究成果将会有广阔的应用前景。但是语音识别依然是研究的重中之重,这不仅因为语音是算法研究的试金石。辛顿告诉我:“更重要的是,语音是万物间彼此交流的最自然方式。”
   

现如今,谷歌、苹果、亚马逊以及微软这样的巨头,对录制并转存人们说过的全部语音已经没有多大兴趣了,他们感兴趣的是如何用语音进行交互。例如,亚马逊推出的 Echo 智能音箱,它随时听候你的差遣,不管是播放音乐还是查点资料,在屋内的任何地方,你只要动动嘴就行,这可比打字容易多了。
   

现在电脑已经做得越来越小,可以戴在手腕上,架在鼻梁上,将来甚至可以放进耳朵里,这样一来我们就不需要键盘了。没有键盘可以,但是我们得知道如何向电脑发号施令。为什么不直接用说的呢?我们只需要说:“好啦,谷歌,导航回家吧。”
   

在未来的发展中,语音识别技术由两大力量:推动人工智能的基础研究和谷歌他们感知到的用户需求。对前者而言,语音识别是一个典型的问题;对后者而言,谷歌需要为新设备创造更好的语音交互。不管是有心还是无意,在很短的时间里,语音识别技术将会获得迅猛发展,并且达到它的“引爆点”(The Tipping Point),记者马特,汤普森称之为“语音普适性”(Speakularity),那时,“一说起这种被转录存储的语音,人们默认它就应该可以被实时地检索和读取”。唯一的问题是,我们决定转录哪些内容。

如果能够听到今天人类录制的全部语音内容,你会觉得作为一种物种来说,人类真是非常奇葩。你听到,电台主持人总是没完投了,叨叨个不停;为一个镜头,配音演员在那里录了一遍又一遍;记者问的还是那些老掉牙的问题;对着驾驶舱里的仪表按钮,飞行员还在重复同样的指令。.... 这些只是沧海~粟,“为保证服务质量,本次通话将被录音”。人类的语音生活到底是什么样,人们究竟都说了些什么,我们仍然不得而知。