方治强知道,自己提出的这个方法是一个相对而言正确的方法。在语音识别方面,纯粹基于语音与结构语法的识别方式或许比较适用于英语法语德语之类的语言,因为那些语种的语法结构一直都是比较完善的,有一个经过数百年反复研究的语言研究成果为基础,比较容易进行语音识别方面的数字化。而中文则不是,中文的体系太复杂了文言文与现代汉语之间的断裂远远比英语中古英语与现代英语的区别来得剧烈。而日常使用中,哪怕是再现代的人,也会不自觉地使用一些古文中的字词句乃至语法,中学生在学古文的过程中最头痛的倒置,在日常使用中比比皆是,要怎么样才能建立一个相对完整的语法结构,才能匹配起语音识别后的处理呢?而从语义和语用出发,以智能程序为核心,以常识判断为依托,应该可以解决汉语的机器识别的问题。但是,这同样是一个几乎不可能完成的任务。语义和语用,并不是可以简单地体系化的内容,而是一个有固有规律可循,却千变万化的系统。全中国不知道有多少研究语义与语用的语言学家,那么多年来似乎也没什么大成果,那么,吕振羽是不是能做出自己的成果来?虽说,随着大学体制的变更,那些语言学家里大多数都是糊弄着写论文混资历的人,但基础知识却还是很扎实的,而吕振羽在这方面可以说是一无所知,仅仅凭着基本市面上容易找到的语言学教程,无论如何是不够的。
方治强说:“小吕,你给我个地址,回头我给你送一些资料过去。”
“嗯,那就谢谢伯父了。”
又聊了一会,吕振羽就急着告辞了。方治强的方法对于其他人来说或许是个大难题,而对于现在已经有了小羽的吕振羽来说,算不上什么大问题。小羽的智能,已经完全能理解比较复杂的语言环境了,语义和语用的判断对于小羽来说不是什么大问题,而挂在网上连续泡魔兽的经历,则让小羽学到了很多现代汉语中比较特别的表达方式,尤其是在年轻人中间比较流行的一些语言。按照方治强的说法,吕振羽要做的就是将语音系统直接和小羽现在的平台挂接上,现有的语音识别系统虽然不完善,但大致的框架是不错的,而小羽的自主判断和学习,将很快提升整个语音系统的识别能力。
“小羽,我把这个语音识别软件的前端分拆了,语音输入以后,自动输出和读音相对的汉字的数据,但是不再自动选择,选择什么字,怎么组合字词句,怎么标点,这些都由你来完成。”
“明白。”将原理解释给小羽听了之后,小羽自主运算了将近4个小时后,同意了吕振羽的方案。而小羽也按照吕振羽的提议,将语音识别可能用到的模块分离出来,将自己积累了很久的常识方面的积累剥离,只保留了基本的交流环境,而将专业知识模块分割了开来。于是,这一次试运行的语音系统,虽然仍然是小羽自己在主导,但已经有了一个普通的语音识别系统的基本构架。对小羽来说,这没有什么意义,但是对于吕振羽来说,只要证明了这样一个基本构架是可行的,那么基于这样一个基本构架的程序模块,就可以逐渐实现,只有最核心的智能判别系统,可能会用到小羽的部分功能。
“试听,第一次:一,二,三。”挂接之后,小羽提示开始试听。
“试听,第一次结果:一,二,三。”小羽的界面对话框里,打出了正确结果,虽然这未免太简单了。
“试听,第二次:秋天来了,天气凉了,一群大雁往南飞。”
“试听,第二次结果:秋天来了,天气凉了,一群大雁往南飞。”结果仍然正确,吕振羽振奋了一些。
“试听,第三次:慈悲不是出于勉强,它是像甘霖一样从天上降下尘世;它不但给幸福于受施的人,也同样给幸福于施与的人;它有超乎一切的无上威力,比皇冠更足以显出一个帝王的高贵:御杖不过象征着俗世的威权,使人民对于君上的尊严凛然生畏;慈悲的力量却高出于权力之上,它深藏在帝王的内心,是一种属于上帝的德性,执法的人倘能把慈悲调剂着公道,人间的权力就和上帝的神力没有差别。所以,犹太人,虽然你所要求的是公道,可是请你想一想,要是真的按照公道执行起赏罚来,谁也没有死后得救的希望;我们既然祈祷着上帝的慈悲,就应该按照祈祷的指点,自己做一些慈悲的事。我说了这一番话,为的是希望你能够从你的法律的立场上作几分让步;可是如果你坚持着原来的要求,那么威尼斯的法庭是执法无私的,只好把那商人宣判定罪了。”(引用自《威尼斯商人》)
这一次小羽运算了半天后,显示了结果,虽然字词判断都没错,但标点符号却错了很多。不过,这已经比吕振羽预想的结果好很多了。经过大半天,整整400轮测试和磨合,小羽已经能将吕振羽的话听得八九不离十,乃至于一些比较晦涩的表达方式和字词,都难不住它。毕竟小羽现在的知识面之宽广,要远远超过一般的人类了。虽然目前吕振羽使用的是一个价格相当不便宜的耳麦,取音的指向性相当好,而且还带有噪音滤出功能,还没有进行有噪音的环境下的辨识测试,但仅仅目前的成果,可以说已经超越现有的语音辨识系统水平良多。
但是,同样的,小制约小羽充分发挥能力的瓶颈也开始不断出现了。首先,是