李琳山博士谈智能语音：大梦虽远（终会实现）

句子大全 2023-07-12 06:37:01

相关推荐

天下没有两句话的声音数据是一样的，人类语言的声音数据千变万化，同一个人说同一句话两次，其数据绝对差很多；这是发展语音技术的最主要困难点。好在人类语言有结构，因此语音技术必须透视声音的结构。让我们一同了解语音技术的前世、今生并展望来生。

李琳山是研究语音技术的先行者，也是全球研究汉语语音技术的拓荒者，一路看着语音技术由诞生、成长到茁壮。语音技术，即是由机器处理语音讯号的数据。李琳山开场时表示，人的语言的声音是声波，用麦克风收下来变成讯号后成为时间函数，再把任一小段声波波形转变成实数序列，也就是数据，再进行分析处理。

一、语音技术前世

语音技术的最主要困难点，在于声波波形的千变万化。例如，李琳山展示某一个人说的话“到不到江南大学”的声波，发现句中两个“到”字，声波长得完全不一样、音高也很不同，天下没有两句话是一样的。此外，我们熟知的是汉语中有很多同音字，比如说到今、天时，为什么不会认为前者是黄金的金？

李琳山解释，声音的讯号是有结构的，人脑中有类似辞典及文法、还有远远更为复杂的知识，我们会根据这些知识及前后文判断出正确文字。因此，语音技术必须透视声音的结构。

1980年，李琳山刚取得博士学位不久，回到台湾。当时制作一份中文文件，得使用嵌有几千个铅字的大键盘中文打字机，台北街头还有不少打字行在征求打字员。当时很多人思考：中文字输入机器真的这么困难吗？并提出了许多解决方案，例如字根法、注音符号法等。李琳山则想着是否可以用声音输入中文。

但是，以当时技术及台湾的研究环境而言，他说：太难了。为了实现用声音输入中文，构想之初，李琳山认为汉语是一字一音，音的总数有限，顶多一千多个，让机器学会听这一千多个音，应该就可以用声音来输入文字。

不过事情没有想象中简单，因为透过文献发现，当时连英语语音输入的技术都尚在极为原始的阶段。因此，李琳山决定先教计算机说华话，但即使做出所有的一千多个音、拼成句子，机器发出来的音仍然不知所云。

李琳山百思不得其解：人说话不就是把这些音拼起来吗？为什么机器拼的听起来不知所云？直到1983年，听到一位语言学家的专业建议，李琳山开始寻找汉语语句中每个字发音的调整抑扬顿挫的一般性规则。汉语语句中每个字只要前后字不同，就会有不同的抑扬顿挫，也就是音高、音量、音长和停顿的变化。

看来，唯一办法是从数据中找答案。李琳山决定土法炼钢，造出一堆句子并录音，透过人工手动分析，确实慢慢发现若干一般性规则。举例：我有好几把小雨伞，一句中每个字都是第三声，就有复杂的第三声相连规则。

一般熟知的是两个第三声相连时，前面那个会变二声。李琳山分析这句话的文法结构，发现各个字之间有各种不同的文法结构边界，原来前述三声变化规则可以横跨某些边界，但不能横跨其他边界。

如此一来就有答案了。把全部规则兜起来以后，再让计算机用单音拼成一句话，并照规则调整每个字的抑扬顿挫，此时计算机虽然有点口齿不清，但大致能听得懂计算机在说什么了。

二、金声系统

1984年，短短一年后，口齿不清的计算机成为全球首台能说出汉语的机器。李琳山给它一个很直白的名称：计算机说汉语，此套系统只要输入文字或注音，就可以输出声音。由于声音还是不太入耳，李琳山的研究团队三年后改良出更好的系统，甚至能表演相声，展现丰富的抑扬顿挫。

李琳山之后开始想训练机器听汉语。他提出三个基本假设，试图让汉语语音辨识（Speech recognition）的问题变得比较可以解决。首先，一次只输入一个音就好，也就是一字一字断开输入，借此避免连续语句中不同的前后字影响，造成不同的声音讯号变化的问题。

第二，每一位使用者自己说话训练机器听他的声音，也就是要避免不同说话者的音质、口音等等差异。第三，辨识过程中一定会出现错误，让人工操作软件来更正就是了。这三个假设让问题比较有机会解决。机器操作时，需要当年看来极为庞大的运算能力，也需要复杂的硬件电路支援。

然而因为当时软件的计算能力太弱了，而不同的硬件电路拼凑困难始终不成功，后来李琳山决定倾尽研究室的财力，自国外购买平行运算计算机（transputer），终于在1992年完成第一部语音辨识系统，命名为金声一号（Golden Mandarin I）。

这是全球首见的汉语语音输入系统，但一次只能输入一个字，且那一个字需要好几秒才看到辨识结果。之后不断修改翻新，三年后的金声三号（Golden Mandarin III）终于不需要断开文字，可以直接用连续语音输入中文字。

李琳山说：以前最大的问题是，汉语中每个音的讯号的波形，长相都会因为前后字不同而改变。到金声三号时我们已经让机器自行由数据中，学出这些变化来解决这个问题。以现代名称来说，就是古代的机器学习（machine learning）。李琳山说，以今天科技进步的速度来看，1990年代称为古代应属合理。

三、深度学习

随着机器学习等技术的进步，今天各种语音个人助理如Siri等等，声控与回应能力也越来越强。李琳山说明，其实Siri并没有太多特别了不起的技术。开发者把庞大的机器及计算资源、数据模型等设置在云端，使用者对智能型手机说话后，声音讯号被送至云端。

云端的庞大机器分析巨量资料、透过深度学习得到的技术来进行声音辨识、资料搜寻，造句并合成声音等，再传回使用者。如果除去云端架构、巨量资料、深层学习等今日尖端技术及庞大的运算资源，Siri剩下的汉语语音辨识核心技术和1995年李琳山团队的金声三号差别并不大。

提及汉语语音辨识技术与西方语音辨识技术的差异，李琳山说明，汉语是方块字非拼音语言，由字构词，由词造句。词的定义和在整句文句中词的边界也不明确。我们时常自动把很多小词串起来变成长词，又可以把长词缩短变成短词等等，也随时自动产生很多新词。

为了辨识语音、理解语义，机器自然需要词典数据库。然而开发者遇到的第一个问题可能是该放多少词？因为汉语的词几乎是无限多的。再者，汉语一字一音，音的总数有限，但字总数很多，故同音字多，不同声调和不同音的组合，产生出千变万化的词和句。

李琳山认为，透过巨量资料及深度学习，有机会让巨量资料涵盖人类语言中的各种现象，也有可能让机器找到人类尚未考虑到的答案。也就是说当机器非常强大、数据多到可以涵盖所有语言现象时，机器有可能自动学习到所有这些现象。不过目前还没有发生。

谈及下一阶段语音技术发展的可能方向，李琳山认为自己一直是追寻遥远大梦的人，投入的研究方向常常在短期内看不出有实质回收的机会，例如：他今日非常有兴趣的领域之一是语音搜寻。

以网络课程为例，李琳山的研究团队曾开发台大虚拟教师，把课程录音以投影片为单位，将声音切成小段，变成一张张有声的投影片。再从每张投影片中抽出关键词建成关键词图，分析词关键词之间的关系。

如此一来，机器不仅可以找出讨论相关主题的课程段落，让使用者知道所找到的投影片的大致内容，并可以建议学习的前后顺序，也能自动摘要出其中的语音信息。

例如，有一个学生听演讲时听到类似“Black word algorithm”（黑字算法）的字眼，就上网查相关课程，发现果然有好几张投影片都说到这个词。不过一听就发现，所找到的投影片真正说的是“Backward algorithm”（反向算法），那才是那个学生听到的。李琳山说：这可以证明我们搜寻的是声音，而不是文字。

谈起语音技术的未来，李琳山认为，未来机器有机会替人类把网络信息去芜存菁、融会贯通。例如2015年YouTube的尖峰时段每分钟有300小时影片上传，2016年Coursera在线课程有将近2000门课。没人有能力看完或听完所有这些数位内容，人类的文明精华因而埋在大量不相干的资料堆中。但是机器可以看完、听完它们。

四、总结

李琳山举例：机器有可能听完全部内容并融会贯通，再为每个人抽出他所需要的部分，由机器量身订制课程。例如一名工程师被派到奥地利出差，他跟机器说：我想学莫札特作品的知识，但我是个工程师，没有背景知识，愿意花三小时来学。李琳山认为技术上，机器有机会做得出这种定制化课程。

回顾汉语语音技术三十几年的发展，计算机机器已经从牙牙学语进展到对答如流，却还有许多需着力之处。李琳山说芝麻开门是人类的千古大梦，希望开口说话就可以打开宝藏的大门。以今日眼光来看，网络是全人类的知识宝藏，未来随口说句话便可以开启宝藏大门是有机会的。他说：大梦虽遥远，有一天有人会实现它。

阅读剩余内容

李琳山博大梦智能语音

李琳山博士谈智能语音：大梦虽远（终会实现）

一、语音技术前世

二、金声系统

三、深度学习

四、总结

我们的英语白学了（人工智能正在实现实时翻译）

咪鼠智能语音鼠标S7B语音打字语音翻译全新上市

打字我用语音打字（语音翻译：咪鼠智能语音键盘KB1体验）

AI智能语音翻译器

当外语学习用上智能语音

人工智能语义感知将帮助有运动障碍的聋哑人实现顺畅交流