人工智能的耳朵：AI是如何听懂自然语言的

句子大全 2023-07-01 02:35:01

相关推荐

1952年，第一个语音识别系统问世了。被称为奥黛丽(Audrey，即 Automatic Digit Recognition，自动数字识别)的语音系统能够识别语言中最基本的声音单位——音素。

奥黛丽能听出数字0到9的声音。它对系统发明者HK Davis的声音识别率达到90%，而对其他人来说，识别率也达到了70%到80%左右。

奥黛丽是一个人工智能领域的重大成就，特别是在当时的有限计算能力和可用内存背景下。但该项目也突出了语音识别面临的主要挑战。当我们正常说话时，我们的句子可能很复杂，而且有些混乱。另外，我们语速通常很快——平均每分钟150个单词。但语音识别系统对此的改进速度极其缓慢。

直到20世纪80年代，这项技术才有了重大进展。关键的突破是基于复杂统计的隐马尔可夫模型(HMM，Hidden Markov model)的使用。例如，如果你说“dog”这个词，系统会分析d、o和g这三个单独的音，HMM算法会给每个音打分。并且，随着时间的推移，这个系统会更好地理解这些声音，并把它们翻译成文字。

对语音识别来说，虽然隐马尔可夫模型很关键，但它仍然不能有效地处理连续语音。例如，语音系统是基于模板匹配的。系统通过采样将声波转换成数字，同时测量间隔的频率并存储结果。前提是声音输入必须非常清晰和缓慢，而且背景噪音也必须很小。但到了20世纪90年代，软件开发人员取得了长足的进步，并推出了一些商业系统。它可以理解连续语音中的数千个单词。然而，语音识别在当时仍然没有成为主流应用。（笔者在2000年初也买过当时的一款主流识别软件，但没用几天就束之高阁了，实在是太慢、错误又多。修改的功夫，早就自己敲完了。）许多人仍然觉得在电脑上打字和使用鼠标更方便。然而，在一些特殊行业，如医学领域，语音识别的使用率很高。

随着机器学习和深度学习的出现，语音系统迅速变得更加成熟和准确。这些语音识别关键算法利用了长短期记忆(LSTM)、递归神经网络和深度前馈神经网络。

感谢您的阅读，我每周都会发布几次关于机器学习、人工智能、编程和所有与计算机科学相关的内容。

想了解更多精彩内容，快来关注科技创造财富

往期内容：

机器识文断字的秘密：人工智能如何理解语言

自然语言处理面临的主要挑战

RPA令人期待？让我们看看如何在工作中高效实现机器人流程自动化

尺有所短;寸有所长：了解机器人流程自动化的优缺点

阅读剩余内容

人工智能句子

人工智能的耳朵：AI是如何听懂自然语言的

搜狗王小川：语言AI是人工智能皇冠上的明珠

人工论文降重 AI智能降重（降低论文重复率的方法）

聚焦全球人工智能技术大会（爱数智慧CEO张晴晴分享多语种对话式AI的技术及应用）

14段语录（听懂“AI+安防”的冰与火之歌）

AI辨别错误率约4成（下一步挑战听懂动物语言）

语音控制智能调温（真的被能听懂话的云米AI空调Milano2种草了）