日记大全

日记大全 > 句子大全

人工智能的耳朵:AI是如何听懂自然语言的

句子大全 2023-07-01 02:35:01
相关推荐

1952年,第一个语音识别系统问世了。被称为奥黛丽(Audrey,即 Automatic Digit Recognition,自动数字识别)的语音系统能够识别语言中最基本的声音单位——音素。

奥黛丽能听出数字0到9的声音。 它对系统发明者HK Davis的声音识别率达到90%,而对其他人来说,识别率也达到了70%到80%左右。

奥黛丽是一个人工智能领域的重大成就,特别是在当时的有限计算能力和可用内存背景下。但该项目也突出了语音识别面临的主要挑战。 当我们正常说话时,我们的句子可能很复杂,而且有些混乱。 另外,我们语速通常很快——平均每分钟150个单词。但语音识别系统对此的改进速度极其缓慢。

直到20世纪80年代,这项技术才有了重大进展。 关键的突破是基于复杂统计的隐马尔可夫模型(HMM,Hidden Markov model)的使用。 例如,如果你说“dog”这个词,系统会分析d、o和g这三个单独的音,HMM算法会给每个音打分。并且,随着时间的推移,这个系统会更好地理解这些声音,并把它们翻译成文字。

对语音识别来说,虽然隐马尔可夫模型很关键,但它仍然不能有效地处理连续语音。 例如,语音系统是基于模板匹配的。 系统通过采样将声波转换成数字,同时测量间隔的频率并存储结果。 前提是声音输入必须非常清晰和缓慢,而且背景噪音也必须很小。 但到了20世纪90年代,软件开发人员取得了长足的进步,并推出了一些商业系统。它可以理解连续语音中的数千个单词。 然而,语音识别在当时仍然没有成为主流应用。(笔者在2000年初也买过当时的一款主流识别软件,但没用几天就束之高阁了,实在是太慢、错误又多。修改的功夫,早就自己敲完了。) 许多人仍然觉得在电脑上打字和使用鼠标更方便。 然而,在一些特殊行业,如医学领域,语音识别的使用率很高。

随着机器学习和深度学习的出现,语音系统迅速变得更加成熟和准确。 这些语音识别关键算法利用了长短期记忆(LSTM)、递归神经网络和深度前馈神经网络。

感谢您的阅读,我每周都会发布几次关于机器学习、人工智能、编程和所有与计算机科学相关的内容。

想了解更多精彩内容,快来关注科技创造财富

往期内容:

机器识文断字的秘密:人工智能如何理解语言

自然语言处理面临的主要挑战

RPA令人期待?让我们看看如何在工作中高效实现机器人流程自动化

尺有所短;寸有所长:了解机器人流程自动化的优缺点

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新