日记大全

日记大全 > 句子大全

通俗化《大数据与人机对话:语必在言的集合里选取》造福华夏

句子大全 2008-11-21 16:25:41
相关推荐

为什么可说通俗化《大数据与人机对话:语必在言的集合里选取》造福华夏?让我们先来读一读它的摘要:人们学习说话的教育过程就像是在语言的超级棋盘暨形式化字符组成的单词矩阵中做各种选择。提出一种必然涵盖所有言语的新方法:构建语言的集合暨字符棋盘或词表;通过人机交互和协作,生成大量的言语大数据,涵盖代表知识本体的各种话语或术语;通过机器学习和人机交互的过程,比较、查询或重复使用这些话语或术语。结果表明:话语或术语的选取都可通过双语或多语转换以多种方式自动查询。该方法不仅可用于创建大数据与人机对话的环境平台,还可用于智能化文本分析和知识模块精加工,从而搭起大数据深度学习与知识模块大生产的桥梁。

一、目的

本研究旨在揭示人们学习说话的教育过程的科学机理,举例来说,该过程就像是在语言的超级棋盘暨形式化字符组成的单词矩阵中,按照各自的意愿做各式各样的选择。

其背景涉及三组数据分析:

第一组,信息处理的趋势分析

从标题包含信息处理这一主题词语发表论文的数量及其发展变化趋势,以及每年发表的论文数量,可以看出1960年是一个起点,而2016年则是一个具有很大波动起伏的转折点。它究竟是怎么回事呢?如果孤立来看,那么,是很难解释得通的。

但是,人们还是可从IP趋势及其对应的年份和发表的代表论著的研读来做判断。如果没有人工智能(AI)和大数据(BD)的相继发展,那么,人们也就只能根据IP趋势做与其相关的一系列研究了。可是,事实上是,不仅有人工智能(AI)而且还有大数据(BD)的发展和相继伴随。

第二组,人工智能的趋势分析

人工智能(AI)主题研究的发展变化趋势。从标题包含人工智能这一主题词语而发表论文的数量及其发展变化趋势,以及每年发表论文数量,可看出1978年是一个起点,2016年是一个十分明显而巨大的转折点。两方面表现出来的巨大反差。基于此,我们发现以往人工智能(AI)主题研究的发展变化曲线长期走低的可视化表现;发现以往信息处理(IP)主题研究的发展变化曲线的一路逐渐高涨的可视化表现(虽然有些许波动)。但是,令人费解的是:为什么IP曲线和AI曲线都在2016年不约而同地出现了大转折点?

第三组,大数据的趋势分析

大数据(BD)主题研究的发展变化趋势。从标题包含大数据这一主题词语而发表论文的数量及其发展变化趋势,以及每年发表的论文数量,可以看出1985年是一个起点,2012至2016年出现了几个转折点(其中向上的有两个较大)。此时我们把BD曲线与前面的IP曲线和AI曲线放在一起来观察,一个数字2016凸显出来了。邹晓辉叫一声(顿然醒悟)!大家也跟着注意到了2016年这个大的转折点在IP曲线、AI曲线和BD曲线的走势上是那么接近(就像三架飞机不约而同地平行起飞或协同飞行的感觉)。

二、方法

提出一种必然涵盖所有言语的新方法:构建语言的集合,暨字棋以及词表;通过人机交互和协作,生成大量的言语大数据,涵盖代表形式化和结构化知识本体的各种特定的术语本体;通过机器学习和人机交互的过程,比较、查询且重用这些知识本体或术语本体。

美国信息交换标准码(ASCII)是基于小字符集,而国际统一编码(Unicode)覆盖了采用统一字符编码标准(GB)的大字符集,对双字节字符进行编码,仅限于狭义的文本范围。本文的中国标准(Z)指:广义文本(字符、公式、图形、表格、声音、图像、立体、活体)。因此,信息处理的新旧融合标准(Z-ASCII)是中美融合标准涵盖所有类型的狭义和广义的文本及其(直接和间接)形式化表达的元素。构建全球语言定位系统(GLPS)的广义文本语境是其最终目标,含跨&多学科(领域或行业)的全球知识定位系统(GKPS)。这就为形式化理解模型及其实际应用奠定了坚实的基础(特别是在人机交互智能系统的背景下)。

用以下三个步骤的聚集可衔接GLPS与大小前提:

第一步是:基于孪生图灵机(具有自动学习能力和形式化理解能力的新型智能机)的发现和发明,构建一对数字棋盘。示例1:字符的智能化文本分析示例,示例2:英语的词形式组合的智能化文本分析示例,可显示人际和人机双重形式化方略协同机制。

不仅揭示了语言学和语言哲学通过间接形式化途径如何进入语言科学殿堂的短程线,而且还发现信息学和信息哲学通过间接形式化途径如何进入信息科学殿堂的短程线,甚至也发现教育学和教育哲学通过间接形式化途径如何进入教育科学殿堂的短程线,在此省略的信息基本定律在解读例1~2的时候一并介绍。

第二步,基于形式化理解模型而生成的大数据与过去旧范式获得方式生成的大数据,形成了鲜明对比:基于数字棋盘产生的大数据和基于网络爬虫所获取的大数据,虽然都是大数据,但是,存在可控性的区别。例如,虽然都是基于美国标准信息交换代码的技术来调用字母符号,但是,却不能直接调用笔画符号,更不能同时直接调用广义文本的所有符号(Z却可以)。

可以说同样是大数据,其效率却大不相同。例3,谷歌的围棋软件和深度学习的结合带来了快速发展;示例4,数字棋盘和文字棋盘结合构成的孪生图灵机却可发挥协同智能系统的作用。逻辑、数学和物理三方面存在秩序和位置的一致性,如{真,假}、{0,1}和{开,关},因此,它们只是纯形式的计算、统计和变换,也因此,棋盘、棋谱和棋法不受周期和概率的控制,棋理也一样。对人脑和电脑(好比硬件)用的软件、知识和语言而言,则是一个更好的灵感。稍后将通过实际示例介绍棋理。读者会发现人脑擅长的棋谱(乃至知识棋谱)应用与电脑擅长的机器学习都是独一无二的。

第三步,机器的批处理和人机交互的启发式,在基于宽度的搜索和基于深度的搜索,以及基于遗传算法的搜索中,各自都具有其自身特征。人机结合的意义和选择,仅在术语处理和学习方面有所不同(涉及:分析、比较、查询和重用)。受限于:在间接形式化的数字和文本的双列表,人机双脑的协同操作,可实现人机协作甚至协同,即有针对性的(不仅是人类的左右,而且是人机)双脑大协作。

大数据与教育之间的关系反映了计算机第一步的优势。第二步反映人机交替的优势。第三步则展示了人机之间的(高度)分工与合作的双重优势。

由此,才发现了孪生图灵机(形式化理解模型)巨大的潜力。

三种形式化理解模型及各自的特点。模型A是在两个相同的图灵机之间建立全等关系,其统一的输出输入基础是二进制数及其变体均遵循序位逻辑而可物理实现的测序定位法则。模型B从数字系统扩展到符号系统(广义文本的基本单位),它们仍在两个相同的图灵机(数字计算机)之间运行,所不同的仅仅是广义文本的符号系统虽然也只是人机之间的转换,但是,其所遵循的规则增加了用户协议,至少涵盖两套形式信息和内容信息,在同意和不同意的理解方式之间由于主体的介入而存在差异。模型C只是对汉字系统进行间接正式化理解,可视为前者的收敛模型。必须特别说明的是三类模型都只是形式化理解模型(仅仅涉及棋法、棋盘和棋子的测序和定位、计算和统计,不涉及对是什么和为什么的解释,而只涉及怎么做暨形式化理解模型作为人机操作工具如何发挥其作用特定角色含义,一句话,物理与数理一致)。

如何使用它:第一组选择是由一个用户(通常是专家)与系统交互过程中设订的(不排除基于统计的机器学习和基于神经网络的深度学习也介入其中)。随后的重复选择可由机器识别并进行相应的重复选择(其关键是:如何明确告诉机器如何为用户做出特定的选择?)。机器可以进行基于统计的学习、分析和形式化理解和基于神经网络的深度学习。也就是说,可开发基于统计的机器学习软件以及基于神经网络的深度学习软件植入其中的相应部分,基本前提是拥有大数据和相应的计算资源及硬盘存储空间。该形式化理解模型有别于以前的现有信息处理范式,可以看作是大数据介入之后的新一代人工智能的形式化解释。为此,有必要回顾信息处理、人工智能和大数据以及它们之间的相互关系及其发展变化趋势。[

三、结果

其结果表明知识或术语的选取,都可通过双语或多语转换,以多种方式自动查询有针对性地重用。

上述文本是塞尔研究中心主任研究员邹晓辉2017年2月19日星期日在AAAS科学年会(Hynes会议中心)展示的论文方法纯文本部分。文本框下方数字和字符即词形式。

用户选出的术语是在双棋盘上调用的字符组合。

基于数字和文本的双矩阵方法及其应用实施例涉及以下步骤:

首先,亚里士多德基于语言的形式逻辑和弗雷格基于算术的数学逻辑,为基于序和位的广义双语逻辑奠定了基础。同时,图灵基于数字计算的强人工智能观点和塞尔基于自然语言的弱人工智能观点,为数字和文本双矩阵之间的联动函数关系奠定了基础。然后,在常识和跨学科、跨领域和跨行业的专业知识基础上,建立另类双语,索绪尔普通语言观和乔姆斯基形式语言观结合,在英汉狭义双语基础上,再结合广义双语,建立三类双语的广义翻译系统。其特点是基于知识本体的广义翻译,与联动函数关系及序位逻辑结构一道,共同构成了人机双脑协作的基础。

《弃》“俗体泰然终有烦,详情事理不愿知,迷将贵身置坟林,随欲任驾胡乱施。”

仅在汉字棋盘上选出“终、不、迷、胡”四个字即可起到画龙点睛的理解效果(在此内容与形式结合得很好)。

《存》“详情事理已明白,身心和谐真超然,重构基因待发展,再把人生巧安排。”

就这首诗而言,一旦找出“已、真、待、巧”四个字,再说明要重构的“基因”不是生物的,而是文化的,即形式化广义文本的基因。这首诗几乎瞬间就可表达其特定的含义和用意。

在中文双字棋盘及其蕴涵的序位逻辑和联动函数再结合广义翻译可将知识棋谱和原创棋魂代表的知识模块精加工示例与英文双字棋盘的术语即知识模块的示例揭示出语言棋盘蕴涵的深刻棋理。棋理在此具通用性,如二进制的围棋与多进制的双字棋。这样的广义文本的棋理可作为统一参照系统理解广义语言。将汉字版的双字棋盘作为统一参照系统,不仅可以从原文中得到更好的支持,而且,是智能化文本分析和知识模块精加工的工具。

四、意义

该方法及其结果的意义在于,它们不仅可用于:创建大数据与人机对话的环境平台,而且还可用于:智能化文本分析和知识模块精加工,从而搭起大数据深度学习与知识模块大生产的桥梁。

例如,基于课堂特定学科领域的知识本体建构过程中产生的大数据,不仅可通过传统技术处理而且还可通过双字棋创新技术处理,因此产生了一系列奇迹即广大师生能够便于协同参与研究系列结果。基于术语知识本体的智能系统可用于知识模块大生产。

由于形式化理解模型及其蕴含的三大原理(序位结构遵循的双语逻辑、联动函数遵循的P进制原理和三类双语示例蕴含的基于知识本体的广义翻译原理)和双字棋盘蕴涵的三类孪生图灵机原理,为基于洁净大数据的协同智能系统研究与应用奠定了基础。

具体表现是:

首先,自然语言处理和形式化理解,甚至有针对性地重用;

其次,专家知识获取和形式化表达,甚至有针对性地的重用;

最后,软件编程建模和形式化模拟,甚至有针对性地重用,

都可以得到序位结构(逻辑)和联动函数(数学)在理解(知)上的支持,还可得到人工(标准化技术)和人类(个性化艺术)在操作(行)上的支持。

可视化的模式识别是先建模后模拟,软件工程和模式识别的许多问题及其解决方案也蕴涵在其中了。

其有益效果表明:过去语言、知识和软件三种工程技术,不仅可揭示其连贯的机理,而且还可获得意料之外理情之中的创新发展:语言、知识和软件的三大系统工程技术的发明创造,及信息、智能和数据三大科学原理的发现创新。简而言之,它是对智能系统研究(科学)及其应用(技术)进一步发展的基础。

新方法有效的原因在于它充分发挥了人机合作的优势。其具体表现是:

首先,不仅顶级人类专家的创造力获得了优越的环境,而且教师和学生也获得了相同的环境。

其次,不仅可使用间接形式化方法和间接计算模型,还可建构并使用英语和其他语言双字棋。

最后,不仅间接形式化方法和字符间接计算模型很受欢迎,而且图形图像和各种类型的富媒体流行之后对于字式图表音像立体活体八大形式体系的言和语的序位逻辑认知的整体突破(这是人类认知第二次大飞跃的高效率的切入途径)。

三方面结合意味着在解决大数据和教育中的有趣问题时,不仅可讨论最新解决方案,科学的结果和方法,还可讨论人机之间分工和合作的可能性。这是最吸引人的。人机交互的优势互补和优化互动才是信息处理、人工智能和大数据发展之后最具竞争力的综合技术创新,即智能系统研究及其应用。由于教育最重要的作用是启迪智慧而基于洁净数据的智能系统研究和应用则在教育、管理、学习和应用结合的社会化系统工程方面,与语言、知识、软件和硬件结合的形式化系统工程遥相呼应且各具独特性。

附录:

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新