一眼看清高科技，深度解析人工智能技术脉络

idata · 发表于 2014-9-23 11:38:45

现在有非常多的大公司在做人工智能方面的研究，包括Google、IBM、Facebook、Apple、百度等，也有数不尽的小型创业团队进入，使得人工智能方面变得热闹非凡。每一家公司都有自己的研究思路，也取得了不同程度的进展，比如百度李彦宏就透露，百度大脑已经相当于2~3岁小孩的智力水平，而按照我们对自己人工智能系统的模拟测试结果，可以达到12岁中学生的智力水平，大幅度领先百度深度学习研究院。下边在不泄露技术机密的前提下，简要分享我们人工智能系统的设计思路与背后基于的原理。

1、文字与编程语言（视频、图片、文字与程序的结构化分析）

1）文字的发明与价值

在介绍人工智能之前，我们首先来简单认识一下“文字”。在人类看来，文字是人类约定创造的视觉形式，可以说文字是一个视觉系统，它以最简单方式将视觉场景图案再现，并且富有便于口语声音表达的特点，因而更加清晰，可以反复阅读，可以突破时间和空间的限制。

更准确的说，文字使人类突破口语受到时间和空间的限制，把时空的影像变化转码成视觉可见的符号系统，并通过书面语的方式传承下来，使后人能通过间接的文字想象出画面，了解历史和学习技术经验，从而提高自己的智慧，发展科学技术，并最终促使人类能进入有历史记录的文明社会。

2）编程语言与文字的区别

在了解完文字后，我们再来简单的看一下自然语言（文字）与计算机编程语言之间的区别。显然，自然语言是更高级的编程语言，其每一个字都有特定的含义，在现实世界中映射非常庞大视觉影像，并且具备较高容错率的特点，而现有的计算机编程语言是简单的命令序列与逻辑组合，本质上说，这两者之间差别巨大。

由于在计算机语言的内在逻辑无法映射到现实事物，于是在计算机看来，文字是人类用来记录语言的符号系统，仅仅是符号，没有任何意义。于是，当计算机识别到“树”这个字时，它没有任何“树”真实样子、信息的概念与数据，也就无法理解“树”这个字的真正含义。

其实，这也说明计算机和现实的接口没有打通，所以，人工智能的关键环节即为帮助计算机将符号与真实视觉影响之间建立联系，即补全每一个词语背后的真实对象数据，填补计算机文字符号与现实影像数据之间的鸿沟。

现在技术突破方向是通过建立知识图谱与事物组合图谱，试图将现实世界的景象与知识组织起来。当然，这仅仅是第一步，只有将其与自然语言解析、视觉解析结合到一起时，再结合大数据统计，才能实现真正的突破。

2、人工智能发展限制因素的误解

虽然基于现有计算机发展人工智能技术仍旧面临或多或少的限制，但将其归结于计算性能、编程方式等原因，显然是不正确的，因为这些都可以基于现有技术来解决，下边依次简要说明。

1）计算机计算性能限制的误解

许多人认为，虽然现在处于科技发达的互联网时代，但现有计算机的计算能力非常有限，如果要完成自然语言解析这种高海量计算的工程，或许只能依靠超级计算机、量子计算机、光子计算机、生物工程计算机等更先进的技术解决。其实这种想法是不对的，因为自己不能找到解决人工智能的解决方案，而将其归咎于现有硬件性能低下，是一种错误的逻辑。虽然计算能力的提升有助于更简单的解决人工智能问题，但计算能力并非限制人工智能发展的核心问题，而且计算能力可以靠大规模服务器集群有效解决。

2）现有编程方式与计算体制的误解

许多人认为，现有的计算机语言仅仅是简单的命令序列与逻辑集合，而自然语言解析所需要的编程方式注重的是视觉、听觉、嗅觉、触觉、味觉等为一体的编程体制，因此其并不适合解决自然语言与人工智能方面的问题，这也就意味着如果想高效的实现人工智能技术，最好开发出全新的编程模式，开发一款全新的计算机架构。

是的，我承认如果能够开发出更加优秀的编程体制，能够将整个系统的计算量降低超过50%，大幅度降低硬件、人力等技术设施的投入，从而使得整个过程的运算更加高效，响应速度提高一倍，但这并不意味着现有的编程体制解决不了所面临的问题。

虽然IBM公司已经发布了基于人脑特征的全新计算架构，号称基于此的新生态系统将为市场带来高参数化的神经模型，能形成类人脑计算的基础信息处理单位，以及具备对空间、时间和多模态化环境的识记、感知，或者是做出行动的能力，从而让下一代应用在感知、行为和认知方面的效率堪比人脑，但这种计算架构仍不成熟，在现实使用过程中，仍面临非常多的技术问题。

3、深度学习与知识单元

1）深度学习

深度学习的原理是通过多层次的学习而得到对于原始数据的不同抽象层度的表示，进而提高分类和预测等任务的准确性。即针对某一个“事物”，对于其图像（或物体、声音、嗅觉、触觉、味觉）进行参量分解与组合，然后通过大量同类事物来重复操作，从而验证每种参量（或参量组合）重要性（或层次性），最终获得一组识别该事物识别数据包的一种机制。

深度学习整个训练过程非常简单，以机器学会在图片上识别狗为例，我们不需要人为事先给出狗的特征定义，只需要提供足够的相关图片，用以划上一个大致的识别边界，然后机器将所看到的图像或图片分解成10亿多个不同的参量，对这些参量的层次、权重进行概率统计，并将这些参量按照其可能性进行各种“组合”，并对这些组合的层次、权重进行概率统计，并最终形成识别数据包。

举个简单例子，机器反复学习桃花的特征后，就会自己找到判定一朵桃花的方法，它会将这类有颜色、有花瓣、有花蕊的物体自动和花这个单词联系到一起，并最终形成一个特定的识别数据包，再依据这种“识别包的数据”，就可以从千万张图片或视频中识别出桃花来。

深度学习最大的特点是分层级，即在进行事物识别时，由于事物的不同特征的重要性、空间位置、时间顺序等是不同的，需要对事物特征建立层级来深度认知事物，背后的理论在于，你应当有一种模式来反映想要学习的自然现象的层级。

借助这种分层级的特征识别提取机制，机器能够像人的大脑一样可以从多角度识别搜索目标，甚至可识别多样且被扭曲的图像，即当图像发生倾斜、倒置、扭曲时，仍然具有一定的识别效果。

深度学习最终得到的是一个针对某一事物的数据识别包。当然，这个数据识别包也存在局限，就比如衣服这类物体很容易发生形变，机器通过学习虽然能够学习判断长袖短袖等衣服类型，然而形变过大必然降低识别概率，但即便是识别率较低的数据包，仍然具有价值。

2）三维建模

深度学习是一向基于信息提取的技术，但产生人工智能需要的基础“数据识别”，仍需要搭配另一套技术体系，即三维建模相关技术，这是因为现实世界中的事物大多是三维的，因此在“数据识别包”提取的过程中，需要基于三维真实的事物。

最终，数据识别包要符合以下要求：

① 能够满足事物在不同空间位置、视角、动作的识别机制，即具备在不同情况下识别概率的描述。

② 针对同一事物，在特定的视角之下，要具备柔性识别的数据，比如可以提供99%、98%、97%……30%……1%等一系列识别概率的数据。

③ 事物的意境展现，即当出现“苹果”词语时，能够迅速给出“苹果”的各种普通立体图，并支持各种简单操作。（画面展现）

[color=rgb(253, 102, 57) !important]

由苹果词语映射出来的各种结果

3）知识单元

然而，深度学习与三维建模等技术仅仅是针对某一元素进行深入分析的工具，能够针对某一事物分层次的提取其特征库，并能够基于此识别其它景象是否存在这一事物，这仅仅属于“知识单元”模型中的一个必要部分。

因此，我们需要将深度学习技术输出的结果构建模型以使符合我们“知识单元”的范式要求，只有这样，我们才能正确的使用这些数据，从而实现后续“知识图谱”、“事物组合图谱”、“视觉解析引擎”、“语境解析引擎”等的构建。

知识单元是我们搭建的一个基于事物自身相关属性的知识组合，为了便于以后在知识单元基础上进行更深入的数据分析操作，知识单元所应具备以下基础功能：

① 物体“二维”、“三维”识别功能；

② 将文字符号与画面建立连接的展现功能；

③ 物体多种名称及“名称与属性”的对应关系；

如果更详细的话，知识单元在构建时需要包含以下几个特点：

1、视觉识别方面，需要分层次化的特征识别体系。

在数据识别包方面，要形成一种分层次的识别数据包，不仅要识别出整个事物，也要提供识别事物某一部分的识别数据包，比如：识别一朵桃花，既要提供整个花朵的数据识别包，也要提供针对花瓣的数据识别包。

2、知识单元属性方面，事物的属性要做的尽可能全面，分类要尽可能的精细化，这是后期在知识单元之间建立联系的基础。

3、知识单元的概念名称、属性表述可能有多种，需要详细的罗列出来，而且概念、属性要与所对应的视觉特性识别数据包形成一一对应关系，这是后期自然语言理解的基础。

4、识别数据包要具备还原功能，也即当出现“桃花”这个词时，能够提供桃花的标准图（普通图）。

5、知识单元中的相关识别数据包最好是基于三维真实事物的特征采样，这样的数据更加真实、自然，也更加有效。

6、知识单元中的元素包括：视觉识别数据包、声音识别包、嗅觉识别包、触觉识别包、味觉识别包，以及事物的各种概念、属性、行为等文字特征信息。

7、基于统计学进行优化。当我们搭建完知识单元的初级模型后，仍旧需要根据大规模数据统计的方法来逐步改善、优化知识单元的设计模型，因此，在要建立数据自动修改优化机制。

8、识别数据包是一个空间范围内的识别结果，也即无论物体发生了变形、扭曲、拉伸、视角变换等一系列处理，仍能识别出来，虽然识别成功率不同，但这些具备一定识别率的数据仍旧具备一定的价值。

9、知识单元必须带有空间、时间、物体、声音、触觉、组合等一系列信息，也即这个单元是否具有空间属性？是否具有随时间变化的属性？是否是一个物体？是否具有声音属性？是否具有触觉属性？是否是一系列物体的组合？……

……

知识单元也即为知识图谱的基元，后续视觉分析、自然语言分析、计算引擎等进行计算时直接在此调取数据，因此其设计模型至关重要，这直接决定着整个人工智能工程的成败。

4、知识图谱

1）知识图谱的价值与意义

将众多知识单元组合在一起，并挖掘不同知识单元之间的关联属性，以此为基础使知识单元之间建立深入而广泛的关联，最终形成一张庞大的、具有广泛联系的知识单元关系网，这张网就是知识图谱。

比如说一个明星（是一个知识单元）可以通过深度学习技术得到她的视觉特征库（识别数据包），并基于此搜寻她所有演过的电影和唱过的歌（每一部电影、每一首歌曲都是一个知识单元），并在彼此之间建立关联，最终通过这种模式逐渐将知识单元关联起来。

2）知识单元分组归类

知识单元聚合成知识图谱的过程并非是简单的加法过程，而是一个2的N次方的相乘过程，这个过程中能找到许多归类的同类项，从而使它们之间建立较为广泛的简单联系。

举个简单的例子，菊花、油菜花、桃花、荷花、迎春花、葵花、石榴花、梅花、槐花、玫瑰这十种花，如果按照颜色的角度来看，通过寻找同类项，其中，颜色偏向黄色的花为迎春花、桃花、油菜花、梅花、菊花、葵花等，颜色偏向红色的有荷花、石榴花、玫瑰花。如果按照开花的季节来看，春季开花的有迎春花、油菜花、桃花、槐花，夏季开花的有荷花、葵花、石榴花、玫瑰，秋天开花的有菊花，冬天开花的有梅花。以类似的方法，可以在彼此之间建立非常多的关联。

3）量化世界

知识图谱可以说是在“量化世界”，让以前模糊的世界变得更加清晰，这也是人类文明进步的关键一步，曾经人类发明了语言文字，用户符号代表世界上各种事物，进而加以认识与区分，知识图谱是在这个基础上的巨大创新，从而达到量化世界的效果，让整个世界都进入数据化时代。

另外，知识图谱是视觉解析引擎与自然语言解析引擎的基础，只有将知识图谱做好，才能在此基础上发展事物组合图、视觉解析引擎和自然语言解析引擎，因此，知识图谱是人工智能的基础环节。

5、事物组合图谱

“事物组合图谱”是以知识图谱为基础建立的另一个异常庞大的知识库，甚至说是比“知识图谱”大100倍的知识体系，这个东西是人工智能的另一个基础。

那什么是“事物组合”呢？通俗的说只要是两个或多个事物组合在一起，发生的任何事件、情况等等，均是“事物组合”，小到“水和水龙头”，大到“上万人组成的腾讯公司”，都是事物组合。

1）事物组合图谱的价值

知识图谱是通过深度学习等方法，搭建起基于视觉数据包、三维模型、语言符号、深层关系等为一体的知识单元，但在真实的视觉识别、自然语言解析过程中，知识图谱在很多方面都存在数据不足的特点，为了弥补这个缺陷，我们需要深度挖掘事物之间的关联，以获得更加丰富的数据，这也就意味着“事物组合图谱”的诞生。

“事物组合图谱”更多的是根据知识图谱上边知识单元，基于现实世界的真实组合情况，而形成的机器可以运算的数据，基于这些数据的进一步运算会做很多推理的事情，并产生更大的价值，甚至是后续视觉解析引擎和自然语言解析引擎的基础。所以，“事物组合图谱”的一个非常重要的应用即为做精准化推算。

2）事物组合概率统计

人每关注一个事物或场景（多个事物的组合），大脑都会对相关事物进行一次记录，记忆程度取决于相关参量的记录次以及记忆时间，着重记录那些（或事物的组合）出现概率高的事物景象，而对于那些不经常出现的事物（或事物的组合），记忆中的特征也将随着时间的流逝而逐渐减弱，这说明人是根据景象出现次数、时间的远近、事物组合特点等来决定记忆与权重。

人工智能也是基于类似的运作原理，需要将所有的事物放到一块，基于大量的真实、自然的生活数据，来分析其各种事物组合到一起的可能性概率，这种概率数据将对后期的人工智能运算起到关键作用，尤其是视觉解析、自然语言解析等领域。

对于事物组合情况的统计，除了需要获取某些事物组合在一起的概率之外，更重要的是获得这些事物组合在一起所具备的某些特点，比如过程的特点、过程的来源、过程的走向，以及相关环节体现的特点，这些数据非常有用，在后续人工智能体系中将产生巨大的价值。

事物组合图谱主要包含三大基本功能：

①　统计各种事物所形成的各种真实组合，包括事物之间的组合、事物的空间位置、时间变换等等，并得出每个事物出现在各种组合中的概率；

②　统计各种组合所在过程中所具备的某些特点，无论是过程特点、来源、走向、分析等，都需要统计相关数据；

③　将各种组合按各种类别分类，并将其结果分析数据汇总出来；

举个简单的例子：水杯与其它物体组合在一起的概率？

水（46.27%）

桌子（17.62%）

塑料（12.39%）

玻璃（8.18%）

……

举个稍微复杂的例子：获取“女孩的跑步”特点的识别包？

显然，“女孩的跑步”是由三个事物，即人、空间、时间组成的一个过程组合，通过对上述场景的大量深度学习，可以得到随着时间、空间变换的整个动作扑捉过程，并获取相关的数据识别包，如果将“女孩跑步”定义为一个事物的话，则可以将相关数据模型化形成一个知识单元。

再举个更复杂的例子：“女孩”、“失踪”是过去一段时间新闻报道比较热衷的话题，根据这些新闻报道，以最简的方式，统计出下边一个四表格的数据。如果又出现了一个女孩失去联系了，根据这个简单的表格数据，则该女孩有可能被囚禁、抢劫或杀害的可能性，这就是一个简单的判断。

[color=rgb(253, 102, 57) !important]

有人会产生疑问，这世界上有上亿个事物主体，上亿个事物按照平均10个组合在一起，也就是C10个组合，即10亿的十次方，最终的结果是1080次方，这是一个天文数字，现在计算量不可完成的。

但真实世界中的真实情况并非如此，而是不同元素之间经常是成组出现的，比如水杯与水等常见事物的出现组合，几乎占到水杯与其它所有事物组合的概率上的90%以上，至于那些事物之间组合到一块的概率过低，则不必进行统计。

3）概率统计某一具体事物的所有相关信息

以前很难准确的了解某一个人，但是在人工智能大数据统计分析的情况下，这个解决起来就太简单了。以某一事物为主体，通过大量的数据进行分析，按照概率相关程度进行统计，可以很快得出与这一事物关系最近的一系列相关事物。

比如，以学生群体为例，可以很快得出99%的学生，每天早晨起床、洗刷、吃饭、上课、午休、上课、放学回家、吃饭、洗刷、睡觉……，因此，很容易判定“周一上午十点它们大多数都在上课”。如果以单个学生为例，通过汇总这个学生的所有生活信息，可以很快分析出这个学生的所有生活习性、爱好、思维方式，以及可能的行为等等。

4）构建全人类数据库

在知识图谱的基础上，进行相关“事物组合”的概率分析，是努力去构建一个更复杂、庞大的且基于全人类的知识系统，其核心主要基于三点：

① 基于自然语言解析引擎来阅读并理解互联网内容，然后对其有价值的相关资料进行提取，并将其归入到知识图谱与事物组合图谱里边；

② 基于视觉解析技术能够使计算机能够理解所有视觉场景内的信息，并将这些信息逐一统计分析，并将其归入知识图谱和事物组合图谱；

③ 对人群进行精细分类，然后基于每种类型的人给出特定的事物组合图谱。

5）组合概率引擎的分化

在自然语言解析的那部分，我们说到“当一个句子还原成一个语境后，会出现非常多的语义可能，并通过语境限制因素与大规模数据统计来获取定向语义”，但有一点需要提出的，那就是当基于不同的解析方向、内容类型时，最终会出现不同的解析语义，从而形成种类繁多的面向特定知识的语境解析引擎，这就像不同的人看同一场景“一株玫瑰花枝上开着一朵玫瑰花”，最终得到的却是不同的结果，有的人说“花中有刺”，而有的人却说“刺中有花”，其实从本质上讲，他们看到的场景是一样的，但是后续的思维加工、思维计算过程却不一致，因为他们在思维计算过程中分别强调了不同的因素，前者强调了“刺”，而后者强调了“花”。因此在后期，将针对特定人群，推出特定的组合概率识别引擎，以提升分析的成功率。

6、视觉解析引擎

1）视觉范围内单个物体识别

“视觉解析引擎”是基于知识图谱和事物组合图谱的数据，按照一定的分析方法对视觉范围内的事物进行解析的系统，通过“视觉识别引擎”对场景内事物的逐一识别，以及事物之间的组合分析，最终全部理解视觉场景信息的一种技术。

具体来说，通过深层学习来构建可视化知识图谱，并通过知识图谱的多层特征体制来分析图片中的事物，进而我们可以解析出场景中的所有事物（不一定都准确），由于在同一类场景中，不同事物形成的组合往往具有相互限制的作用（事物组合数据），因此我们可以通过这种限制作用（事物组合数据）来分析事物，最终全部解析场景信息的一种技术，这一过程涉及到了大量基于数据的推理判断。

如果是视频，具有时间线纬度，那就可以获取更多的分析数据。当场景跟随着时间而渐进变动时，我们就可以从多个视角来观察目标场景中的每一个事物，从而获取更丰富的视觉数据，这将增加分析的准确度。

2）通过“事物组合图谱”数据来对场景进行深度分析

视野场景中具有众多事物，这些事物之间往往具有相互联系，甚至部分事物可以构成一个组合，或者说这些事物往往以组合的方式出现，比如茶杯中的热水与冒出的热气，因此可以通过它们之间的组合在一起的概率非常高，而其它可能性却非常低，可以通过这种模式来分析事物。再比如说，一个人在一个秤上秤体重，我们很容易想到的是这个人在称体重，而不是这个人在观察这个秤是否美观，是不是容易坏，它多贵，因为前一种可能性出现的概率要远高于后者。

系统性的分析场景内的所有事物，以及这些事物之间的常见可能性组合，基于类似组合的可能性走向或特点，就可以理解图片信息。

3）识别步骤

场景识别过程大致分为以下五个步骤：

① 针对图像主体元素的识别，得出图像的场景主题、主要构成元素。

② 针对每一个元素进行逐一详细识别。

③ 基于事物组合图谱的数据，将各个事物重新组合到一起，并对所有元素的组合结构、视觉呈现等进行分析，从而完成对图片的完整分析。

④ 如果这是一个自然、真实生活中的案例，则将这个案例的相关数据进行简要归档，也即归入相关知识单元与知识图谱里边，对曾经的知识图谱进行优化。

⑤ 如果这种强调图片中的那些点，则需要对这些点进行详细的识别、分析。

4）基于类似场景分析图片的含义

一般而言，分析场景的含义，都是通过同类场景的相似性来理解预测现在所面对的场景的，从而理解场景所表达的真实意义。

在大多情况下，同类“事物组合”或同类场景的最终可能走向，或者它们的来源于情况，或者会带来那些结果，或者整个过程的价值（特点），这就是图像的真正含义。

人们为什么看到悬崖，会害怕？

答：因为在这里发生意外的可能性比较大，一不小心跌落，就没命了，于是害怕，也即出于对一种可能性危险结果的担心。

男士为什么喜欢和陌生美女聊天？

答：因为和陌生美女聊天交流，或许有许多进一步发生的可能，比如成为朋友、一起吃饭、看电影等一系列后续的可能。

举例：三口之家的郊外旅游

步骤一：

通过对这张图片进行简单识别，可以得出这张图片大致包含的元素为四类：

①　、人（3个人）；

②　、草坪、树木、天空；

③　、热气球；

④　、文字（logo）。

通过这四个元素的组合分析，可以得出，这张图大致是一个郊外游玩图。

步骤二：

针对图像中的某些元素组合进行具体的分析，比如以“人”这个元素为例，很显然能够分析出图中一共有3个人，进行更具体的分析，可以得出一个男士、一个女士、还有一个小女孩，如果机器能够识别出她们是手牵手，再加上男士、女士、小女孩这样的结构，可以得出这很可能是一个三口之家。

以类似方式完成对自然景观（草坪、树木、天空）、热气球、文字的分析。

步骤三：

这是一幅什么样的场景？

答：三口之家欢快的郊外旅游图，“欢快”怎么来？，因为基于类似场景的统计分析，郊外旅游一般都是一件开心的事。

7、语境解析引擎
[color=rgb(253, 102, 57) !important]

语句解析简要流程

1）人基于什么进行交流？

人的所有交流都基于以下五类真实的素材：

① 视觉层面：可视化方面，素材、图画、动作、图景随时间变化……

② 味觉层面：味觉感官，如：甜、苦、涩、酸……

③ 听觉层面：听觉感官，如：音质连续、间断、跳跃、清晰、模糊、洪亮、清脆……

④ 触觉层面：皮肤感官，如：柔软、坚硬、摩擦……

⑤ 嗅觉层面：嗅觉感官，如：臭、香……

2）基于语境展现的语句分析

人类所有的交流都是基于事实的、能够真实感受到的事物来进行的，当机器解析自然语言时，也需要将其转成事实的、能够真实感受到的事物。因此，“语境解析引擎”主要是将语言还原成一幅真实的图画，并基于“知识图谱”、“事物组合图谱”对其进行深度解析的一种技术。

基于语境解析引擎的自然语言理解主要包括以下几个部分：

① 基于事物组合图谱寻找话语语境中的类似事物组合场景；

② 用类似事物场景的各种属性特点去理解话语场景；

③ 如果针对话语语境中的某些点需要着重分析，则调取“知识图谱”或“事物组合图谱”数据进行深入分析。

举例1：“狗走进了房间，他是毛绒绒的。”

“狗走进了房间，它布满了家具。”

毛绒绒是狗的“外形表述”，家具是一个物体，房间更多是一个空间区域，布满则是物体摆放的位置，因此，基于人工智能技术，我们很容易通过语境来理解语句的语义。

要基于事物组合图谱进行可视化动态联想，将一句话展现为一幅动态简约语境图画，如下边例子所示：

举例2：“咏鹅”古诗用图画表示出来

咏鹅

鹅，鹅，鹅，曲项向天歌。

白毛浮绿水，红掌拨清波。

基于语境解析技术将古诗语境用图画展示出来，如下图所示：

[color=rgb(253, 102, 57) !important]

3）语境分析引擎

任何一幅语境图画所展现的内容都是无穷多的，这无穷多的可能会带来成千上万种语义可能，通过将语境所有事物按照可能性组合在一起，对这种事物组合的类似场景进行分析，来获取最有可能表达的那种语义，并最终获取某一语句表达的真实语义。

当然，语境中的事物可能会出现多种组合形式，每一种组合形式都可能会对应相应的语义。但语境具有纠错机制，随着语句的持续，当发现前边的理解有误时，即前边的某一语句表达的并不是概率最高的那个语义时，可以纠正前边的语句语义理解。

其实从另一方面来讲，“话语”本身是能表达多种含义的，而语境对语义具有限制作用，将一句话限制在某一确定的语义，也即话语能够表达多种不同的含义A/B/C/D，每种含义的概率分别是35%、30%、25%、10%，语境将语义限制在其中的某一种，比如B。

语境对语义的制约有多种情况，比如，同样一句话，不同身份的人所表达的语义不同。例如：

一位教师说：“明天上午八点我去上课。”

一个学生说：“明天上午八点我去上课。”

上面的两个例句中，教师和学生虽然都说同样的话，由于教师和学生的职务身份不同而决定了同样一句话的语义不同，教师说这句话的意思是“去讲课”，而学生说句话的意思是“去听课”。

按照传统的语句逻辑分析，很难解决这种语义分歧错误，但是在人工智能大数据统计分析的情况下，这个解决起来就太简单了，通过大量的数据分析发现，“学生”与“上课”这两个事物组合到一起，99.9%的概率是去学生去听课，So easy！

再比如，同样的一句话，在不同的时间、地点、场合，就有不同的语义。

例如：“都八点了！”

按照传统的语句解析技术，这句话很难理解，由于缺乏语境，它的语义很难确定。但是按照人工智能技术，这个问题很简单，通过大数据分析，可以直接给出，这句话出现在各种场景中的概率：

① 快点走，否则飞机晚点了（0.1%）

② 快点走，否则上班时间要迟到了（15.1%）

③ 快点走，否则上课要迟到了（11.1%）

④ 你没有时间概念（14%）

……

至于最终表达的是一种什么样的含义，无所谓，随着语境的持续而自然解决。

举例：交通事故

一位刚学会骑自行车的姑娘，因有急事飞驶在郊外的大马路上。这时，她发现前面有个老人在路边散步，她心里很慌乱，便在背后大声叫道：“老大爷，站一下，请站住别动！”老人随即站住，没有回头，只等姑娘过去。但不幸得很，姑娘三歪两歪一下子撞在老人身上，老人摔倒了。老人爬起来说：“我说你让我站住干什么，原来你是要瞄准呀！”

整个段子的语言解析的字数比本文所有字数还多，简略起见，仅对其第一句话进行解析：“一位刚学会骑自行车的姑娘，因有急事飞驶在郊外的大马路上。”

① “姑娘”是“女孩”的另一种称呼，这点通过知识图谱可以得到；

② “自行车”是一种物体，通过知识图谱可以查到；

③ “马路”是“公路”或“泊油路”的另一种称呼，是一个事物，通过知识图谱可以查到；

④ “郊外”是一个“事物组合”，通常指麦田、道路、野草、村落等组成的场景，通过“事物组合图谱”可以查到；

⑤ “骑自行车”是“人”与“自行车”两种事物组合在一起的一种运动状态，在“事物组合图谱”里边可以

⑥ “刚学会骑自行车”是“人”与“自行车”两种事物组合在一起的一种运动状态的子集，这在“事物组合图谱”里边可以查到；

⑦ “有急事”是“人”与“事情”两种事物组合在一的一种状态子集，这在“事物组合图谱”里可以查到；

⑧ “飞驰”是车辆等事物运动过程中的一种描述，这在“事物组合图谱”里可以查到；

⑨ 基于上述这些理解与数据，通过“语境解析引擎”，很容易将这句话解析出来，最后给出的是一个还原的简略过程“描述视频”，也即为该句话的“语境”，也即理解这句话的含义。

基于“知识单元”、“知识图谱”、“事物组合图谱”、“视觉解析引擎”、“语境解析引擎”等技术，已经能够完美搭建基于自然语言的庞大数据库，并能够以极高准确率识别自然语言，可以说，这已经为真正实现人工智能搭建了良好的基础，但这仅仅是整个“人工智能”技术体系中的一部分，鉴于本文篇幅，剩下的那部分将在后续的文章中展现给大家。

最后想说一句话：中国创新，改变世界！

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

一眼看清高科技，深度解析人工智能技术脉络

浏览过的版块