在当今社会,尤其是融合了社交内容的移动互联网时代,如何更好地连接人与信息,已成为人类社会的一个重要基础命题。个性化的信息流已经成为一种新的连接方式,人与信息、万物互联。 那么,在信息流产品平台与服务这个领域里,如何高效地处理、分析、挖掘、理解和组织海量文字、图片(视频),更好地连接人与信息呢?并根据对用户的深度理解,来进行信息的智能推送呢?无疑,人工智能具有巨大的潜力。从内容创作、过滤、分发、消费以及互动的每个环节,我们都可以使用大规模机器学习,包括文本分析、自然语言理解、计算机视觉和数据挖掘等技术,向用户进行智能推送。同时,我们还可以基于信息流丰富多样的应用场景和用户,持续累积大量的训练样本和数据,让机器学习系统形成闭环,不断地改善和进化,在机器人辅助内容创作、自动视频分析与理解,个性化推荐和问答等方面发展人工智能核心技术。本文将分享笔者对人工智能发展前景的一些看法,包括人工智能的本质、近几年重要的技术发展,以及企业应该如何建立人工智能的核心战略竞争力。 连接人与信息:从结绳记事到超级智能 自古以来,人类社会一个最重要的基础需求,就是人与信息的连接。最早的信息传递用的是“结绳记事”技术。那时候还没有语言,有大的事情就结一个大的结,小的事情就结一个小的结。公元100年左右,蔡伦发明了纸,后来有了书。11世纪40年代,毕昇发明了活字印刷术,为印书提供了便利,让书实现了比较广泛的传播。在很长一段时间内,书和纸是人类社会传播信息的主要工具。20世纪90年代,数字图书馆出现,美国开始把全国的图书数字化,开始出现搜索、管理、影像分析等。在互联网时代,网站成为纸张之外的另一个主要信息来源。但人只能定点于个人电脑(PC)上。虽然有了搜索引擎和相对应的广告引擎,但大部分搜索还受限于它的不能移动性。当我们走路或者外出时,往往还会随身携带杂志或报纸。 最近十年,移动互联网与智能手机不再受限于固定的地理位置,这让纸制印刷品进一步减少。尤其在近几年,这一趋势明显,很多传统媒体、传统出版社都转型为网络媒体。 在PC互联网时代,搜索引擎可以借着爬虫软件在网页上抓取信息,但到了移动互联网时代,很多信息都藏在应用里面,虽然不能利用搜索引擎将每个App里的信息轻松“爬出”,但是在这股潮流中涌现出一些新的应用,让我们能够重新定义信息的源头。例如今日头条有“头条号”。我们可以与很多信息供应商、内容提供商、媒体创作者一起来构建新的内容平台和生态系统。以前我们需要做很多信息抽取的工作,现在可以直接拿到结构化的数据。 到了今天,更多的公司开始大规模使用人工智能做个性化推荐。因为人们使用智能手机有了很多碎片化时间,产生了学习、娱乐等需求。这些需求也产生了各式各样的应用场景。我们发现,在推荐引擎领域有了一个将人与信息相连接的新机会。搜索引擎里所有的排序算法、内容分析等技术,都可用于进一步的个性化精准推荐,从而变成信息流。“信息流”是一种新的、更智能的方式,让人能够随时随地在需要时得到所需要的信息。人工智能不但能够做个性化推荐,还能够不受地域限制享受服务。我们的目标就是——用无所不在的超级机器智能帮助人类创作、发现、使用、分发信息,并进行社交场景的互动。 随着技术的进一步发展,会出现超级智能,人工智能与人可以互相帮助,从而让彼此变得更聪明。人工智能需要很多标注数据和训练样本,在信息流的场景,人们有更多机会拿到更多标注数据以及更细颗粒度的标注,来帮助人们做自然语言理解、自然语言生成、图像视频理解和图像视频生成。人将与人工智能进一步共同进化。这是一个非常值得期待的未来。 人工智能的本质是软件产业革命 在过去五年,人工智能快速发展。之前,人工智能虽然有机器学习,但往往受限于传统思维。现在,研究人员不再受限过去20年的经验和成就,而是更大胆地开始创新。 今天人工智能的本质其实是软件产业的革命。软件正在改变全世界(Software is eating the
world),而软件产业本身正在被人工智能的发展所颠覆。越来越多的软件开发不再只是依靠软件工程师的想法、逻辑和认知,而这些软件的核心已变成非常大的模型,有上千亿的参数,有各式各样的大数据。通过训练各种各样的模型,包含统计模型、符号、逻辑、知识表达,软件产业已被人工智能化。 今天,视频、图像、文字都已经被数字化,下一个阶段就是语义化,比如图像理解。在数字原始表达空间,计算机很难做语义理解,我们需要深度学习模型来学习非线性的转化。机器跟人的思维方式不一样,机器算得快,任何问题只要能表达,使用加减乘除就能完成得很好。今天的人工智能的本质其实是软件产业的革命,借由大数据、大计算和机器学习来训练大模型,“编写”越来越智能的软件。 从数据学习机器能理解的语义表达 我们已经到了这样一个时代,有了更好的技术,能够直接从数据中学习机器能理解的表达方式。使用深层神经网络从数据本身直接学习机器能够“理解”的语义表达空间。输入是原始的数据空间,是信息化和数字化之后的结果,例如数字图片和它的语义标注,在输入的数字化原始数据空间里,它们的向量表达和分布一般是非常复杂的。 但借由深度学习,我们可以学到所需要的非线性转换函数来把它们变换或映射到一个机器能理解的新的语义表达空间里。在这个新的空间里,机器能借着计算来处理许多需要人类智能的复杂工作。数据量越大,学习出来的表达方式越好,从而带来更高的识别精度。这将构成一个正向循环。 我们希望能训练更大、更深的网络。但这也带来一定的挑战,因为需要更大的数据和更大的计算平台,这也让分布式机器学习的平台变得非常重要。尽管今天的大部分应用还依赖于监督学习,但是也还有很多研究,比如对抗学习(GAN),是生成模型与辨别模型互相对抗,在博弈论的框架里面彼此学习。这就好像训练两个模型,一个是学生模型,一个是教练模型,教练不断出更好、更难的题目来测试学生,学生也借由这些更难的题目被训练得更好。学生的进步又使得教练必须不断加强他的能力。 例如,一个花样滑冰选手在大部分的场景都跳得很好,但是三周跳需要改善动作,教练就需要有好的生成模型来产生更多的这方面的训练样本。学生在进行大量的针对性的训练之后,才能不断进步。另外,非监督学习、弱监督学习,还有人机互动学习也是一个很重要的新方向。 人工智能驱动信息流:打通内容生产和消费 “今日头条”是一个信息分发平台。它有输入输出两端,一端是信息的创作源头,包含文字、文章、影像、问答、短视频。另外一端是入口,人们可以借由不同的信息流,不同的手机应用、通道接入信息。在信息流的过程中,人工智能能够处理、分析、挖掘和理解信息流里的每一个环节。包括审核工作,通过过滤信息,再进一步标注各式各样的特征向量,借此推荐引擎的算法。使用搜索引擎,大部分人看到的结果是一样的,信息流个性化推荐的难度和复杂度更高,但也因此向人们提供了更多的使用场景。 “今日头条”要做的,就是在这个信息流过程中把所有的输入和输出连接起来。今天的人工智能,只要能够定义输入是什么,输出是什么,有大量的例子、标注数据让系统来学习,基本就可以建立数据模型。当然,我们希望把所有的输入和输出在信息流的管线(pipeline)里面定义好。一旦有大数据,我们就利用机器学习;若没有大数据,就利用人工提取的特征向量,并进一步形成闭环,借由用户不断的消费、互动和信息的创作,能够不断地拿到更进一步的标注数据和训练样本。 人工智能也会越来越智能,我们甚至能够借由信息的创造,让人工智能学习如何帮助内容创作。我们的目标是有一天机器可以写作,可以创作视频内容;不仅如此,人工智能还可以帮助消费,有一天也会有机器阅读。比如,依靠机器阅读,评价文章的质量,内容是否有问题需要过滤掉等。将来,机器写作、阅读都会借由新的信息流机会不断进步,不断提升质量。在这一过程中,我们希望建立人工智能的基础架构和平台来进一步完善系统。这方面,我们会在内部先提供自己产品所需要的人工智能服务,并在将来有一天能够对外开放。 在人工智能时代保持竞争力的五大要点 目前人工智能应用的竞争越来越激烈,智能化门槛也在不断降低。有5件重要的事情可以帮助我们思考如何保持竞争力。 1.
数据非常重要。要建立数据仓库来管理所有的训练样本,而且有比别人更大的训练数据。大数据是最关键的因素,是数据让人工智能技术不断迭代训练。 2.
想办法形成闭环,来挖掘人类智能。最好有很大的用户基础和用户的使用时间,这将进一步为我们的数据和细粒度进行标注,有助于思考产品定位。 3.
有丰富多样的应用场景。解决人类社会的基础需求就是连接人与信息。开发者应该深入到应用场景中,使用自己开发的产品,把自己的需求真正解决好,以便以后为其他人或企业用提供服务。 4.
从底层的芯片到数据中心的管理都至关重要。必须加速和训练创新的算法,建立自己的人工智能基础架构,能够看到真实的工作负载(workload)。如果没有大规模计算的需求和分布式机器学习的需求,或许无法意识到一些重要问题的存在。 5.
人才很重要。今天的算法还在不断进步,许多单位纷纷采取开放与合作的态度。我们需要有效地利用与学术界的合作,建立联合实验室,或者利用开源社区吸引优秀的人才,只有这样方能帮助自身的成长。(作者:马维英,今日头条副总裁兼人工智能实验室主任,IEEE Fellow、ACM科学家,曾任微软亚洲研究院常务副院长)
|