随着社交媒体、云计算、物联网等技术的发展,海量信息的产生只需极其短暂的时间:一分钟内,微博推特上新发的数据量超过10万;社交网络“脸谱”的浏览量超过600万。一天内,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量)。①与传统意义上的数据不同,基于云计算、物联网等技术而产生的大数据记录了人类活动的各种分散信息,包括政府、企业、社会团体等主动公开的数据库,媒体自己建立的数据库,用户数据、社会化平台上的UGC(即用户制造的内容)、移动终端的地理信息,物联网及各种传感器捕捉的数据。② 美国的Narrative Science是一家专门训练计算机编写新闻报道的公司,该公司每隔30秒左右就能撰写出一则新闻报道。公司创始人哈蒙德认为,“未来新闻90%以上将为电脑化新闻”。③ 英国著名综合性日报《卫报》在数字化转型中,积累了利用大数据进行新闻报道的成功案例。2009年,它根据英国下院公布的5500个PDF文档挖掘出英国议员开销的数据报道;2010年,它利用维基解密数据和谷歌地图软件,制作出数据新闻《伊拉克战争日志》,将每一名阵亡士兵作为一个红点标注在地图上的对应阵亡地点,触目惊心的红点地图所揭示的新闻事实引起英国社会震动,并在很大程度上推动了英国做出撤军伊拉克的决定。在国内,财新网是利用媒体和政府公开的数据进行数据新闻报道的领衔者,其数据新闻栏目《数字说》(Data news)主要通过对这些公开的数据进行挖掘、剖析和重整,完成深度报道。 数据新闻是基于大数据收集、整理、分析,进而挖掘数据背后的关联和意义而形成的一种新的新闻报道。这种基于互联网技术而呈现的巨量数据,将对传统的新闻报道产生巨大影响。业界和学界集中关注了数据新闻及其对传统新闻实践的意义,认为数据新闻是对传统新闻报道的完胜,并乐观地预计数据新闻报道对传统新闻报道的冲击甚至替代。数据新闻报道是否真能取代传统新闻报道,数据新闻是否永远真实和安全,数据新闻是否弱化了新闻专业标准等问题,尚未被学界集中关注。对此,本文从大数据本身出发进行探析,以有助于业界和学界对此问题的全面认 识。 一、数据新闻报道:会取代传统新闻报道? 大数据来源广泛,它可提供记者观察不到的、更广泛的信息,这弥补了传统新闻报道在宏观和中观叙事中的不足,也开创了传统新闻报道不可能触及的领域。数据新闻报道的前提是各种数据的公开,没有数据公开就不可能有后续的数据收集、整理和分析。但大数据并非触手可及,亦非遍及新闻报道所涉及的所有领域。虽然近年来世界多国兴起了数据开放的运动,但随着对数据价值认识的不断提升,各行各业对数据的保护也在加强。数据新闻的制作依赖于能够获得的公开数据,如政府或企业主动公开的信息,而信息公开的程度取决于政府或企业,这自然限制了数据新闻报道的需要。当然,媒体除了获得政府或企业主动公开的信息之外,还可通过与社会大数据资源共享、合作的商业模式,实现数据的抓取和获得,进而实施数据新闻报道,但这一模式在国外新闻界刚刚试水,在我国尚未发展。因此,与传统新闻报道相比,数据新闻报道尚不具备如传统新闻报道在频次和内容上的可持续更新能力。更主要的是,数据新闻的发现主要来自具有持续的数据形成机制的行业或领域,目前这些领域主要集中在金融和体育行业以及物联网技术广泛应用的行业。数据新闻也主要集中在这些行业的报道,其并没有涵盖所有的新闻报道领域。 因此,数据新闻作为大数据时代新闻报道的一个新形式,它强化了新闻报道的某些领域,弥补了传统新闻报道的弱势,但它不能完全取代传统新闻报道,而是传统新闻报道的补充,共同构成对社会环境的监测。 二、数据新闻报道:传播伦理的真空区? 大数据在信息量上的优势,容易使人对其产生过于乐观的认识,认为基于大数据收集、整理和分析的新闻报道,在各个方面都优于传统新闻报道。从数据的属性和产生来看,情况并非如此。 首先,数据新闻的真实性有风险。尽管大数据包含巨量的信息或数据,是普查的结果,可以对事件进行充分的报道,④ 但就数据本身而言,其仍然是对事实某方面属性的反映,而不是全部,因此,单凭数据并不能形成对事实的全面反映。而对社会现象规律的总结,离开人的思考和思辨是无法实现的。⑤ 从数据新闻的来源看,其主要来自政府、企业、社会团体等主动公开的数据库,或是媒体自己建立的数据库,或是用户数据、社会化平台上的UGC、移动终端的地理信息,或是物联网及各种传感器捕捉的数据。虽然这些数据为新闻报道提供了充分的统计学数据,有助于数据新闻对社会宏观现象的报道和对新闻事件的宏观描述,但是,出于保护国家机密、商业秘密的需要,一些有价值的信息是不公开的,媒体可获得的数据是有限的,在此情况下所做的数据分析很可能是不准确的。另外,也不能排除一些企业、机构为自身利益而发布虚假信息,如果记者对此不加核实,其经过数据抓取、整理和分析之后的数据新闻也很可能会出现失实。 其次,数据新闻报道存在侵权风险。在移动互联的社交媒体时代,公民的网络使用行为,包括点击、搜索、浏览、购物、评价等行为均可以被网络公司记录为数据,成为大数据的一部分。另外,在物联网环境下,密集的信息采集设备如摄像头、传感器,形成了对公民的全方位实时监控。这些监控设备采集的信息成为大数据后,个人隐私就随时可能被泄露。立足于大数据的数据新闻报道,如果缺乏明显和足够的公共利益指向,也会因此而存在巨大的隐私侵权风险。 三、数据新闻报道:机器垄断新闻? 大数据对新闻生产环节的影响,莫过于机器开始参与新闻报道。计算机承担了本属于新闻记者的报道任务,这在美国Narrative Science公司训练计算机编写新闻报道中有明显表现。该公司运用Narrative算法,计算机每隔30秒左右就能撰写一则新闻报道。美国知名IT杂志《连线》据此报道说该技术很可能使记者丢掉“饭碗”。⑥ Narrative的首名客户是一家报道美国大学篮球联赛Big Ten会议的电视网络。Narrative算法将以实时方式撰写出数千条有关Big Ten的体育新闻,同时每个季度更新该赛事数据和新闻。Narrative撰写新闻需数个步骤⑦:首先,该引擎需要收集大量数据,尤其是金融业和体育产业中大量波动性很强的数据。其次是将数据变成文章。在此环节,Narrative根据报道题材形成一个可预见的固定模式,创建相应的文章模板,再根据资深记者即元作者提供的词汇来组成句子,从而完成一个叙事作品。就垒球报道而言,元作者在很大程度依赖20世纪早期知名体育评论家林·拉德纳(Ring Lardner)的写作用词习惯。 上述新闻报道过程中,从新闻数据的采集、报道模式的确立到词汇语句的使用,都由计算机程序控制完成。机器真的能垄断新闻报道吗? 事实上,机器无法思考,更无法取代专业人员在新闻传播中的作用,其只能在特定的数据中根据设定的模式完成数据整理工作,而对数据的挖掘、新闻价值的发现,仍需专业记者完成。如何从数据中揭示出有价值的信息,发现数据中潜在的价值,需调动多方面的知识和能力,而这不仅是机器所不具备的,也是传统新闻记者需进一步强化的能力。 此外,机器无法撰写具有创新性的新闻,其新闻报道只能根据现成的模式进行再造。这种现成的模式是根据传统新闻记者的报道风格和特定题材新闻报道的模式生成的,离开这一点,机器就失去了再造的参照物。因此,无论数据背后的意义挖掘还是数据新闻报道的模式和风格,都离不开传统新闻记者的专业积淀和报道方式创新,所谓“机器垄断新闻”只是一种被抽象化夸大的预言。在数据新闻报道中,传统新闻记者不是被淘汰,而是要求传统新闻记者在面对巨量信息分析整理和意义挖掘中,新闻报道所需的知识结构和报道水平的全方位提升。
|