大数据相当于医学上的显微镜,在这个时代,数据增长速度加快、数据来源日趋复杂、数据容量迅速扩大、数据类型就得丰富多样。面对全新的数据业务挑战,我们必须脚踏实地培养自己的数据科学家。”广道技术战略顾问、中科院研究生院信息安全国家重点实验室教授翟起滨说到。
翟教授提出,现在我们已处在网络和数据化的“第二机器时代”,机器会慢慢取代人类的多种脑力劳动。以股评为例,大多数股评东拉西扯些零碎的信息,加上错误百出的个人臆想和解读,号称“判断”。这件事情如果让机器来做,使用一定量的关系数据就可以推理出更准确一点的结论。机器可以直接处理股市的各种数据和公司的历史数据,经过模型分析运算,给出总结和预测,这个原理和天气预报差不多。
翟教授举例说,福布斯的主页上有个“科学叙事”板块,全是由机器人撰写的各种财务报告和分析。在美国,大数据应用表现为华尔街可根据民众情绪抛售股票,依据购物网站的顾客评论分析企业产品销售情况,银行根据求职网站的岗位数量推断就业率……
IDC今年初宣称,全球网际空间中90%的数据都是这3年内产生的,大数据时代已经到来了:全球每秒钟发送2.9百万封电子邮件,每天亚马逊上将产生6.3百万笔订单,Google上每天需要处理24PB的数据,新浪微博每秒产生1000多条消息……
翟教授认为,真正的数据专家,是很难在书斋里产生的,必须植根于实践之中。目前,大家都在努力的培养数据科学家。据麦肯锡全球研究所报告,美国将需要增加多达60%的可处理大规模数据的毕业生,未来5年将需要近50万名有资质的数据科学家,而缺口达到19万。此外,还需要150万名了解数据的高管和支持人员。
翟教授举例,为培养数据型科学人才,美国著名大学的计算机科学系都强化了大数据技术和综合方面的课程;普林斯顿大学加强了统计学基础训练:假设检验,ANOVA,线性回归都有了新的概念。斯坦福大学加强的训练课程为回归、分类、聚类、树等等。
“虽然大数据时代正在到来,但同时也带来不少麻烦,那就是安全隐患和威胁。”翟教授说,从“棱镜门事件”可以看出大数据的麻烦。这意味着如果没有高水平的数据科学家,很难控制大数据的风险,数据时代正召唤真正的数据科学家和数据工程专家。