搜索
查看: 1639|: 0

“大数据”院士鄂维南谈运用

[复制链接]

322

主题

0

回帖

1208

积分

网站编辑

积分
1208
发表于 2014-7-10 15:26:00 | 显示全部楼层 |阅读模式
大数据本身并不能带来直接效益,它不能吃也不能穿,但它可以消除浪费

大数据通过挖掘日常运营中生成、累积的用户网络行为数据,可以让人类社会越来越量化精准,对于商业和科学的推动作用无法估量。在金融领域,大数据如今已成为必不可少的基础设施。在美国,贷款授信依赖于大数据模型算法对个人和企业进行信用评估;在中国,如今日益兴起的互联网金融也正在摩拳擦掌利用大数据进行风控。
今年51岁的鄂维南院士是一位海外归国的大数据专家。他的研究领域极其广泛,分布在数学、力学和理论物理等诸多方面,他在普林斯顿大学数学系和应用数学及计算数学研究所担任教授,之后看到中国的互联网行业蓬勃发展,于是带领团队返回中国,潜心于大数据应用的研究,2011年当选中国科学院院士,目前担任北京大学元培学院院长,北京国际数学中心副主任、普林斯顿大学教授等职。
鄂维南1982年获得中国科技大学学士学位,1985年在黄鸿慈教授指导下获得中科院计算数学所硕士学位,1989年在著名应用数学家Bjorn Engquist教授指导下获得美国加州大学洛杉矶分校博士学位。曾获国际工业与应用数学协会颁发的 Collatz 奖,首届美国青年科学家和工程师总统奖,冯康科学计算奖及美国工业与应用数学协会颁发的R.E.Kleinman奖等。
近日,鄂维南院士首次接受媒体专访,对财新记者分享了美国大数据行业的先进经验,以及他对中国大数据行业的各种看法。
财新记者:什么是大数据?大数据最终希望达到的是一种什么结果和状态?
鄂维南:大数据本身并不能带来直接效益,它不能吃也不能穿,但它可以消除浪费。
这个社会中有很多浪费:时间、金钱、效率。以广告为例,电视广告面向成千上万的观众,但有多少能够转化为实际购买力?而通过大数据,则可以充分利用人们在网上留下的各种行踪,精确预测个人需求,从而推送更加精准的广告。
举另一个例子:个性化医疗。现在中国很多医院都在做这方面的研究,2013年11月北京大学医学院还召开了以“大数据时代的医疗与管理”为主题的论坛。通过大数据分析一个人的基因、身体特征等,可以计算出最适合他的医疗方案和药物剂量,从而达到电子个性化医疗。
但这些想法的基础都是海量的数据。只有一个人的数据是无法建立模型的,必须有足够多的样本,才能设计出更加准确的模型。模型通常是把人群分成不同类型,每个类型有其适用的方案,之后把每个人归到对应的类型中。
财新记者:现在很多P2P网贷公司都在发力大数据,他们是如何应用大数据的?
鄂维南:P2P公司对大数据的应用主要是两个层面。第一个层面是通过大数据把资金和需求连起来,让有钱的人能够把钱投出去,让需要钱的人能够获得资金;第二个层面是通过大数据做风险控制,建立风险模型,根据一个人的信息对其进行还款预测,从而决定授信额度。如果这些工作都让人来做,就涉及很大的成本。
Prosper原本是美国最大的P2P公司,它的利率定价是在借款人和投资人之间一种拍卖的形式。但Lending Club则采取了大数据的定价方法,将每个投资人划分不同风险级别,从而确定一个利率。投资人只需要选择喜欢的风险级别,然后始终投资自己喜欢的利率标的。在这个例子中,Lending Club通过大数据提高了效率,很快后来者居上。虽然Prosper后来也改变了业务模式,但已经追不上Lending Club的脚步。
财新记者:现在P2P网贷公司的批贷方法分为人工和大数据两种,您如何评价这两种方式?
鄂维南:我认为前端信息收集还是需要人工核查,因为大数据的基础是信息真实。但后端的风控测算肯定要用大数据,如果规模大的话,人工逐个审批效率太低。这又回到了我最开始提到的,大数据是为了减少浪费,提高效率。当然,现在因为P2P公司手里的数据太少,目前还须要借助一些人力。
财新记者:P2P公司采用大数据做风控,是否涉及很高的成本?
鄂维南:并非如此。现在P2P公司做的模型都不算复杂,从硬件的角度来说,用普通计算机就可以运行;从人员角度来说,做一个模型只需要3-4个人的团队就可以,关键是要掌握前沿的数据科学。
此外,对P2P公司来说,单凭一己之力很难形成足够的数据池子,假如各家P2P公司能够分享自己的数据,将对行业发展起到很大推动作用。然而,现在很多P2P公司已经规模很大了,危机意识也比较强,不愿意分享自己的数据。也许行业内的合作必须要靠危机来推动,就像上世纪初很多美国银行倒闭才推动了美联储的诞生一样。在平稳的市场环境下,这些公司很难有动力去共享数据。
财新记者:现在中国研究大数据的人都是怎样的学术背景?
鄂维南:做大数据的人来自数学、计算机科学、统计学、经济学等各个专业。然而,只有单纯本专业知识是做不了大数据的,真正的大数据涉及很深的模型和算法。华尔街投行经常招一些物理博士去做模型,但那些模型其实是很粗的。
现在中国大数据最缺的就是人才,特别是学术界,能做大数据分析的人极少。相较而言,业界倒是云集了一些很有实干精神的数据人才,BAT(百度、阿里巴巴、腾讯)等互联网企业中有不少人做的不错。
我们现在正在做一个973科研项目,是和图像数据有关的,也是希望通过这个项目凝练出一只大数据领域的学术队伍。
财新记者:大数据在中国的发展还面临什么掣肘?
鄂维南:数据是一种资源。如何收集高质量资源,很大程度取决于国家部门有多开放。现在中国很多项目的数据不仅不公开,都成为了一些人的私有财产。我认识一个研究地质学的院士,他无奈道“地质研究只能研究外国的,不能研究中国的”,因为地质数据都在国家部门手中,却不对外开放。我还认识一个统计学的教授,他去气象局寻找一些最普通的气象数据,都吃了闭门羹。
国家部门如何公开和共享数据,是需要通过相应的立法来推动的。这件事情在任何国家都不容易。奥巴马2009年宣布实施“开放政府计划”,其中旗舰项目就是“一站式”政府数据下载网站data.gov。只要不涉及隐私和国家安全的相关数据,必须全部在该网站公开发布。而在网站建立过程中,也是奥巴马政府的数据官员去问各个部委要数据,很多部委拒不提供,数据官员就和这些部委打官司,一场一场官司打下来,才拿到了一笔一笔珍贵的数据。
财新记者:说到数据模型算法,不能不提美国的FICO公司。美国三大征信公司目前使用的模型计算方法都来自“幕后大佬”FICO。FICO在美国就这么不可替代吗?
鄂维南:FICO的评分模型的确首屈一指,但却并非十全十美。FICO参考的数据变量只有20个,因此很多人摸清了FICO关注的变量后,就可以“模型套利”增加自己的信用评分,例如一个人可以每天反复在图书馆借书还书“刷信用”。
根据惠誉评级公司的研究结果,FICO分数的影响力正在下降。现在美国各个银行都有自己的模型,他们会用自己的模型去跑征信原始数据,FICO评分只是其中一个参考变量。例如美联银行(Wachovia)对FICO评分的参考比重已经下降为零。
针对FICO的不足,最近一家叫Zest Finance的公司重新设计了一套信用评估模型,并获得了业界的认可和青睐。和FICO的20条参考变量相比,Zest Finance参考的数据变量多达上万条,并采用非线性花的、更前沿的技术来进行分析,从而防止“模型套利”的现象,更精准地评估消费者信用风险。
财新记者:据央行征信中心公布的最新数据,目前央行征信中心共有8.4亿自然人征信档案,其中有信贷记录的只有3亿多人。大数据如何解决信贷记录缺失问题?
鄂维南:信贷记录属于强变量,在强变量缺失的情况下,中国的大数据研究参考了很多弱变量,例如教育、家庭成员等,这些弱变量组合在一起时,就可以形成强变量。
用大数据做风控,其实就是对一个人进行还款预测。那么,就要保证在借款期内不要让借款人的经济状况“触礁”。其实坏账就是由各种碎片的支出造成的。例如,孩子是一个家庭支出的源泉,那么如果能推测出借款人孩子的年龄,就能预测他的消费周期:婴儿有奶粉等固定开销、学生每到9月份就需要缴纳学费等。只要能避开他的主要支出,就可以控制坏账。
社交网络也正在成为一个流行的参考变量。美国有一家专门向网络卖家提供贷款的网站叫Kabbage,它有一个有趣的规定,就是在社交网站上有更多人点赞,就可以获得更大的授信额度。现在微博粉丝量等也逐渐成为中国P2P公司的参考变量。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-24 16:38 , Processed in 0.131822 second(s), 25 queries .

快速回复 返回顶部 返回列表