“大数据”院士鄂维南谈运用

MEI · 发表于 2014-7-10 15:26:00

大数据本身并不能带来直接效益，它不能吃也不能穿，但它可以消除浪费

大数据通过挖掘日常运营中生成、累积的用户网络行为数据，可以让人类社会越来越量化精准，对于商业和科学的推动作用无法估量。在金融领域，大数据如今已成为必不可少的基础设施。在美国，贷款授信依赖于大数据模型算法对个人和企业进行信用评估；在中国，如今日益兴起的互联网金融也正在摩拳擦掌利用大数据进行风控。
今年51岁的鄂维南院士是一位海外归国的大数据专家。他的研究领域极其广泛，分布在数学、力学和理论物理等诸多方面，他在普林斯顿大学数学系和应用数学及计算数学研究所担任教授，之后看到中国的互联网行业蓬勃发展，于是带领团队返回中国，潜心于大数据应用的研究，2011年当选中国科学院院士，目前担任北京大学元培学院院长，北京国际数学中心副主任、普林斯顿大学教授等职。
鄂维南1982年获得中国科技大学学士学位，1985年在黄鸿慈教授指导下获得中科院计算数学所硕士学位，1989年在著名应用数学家Bjorn Engquist教授指导下获得美国加州大学洛杉矶分校博士学位。曾获国际工业与应用数学协会颁发的 Collatz 奖，首届美国青年科学家和工程师总统奖，冯康科学计算奖及美国工业与应用数学协会颁发的R.E.Kleinman奖等。
近日，鄂维南院士首次接受媒体专访，对财新记者分享了美国大数据行业的先进经验，以及他对中国大数据行业的各种看法。
财新记者：什么是大数据？大数据最终希望达到的是一种什么结果和状态？
鄂维南：大数据本身并不能带来直接效益，它不能吃也不能穿，但它可以消除浪费。
这个社会中有很多浪费：时间、金钱、效率。以广告为例，电视广告面向成千上万的观众，但有多少能够转化为实际购买力？而通过大数据，则可以充分利用人们在网上留下的各种行踪，精确预测个人需求，从而推送更加精准的广告。
举另一个例子：个性化医疗。现在中国很多医院都在做这方面的研究，2013年11月北京大学医学院还召开了以“大数据时代的医疗与管理”为主题的论坛。通过大数据分析一个人的基因、身体特征等，可以计算出最适合他的医疗方案和药物剂量，从而达到电子个性化医疗。
但这些想法的基础都是海量的数据。只有一个人的数据是无法建立模型的，必须有足够多的样本，才能设计出更加准确的模型。模型通常是把人群分成不同类型，每个类型有其适用的方案，之后把每个人归到对应的类型中。
财新记者：现在很多P2P网贷公司都在发力大数据，他们是如何应用大数据的？
鄂维南：P2P公司对大数据的应用主要是两个层面。第一个层面是通过大数据把资金和需求连起来，让有钱的人能够把钱投出去，让需要钱的人能够获得资金；第二个层面是通过大数据做风险控制，建立风险模型，根据一个人的信息对其进行还款预测，从而决定授信额度。如果这些工作都让人来做，就涉及很大的成本。
Prosper原本是美国最大的P2P公司，它的利率定价是在借款人和投资人之间一种拍卖的形式。但Lending Club则采取了大数据的定价方法，将每个投资人划分不同风险级别，从而确定一个利率。投资人只需要选择喜欢的风险级别，然后始终投资自己喜欢的利率标的。在这个例子中，Lending Club通过大数据提高了效率，很快后来者居上。虽然Prosper后来也改变了业务模式，但已经追不上Lending Club的脚步。
财新记者：现在P2P网贷公司的批贷方法分为人工和大数据两种，您如何评价这两种方式？
鄂维南：我认为前端信息收集还是需要人工核查，因为大数据的基础是信息真实。但后端的风控测算肯定要用大数据，如果规模大的话，人工逐个审批效率太低。这又回到了我最开始提到的，大数据是为了减少浪费，提高效率。当然，现在因为P2P公司手里的数据太少，目前还须要借助一些人力。
财新记者：P2P公司采用大数据做风控，是否涉及很高的成本？
鄂维南：并非如此。现在P2P公司做的模型都不算复杂，从硬件的角度来说，用普通计算机就可以运行；从人员角度来说，做一个模型只需要3-4个人的团队就可以，关键是要掌握前沿的数据科学。
此外，对P2P公司来说，单凭一己之力很难形成足够的数据池子，假如各家P2P公司能够分享自己的数据，将对行业发展起到很大推动作用。然而，现在很多P2P公司已经规模很大了，危机意识也比较强，不愿意分享自己的数据。也许行业内的合作必须要靠危机来推动，就像上世纪初很多美国银行倒闭才推动了美联储的诞生一样。在平稳的市场环境下，这些公司很难有动力去共享数据。
财新记者：现在中国研究大数据的人都是怎样的学术背景？
鄂维南：做大数据的人来自数学、计算机科学、统计学、经济学等各个专业。然而，只有单纯本专业知识是做不了大数据的，真正的大数据涉及很深的模型和算法。华尔街投行经常招一些物理博士去做模型，但那些模型其实是很粗的。
现在中国大数据最缺的就是人才，特别是学术界，能做大数据分析的人极少。相较而言，业界倒是云集了一些很有实干精神的数据人才，BAT（百度、阿里巴巴、腾讯）等互联网企业中有不少人做的不错。
我们现在正在做一个973科研项目，是和图像数据有关的，也是希望通过这个项目凝练出一只大数据领域的学术队伍。
财新记者：大数据在中国的发展还面临什么掣肘？
鄂维南：数据是一种资源。如何收集高质量资源，很大程度取决于国家部门有多开放。现在中国很多项目的数据不仅不公开，都成为了一些人的私有财产。我认识一个研究地质学的院士，他无奈道“地质研究只能研究外国的，不能研究中国的”，因为地质数据都在国家部门手中，却不对外开放。我还认识一个统计学的教授，他去气象局寻找一些最普通的气象数据，都吃了闭门羹。
国家部门如何公开和共享数据，是需要通过相应的立法来推动的。这件事情在任何国家都不容易。奥巴马2009年宣布实施“开放政府计划”，其中旗舰项目就是“一站式”政府数据下载网站data.gov。只要不涉及隐私和国家安全的相关数据，必须全部在该网站公开发布。而在网站建立过程中，也是奥巴马政府的数据官员去问各个部委要数据，很多部委拒不提供，数据官员就和这些部委打官司，一场一场官司打下来，才拿到了一笔一笔珍贵的数据。
财新记者：说到数据模型算法，不能不提美国的FICO公司。美国三大征信公司目前使用的模型计算方法都来自“幕后大佬”FICO。FICO在美国就这么不可替代吗？
鄂维南：FICO的评分模型的确首屈一指，但却并非十全十美。FICO参考的数据变量只有20个，因此很多人摸清了FICO关注的变量后，就可以“模型套利”增加自己的信用评分，例如一个人可以每天反复在图书馆借书还书“刷信用”。
根据惠誉评级公司的研究结果，FICO分数的影响力正在下降。现在美国各个银行都有自己的模型，他们会用自己的模型去跑征信原始数据，FICO评分只是其中一个参考变量。例如美联银行（Wachovia）对FICO评分的参考比重已经下降为零。
针对FICO的不足，最近一家叫Zest Finance的公司重新设计了一套信用评估模型，并获得了业界的认可和青睐。和FICO的20条参考变量相比，Zest Finance参考的数据变量多达上万条，并采用非线性花的、更前沿的技术来进行分析，从而防止“模型套利”的现象，更精准地评估消费者信用风险。
财新记者：据央行征信中心公布的最新数据，目前央行征信中心共有8.4亿自然人征信档案，其中有信贷记录的只有3亿多人。大数据如何解决信贷记录缺失问题？
鄂维南：信贷记录属于强变量，在强变量缺失的情况下，中国的大数据研究参考了很多弱变量，例如教育、家庭成员等，这些弱变量组合在一起时，就可以形成强变量。
用大数据做风控，其实就是对一个人进行还款预测。那么，就要保证在借款期内不要让借款人的经济状况“触礁”。其实坏账就是由各种碎片的支出造成的。例如，孩子是一个家庭支出的源泉，那么如果能推测出借款人孩子的年龄，就能预测他的消费周期：婴儿有奶粉等固定开销、学生每到9月份就需要缴纳学费等。只要能避开他的主要支出，就可以控制坏账。
社交网络也正在成为一个流行的参考变量。美国有一家专门向网络卖家提供贷款的网站叫Kabbage，它有一个有趣的规定，就是在社交网站上有更多人点赞，就可以获得更大的授信额度。现在微博粉丝量等也逐渐成为中国P2P公司的参考变量。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

“大数据”院士鄂维南谈运用