当谈及如何用大数据进行P2P征信时,P2P平台“信而富”CEO王征宇举了这么一个例子:美国最大的P2P平台Lending club,曾尝试通过用户在Facebook上的表现来确定其信用度,结果遭遇惨痛的滑铁卢。之后,Lending club转而向美国征信局这一传统机构获得数据,平台上的坏账率随之下降了许多。
“这个例子表明,P2P征信不能想当然。”王征宇称,“社交网络上的互动,并不能很好地反映用户的金融信用。”
Lending club的教训,放在国内的P2P公司身上同样有效。事实上,国内大多数P2P在征信方式上都遇到了不小困惑:大数据是P2P风控领域的热词,但到底哪些数据有用,哪些数据无用,又有哪些工具能让大数据的分析结果更加准确,大家心里并没有底。
与国外公司相比,国内P2P的征信难度显然更高。目前,政府和银行体系掌握大量的基础数据,但这些系统大多是孤立与封闭的,有无数信息孤岛等待连通。而银行掌握的最重要的资金交易数据,也不会开放给P2P。这些因素,纷纷限制着P2P平台快步迈入大数据时代。
即便困难重重,大数据对于P2P来说依然是一座金矿。就信而富来说,公司正尝试着从各种信息纬度中提炼价值,建立起一套自动化的授信决策机制。在此基础上,公司通过借款过程中的不断试错,随时修改与优化原有的风控模型。
眼下,将大数据与P2P结合,应用于风控,国内还没有成熟的案例。不过,相关的尝试从未停止。
数据里的秘密
眼下,P2P网贷中最核心的障碍仍是征信系统的不健全,这直接制约了P2P网贷的信用评估、贷款定价和风险管理。在尚未介入央行征信系统的情况下,许多P2P平台不得不开展线下的尽职调查。
信而富的客户主要集中在三四线城市、边远地区及农村,很多地方甚至连网络都不具备,因此,公司采取了100%亲核亲访,来复核数据与控制风险。
王征宇介绍称,信而富上已经成功借到款的用户大概有几十万人,出借人大约有10万人。在征信数据采集的过程中,公司对每个借款个体采集的数据项都超过1500个。通过这些数据,信而富试图回答三个问题:借款人的还款意愿、还款能力以及稳定性。
具体说来,公司的自动化授信决策引擎,所依据的主要是三个纬度:首先,借款人在给定的一段时间内,还款的可能性是多少。第二,这个申请从根本上来说,有多大可能性是假的。换言之,也许申请人提交的数据很漂亮,但却运用了别人的名义或采用了假的数据。第三,这笔借款预测风险调整后的收益是多少。通俗来讲,就是借款人借到钱后,可以为出借人贡献多少收入。
在数据分析时,信而富会从大量的“细枝末节”中寻找线索。比如,在1500个数据项中,公司会关注申请人的邮政编码最近12个月是否变更?关联的信用卡张数是否变化,最近3个月、6个月的信用卡消费总额、交易类别与交易次数是否出现异常等。将这些数字进行各种各样的多纬度汇总后,信而富可以完整地展现申请人在各个时间点的行为特征,并由此为贷款申请自动打分。在此基础上,公司会根据不同的借款类型、不同的地区、贷款的用途等,组成一个网状的决策机制,最后采取相应的授信策略。
在通过大数据进行信用分析与风控方面,美国P2P平台的做法同样值得行业借鉴。创立于2010年并连续获得投资的美国公司ZestCash,正是把那些被忽略的数据激活了。
比如,在浏览ZestCash网站时,用户在网站的所有操作就像表情一样传递到它的后台。停留时间、填表时间、填写过程,反映出的心理活动可能是踌躇,也可能是对文字的识别能力、受教育程度等。这些都被ZestCash记录在案,并成为信用评分的变量。此外,用户是否拥有一些健身俱乐部、读书会的卡,也将作为参考。
按ZestCash的说法,其决策模式是在进行大量个体数据运算的同时,做出贷款决策。这个模式将从原始数据中收集数千种变量,接下来,建模计算找出这些数据之间的关系,将其中有效的变量转化成最有用的数据。这其中,模型的建立至关重要,“如果你的数学模型错了,数据便没有任何意义,或根本就是误导”。ZestCash的创始人Douglas Merrill表示。 |