新闻资讯

大数据征信来了

发稿时间:2019-07-10

  虽然高信用评分可以为个人带来各种生活便利,但是征信说到底是为了放贷机构贷款服务。

  “我不知道你们说的‘征信’是指什么。”2015年7月11日,在“互联网金融与征信市场发展”的专题讨论会上,坐在主持人右手边的第一位嘉宾、央行征信中心副主任王晓蕾直接讲出了她的困惑。在王晓蕾的眼中,目前征信领域的种种创新,和她脑海中的“征信”概念并不相符。

  技术的加速发展,使得征信从原本放贷机构之间信息报送和共享的范畴中跳了出来,一跃而至五彩斑斓的生活场景。在当今中国市场,即将发放的个人征信牌照,加速了这个趋势的到来。互联网公司背景的征信机构更是将大数据征信作为抓手,希望利用电商、社交、金融交易等广泛的数据来源,开启“大数据征信”的崭新时代。

  但在传统征信人看来,大数据只是工具,生活领域的行为数据对于征信的作用尚待验证。

  尽管存在对“征信”含义的不同理解,但是各界对于中国个人征信领域的广阔前景抱有高度的共识。在这个新的领域面前,各家民营征信机构可谓“八仙过海、各显神通”。摆在业者面前的,不仅是一个万亿元规模的蓝海市场,还有中国建设诚信社会的美好蓝图。而中国的征信行业,即将迎来创新大爆炸的时代。

  2015年,中国征信元年已经大幕开启。

  “八仙过海”

  在王晓蕾参加的那个讨论会上,芝麻信用管理有限公司(下称“芝麻信用”)总经理胡滔也在其中。对于胡滔来说,2015年是其职业生涯的转折点。年初,她离开了供职多年的招商银行,加入了蚂蚁金服旗下的芝麻信用。巧合的是,在其入职的第二天,1月5日,央行下发了《关于做好个人征信业务准备工作的通知》,要求芝麻信用等八家征信机构做好个人征信业务的准备工作,期限为六个月。

  腾讯征信有限公司(“腾讯征信”)、深圳前海征信中心股份有限公司(“前海征信”)、鹏元征信有限公司(“鹏元征 信”)、中诚信征信有限公司(“中诚信征信”)、中智诚征信有限公司(“中智城征信”)、拉卡拉信用管理有限公司(“考拉征信”)、北京华道征信有限公司(“华道征信”)等其他七家民营征信机构也在首批发牌的范围内。目前,六个月的准备期已过。

  《财经》记者获悉,在这六个月的时间里,央行完成了对八家机构的调研验收。在调研过程中,央行对每家机构都提出了意见,各家机构也在技术体系、法律体系、商业模式、业务规划方面做了准备。但是截至目前,个人征信业务的牌照尚未下发。

  在这八家中,芝麻信用、腾讯征信、考拉征信、前海征信定位于“互联网+大数据”的征信公司;中诚信征信和鹏元征信的大股东是以企业信用评级业务起家,这两家主要面向机构提供服务:中智诚征信和华道征信则以反欺诈业务见长。目前,八家征信机构之间的差别主要在于业务侧重和数据来源。

  其中,最受市场关注的无疑是芝麻信用和腾讯征信两家。1月28日,芝麻信用首先开始公测,其推出了中国公民个人首个信用评分“芝麻分”。《财经》记者从芝麻信用处了解到,目前开通芝麻分的用户达到了4000万。除了快速积累用户,在公测这段时间,芝麻信用还接入了租车、酒店、签证等场景,这使得芝麻分应用场景更为广泛。与此同时,芝麻信用还对征信的数据模型进行了检验。

  “芝麻分”只是芝麻信用整体业务的冰山一角。未来,芝麻信用希望通过输出其技术能力,一方面为合作机构提供征信服务;另一方面,可以借助阿里在大数据和云计算方面的优势,与更多的合作伙伴在数据共创的基础上,挖掘数据中所包含的信息,并针对每一个行业提供具体的解决方案。

  与芝麻信用采取评分的方式不同(注:芝麻信用分最低350分、最高950分、分数越高代表信用程度越好),腾讯征信将采用星级标注的方法来评价个人信用,最高为7颗星,5颗星以上就算优秀。

  基于腾讯多年在社交领域上的积累,腾讯征信未来的业务将集中于金融反欺诈和个人信用评价两个领域,而社交数据是其有别于其他征信机构重要的数据来源。

  腾讯征信总经理吴丹表示,腾讯征信主要的服务对象是个人和金融机构,通过征信,个人用户未来在租车、婚恋、网购、酒店里都享受更快捷的服务。另一方面,有信用评级的客户可以更方便地得到贷款。

  虽然高信用评分可以为个人带来各种生活便利,但是征信说到底是为了放贷机构贷款服务。因此,征信机构的主要客户仍是商业银行、互联网金融企业、P2P网贷平台、消费金融机构等事实上从事放贷的机构。

  很多公司也对第二批个人征信牌照跃跃欲试。比如,国内知名的电商京东就于近日宣布入股美国新兴的大数据征信公司ZestFinance,以期在大数据征信领域进行技术和人才储备。

  根据媒体报道,除了京东金融以外,百度金融、小米、快钱、宜信等企业也有意竞逐第二批征信牌照。此外,北京安融征信、拍拍贷等机构也表现出了对牌照浓厚的兴趣。有消息称,目前已经有30多家企业有意申请第二批征信牌照。

  大数据征信之辨

  “征信”的英文对应单词是CreditReporting或者CreditSharing,可以理解为信用报告或者信用分享,这种报告和分享的需求最早来自于放贷机构,它们在放贷之前需要了解借款人的信用状况,而征信中心就是这样一个信息交流和共享的平台。从1992年到2006年,在央行的主导下,中国逐渐建立起来全国统一的企业和个人征信系统。它基本覆盖所有征信机构、覆盖了每一个有信用活动的企业和个人。目前,这个征信系统已经成为我国重要的金融基础设施。

  2013年,国务院发布了《征信业管理条例》,《条例》的公布为中国征信业的发展奠定了法治的基础。《条例》对从事个人征信业务的征信机构和企业征信业务的机构规定了不同的设立条件,前者采用审批制,后者采用备案制。

央行个人征信中心在数据的覆盖面上也有不足之处。目前个人征信中心的数据,主要是放贷数据,对于那些没有贷款记录的人,征信中心并没有数据,从这个角度上说,很多互联网征信机构都将自己定位为央行征信中心的有益补充。

  新技术给了新兴民营征信机构新的发展契机。目前,大数据和云计算已经被广泛地应用在了包括征信在内的各个金融领域,这有望给征信业带来新的变化。从更大的背景来看,一个以数据驱动经济的DT时代正在悄然到来。

  芝麻信用总经理胡滔对此深有感触。原本在银行工作的她,深知银行支持小微的痛处。由于没有可用的数据和技术,银行目前尚不具备服务小微的能力,首次放贷只能采取线下尽职调查的方法,但是这种方法成本太高,不具有商业可持续性。即便如此,也没有办法确定客户还款的概率。事实上,解决这个问题的初心,就是促使其来芝麻信用的原因。

  也有业内观点指出,互联网征信机构都在片面强调自己手头上有的数据,这难免有王婆卖瓜之嫌。在他们看来,目前很多数据模型中“只有X、没有Y”。换句话说,就是只分析行为,却忽视了数据分析的效果。

在7月9日于北京举行的“2015银行业发展论坛”上,中智诚征信CEO李萱就表示,没有任何一个机构,包括国内的和国外的能用纯互联网的数据,做出来个人征信的评分。

  一个核心的问题随之而来,生活场景的行为数据多大程度上可以为征信所用?换句话说,一个人在生活场景中的行为与他在金融场景的还款行为是否具有一致性?生活场景数据是否能判断一个人的还款能力和还款意愿?

  芝麻信用首席数据科学家俞吴杰说,在公测之前,芝麻信用对于这个问题也没有底,但半年的实践表明,生活场景数据和金融场景数据有非常强的一致性。比如在租车领域有不良表现的用户,在金融领域上也通常会有逾期。在他看来,虽然征信机构做的是对用户在经济信用上的风险识别,但最终的本质还是刻画人性。

甚至社交数据的有效性也可能会超出预期。

  “社交数据有没有用对我们已经不是问题了。”腾讯征信总经理吴丹说,腾讯征信开发的模型能够证明社交判断信用的能力强过传统支付行为。

  “举个例子,如果我们借五千、一万块钱,现在这套风险评估的方法非常有用,如果我们只借两百、三百、五百块钱,没有太多人会觉得我会真正还不起这些钱,但这个时候仍然会发现有很多没有及时还款的。”吴丹表示,如果加入社交方面的考虑,对模型效果会有20%以上的提升。

  先行一步的芝麻信用在总结公测数据后发现,用户的芝麻分越高,其贷款的违约率也就越低,二者呈现单调、线性的关系,这初步证明了芝麻分在信用评分上的有效性。

  技术决胜

  这仅仅只是一个开始。面对海量的数据,技术能力是各家机构决胜的关键。各家在人才、技术和资本上的比拼已经展开。

芝麻信用130多人的团队中,数据和技术团队占比超过三分之二。目前,其团队主要由数据科学家、国外征信公司华人精英和本土培养的数据技术和风险管理人才等三部分构成。

  在胡滔看来,芝麻信用最为核心能力在于三点,一是具有充分的数据源;二是在数据源完善的情况下的建模能力,即在海量的数据中利用算法找到核心变量、揭示规律的本领。前两点可以归纳为大数据的能力;三是云计算的能力。因为云计算一方面提供了更为强大、灵活、可拓展的计算能力。另一方面,又使得芝麻信用能够在云端更便利地与合作机构交互。

  未来,各家征信机构的数据来源都将更加丰富。特别是一些线下采集的、来自政府等机构的数据将陆续接入。以芝麻信用为例,目前,其除了有阿里系数据、个人身份特征数据、合作伙伴数据之外,还在支付宝9.0版本中,新增了用户上传信用资料的功能。根据芝麻信用的说法,目前选择向芝麻信用上传身份证、财产证明等的用户已经超过了200万。

而由拉卡拉发起设立的考拉征信则希望通过采用引入股东的方式,获取股东所留存的数据,并成为征信领域中类似“银联”这样的机构。有平安背景的前海征信在数据来源上,则有来自平安系内部、合作伙伴、用户上传和外部网络公开获取的数据。

  数据之上还要有算法。面对如此庞大的数据,如果没有算法,数据就可能是废料。对于征信机构来说,传统和主流的算法是逻辑回归,而前沿的方法则包括决策树、随机森林、神经网络等。运行算法要有强大的数据处理和计算能力作为保证。很多的数据交叉比对,就是靠机器和数据跑出来的。比如,要考察一个有家庭责任感、又同时经常爱心捐助人的信用水平,就要靠这两个因子进行组合验证运算,而更多的情况下,变量不止两两组合,这就要求更复杂的运算。

  但征信的过程还不止于此。对于众多的大数据征信机构来说去,在此基础上,其还要经历一个与各个合作伙伴一起的数据共创,只有这样,才能更好地运用数据,并从数据中获得知识、寻找行业规律。

  有业界人士将大数据的来源比喻成矿石,挖掘数据就像从矿石中提炼金属元素(比如金或者铜),在这个过程中需要云计算所提供的大数据分析能力,但在这个过程结束之后,得到的东西仍然还不是最终产品。如果想要数据指导实践的话,还需要靠各个公司的业务模型将其落地,就好比将矿山中提炼出的金属最终变成合金,最后的一步还是要看各个机构的看家本领。

  广发银行信用卡中心决策管理总经理龙雨表示,银行内部都会有一套比较严谨的评级机制,外部的征信可能变成银行内部评分的变量或者决策的节点,银行不会单纯因为一个人外部评分高就作出信贷决策,但外部的评级会增加银行考察客户的维度,为信贷决策提供重要的参考。

  如何保护隐私

  大数据对人们的画像越来越精确,隐私保护的问题也愈发迫切。

  央行征信中心副主任王晓蕾在2015年上海新金融峰会上表示,从整个中国来讲,一方面,从信息来源、数据加工处理方式还是对外服务范围来讲,征信突破了最传统、最狭义的征信范畴。另一方面,个人数据保护的问题也非常迫切。

  在可见的未来,数据将是每一个个人和机构最有价值的资产。然而,对于这个资产的归属和定性却仍然存在着模糊的地方。甚至包括在多大程度上能够使用这个数据,仍然存在着模糊地带。

  近期阿里云发布的《数据保护倡议书》提供了一个看待问题的视角,《倡议书》写道,任何运行在云计算平台上的开发者、公司、政府、社会机构的数据,所有权绝对属于客户,客户可以自由安全地使用、分享、交换、转移、删除这些数据。也就是说,数据的最终所有权是属于用户的。

  央行征信中心副主任王晓蕾建议,应当把个人和其所产生的数据分割开来。当个人所产生的数据不和他本人“挂钩”的时候,这个数据就成为了整个社会的资源和财富。但是,如果要把个人产生的数据跟本人“挂钩”的时候,则一定要尊重他本人的意愿,这就是所谓“同意原则”。

  《征信业管理条例》规定,除依法公开的个人信息外,采集个人信息应当经信息主体本人同意,未经同意不得采集;向征信机构提供个人不良信息的,应当事先告知信息主体本人;征信机构对个人不良信息的保存期限不得超过五年,超过的应予删除;除法律另有规定外,他人向征信机构查询个人信息的,应当取得信息主体本人的书面同意并约定用途,征信机构不得违反规定提供个人信息。

  《征信业管理条例》还对数据的采集进行了限制,比如不允许采集宗教信仰、基因、指纹、血型、疾病和病史等信息采集。而对于大数据在征信领域的使用,美国的监管者也正在讨论,让所谓的数据控制者,符合个人信息保护、个人权利保护等的监管要求。

  腾讯征信宣布不会使用用户任何内容方面的信息,包括聊天记录、发送的图片等,其原则是不使用用户任何敏感、涉及隐私方面的信息。

  中国银行资深研究员王永利撰文指出,巨量的信息中也有“废料”,无论个人还是机构信息,涉及的地域、领域越广,“废料”也就可能越多。倘若每家民间征信机构各自为营地处理信息,很可能出现最终产品不符合经济、社会总体发展的情况。因而,成立并完备国家级征信信息中心这一机构的重要性,再次凸显。

  王永利建议国家从统筹整个社会信息的角度出发,尽快建立起统一的公民身份信息采集标准,避免各机构数据在后期加工时遭遇技术瓶颈。并且,应该在此前提下构建出公民身份的认证和信用体系。

  芝麻信用总经理胡滔则希望监管能在保护用户隐私和提高数据使用效率上做出调合。一方面要避免大数据的泛滥所导致的对个人隐私的破坏,另一方面也不能过度强调保护隐私而让数据成为“孤岛”。

  责任编辑:高丽萍

来源:中宏网