P2P行业人才管控难,大数据能成为欣赏是一剂良药药吗

股票/基金&
P2P行业大数据征信前瞻
作者:阳光宝利市场研究部
&&& 大数据征信可以极大的丰富目前P2P行业的征信系统,虽然无法起到替代作用,但是可以从更多维度进行判断。但是排除政策等系统性障碍,大数据征信目前还面临着几个严峻的问题,导致不能完全发挥效用。
  9月23日,由上海市经信委、上海市金融办指导,上海市信息服务行业协会牵头编纂的《2014上海网络信贷服务业白皮书》发布。白皮书显示,目前征信中心针对拥有信用记录公民收集的信息共包含两类。一类是个人基本信息,另一类是消费及还款记录。但P2P网贷行业判断借款人信用评价的数据包含手机清单、个人收入证明、社保信息、家属身份信息、驾照信息等多达34个信息类别。这一现象充分显示了央行征信系统的局限性,因此,一直备受关注的P2P行业大数据征信再次引发关注。借这个机会,阳光宝利市场研究部希望对P2P行业大数据征信进行一次前瞻分析,简单解读这一趋势的特点与动态。
  在讨论大数据征信问题之前,首先要明确所谓大数据的概念。很多人以为,数据规模大就是大数据,这种观点是错误的。所谓大数据,不但数据规模大,而且最重要的是要数据结构复杂。正如前文提到的央行征信系统,其中包含了8亿居民的信用卡信息,规模巨大,然而由于只包含这一类信息,数据结构极其简单,因此并不能称之为大数据,充其量只能称其大型数据库。数据结构复杂要求针对数据库中每一个实体都有非常多属性的数据,以个人来说,不但要有各种社会学背景、财务数据等等,还应包括上网习惯、操作行为、移动路径等等一系列的数据,达到这种复杂程度的数据结构才能被称为大数据,才是P2P征信需要的大数据。
  目前,有这种复杂数据积累并且已经具备大数据分析基础的公司只有两家――百度和阿里巴巴。几乎所有中国网民都会使用百度或阿里巴巴的产品,因此这两家公司有足够的数据储备。同时,这两家公司都在至少五年以前就开始投入大量资源探索大数据业务。百度公司已经有一系列探索性质的大数据分析结果公布出来,根据这些分析结果判断,百度在大数据分析技术上已经趋于成熟。其研究成果最具代表性的就是百度经济指数预测。百度通过大数据对未来三个月进行经济指数预测,其预测结果与三个月后国家公布的统计结果重合度极高:
图一:百度经济指数预测
  阿里虽然始终没有公布其大数据的研究成果,但是阿里巴巴已经开放大数据平台,同时保持每年暑假都举办大数据竞赛,吸引了大量优秀人才参与大数据分析工作中,又将这些人才的个人电脑纳入了大数据云端处理系统,增强了数据处理能力。在阿里巴巴成功IPO后,更是将大数据列为其募集资金的三大投资领域之一,因此即便其还没有成型的大数据研究成果出炉,但是可以预见阿里巴巴在这一领域应该很快就会有所建树。
  从目前阿里巴巴和百度拥有的数据资源判断,笔者认为未来P2P大数据征信的数据框架大概如下:
  社会学背景:最基础的分析维度,通过用户注册信息获得;
  现金流:判断经济状况的基础维度,通过宝宝类产品、第三方支付等数据获得;
  操作习惯:不同职业的用户操作习惯有非常显著的差异,可以用来佐证用户职业类型,通过用户操作习惯记录系统获得;
  信息偏好:不同阶层用户信息偏好同样有显著差异,通过用户搜索习惯获得;
  消费习惯:消费习惯代表消费能力,通过用户消费记录获得;
  人际网:根据社会分层理论,社会人总是在和自己同一层次的人互动,通过APP读取联系人信息获得;
  迁徙特征:可判断是否为本地人、目的地偏好等,通过APP发送定位信息获得;
  消费场所信息:消费场所档次特征可以代表消费能力,通过APP发送定位信息获得。
  可见,大数据征信可以极大的丰富目前P2P行业的征信系统,虽然无法起到替代作用,但是可以从更多维度进行判断。但是排除政策等系统性障碍,大数据征信目前还面临着几个严峻的问题,导致不能完全发挥效用。
  第一,非结构化数据处理。在年初的百度大数据论坛上,百度公司的数据科学家就曾提到,目前百度大数据面临的最大问题就是无法从海量非结构化数据中筛选出有价值的数据,百度公司每天净增数据量大约为1PB,其中至少99%是无效数据,如何从中筛选出有效数据目前还是一个无法攻克的难关。
  第二,自然语义分析。大数据征信中有大量需要应用到自然语义分析的工作,如信息偏好等,都需要将文字转化为可以量化的数据,然而由于汉语不是进制语言,计算机无法直接识别,所以只能依靠自然语义分析,但汉语词语组合极其复杂,自然语义分析最基础的工作分词依然无法通过计算机完成,目前所有自然语义分析都是基于词库分词,效率极其低下,完全无法适应用户互联网使用习惯的快速变化。
  第三,大数据分析与市场研究的鸿沟。这一点是目前大数据征信面临最大但也最容易被人忽略的问题。当大数据还只停留在数据层面上时,对于P2P征信是没有意义的,必须有人将数据转化为结论,有何种上网行为的人按时还款的可能性更高,有哪些信息偏好的人更容易违约等等,这些问题无法直接反映在大数据的分析结果上,此时就需要有善于解读和分析客户行为的市场研究方通过市场研究手段进行数据解读与建模,然后才能被P2P公司应用。因此,大数据能够完全应用到P2P征信领域的前提是大数据部门与市场研究部门的对接融合,将数据转化为结论。但目前这两个部门之间存在非常严重的鸿沟,试想,一群连马斯洛都没听说的数据分析工程师与一群连oracle都不会读的市场研究人员之间在沟通时如何相互理解?因此目前中国整体大数据领域面临的最大问题就是数据分析工程师已经写出了大量的算法代码,但不知应该怎么用,而市场研究人员也做了大量假设和建模,但不知道怎么实现,双方在沟通的时候都在自说自话,沟通之后都发现自己什么都没听懂。这也就导致了大数据还只停留在一些有成型模型的宏观层面应用,无法深入到像P2P征信这种细化到个人行为判断的深度。
  因此,阳光宝利市场研究部认为,可以预期,在将来个人征信牌照发放之后,P2P大数据征信应该首先通过社会学背景和现金流这两个简单维度进行探索,同时等待自然语义研究的发展以及数据分析与市场研究单位打破双方之间的技术壁垒顺利对接,才能开始真正意义上的大数据征信时代。
(责任编辑:HF009)
10/08 10:3509/23 16:04
互联网金融精品推荐
每日要闻推荐
社区精华推荐
精彩专题图鉴
  【独家稿件声明】凡注明“和讯”来源之作品(文字、图片、图表),未经和讯网授权,任何媒体和个人不得全部或者部分转载。如需转载,请与010-联系;经许可后转载务必请注明出处,并添加源链接,违者本网将依法追究责任。来自雪球&#xe6关注 大数据行业记录 集锦,版权归原作者。大数据思想形成与价值维度=====广发证券:从数据的生命周期看大数据行业发展=====一、大数据概念&  1、大数据的特征&  “大数据”这个词,已经融入到人们生活的方方面面。我们认为,在了解、挖掘整个大数据行业的投资价值之初,首先必须明确的是大数据行业的产业链构成。  在传统的数据处理周期里,处理数据只有两个环节:从“数据源”到“应用”,而各个环节使用的技术也较为简单。传统的数据源需要经过处理存到一个结构化(以SQL最为流行)数据库进行管理,然后再使用诸如数理统计、结果可视化等技术完成对数据的应用。&  与传统的数据处理周期不同,大数据处理需要在传统的“数据源-&应用”这一流程上增加“数据管理”这一步骤,以应对大数据带来的诸多新挑战。  目前对于大数据较为统一的概念描述是:大数据是一个数据集合。而由于数据量增长极快,这个数据集合已经使得常规数据工具无法再一定的时间内进行采集、处理、存储和计算。&  ?大数据的特点体现在四个维度(4V):&  数据量大(Volume):计量单位可达到是PB(1000TB),乃至ZB(10亿个TB)。&  类型繁多(Variety):包括结构化、半结构化、非结构化数据。&  价值密度低(Value):有价值信息被淹没在海量信息之中&  速度快、时效高(Velocity):处理速度也跟上数据增长速度,时效性要求高。&  ?相比传统数据处理,大数据面临的最重要的变化是处理对象由结构化数据拓展到了半结构化和非结构化数据,也就是4V中的Variety。这三种类型的区别是:&  结构化数据:一般存储在传统数据库中,具有一定逻辑结构和物理结构的数据,最为常见的是存储在关系数据库中的数据。&  半结构化数据:指具有一定的逻辑结构和物理结构,但又因不同数据元之间的结构变化非常大以至于无法用统一的表来存储的数据。一个半结构化数据的例子是Web上的一些数据(内嵌于HTML或XML标记中)。&  非结构化数据: &指无法直接知道其内容,数据库也只能保存一个对应的标签字段的数据。典型的非结构化数据有交互数据(社交网络中的数据)、图像、音频、视频等。&  ?与传统数据处理相比,大数据处理面对很多的新问题,例如:&  &存储和运算大数据对硬件的要求比现有常见方案高很多。&  面对复杂的数据源,需要特殊的存储软件来管理数据库的存储结构,以及查询,排序等基本操作。&  由于有意义的信息隐藏在大量数据之间,所以需要高效的算法在尽可能少的时间内得到理想的结果。&  2、大数据技术&  大量的新技术被开发出来并应用在大数据处理生命周期的三个环节:数据源,数据管理,以及应用。图2列出了一些关键技术在数据生命周期的位臵。  1) 大数据源:数据库技术&  在解决大数据问题时,首先需要解决的问题是针对不同数据的分类选择不同方法进行数据的整理与存储。当前,来自各领域的数据呈现爆发式增长,包括网页与社交媒体、机器数据、内部数据、交易数据、生物数据、来自数据提供商的数据等。我们在上文中也提到,大数据与传统数据最重要的区别即是数据类别由原来的结构化数据,加入了半结构/非结构化的数据。为解决半结构化/非结构化数据的爆发,NoSQL数据库应运而生。表格1列出了NoSQL数据库与传统数据库的区别:&  2) 大数据管理技术:分布式架构&  与传统数据“数据简单、算法复杂”的计算不同,大数据计算是数据密集型计算,对计算单元和存储段元间的数据吞吐率要求极高,对性价比和扩展性要求也非常高。因此传统以来大型机和小型机的并行计算不能满足大数据时代数据量、规模、类型的变化。由此,分布式计算被大规模应用到了大数据领域。分布式计算系统是一组自治的计算机集合,通过通信网络相互连接,实现资源共享和协同工作,从而呈现给用户的是单个完整的计算机系统。&  2004年,Google公布了MapReduce分布式并行编程架构;而后,Yahoo提出S4系统、Twitter提出Storm系统,以实施”边到达边计算“的实时流计算框架;Google随后提出了将MapReduce内存化以提高实时性的Spark。图3将不同的分布计算框架流派按照计算场景分类。&  批计算与流计算分别适用于不同的应用场景,具体而言,批计算中数据首先被存储,随后被分析,更适用于实时性要求较低,而准确性、全面性要求更高的场景;而流计算,无需进行存储,在数据到达的同时,直接进行数据的实施计算,适用场景与批计算刚好相反。  ?Hadoop MapReduce:&  Hadoop是Apache基金会下的一个开源分布式计算平台,能够帮助更容易开发和并行处理大规模数据的分布式计算平台。主要特点是扩展能力强、成本低、高效率、可靠。该平台以Hadoop分布式文件系统HDFS和MapReduce分布式计算框架为核心。为用户提供底层细节透明的分布式基础设施。&  MapReduce的操作可以简单概括为:任务分为两个步骤:map(映射)与reduce(归集)。Map负责数据的载入、解析、转换和过滤。Reduce任务负责处理map任务输出结果的一个子集,进行分组和聚合操作。从简餐的数值聚合到复杂的关联操作以及笛卡尔积操作。(资料来源:Donald Miner&Adam Sbook著《MapReduce设计模式》)&  Yarn:又称为下一代MapReduce(MapReduce2.0)。&  ?Spark:是Hadoop MapReduce的一个替代方案,可以在Hadoop文件系统中并行运行。Spark克服了MapReduce在迭代计算和交互式计算方面的不足,同时能够充分利用内存资源提高计算效率。(资料来源:董西成著《Hadoop技术内幕》)。&  由于Spark相较MapReduce框架具有更高的效率,不少Hadoop发行商已经加大在Spark领域的研发工作。三大Hadoop发行商(Hortonworks、Cloudera及MapR)均已支持Spark在自身Hadoop平台上运行。&  另两大计算框架Storm和S4的应用场景则较为有限。&  3) 大数据应用:分析与解释&  大数据的本质,不在于研究如何处理数据,而是更好的发现海量数据中隐藏的价值,例如消费习惯的预测(零售、广告领域);欺诈行为发现(公安、金融领域);疾病的诊断(医疗健康领域)等。&  在数据处理与应用之间,必要的过程即是数据分析与解释。分析与解释是用于帮助解释过去和预测未来的一系列方法。数据分析与解释横跨了计算机科学、统计学和数学、专业领域知识等多个领域。近年来,传统的数学和统计学数据分析越来越难以满足大数据时代的需求,机器学习和人工智能渐渐流行。&  按照通常的定义,机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍为严格的提法是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。当把机器学习算法应用在大量数据集时,机器就可能“学习”到一些有价值的新的关系,这些关系原本隐藏在浩瀚的数据海洋之中,依赖人脑根本无法发现。&  人工智能则是高于机器学习的一个范畴。现代公认的人工智能主要研究课题有:1、推理。2、知识表示。3、自动规划。4、机器学习。5、自然语言处理。6、计算机视觉。7、机器人学。8、通用智能或强人工智能。在这八项研究课题里,自然语言处理,计算视觉都是用来处理人类交互环境中信息,可以用来处理大数据库中非结构化的图片/视频/语音数据。而推理/知识表示/机器学习则是用来发掘大量数据中隐藏关系的利器。人工智能领域的研究自然而然的被认为是解决大数据分析这一难题的答案。&  4) 大数据的理想载体:云计算&  由于企业在应用大数据分析时会面对诸多新的复杂的困难与挑战,云计算服务成为大数据分析的一个理想的载体。表格3列出了云计算服务的各项优势,并对应了其能化解的大数据分析带来的新挑战:&=====国内大数据产业链=====大数据风控成P2P行业生死劫?
根据最新的统计数据,整个网贷行业的累计交易额已突破万亿规模,比之前行业机构所预测的年底突破万亿还提前了几个月时间。可见整个行业的发展已经远远超出了大家的预期。长期以来,风控就是P2P行业悬而未解的难题,而今随着行业规模的整体爆发,如何破解风控难题更显得尤为紧要。在传统风控跟不上行业发展的今天,大数据风控能否成为P2P行业的救命稻草?
流量时代已经终结,优质资产瓶颈的突破能否依赖大数据风控?
在P2P行业发展早期,P2P平台往往只需要依赖现有资源就能支撑起平台资产端的需求,但是随着平台规模的发展,投资者数量逐渐累积,对资产端的需求也越发旺盛。换句话说,当一个平台的交易规模发展到特定阶段的时候,就难免遭遇资产端的发展瓶颈,亦即如何保证优质资产的供应以满足现阶段的理财需求?对于P2P平台而言,通常情况下,优质资产的供应速度明显落后于新增投资者的导入速度。现阶段的P2P平台,在资产端的开发上不外乎两种形式,一是依赖平台自建的线下团队;二是引入小贷公司等传统的金融机构,由合作方提供资产。但不论是哪种形式,出于对资产质量、风险的管控,都要求平台需要配备具备一定水平的风控团队。可见P2P平台往往需要投入巨大的人力和时间来寻找优质资产,由此便导致资产供应的步伐缓慢,难以跟上现有的理财需求。一边是求“资产”若渴的投资者,另一边是大浪淘沙般的资产开发现状,为了防止投资人流失,就要保证资产供应的数量,但抓了数量,就有可能忽略质量。因此在这个阶段,多数平台的逾期、坏账率也会同步上升;或者为了确保资产的质量,无法按需提供资产,将导致平台无法快速扩张,甚至出现原地踏步的现象。
那么,优质资产的开发之所以难,外因是市场的信贷资产现状的窘迫,内因则主要来源于P2P平台的风控水平羸弱、风控成本过高,从而增加了资产开发的难度和成本。目前绝大多数网贷平台都是以中小额放贷业务为主,所沿用的也是传统信贷业务中风控手段,因此导致人力和时间成本投入过高,不具备互联网时代的高效性。相比之下,大数据风控通过核心数据建模,来对借款用户进行资信评估,以此来预测其违约概率,能够大大节省传统风控环节中的人力成本。那么,大数据风控在P2P行业的应用现状如何?是否能够帮助平台突破资产业务瓶颈?根据我目前了解到的情况,不少网贷平台都已经开始引入大数据风控。以芝麻信用为例,目前芝麻信用已经对接了国内多家P2P平台,为其提供大数据支持,但是平台仅靠芝麻信用这一家征信机构的数据来进行预判显然是不够的。另外,由于国内征信体系的不健全,因此不同征信机构所提供的核心征信数据也有所偏差。比如,央行的征信报告,更多的是针对你在传统金融机构的信用历史,芝麻信用的数据库则来自于你在互联网上的消费数据,腾讯则更侧重于社交数据的搜集。整体而言,单一的数据很难提升征信数据的可靠性,未必能够提升整体风控水平。但是,如果同时接入多家机构的征信数据,不仅有望提供整体风控水平,还将进一步简化当前烦冗的风控流程,增强风控便利性,进而带领P2P行业突破资产发展的瓶颈。
行业即将整体爆发,大数据风控成必然
从2013年开始,就不断地有言论称整个网贷行业已经开始爆发,但是就目前来看,个人认为整个行业还只是处于爆发的初期阶段,离整体爆发仍然还有很长一段路需要走。如上文提到的,整个网贷行业的累计成交额刚刚突破万亿,理财用户的规模也还远远没有呈现出爆发的趋势。用户市场增速缓慢,主要是网贷行业负面消息从未中断,导致用户市场的投资理财需求一直被压抑,长期得不到释放。但是,随着政策监管的落地,整个行业必然会呈现出整体爆发的明显趋势,相信在未来五年内,整个网贷行业的用户市场规模能够破亿。那么一旦P2P行业成为大众参与的理财市场之后,在巨大的理财需求面前,资产端后劲不足的形势将更加严峻。
当前,国内已有不少P2P平台出现资产供应问题,或者面临逾期、坏账难以控制的问题。更有不少一线平台呈现转型趋势,由早期的流量竞争转变为资产竞争,部分网点平台甚至还开始走出国门、寻求海外优质资产。可见,国内的网贷企业对于优质资产的需求。而风控长期作为优质资产供应中最重要的环节之一,未来大数据风控一旦得以全面运用,将对P2P行业优质资产的批量供应起到决定性的作用。
大数据风控仍在发展初期,后续仍需完善
由于国内的整个征信体系尚未完善,因此颇具创新性的大数据风控还处于发展初期。以芝麻信用和腾讯的征信体系来说,芝麻信用拿到的多是消费数据,腾讯拿到的是社交数据,反映到违约概率的预判上,芝麻信用的数据更偏向于评估借款人的还款能力解决的是还款能力,而腾讯的征信则侧重的是还款意愿的预判。由此看来,现阶段每家机构所提供的征信数据都是相对比较单一的,甚至很长一段时间内都不会出现一家能够提供全面征信数据的服务商。那么,这就使得网贷平台在接入大数据风控时,不得不同时对接多家征信机构,因此一定程度上也会增加平台的大数据风控成本;另外,在拿到大数据之后,平台要怎么用?就需要平台建立一套基于大数据的风控模型来进行数据汇总,以便日后分析。所以,网贷企业所希冀的通过大数据来为风控提供解决方案,其前提是未来能够出现一套成熟、完善的风控系统。
鉴于当前互联网领域内,大数据的热度急速上升,未来大数据风控或有机会成为下一个蓝海市场。
神州融大数据风控平台是与Experian联合开发的微金融信贷管理云服务平台,以“信贷工厂”理念为设计原则,坚持大数据驱动的风控管理实践与信贷业务决策,并安全运营在阿里金融云上,涵盖信贷全流程管理:包括审批、账务、催收等多个子系统,可根据业务流程差异灵活配置或模块化独立运行。
适用业务范围:平台涵盖消费金融、车贷、房贷、网商贷、POS贷等不同业务类型,并设定了最佳实践的风控流程、评分模型及业务风控策略体系,可实现针对个人及小微企业的纯信用、抵质押类信贷业务审批管理,适合从几千元的小额消费贷款到数万元的个人信用贷款,以及数十万元的小微企业经营性贷款业务。
原文作者:刘洪 来源:零壹财经
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
整合了国内权威的第三方征信数据资源和电商平台信贷应用场景,为P2
整合了国内权威的第三方征信数据资源和电商平台信贷应用场景,为P2
今日搜狐热点P2P平台为什么要做大数据?
很多人都声称,当前进入到大数据时代,大数据是什么,为什么行业也在寻求与大数据合作,它究竟是能力还是技术,或者只是简单的一种数据资源总称,大数据早起深入到军事、金融、通讯等众多行业中,但却因为近几年应用于互联网和信息行业中,而备受人们关注。
如果说现在我们还处在互联网时代,就有点狭隘了,网贷行业的发展,已经不是单纯的只需要从线上获取信息那么简单了,网贷平台竞争日趋白热化,如何运用更先进的技术立足于行业,成为平台能否生存下去的关键,平台为什么争抢希望能利用大数据来发展,因为大数据影响着我们每一个人,这种影响是可持续的,大数据影响着方方面面,我们不妨看看大数据对于互联网金融的影响。
在国外,大数据在金融行业中应用广泛,国外的众多金融企业会根据客户点击量,客户搜索的关键词做好数据分析,针对性的为客户提供特色服务,这样有针对性的服务,不仅更好的解决了客户关心的问题,而且还能够知道自身哪方面做的不足而做好补充,而国内,这方面的应用就要薄弱一些。
与大数据合作,在营销方面上可以做到精准,根据数据分析,可以知道一些投资人的投资习惯,地理位置,哪个地区的投资最火爆,哪个地区投资最低等;关于风险,网贷行业最重要的就是风险控制,大数据下的风险控制体现在对于客户消费情况和资金流通情况,利用客户的社交行为,做数据解析,判定信用级别或是还款能力;另外,大数据能给网贷平台带来的就是工作效率的提升,可以利用金融的全局数据,做分析,了解业务运营弱点,完善平台体系;而且,可以很多平台运用大数据,还可以提高自身推出的产品,是否符合投资人需求。
有的专家还预言,未来网贷行业中,不仅仅存在人才竞争的问题,大数据也是行业竞争的必不可少因素,也许不久,大数据就会成为网贷平台核心的竞争力,马云有句话这样形容大数据:在大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。这是一句很精辟的话,无论是互联网时代还是大数据时代,它们都超越我们太多太多,而一个时代之中,最会把握时代主流的人必定会成为那个时代的胜者。
流水不腐,数据也是一样,流动才能促进行业生机,大数据时代下的网贷平台,平台之间也不会再吝啬于客户信息,数据一定的互通还可以减少平台要承担的风险,如果数据不通,就犹如一潭死水,数据会干涸,行业也会枯死!
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
今日搜狐热点20946 条评论分享收藏感谢收起赞同 264 条评论分享收藏感谢收起

我要回帖

更多关于 欣赏一剂良药阅读答案 的文章

 

随机推荐