信用贷款风控模型有哪些论文值得学习和研究

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>贷款 >>信用贷款风控模型有哪些论文值得学习和研究

信用贷款风控模型有哪些论文值得学习和研究

来源：蜘蛛抓取(WebSpider) 时间：2017-10-19 10:02 标签：

> PINTEC任然：大数据风控模型研发的三大关键点
PINTEC任然：大数据风控模型研发的三大关键点
10月26日，PINTEC集团读秒智能信贷科学决策负责人任然参加香港金融科技周活动，并发表了名为“Building Credible Credit Risk ModelsUsing AI And Intelligent Algorithms”的主题演讲，介绍了大数据风控模型研发的三大关键点。以下是演讲中干货内容的翻译。大家好，我是PINTEC集团旗下读秒的科学决策部负责人任然。读秒是一个智能信贷解决方案，核心是一种纯线上的贷款实时审批决策系统。以机构客户的数量来计算，PINTEC已经是国内最大的智能信贷服务商。通过这几年的探索，我们逐渐总结出一些大数据风控系统研发过程中的关键节点，希望能对行业有所启示。从大数据到快数据要实现实时决策，一个关键点是要确保系统可以处理很多数据。现在总说“大数据”（big data），但我们认为有时候“快数据”（fast data）更重要。在互联网时代，整个系统要高速的响应需求，面对瞬间涌入的需求保持robust，这就不仅仅是有“大量”数据的问题，而是怎么样把这些数据源实时地联系在一起，确保数据进来时系统可以实时处理，这个事情是更复杂的。因为数据科学仅仅是数据决策的一个算法环节，但是算法的实现要有很多基础设施作支撑，就像人一样——人的正常活动不仅靠的是大脑，也需要骨骼、血液作支撑。我们能在极短的时间内做出授信决策，很大程度上依赖于我们有一个强悍的系统作支撑。我们的技术部门会对授信环节作优化设计。根据我们的设计，整个授信环节可以分成很多步骤，如果能在早期的授信环节，通过较少的数据对用户的风险作出判断，那这就不会经过后面的操作，决策作出的就比较快。比如说，用户如果在黑名单之列的话，我就可以比较快地把他拒绝掉，这种情况下整个体验会非常快。我们还会对技术层面的作优化，很多指标计算、报告的拉取策略都是在并行操作的。指标对数据源的依赖也进行了良好的配置，很多指标都是以“流式”的方式进行计算的，即只要当符合一个指标计算需要的条件被满足的时候，它就可以很快地被计算出来，不是等到所有的数据都准备好了之后才开始计算。总之，要做到“快数据”，整个计算引擎都是需要经过高度优化的。“乐高式”的分布式模型我们所做业务的所有链条里，人工智能技术和数据是贯穿整个产品生命线的。我们的模型结构采用分布式的结构，也就是说，无论客群、渠道如何变化，我们的模型基本上可以保证在一定的稳定性水平上。分布式模型的第一个考量是灵活性。因为模型里有很多的子模型（sub-models），我们就可以根据合作伙伴、合作模式的不同，把子模型非常松散地作排列组合——像乐高玩具一样——形成最优的方案。这样的处理会比较标准化、模块化，像乐高玩具一样可自由拆分组合。比如说有一些合作伙伴，基于用户体验的考量，不想用基于用户地理信息的行为数据。使用分布式的模型结构，我们就不需要每对接一个渠道方都重新做一次模型了。第二个考量是模型的稳定性。因为我们的一个模型可能会接四十多个数据源，有时数据的底层是非常“脏”的，并不是拿来就能用的，如果底层的数据出现抖动的话，可能会对模型产生比较大的影响。使用分布式结构模型，如果一个子模型效果或稳定性上出现问题，我只要把这个子模型拆开，换一个模块就行，这样可以保证其他的子模型不受影响。第三个考量是模型的效果。机器学习允许我们用不同的方法——比如神经网络、深度学习、增强学习、决策树等各种的算法——去解决同一个问题。具体场景下哪个办法好，是在实践的过程中发现的。基于同样的数据，我们可以用不同的方法建不同的子模型，然后让模型和模型间互相PK。如果某一个模型效果好，我可以动态地去调整更多的流量给它，这也是套方法论，叫在线学习（online learning）。Online learning在广告业其实是非常普遍的东西，比如说广告业会做AB测试，去统计点击量，看那一条广告效果更好，就加大它的出现频次，这其实是让模型自己去学习的方法。但在风控领域中，据我所知online learning目前运用得很少。大家会觉得风控模型这个东西比较“神圣”，不会去允许它做太多的动态调整。所以交叉学科的经验借鉴，有时对建模也有帮助。兼用传统逻辑回归与机器学习算法我们做模型时，会兼顾使用传统的逻辑回归方面的算法，和一些比较先进的机器学习的算法，比如说bagging，boosting，包括最近因为AlphaGo Zero火起来的增强学习（reinforcement learning）。传统的风控模型都是线性模型，比如逻辑回归，它的特点是高度结构化和可解释性。但问题是，如果一个变量与target 之间不是线性的关系，我们在把它变成线性关系的过程中会损失很多信息。而且这种情况下，当我们去做特征工程（featureengineering）的时候，是需要人去想的。但人总有局限性，你看到想到的东西并不是全部，有时它甚至是错的。机器学习、深度学习的模型，它的好处是能自我适应、自我学习，但这类模型基本上是一个黑盒子。因为模型的结构非常复杂，比如说一个决策树模型里可能有一千棵树，每一棵树可能会有三四层——结构上非常复杂以至于人没有办法去描述它。这可能也是为什么一些传统银行里的从业人员，用AI模型的时候会比较没有安全感，因为他看不到这个模型里是怎么样的，总觉得要自己掌控的才能放心。具体到个人的信用评分，比如说我们给一个人信用打了700分。至于他为什么被打了700分，在逻辑回归里很简单可以看到变量的情况，但是在机器学习的boosting或者bagging里是没有办法去了解的，它所有的feature，所有的数据选择，都是机器去完成的。我们最终只要看模型的效果，也就是模型输出的违约率，我不用管它是怎么实现的。读秒系统上线两年的时间，我们的模型有过四个大的改版。被开发用来预测使用一系列信贷产品后的偿还行为的信用评分叫“基本评分”（generic score）。反应测试效果的ROC 曲线越往左上方突出，表示模型效果越好。我们发现，读秒早期的3.1版模型的ROC 曲线基本上是贴着“基本评分”的。而现在第4个版本的模型比3.1版本准确率要高将近50%。在我们新版本的三个模型（M1, M2, M3）中，模型表现最好的M3中，我们就是既用了传统的逻辑回归，也结合用了人工智能的方法。所以我们不会把传统的风控办法都丢掉，我们只是要去拥抱新的技术。做客户系统中的一颗金融科技芯片PINTEC的商业模式，是要为机构客户提供金融科技的解决方案。我们的服务一端连接的是一些商业机构，像携程、中国电信、小米这样的互联网或其他行业巨头，我们可以帮助这些公司为用户提供多一种金融服务的选择。而且读秒信贷决策系统不仅仅应用在线上消费环境中，目前也渗透到线下场景之中。PINTEC服务的另一端连接金融机构，我们会为金融机构带来线上线下的客户，帮他们做基于大数据和人工智能的风控管理，还会延展到前端的获客，中端的客户留存，和后续的催收等一系列过程。我们可以帮助金融机构为更广泛的用户群体服务，这是一些传统机构所不具备的。PINTEC提供的是类似芯片一样的“嵌入式”服务，将我们自己的能力封装成一个金融科技的芯片，嵌入到合作伙伴的业务流程之中，帮助他们实现智能金融，这也是我们提出的POWERED BY PINTEC服务战略的内涵。
{{news.author}}
{{news.timeFormat}}
正在加载......328 | 原创风控干货 | 个人信用评分模型构建详解_kk汽车金融行业研究_传送门
328 | 原创风控干货 | 个人信用评分模型构建详解
kk汽车金融行业研究
温馨提示：点击上方蓝字关注“kk汽车金融行业研究”，或者添加微信号：kk。这是一个专业而温暖的账号，因为账号后面有一群专业而温暖的人,立志做你的“汽车金融专业知识云端支持系统”，也就是做你的哆啦A梦?。个人信用评分模型构建详解——0-1风控信用评分模型建设过程分散型个人客户具备资产集中度低，抵抗宏观经济环境风险、地域金融风险能力强的优势，逐步成为金融业纷纷发力区域。目前个人信用评分模型来源于传统金融机构信用卡，逐步扩展到个人信贷业务。由于工作项目需要，本次分享关于个人信用评分模型建设过程。毕竟专业水平有限，博君一晒，欢迎批评指正。本文初衷是希望与各位同行共同探讨个人信贷风控建立，实现资源共享快速提升金融行业整体风控水平，促进行业健康成熟发展。本文构建基于传统金融业务数据，产品属于抵押资产，最终实际生产数据（20万量集）验证K-S值百分之三十多，具备一般预测能力。建设历程如下：模型原理→样本准备→变量选择→模型构建及检验→实施验证及评价一、信用评分模型原理本次实施探索个人信用贷款评分模型的基础原理，与各大信用机构的大多数评分模型一样，均基于真实历史数据构建的评分模型；是通过对人群历史信用表现历史信用表现进行分析，对其将来某一段时间内违约概率的评估违约概率的评估违约概率的评估。二、数据及样本准备
在数据为王的当代，数据集量的大小、数据质量的好坏、数据维度的多少影响数据分析挖掘结果的关键输入条件。此次数据核心来源传统金融信贷数据，数据字段70多个，本次重新提取数据，采集维度减少，但细化凸显自然人属性数据，缩减数据指标为43。数据预处理是数据建模占用时间量70%以上环节，虽枯燥但值得认真逐步清洗处理。1、
样本确定及数据清洗保证数据量前提下，采集样本为信贷全部历史数据；后续按照数据字段质量等因素初筛样本。初步进入样本总量近百万条，且放款最小日期为14年，样本数据可用。
针对每个字段进行极值、分布、异常数值等进行质量管理，并且进行字段间交叉验证排除垃圾错误数据。2、
数据字段属性改造回归模型输入变量格式限制数值，故本次提前将变量字段属性进行对应改造，按照数值对应不同字段内容。3、
异常值与缺省值处理受数据量影响，针对缺省值数据采取最大抛弃原则，未纳入样本数据，异常值数据，采取丢弃原则。缺省值填补常用方法往往采取回归填补法。最后，针对好客户进行复杂分层抽样，好客户数量6万（属性值为1），坏客户6万（属性值为0），总体样本数据为12万.三、入选变量选择及确定
变量主要包括目的变量及影响变量，其中目的变量（可理解为因变量）为输出变量，其他变量主要为输入变量。按照信用评分模型核心原理，目的变量影响因素中有一不可忽略变量——时间因素，这里处理方式是采取按照时间范围随时抽取，减弱时间因素影响。1、好坏客户的标签定义好坏客户的分类标准不同业务场景、不同业务各有不同；本次好坏客户识别主要按照客户历史最差五级分类标准判断，其中正常五级、关注一级、关注二级、关注三级、次级、可疑、损失确定为坏客户。2、表现期、观察期确定表现期与观察期确定主要排除时间因素影响，由于业务观察期，采取全业务，最长观察期6年，表现期选择3个月。3、影响变量确定及变量分组特征变量确定是贷款评分模型关键，如何确定特征变量相关性，如何降维特征变量分组观察。考虑到评分卡输出需要解释性较强的凭证，故本次主要采取回归分析模型，辅助神经网络模型及决策树C5.0模型尝试优化。关于特征变量确定，本文采取信息增量方法确定，通过变量熵大小确定是否进入模型。传统特征变量选择主要是通过特征变量分组，分别计算WOE（好坏客户分布log值）衡量分组是否合理，随后用IV （WOE*(p1-p0)，衡量自变量对目标变量影响的指标之一）筛选变量是否进入模型。备注：p1与p0分别为好坏客户。一个特征项能从低风险客户中分离出高风险申请者的预测能力，是由基尼统计量（IV）评估出来。信息价值的值为该特征项属性的WOE的加权总和。该权值为这个属性中好客户在总好客户数中的比例与坏客户在总坏客户数中的比例的差值。但建议变量选择，追寻数据集大原则，尤其涵盖所以高质量的坏客户数据。按照WOE、ODDs、IV等数据统计指标来确定进入模型的变量。范例：婚姻* 好坏客户交叉制表计数好坏比WOEIV好坏客户合计01婚姻已婚有子女已婚无子女单身离异其他合计按照IV>=0.03变量进入模型标准，以上进入模型14个中12个字段均符合条件，两个等字段无法进入模型。同时由于分类过细造成变量多，按照WOE相近合并原则，重新分组。四、模型实施及检验本次采取工具为IBM-Modeler挖掘工具，模型采用混合模型，采取策略为单一回归模型与混合模型并行。该策略原因在于神经网络模型在预测准确性上有优势，但解释性严重不足，而回归虽解释性较强，但在模型预测准确性略逊。故本次首先利用神经网络方法建立一个信用评分模型，然后将神经网络评分的结果作为解释变量之一，再加上其余的特征变量，最后建立一个基于Logistic回归的信用评分模型。即保证模型拥有良好解释，一定程度也提升混合模型最终准确性。单一回归模型：多元线性回归模型采取后退法进行逐步拟合，结果显示各个特征变量均通过显著性sig系数验证以及回归模型检验初步检验采用测试样本准确性校验，检验准确度65.22%，此次回归模型稳定性较好。混合模型：考虑到回归模型准确性较低，故引入其他模型增强混合模型预测准确性，结果显示，神经网络多次训练准确度提升至65.4%，而决策树C5.0准确度也仅64.5%，故引入其他模型优化回归模型失效。以上数据均通过显著性检验，则模型输出结果为：各个模型确定参数及权重，LN[P(1-P)]= Σ各个变量截距+参数+权重至此，模型已建立完毕，后续开展模型检验。五、模型实施及评价信用评分卡权重来自于评分模型，每个属性对应的分值可以通过下面的公式计算：WOE乘该变量的回归系数，加上回归截距，再乘上比例因子，最后加上偏移量：确定权重到分数的公式Score= log（odds）*factor +offset=(*factor +offset=(*factor +offset假设好坏客户发生比未1:1的信用评分为50，以此为基础分数，则Score=log(1)*factor + offset（偏移量）当好坏客户发生翻倍时，信用分数增加20，Score + 20 = log(2)*factor +50 则带入确定回归模型。K-S检验：按照国际违约率类模型拟合度判断方法—K-S指数，可以通过好坏客户累计差值，区分评分模型能够将“好”、“坏”客户区分开来的程度。国际通用标准：（0-0.2]，模型不理想，（0.2-0.4]，模型一般，（0.4-1]，模型理想。分数段总个数坏客户个数好客户数坏客户累计占比好客户累计占比K-S0270270290290310310330330350350370370390390410XX%410430430450450470470490490510510530530550550570570590590610610630630650650670670690690710710730730750750770总计六、结论：经过大量数据准备与多个模型比较，最终解释性较强的回归模型胜出。至此，一个具备实战的信用积分卡工具完成出厂条件，如何进行风险差异化定价也成为后续研究重点。以上仅仅是从零起步开始信用评分卡模型建设过程，当然存在许多需继续研究，比如关于时间维度影响后续并未验证等等问题。最后毕竟闭门造车，与行业新思路相差较远，这里业欢迎各位专家拍砖，以文会友，多与本人沟通，共同完善金融行业风控工作。
微信号：zongjie0618匡匡点评：这是一件我一直想做而没时间没机会做的事情，自动化审批需要这样一点点去数据积累，数据模拟，甚至机器学习去实现。我和宗介将建一个专门汽车金融风控的微信群，做风控的同行请微信上私信我，我拉你进群。百科全书：回复下面关键字就能获得文章，| 隔开的那些发展概况汽车金融是什么|渗透率|汽车金融百科全书|汽车金融简史|发展概况|汽车金融与汽车电商|资金方名单|总目录|kk汽车金融说明书| SP调查|2015年汽车金融报告报告德勤2015年报告|德勤2014年报告| 2014年中国汽车金融报告|2014年版银行业运行报告|经销商集团金融白皮书|满意度调研|2014年消费信贷调研|2013年汽车消费金融研究|论文零售风险|征信系统报告|普华永道金融报告|经销商风险状况|2015车抵贷报告组织及公司通用金融|GMAC|上汽财务|一汽金融|大众金融|北现金融|丰田金融|华晨东亚|比亚迪金融|宝马金融|福特金融|力帆|裕隆金融|东风金融|兵装财务|奔驰金融平安银行|宁波通商银行|民生银行|中信银行先锋太盟|融悦资本|稻普集团|佰仟金融|悦达金融|广汽租赁|中安金控|建元资本|美利车金融融资租赁公司|担保公司太平洋汽车网|易车网|汽车之家|ZestFinance|阿里巴巴|微众银行|P2P|银行业协会汽车金融委员会|滴滴|第一车网|第一车贷青岛中瑞|金刚科技人物张晓俊|傅忠强|李文国|科瑞爵|殷耀亮|韩勇|陈金亮|王炜| Stadtler |陈晨|范凯思|余亚瑞|潘未名|小分队冒泡|夏文佳|匡匡SP专区SP联盟 | SP| SP调查|SP定位| SP规避欺诈风险|SP自主贴息关键字目录：关于我们：| kk汽车金融行业研究 |诞生于日由匡匡发起打造的汽车金融行业第一自媒体平台现有订阅人数超23000人提供专业的资讯及行业研究分析文章立志做你的“汽车金融专业知识云端支持系统”成立了汽车金融行业研究小分队（内有稿费标准）这是一个温暖的团队现有74人加入方式极为简单写一篇汽车金融方面的文章即可匡匡微信 | 往期精彩文章推荐（欢迎加入SP会员群或SP学习群）
觉得不错，分享给更多人看到
kk汽车金融行业研究微信二维码
分享这篇文章
9月1日 1:31
kk汽车金融行业研究最新文章6被浏览512分享邀请回答014 条评论分享收藏感谢收起455被浏览32,961分享邀请回答mmbiz.qpic.cn/mmbiz_png/fjCibJUhD7aeuNbQWhIP1gWAHNWe8yE77yjSAGunYAiczzibOEHKFluyqPKl8ZOmYkDbVwUKXun5POSgibjYma22dQ/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1移除点击此处添加图片说明文字二样本和特征风险评分模型可以看成一个二分类问题，就是设计个模型能把好的交易样本和坏的交易样本尽可能区分出来。做风险评分模型这个项目前，先得积累足够多的数据（样本和特征），不然真是巧妇难为无米之炊。所以，系统需要有套收集数据的机制，尤其是坏样本的数据收集机制。对于交易而言，可以以订单号来标记一条样本，样本由多个特征变量组成，这些特征变量基本可以包含交易维度的变量，交易双方的特征变量等。首先，系统需记录整体交易这些相关的数据。然后，通过人工标记坏样本的方式来记录坏样本订单号，在支付领域坏样本人工标记方式可以通过用户报损反馈，也可以是人工通过相关黑信息关联找出来的标记样本。系统设计是尽可能多的和并且尽可能精准的的收集到坏样本。对于好样本，如果样本特征变量中不包含某些周期性变量，可以负采样过去几天的交易样本，最好有距离目前时间一周以上的时间间隔，方便用户反馈，从里面剔除坏样本和某些设定规则下的过滤的样本（存在异常样本和没有报损的样本）。在风控建模领域，一个典型的问题就是样本有偏。举个例子说明：假如你发现骗子符合某些聚集特征，你指定策略1进行打击后，骗子的这种欺诈手段被控制，以后的损失案例都不具备这样的聚集特征。如果你的坏样本的收集时间在策略1上线之后，这个时候模型训练的结果极有可能出现满足聚集特征的风险低，不满足聚集特征的交易反而风险高，也就是说聚集特征的权重是负数。这时候模型的解释性出了问题，这个也是模型训练中一个过拟合问题的范畴。为了有效解决这个问题，可以根据业务经验来查看模型中变量的权重是否与经验相悖，如果相悖，需要仔细评估。对于是样本有偏带来的问题，可以通过重新加入符合某些条件的样本来弥补。对于这些弥补的样本获取方法一种可以从拦截样本中选择，一个可以根据经验来人工生成样本。谈谈模型的不平衡学习。风控模型学习是个典型的不平衡学习问题，他同时具备不平衡学习领域两个问题：（1）正负样本比率悬殊，但是正负类样本都足够多；（2）正样本样本个数也很稀少。第一个问题是基本满足样本在特征空间的覆盖情况，只是比率较大导致某些学习模型应用会出现问题。第二个问题是样本太少，导致样本在特征空间的覆盖很小，极容易过拟合，不能覆盖特征空间和对欺诈场景的覆盖。对于第二个问题，最好的方法还是先收集样本+一些不平衡学习方法。对于正负样本的比率问题，有的用1:1，有的人用1:10，有的说是1:13.这些大多都是经验。我一般用，其实也是经验，1:10。其实，对于比率这个问题，说到底就是负样本该采样多少的问题。我觉得只要保证负样本也尽可能多满足覆盖特征空间就好，因为很多负样本（好的交易样本）模式都是很相似的，对于相似的模式不用保留太多的样本。但是本来正样本就少，如果负样本和正样本一样多，我个人认为随机采样的负样本覆盖的特征空间会很小，所以，我个人不是很赞同1:1的比率。三特征预处理特征大体可以分为连续特征变量和类目特征变量。特征预处理主要会围绕这两类特征来进行的。主要分为缺失值填充，异常值处理，连续特征归一化处理，连续特征离散化处理。3.1 缺失值填充特征的缺失值填充前，我们需要先统计特征的缺失值比率。采用某个特征来区别正常交易和异常交易前，这个特征的缺失值比率不能超过一定的阈值。对于缺失值填充的常用方法有：均值，中值，0值等。3.2 异常值处理可能由于某些原因，导致系统在收集样本时候，出现错误，特征值过大或者过小。当然，这个可能本来数据就是这样，但是，我们也需要做个处理。常用的方法：设置分位点做截断，比如0.1%,99.9%分位点等。3.3 连续特征归一化处理对于连续特征，比如用户的注册时间间隔，原来的值范围各自不同，不在统一的尺度。有的连续特征值范围大，有的连续特征值范围小。如果不做归一化处理，连续特征中值范围的大的特征会淹没值范围小的连续特征对模型的影响。所以，有必要对连续特征做归一化处理。常用的连续特征归一化处理方法：（1）min-max方法；（2）z-score方法。对于互联网数据，很多特征呈现长尾power-law分布，所以，大多场景针对这种情况在做min-max 或者z-score之前，会对连续特征先做log(x)变换。3.4 连续特征离散化处理相对连续特征归一化处理，还可以对连续特征进行离散化处理。在logistic regression中，大家经常会把连续特征做离散化处理，好处：（1）是避免特征因为和目标值非线性关系带来的影响；（2）离散化也是种给lr线性模型带来非线性的一种方法；（3）方便引入交叉特征；（4）工程实现上的trick。常见的离散化处理手法：非监督的方法和监督的方法。非监督的方法：等宽，等频，经验，分布图划分等。监督方法：基于信息增益或卡方检验的区间分裂算法和基于信息增益或卡方检验的区间合并算法等。我个人常用的监督的方法是合并算法。在风控采用lr模型的时候，对于连续特征采用离散化处理会有个这样的问题：因为我们的坏样本是针对过去的欺诈场景的，欺诈手法在长期博弈中不断升级。我们不仅要让模型尽可能多的覆盖过去的欺诈手法，对未来产生欺诈对抗有一定的适应性，不至于失效太快。采用离散化处理后，就可能出现很大的跳变性。假设我们过去的的坏样本都是刚注册不久的用户，那注册时间间隔做离散化处理时候，就可能分为A，B两段，离散化处理后可以看成0-1二值变量，落在A段为1，否则为0。为1时候风险高，权重为正值。如果这个变量在过去对正负样本区分度很高，可以看成核心变量的话，那如果骗子绕过A段，跳到B段的话，对模型的预测能力衰弱会是致命的。四特征选择模型训练前必不可少的一项工作就是特征选择，包括特征重要性和决定最终哪些特征会进入模型。对于一个领域专家来说，看你采用的特征集合和以及特征的重要性分布基本就能看出你模型大体会对那些场景预测的准，哪些场景你是预测不出来的。在风控领域就相当于特征集合决定你能覆盖哪些欺诈场景，会对哪些场景的正常交易进行了误判。对于一个风控领域新人来说，最快的进入领域就是看目前风控系统模型采用了哪些特征集合以及特征的重要程度。谈谈在模型训练前做特征选择的几个好处：（1）去除冗余，不相关特征；（2）减少维度灾难；（3）节省工程空间成本。常用的方法：（1）信息值：information value，简称IV值；IV值越大，重要程度越高。（2）信息增益： information gain；是采用信息熵的方法，信息增益表示信息熵的变化，增益越大，说明特征区分度越明显。（3）前向后向选择，依赖模型，通过AIC或者BIC来选择最优特征集合。五模型5.1 模型简介这里采用的模型是logistic regression ，简称LR模型。选择这个模型的理由：（1）简单，可解释性强；（2）线上实施响应时间快，风控有在线实时响应时间限制，所以在特征变量使用和模型复杂度上都有要求。特征变量方面：基于历史的变量需要提前计算好，调用外部接口所需要的变量要么在支付环节之前某个环节预获取或者采用异步方式（异步方式会影响当前判断的准确性）。模型方面：最好选择简单和泛化能力强的模型，复杂或者ensemble model在离线实验也许表现好，但是在线上未必好，复杂模型尤其是GBDT这种ensemble模型在风控数据下容易过拟合（风控数据小）。从我在风控应用模型的经验来看，目前阶段还不是拼模型的阶段，更多是找到风险特征。模型对恶意行为识别不好，更多可能是恶意特征没覆盖或者突破了当前模型的几个核心变量。下图是LR模型的简介: 这是个预测函数，训练样本就是为了求解这个w。这里面涉及损失函数设计问题和最优值求解问题。常用的损失函数是logloss：模型中采用正则化是为了避免过拟合，我觉得风控建模上一个重要问题就是过拟合，避免几个核心变量的权重过大。常用的最优求解方法有如下几种：（1）batch 梯度下降法；（2）L-BFGS。5.2 模型训练和评估训练：划分数据集为训练集和测试集：采用 k-fold cross-validation 交叉验证。K可取5或者10等。选择模型，如Logistic Regression 模型，调节参数，对训练集进行训练，直至模型收敛，然后对测试集进行预测。可以用k-fold的平均结果作为整体预测结果来衡量模型。评估指标： AUC，准确率和召回率, F1-score等。
下图是ROC曲线和风险评分预测分值的累积分布：这里面再提一点：就是上面这些评估指标即使表现良好，但是也未必说明模型应用没什么问题。常见的一点：特征的相关性影响（特征相关性对模型抗噪性有影响）。对于强相关的特征需要做下处理，能整合成一个变量最好。特征相关性在模型结果的表现上可能会出现特征的权重正负方向和大家认知相反，比如某个高风险特征和预测结果应该呈现正相关，但是模型结果显示却呈现负相关。这个大多由于另外一个更强特征和该特征呈现相关性造成的。相关性导致的这些问题，会让模型的解释性出现问题。在风控领域，模型解释性很重要。5.3 风险评分的应用计算线上不同分值段交易量大小，最好能给出不同分值段恶意交易比率。可以根据不同业务场景设定不同分数阈值，即使同一场景也可以根据不同分数阈值来进行不同的惩罚手段，分数很高的时候可以进行冻结账号等。值得一提的是，交易行为中有一定数量的高危行为，但是这些高危行为未必都是欺诈行为，异常不代表欺诈。很多正常的人某些行为和欺诈很相似，同样欺诈者随着博弈对抗加剧，也越来越伪装成正常交易。在风控，有时候为了增加对欺诈行为的覆盖，牺牲一小部分用户支付体验，也是值得的。我认为，风控一个重要的工作就是在风险和支付体验上获取平衡，如果支付体验不好，风险控制再好，也是没有意义的。风险评分应用一个重要的方面：对交易评分实时查询，相应变量值展示，以及重要变量触犯展示等一些列解释行为。这块叫做告诉别人为什么你风险高或者为什么风险低。更多互金职场信息请关注【互金职场】 (二维码自动识别)322 条评论分享收藏感谢收起241 条评论分享收藏感谢收起

信用贷款风控模型有哪些论文值得学习和研究

我要回帖

随机推荐