机器学习如何应用在金融行业

机器学习在金融领域的四大优势和五大应用机器学习在金融领域的四大优势和五大应用机器之能百家号编译 | Rik R 藤子来源 |
marutitech.com
没有人的生活可以脱离金融而独立存在, 虽然随着科技的发展,人们变得越来越聪明,但金融 是生活的基本必需品,因为每个人都需要钱来吃饭、旅行和买东西。目前已经形成了一个人与机器协同合作的金融市场,而人们正发明越来越多的方法来拖欠贷款、从其它账户偷钱、制造虚假信用评级等。今天,从审批贷款到资产管理,再到风险评估, 机器学习在金融生态系统的许多阶段都起着不可或缺的作用。然而,只有少数懂技术的专业人士真正明白机器学习是如何在人们的日常财务生活中发挥作用的。机器学习是什么?
机器学习是设计与应用算法的科学,构建算法可从数据中进行学习和预测。 机器学习的应用在今天已很普遍,
你可能每天不知不觉中使用了几十次。 机器学习也提供了大量的用例,比如自动驾驶汽车、产品推荐引擎、预测分析、语音识别等等。
数据科学家使用机器学习的主要目的是减少人类工作量,将
人类在阅读、理解、分析大数据上的时间花费减少到几秒钟。实施机器学习最常用的两种方法是监督学习和无监督学习。监督学习算法使用带标签的例子进行训练,输入数据对应的输出结果是预先可知的。而在无监督学习中,学习算法没有任何标签可使用,只能自己发现输入数据中的结构。金融业中的机器学习特色? 与机器相比,大脑容量对思维有一定的限制作用。人类最多只能同时集中处理 3-4 件事情,而机器的处理能力是人类的几千倍。除了速度,在金融领域的其他方面,机器也将比人类表现得更好。可靠性: 在处理财务问题时,建立个体信用评级系统是十分必要的。银行、投资公司、股票市场每天都要进行多达数十亿美元的交易。因此,我们必须信任处理此事的公司或个人。由于人性中可能存在的偏见和自私,有些人往往会在金钱交易过程中进行诈骗。为了解决这类问题,嵌入了机器学习的机器在处理请求时可以做到零腐败。速度: 我们都知道在股票市场进行股票交易非常困难。人们通常在历史数据、图表和公式中进行大量的分析,以预测股票的未来,还有些人仅仅是随机下注。所有这些行为听起来都十分忙乱且耗时。机器学习算法能够对成千上万个数据集进行精确的深入分析,并可以在短时间内给出简洁准确的预测,有助于减轻人们在大数据整理和分析方面的麻烦。安全: 此前,勒索软件 WannaCry 攻击了世界各地的计算机,这表明,我们仍然易受黑客和网络安全方面的威胁。机器学习则通过将数据分为三个以上的类别,建立模型,以此预测欺诈或异常情况。而手工审查成本高、耗时长、误报率高,并不适用于金融业。精度: 人们没有能力或不喜欢做重复单调的任务,这种重复劳动往往会产生许多错误,而机器可以在无限时地执行重复任务。机器学习算法会做数据分析的苦活,并在人类需要的情况下推荐新策略,还能够比人类更有效地检测到微妙的或非直觉的模式,从而识别出欺诈交易。此外,无监督机器学习模型可以不间断地分析和处理新数据,然后自动更新自身模型以反映最新趋势。如何在信用评分中应用机器学习? 即使银行极度谨慎并认真核实公司信誉,但跨国公司拖欠银行债务,在金融领域似乎依然是一个普遍的现象。
一些金融机构利用评分模型来降低信贷评估、发放和监督中的信贷风险。基于经典统计理论的信用评分模型得到了广泛应用。然而,当涉及到大量的数据输入时,这些模型的弹性表现较差。因此,经典统计分析中的一些假设就不能成立,这反过来又影响了预测的准确性。根据客户的国籍、职业、薪酬、经验、行业、信用记录等信息来确定客户的信用风险评分,甚至是在向客户提供任何服务之前就进行此类评定,这对银行来说至关重要,这是银行在提供信贷或其它金融产品之前一个重要的关键绩效指标(KPI)。引入一个可以立即为客户服务的中央集成的金融风险机制是目前面临的主要挑战。即使是现在,由于无法预测客户的风险评分,银行也无法立即通过贷款审批。机器学习则可以加快放贷过程,且能避免耗时而必要的尽调程序。回归算法可以确定客户的信用评分,这些算法使用统计过程来估计变量之间的关系,在预测和预报方面得到了广泛的应用,在机器学习领域的应用也得到了迅速的发展。这种方法的第一步是定义客户历史信用记录的可用性,然后选择目标人群,并确定基准来界定满意/不满意的表现。这部分将作为回归算法启动操作的基本数据集。下一步则是选择样本,选择标准如下:1. 确定公司系统中的可用变量2. 定义利息期和样本大小3. 验证数据的一致性和完整性所选的可能的零散信息也被称为人口统计学变量:性别、年龄、职业、公司、教育、婚姻状况等,一般推荐登记时长为 12-18 个月的客户样本。这段时间足以检查延迟付款和违约的情况,且能巩固优质客户的支付行为模型。通过变量选择、变量属性分组以及创建虚拟变量,则可以进行初步分析。使用列联表来计算与独立变量级别相关的相对风险(RR)指数,最后计算各个单一变量级别的优质客户与劣质客户之比。比例越大,该变量对未来业绩的预测作用就越大。而RR 通常介于 0 到 2 之间,0 代表极劣,2 代表极优。但是,分析过程不会使用类别为中性(Neutral)的样本,因为其优/劣程度相差不大。模型的建立包括对多元统计技术的选择。之后确定要使用的软件、选择独立变量并检验技术假设,一旦数据减少到聚类级别,则可以使用判别分析、逻辑回归和神经网络,判别分析和逻辑回归则采用不同方法的统计技术。除此之外,还要对所选软件进行有关实施与易用性分析的检查。最后,为了评估性能好坏,需要找出两个样本的 KS 检验。需要找出两个集群之间的差异,比如由各自的预测结果所界定的 优/劣 付款人,确定每个预测中的优/劣付款人分布之间的差异,而 KS 测试的值是该模块中差异最大的一个。由于从模型得到的最终结果通常介于 0-1,当结果小于 0.5 时,客户会被定义为劣质付款人;反之则为优良付款人。机器学习的其它优点 欺诈检测: 使用机器学习进行欺诈检测时,先收集历史数据并将数据分割成三个不同的部分,然后用训练集对机器学习模型进行训练,以预测欺诈概率。最后建立模型,预测数据集中的欺诈或异常情况。与传统检测相比,这种欺诈检测方法所用的时间更少。由于目前机器学习的应用量还很小,仍然处于成长期,所以它会在几年内进一步发展,从而检测出复杂的欺诈行为。股票市场预测: 买卖股票而成为亿万富翁是常有的事,但是,如果不了解股票运作方式和当前趋势,要想击败市场则非常困难。随着机器学习的使用,股票预测变得相当简单。这些机器学习算法会利用公司的历史数据,如资产负债表、损益表等,对它们进行分析,并找出关系到公司未来发展的有意义的迹象。此外,该算法还可以搜索有关该公司的新闻,并通过世界各地的消息源来了解市场对公司的看法。此外,通过自然语言处理技术,它可以通过浏览新闻频道和社交媒体的视频库来搜索更多有关该公司的数据。这项技术还在发展中,虽然目前还不够准确,但可以肯定的是,在不久的将来,它将能够作出非常准确的股市预测。
部(Treasury)
C 客户关系管理(CRM),现货交易(Spot Transactions):
客户关系管理(CRM)在小额银行业务中占有十分突出的地位,但在银行内部的财资空间却没什么作用。因为财资部有自己的产品群,如外汇、期权、掉期交易(Swaps)、远期交易(Forwards)以及更为重要的现货交易(Spots)。线上交易需要结合这些产品的复杂程度、客户风险、市场与经济行为以及信用记录信息,这对银行来说几乎是一个遥远的梦想。聊天机器人 - 私人财务助理: 聊天机器人可以担当财务顾问,成为个人财务指南, 跟踪开支, 提供从财产投资到新车消费方面的建议。财务机器人还可以把复杂的金融术语转换成通俗易懂的语言,更易于沟通。一家名为Kasisto 的公司的聊天机器人就能处理各种客户请求,
如客户通知、转账、支票存款、查询、常见问题解答与搜索、内容分发渠道、客户支持、优惠提醒等。通过长期记录用户的可扣除费用,还能提供潜在节流账单。 机器学习是一项比较新的技术, 鉴于数据敏感性、基础设施需求、业务模型灵活性等原因,机器学习的应用有其自身缺点,但它有助于解决很多问题,且优点大于缺点,因而受到了众多学者和行业专家的分析,可以肯定的是,该领域在未来必定会出现更多创新的应用。对世界各国来说,金融都很重要,机器学习技术比人类操作更为安全,能保护其免受威胁、改善其运营,是 金融业的最佳选择,也 有助于各国更快实现发展和繁荣 。 声明:本文由机器之能(微信公众号:almosthuman2017)出品,转载请查看要求,机器之能对于违规侵权者保有法律追诉权。 本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。机器之能百家号最近更新:简介:探索全球人工智能应用场景及商业化作者最新文章相关文章已解决问题
学习人工智能和机器学习应用在互联网金融领域方向,应该从哪里入手?
提问时间: 15:45:16
我是一只计算机硕士,无奈没学过人工智能相关的知识。现在混进了互联网金融领域工作并打算在此方向上长期发展。想学习人工智能和机器学习,这个领域分支好多,不知道从哪里入手,求推荐一些教材和学习路线图。另外,国内有互联网金融结合机器学习人工智能的靠谱博士生站么?求推荐一些,考虑考博。先谢谢各位前辈了。
浏览次数:5281
该答案已经被保护
其实人工智能、机器学习、图像识别(计算机视觉),每一个拎出来都是一个很大的话题 图像识别倒是相对简单一些,首先确定你的需求(识别验证码/识别商品/识别车牌......),然后根据不同的应用场景,找相应的算法,还是,不需要知道为什么,只要知道这个算法好用,有效果,就OK 图像处理基础概念其实就一条,以灰度(只有黑白灰)图像为例,一幅图像,在程序看来,就是一个二维矩阵。 评分的过程是个难点,简单粗暴的就是模式识别,比如眼睛,越接近三角形,评分越低&& 或者还有一个办法,就是采集一定样本,在用户提交自己的样本的同时,邀请他对其它用户进行评分。
答案创立者
以企业身份回答&
快速解决你的电商难题
店铺优化排查提升2倍流量
擅长&nbsp 店铺优化
您可能有同感的问题机器学习如何应用于金融领域?
去年P2P公司遇冷后,纷纷转型称会用大数据、机器学习等科技手段服务金融,摇身一变成为时髦的Fintech金融科技公司。但实现过程并不简单,让机器代替人去处理数据做判断,在国内金融领域才刚刚起步。
CreditX氪信是雷锋网(搜索“雷锋网”公众号关注)接触的一家用机器学习做风投的公司,在金融领域拥有不少实验经验和思考。最近氪信创始人朱明杰在朗迪中国峰会发表演讲,谈及了将机器学习应用于金融的难点,以及如何提升模型的可解释性。下文编辑自演讲内容,有删减。
我做了十多年的机器学习,用机器代替人去处理数据做决策和判断。过去十多年的机器学习,成功的应用都是在互联网上,搜索,广告,推荐,可以说互联网率先达到了数据时代。而到金融创新这个领域,如何实现互联网级别的机器学习和人工智能,大家都刚刚起步,我今天想讲讲我们CreditX在金融领域实践互联网级别机器学习的一些经验和思考。
金融风控的痛点
我一直认为,“科技进步是被业务需求逼出来的”。过去我们在互联网行业靠算法和机器,都是被逼的,为什么,因为数据量实在太大了,你想去淘宝搜个手机壳,让阿里的同学人肉从上亿的商品里帮你找出最喜欢最合适的,那根本不可能。传统金融场景里,一笔100万的贷款主要靠风控人员和关系,那是可行的;而到了银行的信用卡中心,积压的申请审核,让审批人员每周加班,都批不完。
那现在互联网金融要面临更加普惠的场景,比如几百块钱一笔的手机贷,靠铺人力一定是行不通的。所以,这已经不单单是提升运营效率问题,而是必须要把活儿交给机器,让机器来学习人的风控经验,机器人变成风控专家。
金融领域应用机器学习与人工智能的难点
第一个问题是数据太少。因为金融数据非常稀疏,而且现在的很多金融产品形式在以前没有发生过,所没有十几年的数据积累。换句话说就是缺少训练数据,这又被称为冷启动,缺数据。另外,金融领域出现坏账情况少则一个月多则数月,数据积累需要等很久,相比之下,互联网搜索领域内可以迅速拿到点击反馈,两者差别很大。所以数据缺失是阻碍机器来学习人类经验的巨大障碍。
第二个是数据太多。这里指的是数据特征维度多,超过了人的处理能力。传统金融只有十几维度的特征变量,人工调公式即可应对。但现在面临这么多维度的数据,大家也想了很多很好的愿景,讨论很多数据都可以用。但为什么用不上呢?问题在于我们有什么办法可以有一个很强的表达能力将这些很原始的,也可以叫弱变量的数据特征利用起来。将弱特征数据组合起来,与结果联系起来,让人的直观经验可以理解,让风控专家去反馈。
在金融场景内,不能像互联网机器学习一样是一个黑盒子,一堆数据扔进去,等结果来反馈迭代。 金融场景内,特别强调模型的可解释性,这样才能把人的风控经验和直观感受跟数据表现结果关联起来。在此基础上,我们才能说把人的经验介入到利用数据进行机器学习建模的操作中去。做到特征要能够追溯回去,尤其是金融的反馈结果要等很久,需要人能够快速干预反馈。
如何解决金融风控冷启动问题
对于数据太少和产生太慢的问题,冷启动问题是一个非常典型的case。我们在互联网行业经常面临缺少数据的问题,也积累了成熟的经验,就是把人的因素叠加到机器学习过程中去。我们做搜索广告时,会请人标注数据,然后通过标注数据的专家来指导算法工程师调优算法,改进排序结果。而在金融场景里,我们有很多现成的经验以及经验丰富的风控人员,这些专家有很强的风控知识。
理论上讲,如果有几百个风控专家,不用发工资,我们做手机贷也可以做下去,但实际情况是我们必须靠机器去学习人的风控经验。所以我们通过半监督学习的方法,把业务风控专家和实际的信贷结果在online学习中做一个结合。在这个过程中,风控人员可以实时的介入,不停地根据输出结果做一些调整,然后非常实时地反馈到模型训练的迭代提升的过程当中。
这就说我们特别重视人的因素。现在大家都在讲人工智能, 人工智能的本质是什么?在我的理解其实就是让机器学习人的经验。以前我们依赖几个经验丰富的风控人员,现在我们可以让机器把人的经验学过来,然后让机器来做一个自动的决策。
金融的业务结果和样本非常珍贵。比如,我之前在房贷业务上积累了一些样本,然后换到一个新的消费信贷业务上,或者从一个消费信贷业务切换到另一个新的业务。这些珍贵的样本数据不能丢掉,但怎么去用呢?我们可以做到尽可能利用已有的经验和知识,把generic的风险核心模型和domain knowledge分开,再去根据业务的场景信息,以及场景内的先验知识结合起来,在此基础上学习和复用跨领域跨场景的知识,并且可以做到知识积累。
深度学习技术解决特征工程的难点
接下来我们来看“数据太多”。我将这个问题分为两个部分来看。
首先是数据的特征维度很多。我们关心的是如何将大数据和金融风控的问题挂钩起来,这里面其实是需要非常强大的特征加工和表达能力。这是传统的线性回归统计建模方法很难去完成的。我们的办法有很多,这里面包括大家现在热度很高的“深度学习”。深度学习的本质是通过数据特征的处理去学习人处理知识和数据的方式。为了解决数据太多的问题,让人能看透浩瀚的原始数据,在模型的前端,我们尝试了不同的深度特征编码方法,非监督学习的方法对原始数据进行预处理,从而实现特征的降维,将浩瀚的原始数据和最后结果挂上钩。
模型的可解释性
其次是模型的可解释性。金融专家特别关心模型的可解释性。这里面有两个意义:
如果给信贷对象一个打分的结果,如果不能解释,这个很难和申请人去沟通的;
另外,我们所面临的是一个非常复杂的环境,如果对于风控结果仍然是黑盒进黑盒出的话,风险是很难去把控和估计的。
如果模型出了问题,造成的风险漏洞是我们不能承受的。在互联网金融业务这么快速成长的背景下,很有可能公司的业务都做不下去。所以,互联网内黑盒进黑盒出的方法就不适用于金融场景,需要有一个可解释的local模型去做到。我们的实践经验是, 利用LIME去捕获结果或者局部结果中的关键变量,然后让风控专家迅速的抓到是哪些特征导致结果的变化。
氪信取得的效果
我们把互联网的技术经验,在金融场景内做了一些艰难的尝试,并得到了一些实践经验,包括从最开始的数据获取处理,到人的介入参与,到对复杂模型的干预过程,最后形成我们的practice。
从效率上说,我们的一个合作伙伴得到了很好的效果。他们做了一个金融信贷场景,部署在氪信的系统和模型上跑,只需要3-4个业务风控兼运营的人员,风控的大部分工作交给机器去做。
另外从效果上看,我们利用DNN模型做出来一个结果,可以看到结果比传统的LR模型ks值从0.19提升到0.43。数字和结果是我们做模型的人最直接的一个答案,这里面没有什么可以讲概念的。
大家之前对大数据期望值很高,又屡屡失望,现在其实对数据科技来说是一个很好的时机。因为大家真的需要能够有运用数据的能力,用机器解决金融实际问题,这也是我们这个时代的机会和风口,也是一个新的开始。
下个月的12、13号,雷锋网将在深圳举办一场盛况空前的人工智能与机器人峰会,届时我们将发布“人工智能&机器人Top25创新企业榜”榜单,为此我们在搜集并确认AI、机器人、自动驾驶、无人机等几个领域的优质项目。如果您的项目是相关领域的,且足够有技术壁垒、足够有成长性,欢迎联系。
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
致力免费为玩家、消费者提供国内最值得入手的新奇酷玩产品
读懂智能与未来!
今日搜狐热点您有好的观点和精彩的文章,欢迎投稿。投稿邮箱:.cn 。
微信扫一扫,在这里读懂新金融。欢迎扫描下方二维码关注中国电子银行网官方微信、浏览手机网站或下载官方APP(半刻金融)。
中国电子银行网官方微信
中国电子银行网手机网站
中国电子银行网官方APP
总是会有福利从这里发出……
手机上省流量看资讯
创新引领 半刻不停
09:56 08/23
09:45 08/22
13:46 08/19
12:01 08/19
周围人都在搜
科技+金融 启创银行未来
Copyright 中国电子银行网 2009,All Rights Reserved 京ICP证号&2. 京公网安备号李建:人工智能技术在金融科技中的应用_凤凰财经
李建:人工智能技术在金融科技中的应用
用微信扫描二维码分享至好友和朋友圈
原标题:李建:人工智能技术在金融科技中的应用 世界浙商网5月26日讯(记者刘奕琦)下午,在2050大
原标题:李建:人工智能技术在金融科技中的应用
世界浙商网5月26日讯(记者刘奕琦)下午,在2050大会“金融行业的ABCD”分论坛上,来自清华大学的李建分享了人工智能、深度学习、在线学习与金融大数据分析与预测。
以下为演讲实录:
我先介绍一下我认为机器学习这几年比较有意思的一些进展,不一定是我做的,都是一些机器学习领域的突破,我介绍一下这些突破和这些技术如何能够从我的想法上面怎么跟金融场景结合起来,以及我们最近做的一些工作。
人工智能进入大家的视野背后主要的神经网络深度学习的发展,除了深度学习是神经网络的一部分,还有一部分就是符号主义,这次人工智能就是深度学习的发展,就是在图像上面的突破,使得学术界开始广泛的关注深度神经网络,大家真正开始认识人工智能的力量,由于AlphaGo打败围棋高手,以前认为比较难做,现在也是可以做,大家感觉人工智能有一定的力量。
最早的神经网络产生的突破并不是一个很新鲜的事情,相当于多半个世纪之前提出来,他是一个少年天才把两千多页的三卷册读完了,他探讨数学的基础是什么,数学的基础就是公立,他开始在想,数学有这么好的基础,我们的智能的基础是什么,什么是智能?我们是不是能够把智能,最后提出来人工神经网络作为我们智能的基本单位。每个单独的神经元都是一个比较简单的方式,经过非常复杂的组合和变化,最终形成智能。
机器学习是人工神经网络我们把神经元简单一层一层叠加起来,从输入到输出,比如说输入是一个图片输出这个图片是猫还是狗,经过大量的数据训练,有很多猫和狗,图片抓住里面的规律,给出一定的预测,一般来说都是需要非常多的数据。当然人工神经网络的发展,经过研究大家发现有的神经网络的结构是非常适合某些问题,我刚才讲的一层一层完全连接起来的这个结构不是特别,对很多问题不是特别好,有的网络CNN,卷积神经网络对图像非常有效,他主要是利用了这一类问题里面平移不变形的问题,比如说我这个图片里面有一个猫,我们把这个猫平移一下,到这个地方还是一个猫,经过移动之后他是不变的。
这个网络就是一层一层把图片的信息都抓取出来,在低层是抓比较局部的信息,在高层抓高层的一些信息,实际上,这是神经网络里面过程的,大家看到第一层他抓非常局限的一些颜色,边边角角小的信息,第二层这些局部的信息可以稍微拼装起来,有一些小圈,高级层有高级的信息,这里看到有一个轮胎,更高层有更高层的信息,从局部到全局的抽取信息的过程。CNN卷积神经网络经过设计有很多年的历史,这些年可以做非常多的事情,除了做图片分类,还可以生成图片,大家看到生成图片,左边这个图是名画,中间这个图是照片,他可以用某一种方式把这两个结合起来,结合起来的方式就是采用照片的内容和方式,看起来像名画一样,说明深度学习学习可以抓取出来,内容的内容和形式的内容抓取出来进行组合。其他就是人工神经网络生成的卧室和图片,人脸是神经网络自己生成的人脸,他不光是捕捉人脸的特征,还是可以捕捉朝向的特征,无人车里面广泛的应用。
第二大类神经网络叫做递归神经往来,刚才的卷积神经网络抓住平移民一不变形,RNN-LSTM来处理持续的问题,比如说像语言这种。另外一个就是突破就是AlphaGo的突破,就是深度增强学习的技术。
下面我讲跟金融相关的一些我认为机器学习有帮助的地方,首先就是说金融数据首先有这样的一些特点,理解成多源异构时空大数据,实践和空间大家比较容易理解,他有非常多的时间序列,我们有中国的市场,美国的市场,中国的市场包括不同的板块,股票和期货,这个可以理解成空间的数据,时空数据是比较多源的数据,另外的数据就是新闻,还有文本,还有知识图谱以及知识图谱背后的一些文本。这些都是相关的数据,非常多源,这些多源的数据之前都是有关系的,互相可以帮助做预测,所以整个面临比较复杂异构时空的大数据。
如何进行时空大数据的预测,国外有探索,这是大家比较有名的,大家从新闻里面看到全世界AI发行的ETF基金,他说背后整个都是人工智能支撑,输入的数据是整个数据,刚刚出来没有跑过大盘,现在发现终于跟大盘跑得一样。大盘就是标普500,他这个基金并没有战胜大盘,并不代表人工智能在这里面无法做任何的事情,实际上,我知道有很多国内的基金做得比较好的早已经开始使用人工智能,像文艺复兴说,一次采访当中他们的基金本质上面也是用人工智能的技术,怎么用大家并不知道,大家可以看到唯一一个我们可以看到的。
用来做交易策略发基金是其中一个应用,另外,我们可以分析金融文本,比如说,我们如何用机器学习来分析新闻文本的情绪,比如说,这个情绪是正向还是负向,不光是新闻的情绪,包括互联网上面的情绪,这个情绪是跟我们的市场有非常大的一个关联性,你可以说是滞后还是超前,这个不好说需要经过分析,但是不可否认有非常强的关联性,这些相对于对做预测非常有用的数据。
首先这些新闻和舆情帮助我们分析哪些行情,这是非常有热度的,这个热度不光是在国内,国际上面也是非常对于预测金融市场是非常重要的一个指标。另外,我们需要分析这些新闻他应该和波及的范围,在社会网络当中传播的范围和数据能够波及的范围。如何从这些新闻信息和文本里面构建知识图谱,甚至进行推理,通过推理帮助我们做预测。
大家都是尝试使用美国的对冲基金尝试使用,美国很多公司的董事会大家都可以听的,瞬间把这个讲话翻译出来做情感分析,美国很多公司做,他里面甚至把语音的情绪提取作为他们的交易信号,另外一个就是应用很著名的例子,前段时间facebook听证会的时候,有的对冲基金来拍伯格的心跳,看到这个心跳是不是紧张,那短短的听证会波动百分之几。你要处理这些文本,处理这些声音,你肯定需要用深度学习的技术。
另外比较有意思的例子,是一个网友把已经开源放到系统平台上面,川普发一个推特就是发一个情感分析,分析一下推特跟哪些股票有关,用来决定买卖,回撤的效果还是不错的。整体来讲是一个赚钱的策略,川普的讲话对金融市场的影响非常大。还有其他的一些舆情国内做上证指数和情绪指数,大家仔细分析,在某些情况下,这个情绪领先于大盘。大家有兴趣可以看里面知乎的文章,分析情绪如何领先大盘,领先大盘两三天,看空的情绪慢慢削减的时候,大盘的情绪慢慢上涨。
我们原来做过一些分析整个社交网络的数据情绪的事情,跟时空大数据的问题,我正好那个时候在美国访问,我们那个时候在16年的时候,美国正好大选用这样的模型,当时推特的数据我们进行分析,川普正在每个州的演讲,希拉里没有出来,川普发推特,我们看推特的信息,看美国的州或者市是蓝的还是红的,按照州来讲,我们的预测比较准。
还有舆情和古诗,这是北航的老师中国国内利用需求鼓包里面的讨论,他也是有一些比较有意思的结论,直接预测股价比较难,讨论最多就是散户,散户的噪音非常大,散户说买,可能已经晚了,那个时候已经变成了韭菜,至少他可以跟我们的交易量和换手率有非常大的关联性,交易量和还手率直接决定波动率,你做设计就是对波动率有非常大的优势,这个波动率从什么地方得到,就是从鼓包的新闻信息里面得到的。
另外机器学习利用到的地方就是增强学习,增强学习就是打游戏,可以下棋,在这里面很重要的应用就是做最优执行,这是一个什么事情,假设我今天有很多的股票,我想要卖掉,如果是散户,你就是这么几十股很轻松卖掉,没有什么问题,比如说,你现在有非常多的股票,今天有几十万股卖掉,你直接挂一个单,你对市场的冲击非常大,你卖掉的话,价格马上跌下去,不一定可以完全卖掉,如果对于聪明的决策,你把大单拆成小单,有计划卖出去,你卖得越慢,因为后面有股价有变化,你完全不知道从哪个方向变化,有可能朝着你的不利的方向变化,你要做一个均衡,我画的图是以前一篇比较有名的图片,用增强学习做最优执行的文献,现在可以做到更好。我们希望执行的价格是好于成交量做加权平均,一般的交易系统比较直接的做法是可以达到加权比较高,方法可以做到跟加权差不多,好于加权平均就是用增强学习的方法。
这是机器学习最好的会议,直白讲就是预测时间序列和股价,历史的股价拿过来输入到决策里面,可以大家它的上涨还是下跌的趋势,因为我们股票的价格优非常大的噪音,关系没有这么反应,这个文章的IDEA是什么,我这个价格有若干的周期,政治周期,经济周期,还有股市的周期,行业也有周期,希望周期不相同,互相的周期叠加起来影响这个股市,他试图做到把这些周期拆解出来,通过分解来不同周期在不同周期上面做决策,最后综合起来达到比传统统计模型更好的效果。
我介绍一下我们最近做的一些事情,试图讲机器学习应用到金融领域各个场景里面,我们也是了金融选股,我们每天选择十几支股票,选择15支股票测试达到什么样的准确率,这个模型做了比较多的工作,也是用深度学习和传统学习的方法,现在的因子数比较多,我们有一套人工智能技术自己去挖掘因子的方法,因子的意思就是说我们找到收益的序列相关性非常强的序号,用机器学习去挖掘,现在有几千个。大家可以看到纵轴,我们的准确率,三个图,最高1.0就是15支涨不涨,一天15支预测对了,就是总体来说准确在70%以上。
我们做股票策略,做股票策略的人有一种感受,选股比较容易,只要有一些因子,有一些常见的策略,大家都会选择股票,比较困难的事情就是择时,我们不说股灾,整个大盘回调的情况下你非常难做,不管怎么选择都是非常难选,比如说今天80%的股票跌,你非常难选,比如说是17年的行情,你看到的指数非常好,50和300指数非常好,但是每天都是70%的股票跌,就是几十个权重股在往上涨。
你更不要说大盘,大盘跌80-90%股票都是在跌,难点就是如何做择时,择时也是非常难的地方,我们也是综合场内外的数据,试图对大盘的风险有预测,我们现在可以做到至少在近两年我们经过回撤发现,可以发现对于大跌进行预警,我们可以提前几天发现,股票后几天不太好,大家最好减仓和平仓。
我们也是做了增强学习和智能执行,最开始没有深度学习,当然有神经网络,当时不是叫深度学习,我们相当于把这个技术用深度学习进一步来加强。我们可以做到80%的概率,一般会节省千分之二和千分之三的手续费,这也是一笔非常客观的开销,尤其是做换手率比较高的时候,这个节省成本非常大。
我们讲其他的东西不是特别的相关,我们做了一些跟强化学习的理论算法,目前的算法是GDPG,这是我们以前做的一些跟金融不是特别相关,就是时空大数据的预测,刚才是预测订单,一片区域未来半个小时或者是15分钟的订单的数据,这个跟金融的市场预测比较接近,这个相对比较简单一点。我们这边还有一些其他的人工智能的项目,列在那边就是我们最近跟一个部门合作,他想要做什么事情呢,我们通过卫星数据来看一个企业的基本面,我们通过卫星看它的仓库,仓储量有多少,有的把货推在仓库里面,非常大的一片,通过这个仓库预测这个企业最近的营销怎么样,或者停车场里面停了多少车预测这个企业怎么样,通过各种各样的技术分析企业的基本面。OCR,我们从表格里面财报里面采取一些信息。
世界浙商网5月26日讯(记者刘奕琦)下午,在2050大会“金融行业的ABCD”分论坛上,来自清华大学的李建分享了人工智能、深度学习、在线学习与金融大数据分析与预测。
以下为演讲实录:
我先介绍一下我认为机器学习这几年比较有意思的一些进展,不一定是我做的,都是一些机器学习领域的突破,我介绍一下这些突破和这些技术如何能够从我的想法上面怎么跟金融场景结合起来,以及我们最近做的一些工作。
人工智能进入大家的视野背后主要的神经网络深度学习的发展,除了深度学习是神经网络的一部分,还有一部分就是符号主义,这次人工智能就是深度学习的发展,就是在图像上面的突破,使得学术界开始广泛的关注深度神经网络,大家真正开始认识人工智能的力量,由于AlphaGo打败围棋高手,以前认为比较难做,现在也是可以做,大家感觉人工智能有一定的力量。
最早的神经网络产生的突破并不是一个很新鲜的事情,相当于多半个世纪之前提出来,他是一个少年天才把两千多页的三卷册读完了,他探讨数学的基础是什么,数学的基础就是公立,他开始在想,数学有这么好的基础,我们的智能的基础是什么,什么是智能?我们是不是能够把智能,最后提出来人工神经网络作为我们智能的基本单位。每个单独的神经元都是一个比较简单的方式,经过非常复杂的组合和变化,最终形成智能。
机器学习是人工神经网络我们把神经元简单一层一层叠加起来,从输入到输出,比如说输入是一个图片输出这个图片是猫还是狗,经过大量的数据训练,有很多猫和狗,图片抓住里面的规律,给出一定的预测,一般来说都是需要非常多的数据。当然人工神经网络的发展,经过研究大家发现有的神经网络的结构是非常适合某些问题,我刚才讲的一层一层完全连接起来的这个结构不是特别,对很多问题不是特别好,有的网络CNN,卷积神经网络对图像非常有效,他主要是利用了这一类问题里面平移不变形的问题,比如说我这个图片里面有一个猫,我们把这个猫平移一下,到这个地方还是一个猫,经过移动之后他是不变的。
这个网络就是一层一层把图片的信息都抓取出来,在低层是抓比较局部的信息,在高层抓高层的一些信息,实际上,这是神经网络里面过程的,大家看到第一层他抓非常局限的一些颜色,边边角角小的信息,第二层这些局部的信息可以稍微拼装起来,有一些小圈,高级层有高级的信息,这里看到有一个轮胎,更高层有更高层的信息,从局部到全局的抽取信息的过程。CNN卷积神经网络经过设计有很多年的历史,这些年可以做非常多的事情,除了做图片分类,还可以生成图片,大家看到生成图片,左边这个图是名画,中间这个图是照片,他可以用某一种方式把这两个结合起来,结合起来的方式就是采用照片的内容和方式,看起来像名画一样,说明深度学习学习可以抓取出来,内容的内容和形式的内容抓取出来进行组合。其他就是人工神经网络生成的卧室和图片,人脸是神经网络自己生成的人脸,他不光是捕捉人脸的特征,还是可以捕捉朝向的特征,无人车里面广泛的应用。
第二大类神经网络叫做递归神经往来,刚才的卷积神经网络抓住平移民一不变形,RNN-LSTM来处理持续的问题,比如说像语言这种。另外一个就是突破就是AlphaGo的突破,就是深度增强学习的技术。
下面我讲跟金融相关的一些我认为机器学习有帮助的地方,首先就是说金融数据首先有这样的一些特点,理解成多源异构时空大数据,实践和空间大家比较容易理解,他有非常多的时间序列,我们有中国的市场,美国的市场,中国的市场包括不同的板块,股票和期货,这个可以理解成空间的数据,时空数据是比较多源的数据,另外的数据就是新闻,还有文本,还有知识图谱以及知识图谱背后的一些文本。这些都是相关的数据,非常多源,这些多源的数据之前都是有关系的,互相可以帮助做预测,所以整个面临比较复杂异构时空的大数据。
如何进行时空大数据的预测,国外有探索,这是大家比较有名的,大家从新闻里面看到全世界AI发行的ETF基金,他说背后整个都是人工智能支撑,输入的数据是整个数据,刚刚出来没有跑过大盘,现在发现终于跟大盘跑得一样。大盘就是标普500,他这个基金并没有战胜大盘,并不代表人工智能在这里面无法做任何的事情,实际上,我知道有很多国内的基金做得比较好的早已经开始使用人工智能,像文艺复兴说,一次采访当中他们的基金本质上面也是用人工智能的技术,怎么用大家并不知道,大家可以看到唯一一个我们可以看到的。
用来做交易策略发基金是其中一个应用,另外,我们可以分析金融文本,比如说,我们如何用机器学习来分析新闻文本的情绪,比如说,这个情绪是正向还是负向,不光是新闻的情绪,包括互联网上面的情绪,这个情绪是跟我们的市场有非常大的一个关联性,你可以说是滞后还是超前,这个不好说需要经过分析,但是不可否认有非常强的关联性,这些相对于对做预测非常有用的数据。
首先这些新闻和舆情帮助我们分析哪些行情,这是非常有热度的,这个热度不光是在国内,国际上面也是非常对于预测金融市场是非常重要的一个指标。另外,我们需要分析这些新闻他应该和波及的范围,在社会网络当中传播的范围和数据能够波及的范围。如何从这些新闻信息和文本里面构建知识图谱,甚至进行推理,通过推理帮助我们做预测。
大家都是尝试使用美国的对冲基金尝试使用,美国很多公司的董事会大家都可以听的,瞬间把这个讲话翻译出来做情感分析,美国很多公司做,他里面甚至把语音的情绪提取作为他们的交易信号,另外一个就是应用很著名的例子,前段时间facebook听证会的时候,有的对冲基金来拍伯格的心跳,看到这个心跳是不是紧张,那短短的听证会波动百分之几。你要处理这些文本,处理这些声音,你肯定需要用深度学习的技术。
另外比较有意思的例子,是一个网友把已经开源放到系统平台上面,川普发一个推特就是发一个情感分析,分析一下推特跟哪些股票有关,用来决定买卖,回撤的效果还是不错的。整体来讲是一个赚钱的策略,川普的讲话对金融市场的影响非常大。还有其他的一些舆情国内做上证指数和情绪指数,大家仔细分析,在某些情况下,这个情绪领先于大盘。大家有兴趣可以看里面知乎的文章,分析情绪如何领先大盘,领先大盘两三天,看空的情绪慢慢削减的时候,大盘的情绪慢慢上涨。
我们原来做过一些分析整个社交网络的数据情绪的事情,跟时空大数据的问题,我正好那个时候在美国访问,我们那个时候在16年的时候,美国正好大选用这样的模型,当时推特的数据我们进行分析,川普正在每个州的演讲,希拉里没有出来,川普发推特,我们看推特的信息,看美国的州或者市是蓝的还是红的,按照州来讲,我们的预测比较准。
还有舆情和古诗,这是北航的老师中国国内利用需求鼓包里面的讨论,他也是有一些比较有意思的结论,直接预测股价比较难,讨论最多就是散户,散户的噪音非常大,散户说买,可能已经晚了,那个时候已经变成了韭菜,至少他可以跟我们的交易量和换手率有非常大的关联性,交易量和还手率直接决定波动率,你做设计就是对波动率有非常大的优势,这个波动率从什么地方得到,就是从鼓包的新闻信息里面得到的。
另外机器学习利用到的地方就是增强学习,增强学习就是打游戏,可以下棋,在这里面很重要的应用就是做最优执行,这是一个什么事情,假设我今天有很多的股票,我想要卖掉,如果是散户,你就是这么几十股很轻松卖掉,没有什么问题,比如说,你现在有非常多的股票,今天有几十万股卖掉,你直接挂一个单,你对市场的冲击非常大,你卖掉的话,价格马上跌下去,不一定可以完全卖掉,如果对于聪明的决策,你把大单拆成小单,有计划卖出去,你卖得越慢,因为后面有股价有变化,你完全不知道从哪个方向变化,有可能朝着你的不利的方向变化,你要做一个均衡,我画的图是以前一篇比较有名的图片,用增强学习做最优执行的文献,现在可以做到更好。我们希望执行的价格是好于成交量做加权平均,一般的交易系统比较直接的做法是可以达到加权比较高,方法可以做到跟加权差不多,好于加权平均就是用增强学习的方法。
这是机器学习最好的会议,直白讲就是预测时间序列和股价,历史的股价拿过来输入到决策里面,可以大家它的上涨还是下跌的趋势,因为我们股票的价格优非常大的噪音,关系没有这么反应,这个文章的IDEA是什么,我这个价格有若干的周期,政治周期,经济周期,还有股市的周期,行业也有周期,希望周期不相同,互相的周期叠加起来影响这个股市,他试图做到把这些周期拆解出来,通过分解来不同周期在不同周期上面做决策,最后综合起来达到比传统统计模型更好的效果。
我介绍一下我们最近做的一些事情,试图讲机器学习应用到金融领域各个场景里面,我们也是了金融选股,我们每天选择十几支股票,选择15支股票测试达到什么样的准确率,这个模型做了比较多的工作,也是用深度学习和传统学习的方法,现在的因子数比较多,我们有一套人工智能技术自己去挖掘因子的方法,因子的意思就是说我们找到收益的序列相关性非常强的序号,用机器学习去挖掘,现在有几千个。大家可以看到纵轴,我们的准确率,三个图,最高1.0就是15支涨不涨,一天15支预测对了,就是总体来说准确在70%以上。
我们做股票策略,做股票策略的人有一种感受,选股比较容易,只要有一些因子,有一些常见的策略,大家都会选择股票,比较困难的事情就是择时,我们不说股灾,整个大盘回调的情况下你非常难做,不管怎么选择都是非常难选,比如说今天80%的股票跌,你非常难选,比如说是17年的行情,你看到的指数非常好,50和300指数非常好,但是每天都是70%的股票跌,就是几十个权重股在往上涨。
你更不要说大盘,大盘跌80-90%股票都是在跌,难点就是如何做择时,择时也是非常难的地方,我们也是综合场内外的数据,试图对大盘的风险有预测,我们现在可以做到至少在近两年我们经过回撤发现,可以发现对于大跌进行预警,我们可以提前几天发现,股票后几天不太好,大家最好减仓和平仓。
我们也是做了增强学习和智能执行,最开始没有深度学习,当然有神经网络,当时不是叫深度学习,我们相当于把这个技术用深度学习进一步来加强。我们可以做到80%的概率,一般会节省千分之二和千分之三的手续费,这也是一笔非常客观的开销,尤其是做换手率比较高的时候,这个节省成本非常大。
我们讲其他的东西不是特别的相关,我们做了一些跟强化学习的理论算法,目前的算法是GDPG,这是我们以前做的一些跟金融不是特别相关,就是时空大数据的预测,刚才是预测订单,一片区域未来半个小时或者是15分钟的订单的数据,这个跟金融的市场预测比较接近,这个相对比较简单一点。我们这边还有一些其他的人工智能的项目,列在那边就是我们最近跟一个部门合作,他想要做什么事情呢,我们通过卫星数据来看一个企业的基本面,我们通过卫星看它的仓库,仓储量有多少,有的把货推在仓库里面,非常大的一片,通过这个仓库预测这个企业最近的营销怎么样,或者停车场里面停了多少车预测这个企业怎么样,通过各种各样的技术分析企业的基本面。OCR,我们从表格里面财报里面采取一些信息。
用微信扫描二维码分享至好友和朋友圈
免责声明:本文仅代表作者个人观点,与凤凰网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
预期年化利率
凤凰点评:凤凰集团旗下公司,轻松理财。
凤凰点评:业绩长期领先,投资尖端行业。
凤凰点评:进可攻退可守,抗跌性能尤佳。
同系近一年收益
凤凰点评:震荡市场首选,防御性能极佳且收益喜人,老总私人追加百万。
西安九州医学中心
中国金融信息中心
凤凰国际iMarkets
凤凰网财经
凤凰网财经
凤凰网财经
凤凰国际iMarkets
凤凰网财经
中国日报网
每日经济新闻
凤凰网财经
凤凰网财经
凤凰网财经
凤凰网财经
凤凰国际iMarkets
凤凰国际iMarkets
澎湃新闻网
没有更多了
凤凰财经官方微信
播放数:274461
播放数:125509
播放数:198808
播放数:5808920

我要回帖

 

随机推荐