大数据技术在量化交易 数据库的应用上有哪些

“大数据”在量化投资中,是什么地位?
大数据在传统领域的应用有金融和零售;而新型应用领域有互联网和电子商务,以及智慧城市。 从大数据和宏观研究角度讲,美国国家经济研究中心(NBER)网站论文称:中国的GDP增速有可能被低估了。 蒋龙(通联数据首席科学家)表示:在亚洲,夜间灯光经常是测量经济
  大数据在传统领域的应用有金融和零售;而新型应用领域有互联网和电子商务,以及智慧城市。
  从大数据和宏观研究角度讲,美国国家经济研究中心(NBER)网站论文称:中国的GDP增速有可能被低估了。
  蒋龙(通联数据首席科学家)表示:&在亚洲,夜间灯光经常是测量经济活动的一个绝佳指标。&
例如,在1998年亚洲的金融危机以后,东南亚各国的经济恢复程度的不同,能够从各国夜间的灯光亮度获取非常好的反映。从三位美国专家研究了中国的夜间灯光地图之后,从中推测出,中国经济发展程度比官方提供的GDP数字还要好,这种情况可能是中国政府统计GDP数字时,低估了中国蓬勃发展的第三产业的产值。
  在大数据时代,金融行业人士已经不再陌生。例如水利数据和发电量研究,蒋龙表示:&日度水利数据来预测发电量,要注意发电量的三个因素:
水头(简单理解为水位落差) + 排水量(出库流量) + 机组特性。水头数据 = 水位 &
下游海拔。出库流量,为我们数据库收集的大数据,机组特性,表征机组的能量转化效率。&
  事实上,在我们日常的生活中,大数据一直围绕在我们身边。通过大数据统计可知,在2009年以后,每一个重点城市房价涨幅和常住人口增幅相关系数已达到了0.78.
  根据有关数据显示,大数据与舆情分析的关系,就好像每个候选人一样,分析可以划分为:各自支持者和反对者的推文,还有多位候选人的推文。在推文中,特朗普的提及率占有明显的领先优势。特朗普根据新媒体时代大数据的作用,分析了自己和希拉里的社交媒体阵容,判断出选民的投票意向,分析出敌对阵营特点,致使对希拉里的攻击也十分有效,坚固了自己阵营不说,在最后还拉来了很多&黑转粉&。
  1.大数据时代对的机遇有哪些呢?
  蒋龙表示:数据呈几何状增长,可以获取非相关超额收益成为了另类数据创造另类信息优势的一个潜在新来源。
  对量化投资来讲,大数据时代也面临挑战。
  从量化投资基金经理身上可知,传统量化投资大部分的时间都浪费在了数据清洗和数据整理上。
  我们都知道社会在不断的进步,大数据推动了人工智能的进步,也随之充分的发挥了其价值。例如:现在人工智能成功的应用有语音识别、图像识别、搜索推荐、精准营销、无人驾驶、机器翻译和对话系统等等。
  蒋龙表示:&其实大数据 + 人工智能就是从投资本质上对未来进行的预测,新数据带来新机会,AI带来预测能力。& 。
  2.大数据时代,金融巨头有什么大动向?
  高盛新创FinTech公司Kensho宣称,荣获了高盛1500万美元投资,Jeff
Gido(高盛金融科技全球负责人)表示,在未来,金融科技第三波发展浪潮会聚焦在传统玩家和金融科技创业公司的合作上。
  在日,全球最大资产管理公司贝莱德集团对外宣称,将裁去一部分主动型基金经理,同时应用量化投资策略代替。在2015年,贝莱德(BlackRock)宣称将收购初创公司FutureAdvisor,一家低调的智能理财公司。
  蒋龙表示,智能投资和量本投资各有各的优势。主动投资:深入研究、少而精,偏艺术。而量化投资挖掘市场规律、有广度,偏科学。
  3.作为金融行业人士,金融领域要怎么样深度学习高频策略呢?
  蒋龙表示,&从市场微观结构的角度来说,股票价格的形成和变化是由买卖双方的交易行为决定的。因此,对高频市场行情数据的挖掘一定程度上可以获取对未来股票价格走势的有预测能力的模式。&
  野村证券预测,到2020年智能投顾资管规模有可能会达到2.2万亿美元。
  蒋龙表示,大数据时代让投资变的更轻松,资本实力和一流的团队,国际顶尖金融专家领队和前BAT技术高管,以及海内外名校精英,全球布局,技术实力,70%以上的开发人员、前沿的机器学习,数据挖掘技术和强大的分布式计算能力。
  &打造&金融新生态&,让投资更容易。&
蒋龙说,以人工智能和金融大数据驱动为投研平台,一定程度上解放了生产力;数据-研究-回测-模拟-交易,全面的量化研究体系与分布式平台支撑;以自主产权量化模型为基础,打造一站式资管服务平台;深度用户画像分析+领先的资产配置,全面实现个性化和智能化服务。在交易的过程中,可以更加的得心应手。(责任编辑:admin)
------分隔线----------------------------
从历史数据方面来看,基本面分析的方式看似考虑周到,却不一定准确,原因是在人们的认...
从 量化投资 被创造到发展到如今的这50年,市场也经历了数次的大的变动,从最初的极不...
量化投资 从诞生起距今已经有了50年的发展历史,因其投资收益较稳定,市场规模和份额...
近年来, 量化投资 对资产管理起到了积极作用,这表明国内量化投资的发展是极其有前景...
量化投资 的优势,是通过统计模型和计算机技术,既可以处理大量的数据,又可以跟踪数...
作为投资交易策略的一种,量化投资策略是利用所构建的投资模型指导投资的一种技术手段...
本站官方合作培训,报名享优惠大数据时代的量化投资-业界动态-@大数据资讯
你好,游客
大数据时代的量化投资
来源:上海证券报 &
  金融改革和金融创新在上海的未来发展中占据着至关重要的位置。国家根据发展的全局统筹推出上海自由贸易试验区,进一步推进上海四个中心建设,将为中国的金融改革提供丰富的经验,也将带来巨大的投资机遇。金融市场的逐步开放将会大大促进金融创新的步伐,给投资者带来越来越多的投资渠道,同时也将加速中国金融市场与国际金融市场的融合。毫无疑问,很多国外成熟的投资工具和投资方法将逐步进入中国市场。以期货市场为代表的衍生品市场将迎来飞速增长,以量化投资为代表的投资方法也将得到投资者更大的关注。最近几年进入公众视野的量化投资,由于其比较强的技术性(数学和计算机),再加上诸多媒体对其神秘化的描述,许多投资者对此仍然觉得比较陌生。我想结合量化投资的理念以及国外量化投资的发展和大家分享对中国量化投资发展的几点看法。
  1. 量化投资的核心是风险的量化管理。
  理性的投资者在投资时追求的不只是收益,更重要的是对风险的管理。现代金融的理论创新基本上都是围绕着金融风险的管理展开的,比如Markowitz的投资组合理论和Sharpe的资本资产定价模型。去年的诺贝尔奖得主Fama提出了基于风险要素分析的投资模型。在越来越复杂的浩瀚的资本市场中,如何衡量各种投资工具的风险以及优化投资组合变得更加重要,传统的定性投资方式也因此受到了冲击和挑战。在此背景下,量化投资的出现符合市场的需求,采取量化的方式和手段对风险进行评估,是一种严谨透明的投资理念。比如在国外比较流行的风险均衡(risk parity)模型,就是一种典型的从风险优化中追求收益的一种创新模型,在过去几年获得了巨大的成功。
  2. 技术的发展给量化投资提供强大的技术支持。
  有很多学者将计算机以及互联网的出现称之为第三次工业革命。在这个信息科技高速发展的变革时代,每个行业都面临着带来的挑战。在投资业,各种渠道提供的海量信息以及高频金融交易数据都在深刻地影响这个行业的发展以及金融市场的有效性。信息系统的发展以及统计工具的进步,都为投资者提供了一种向要收益的可能性。在大数据时代背景下,各种针对大数据处理的技术的发展将在量化投资中得到应用,为投资者带来更大的回报。
  3. 金融创新给期待量化投资的投资者提供了丰富的投资工具。
  自20世纪50年代以来,金融市场出于规避监管,转嫁风险和防范风险等需要,推出了很多创新性的金融产品,提供了越来越丰富的投资工具。金融衍生品在金融市场中占的比例越来越重要,除了以传统的股权和债券产品为标的的衍生品外,以大宗商品等非传统资产为标的的衍生品发展也如火如荼。比如当前中国衍生品市场中交易量最大的主要是商品期货,交易金额总量已经是国民生产总值的2.8倍。在海外,商品期货市场的蓬勃发展还推动了专着于投资于期货市场的量化投资基金的发展,比如,在2013年底全球2万7千亿美元的对冲基金市场中,面向商业期货的对冲基金CTA(商品期货交易顾问,主要投资期货)的资产规模已经达到了4千亿美元。
  4. 中国量化投资的前景广阔。
  相比国外的金融市场,中国的金融市场还处在起步期。在传统的股权和债券市场中,市场监管还相对比较严。衍生品市场的发展也还相对比较滞后。比如我们前面提到的商品期货市场,虽然当前的交易金额总量已经是中国国民生产总值的2.8倍,但是在美国这个比例是55倍。不过,差距隐藏着增长潜力。我们看到了中国政府在发展金融市场中的战略眼光和雄心。党的十八届三中全会提出了&健全多层次资本市场体系&的指示精神,为十二五期间的资本市场发展指明了方向。随着金融投资工具的增加,量化投资将显示出其更大的作用,帮助投资者在更好的风险管控中寻求最佳收益回报。
相关新闻 & & &
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款量化投资 做大数据潮的弄潮儿
  摘要:
  大数据技术的发展,使量化投资突破以往瓶颈、紧跟时代创新成为可能。如何深刻理解大数据的内涵,又怎样在大数据背景下重新定位量化投资、把握两者的关系从而展望未来,成为当下的一个重要课题。
  大数据有4个V
  若要谈及大数据与量化投资的关系,那么首先我们要理解什么是大数据。大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征:
  1.数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
  2.数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
  3.价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
  4.处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就显得尤为重要。
  大数据,不止是量还是技术
  大数据包括两层含义:
  第一层含义是指数据量,如上文所指,是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助决策者进行决策的的资讯。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中指出:&大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。
  同样的,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。因此大数据有这样的第二层含义:大数据是一个与解决过去因技术限制和/或过高的成本而无法解决的业务问题所需的新型工作负载和基本技术相关的术语。
  大数据不仅仅与数据量有关。它可能是数据量中等但数据种类(数据和分析复杂性)极高的数据。大数据分析的主旨在于:与数据量、数据速度和数据种类(可能包含复杂的分析和复杂的数据类型)的某种组合相关的分析工作负载。因此,大数据可能与结构化和多结构化数据相关,而不仅限于后者 。正因如此,大数据分析可能包含传统数据仓库环境,因为某些分析工作负载可能需要同时使用传统平台和针对工作负载优化的平台来解决业务问题。大数据不能取代数据仓库。实际上,数据仓库是扩展分析环境的一个组成部分。&
  从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
  大数据发展,量化投资新机遇
  大数据按照来源的类型大致可分为三类:
  1.传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。
  2.机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。
  3.社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。
  在以上分类中,金融数据属于最为重要也是相对传统的第一类,包括了交易数据和投资行为数据。一般而言,传统上我们进行量化投资,使用的是这一类数据,但是随着大数据技术的发展,越来越多的交易者和研究员开始使用以上三种类型数据中的一种或多种。这些数据反映了交易的参与者和相关者在交易行为之前的动机和交易过程中的行为,利用海量的数据基础,使用概率论来进行分析,并进一步做出投资决策,是量化投资的一个发展趋势。大量的实证表明,我们日常行为通过大数据技术处理可以被预测准确的概率达到93%一样,人们的参与投资与交易的行为同样可以被高度预测,过去的几十年中,预测准确率无法有突破性的进展的一个重要原因,不是研究者的理论基础缺乏,而是缺乏足够的试验数据材料。
  这就好比航空工业中,虽然有发动机的理论基础及设计图纸,但是缺乏符合其强度要求的材料和适合的加工工艺一样,量化投资作为一种方法论,虽然逐渐被人们所认可,但是缺乏足够的数据来完全实证解释相应的经济及金融现象。同时采用抽样统计的方法,也不能全面的反映市场轮廓,直到大数据技术的发展,使这一切都成为可能。
  大数据之于量化投资的核心价值
  那么,大数据在量化投资中的核心价值又是什么呢?考虑到量化投资的一般步骤是:1.事件数据化;2.描述建模;3.实证分析;4.分析预测;5.策略建模。我们认为大数据在以上的过程中,最大帮助是分析与预测行情发展的走势。
  有分析才能精准
  我们先看分析方面,随着计算机设备的小型化和无线网络技术的发展,人们已经可以随时随地进行信息获取。然而不便之处在于,在获取信息的同时,我们往往要去考虑所筛选的信息是否真正有用。大数据的发展将会解决这一问题,系统将会按照量化交易者的需求对信息进行筛选整合,将有用的信息精准呈现到交易者眼前。因此,数据分析已经渗透到证券和期货行业与相应的业务职能领域,成为重要的生产因素。
  大数据被认为是继云计算、物联网之后的又一大颠覆性的技术性革命,不过相对于云计算对数据资产的保管功能,大数据才是真正对于投资基金有价值的资产。投资及交易领域的发展天生就依赖于大量的数据分析来做决策,而如今正处于数据大爆发的时代,如何获取这些数据并对这些数据进行有效分析就显得尤为重要。特别是随着移动互联网的发展,信息的传输日益便利,端到端的需求也日益突出,对于整个量化投资领域而言,大数据市场是等待挖掘的金矿,作为量化投资基金而言,可以说谁能掌握和合理运用大数据的核心资源,谁就能在接下来的技术变革中进一步发展壮大。
  量化投资的大数据优势:
  虽然在最近的几十年中,数据分析已经渗透到了量化投资领域,应用也越来越多样化,但是单一的数据存储和分析已经远远不能满足交易者的发展需求,特别是处在高速发展中的衍生品交易领域。相较于传统的共同基金,量化投资基金在数据资源、基础资源、平台资源以及专业技术支撑上拥有先天性优势,所以在大数据价值的挖掘方面将会更有优势。
  量化投资的挑战与尝试:
  凭借着对于市场的敏锐感知,一些量化投资基金早已在数据资源的积累和挖掘方面有所部署,他们通过蜘蛛程序抓取网页上人们的注册和身份信息来构建人群的基本数据形态,同时还可以及时将人群的上网行为信息补充进去,构建全方位多角度的数据模型。使用计算机根据这些已经获得的信息做出相应分析,智能的分析市场中某一群体对当下经济形势的看法,实现数据的价值。特别是对于一些互联网巨头所主动提供的数据而言,涉及电子商务、地图、游戏、社交、搜索等各个方面(如阿里目前的大数据分享计划),所获得的用户信息用户轨迹资料就会相当的完整,分析的结果也更加准确。
  但是就目前而言,在大多数量化投资基金中,所有的这些数据还没有真正形成合力,还没有充分发挥其真正的价值。有观察者认为,数据的价值不在于数据的大小而在于数据的分析。要实现数据的真正价值,第一步就是将分散的数据信息进行整合,按照基础信息、位置信息、社交信息、行为信息进行归纳,这些信息最终会成为人群在经济活动和金融行为上的详尽解释,因为每一块的数据不可能是一个孤立的整体,它必将是结构化的,这些数据之间有着千丝万缕的联系,只有充分理清后进行精确的应用,才能充分挖掘其中蕴藏着的巨大价值,供量化投资基金的决策者使用。
  随着大数据的发展,一些量化基金也越来越重视与那些掌握着大量数据相关的开发和应用的互联网巨头的合作,从而获取更多的市场机会。对于掌握庞大数据资源的互联网企业而言,对于大数据价值的挖掘,最根本的就是探索出大数据价值所对应的商业模式,并为此找到愿意为大数据买单的使用者,量化投资基金正是这一类理想的客户群体。量化投资基金和互联网企业对于大数据资源的挖掘不是简单地充当数据存储和搬运的角色,而是要在保证用户数据信息安全的前提下通过这些数据对用户的行为和需求进行分析,以海量数据为基础 ,提供高附加值的数据分析服务,形成核心能力,挖掘出大数据其中的真正价值。因此我们有理由认为大数据的核心价值在于分析,移动互联网时代给了我们获取海量数据的机会,有了完整数据资源的宝库,量化投资基金可以通过高效的数据资源分析和利用,在复杂的交易市场环境中做出精准的投资决策,提高投资收益率。
  用预测看破未来
  大数据对于量化投资的第二个核心价值就是预测,我们知道世界杯期间各家科技巨头利用大数据预测比赛结果,再现“章鱼保罗”雄风。世界杯结束了但大数据预测还会继续。从夜观天象到气象预报,从童话里的水晶球到今日的科技预言家,从地震云的传说再到科学家猛攻的地震预测,人类一直希望能够更早突破局限看穿未来。随着信息革命的深入,大数据时代的预测更加容易,人类的生活正在被大数据预测深刻改变。因此人们在谈论大数据的采集、存储和挖掘时,最常见的应用案例便是“预测股市”“预测市场行为”。
  因此,大数据还拥有数据可视化和大数据挖掘的功能,对已发生的信息价值进行挖掘并辅助交易决策。传统的量化投资基金的数据分析挖掘在做相似的事情,只不过效率会低一些或者说挖掘 的深度、广度和精度不够。大数据预测则是基于大数据和预测模型去预测未来某件事情的概率。让分析从“面向已经发生的过去”转向“面向即将发生的未来”是大数据与传统数据分析在量化投资领域的最大不同。
  大数据预测行情的逻辑基础是,金融市场每一种非常规的变化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆与变化之间的规律,就可以进行预测。但是请注意,同传统的数据挖掘一样,大数据预测无法确定某件事情必然会发生,它更多是给出一个概率。
  大数据在预测金融市场中具备以下几个特性:
  1、数据预测的时效性。预报粒度从天缩短到小时,有严苛的时效要求,基于海量数据通过传统方式进行计算,得出结论时明天早已到来,预测并无价值。大数据预测应用特征对“时效性”有更高要求,譬如股市、实时定价,而云计算、分布式计算和超级计算机的发展则提供了这样的高速计算能力。
  2、大数据预测的数据源。金融市场价格预测需要收集海量交易数据,交易所承担着收集,和整理这些数据的作用,但整套系统的部署和运维耗资巨大。即使是这样,能够收集到全市场数据和参与人的行为数据也是不可能的事情,在大数据之前鲜有具备这样的数据收集能力。而互联网则是随时随地、社会化和多设备的数据上传,每一次演化数据收集的成本都大幅降低,范围和规模则大幅扩大。交易所不再是数据收集的中心,客户端及作为载体的移动终端(诸如手机)将把人群的信息发送给采集中心,大数据被引爆的同时,大数据预测所需数据源不再是问题。
  3、大数据预测的动态性。不同时点的计算因子动态变化,任何变量都会引发整个系统变化,甚至产生蝴蝶效应。如果某个变量对结果起决定性作用且难以捕捉,预测难上加难,譬如人为因素。大数据预测的金融市场恰恰是极不稳定的但有固定规律,诸如股市及衍生品市场。这需要预测系统对每一个变量数据的精准捕捉,并接近实时地调整预测。发达的终端网络外加大数据计算能力让上述两点更加容易。
  4、大数据预测的规律性。大数据预测金融市场与传统的基于抽样的预测不同之处在于,其基于海量历史数据和实时动态数据,发现数据与结果之间的规律,并假设此规律会延续,捕捉到变量之后进行预测。投资领域本身便有相对稳定的规律,大数据预测才有机会得到应用。
  畅想大数据未来
  我们可以通过下面几个应用来看到大数据的未来:
  股票市场预测:英国华威商学院和美国波士顿大学物理系的研究发现,用户通过谷歌搜索的金融关键词或许可以金融市场的走向,相应的投资战略收益高达326%。此前则有专家尝试通过Twitter博文情绪来预测股市波动。
  理论上来讲股市预测更加适合美国。传统上中国股票市场无法做到双向盈利,只有股票涨才能盈利,但是目前已经有融券业务和股指期货业务,可以允许部分有资格的投资者从事做空交易,这会改变一些游资利用信息不对称等情况人为改变股票市场的规律,因此中国股市不再是没有相对稳定的规律而很难被预测,从而结束了一个对结果产生决定性影响的变量数据根本无法被监控的年代。
  黄金价格的预测:我们可以通过下面的一个实例来看一下大数据在量化投资领域的另一个应用,就是通过KRR回归分析,来预测黄金未来的价格走势。在过去的年代,因为缺乏高质量和海量的数据,人们无法预测某一个交易标的物的涨跌趋势就波动率情况,这就意味着,仅仅透过过时的市场信息,使用传统的分析方法和传播途径进行交易,和在赌场里猜测下一张扑克是A还是K一样不可靠和危险,进一步的是,既是你预测出某一范围,比如是数字而不是花色,你也不可能将该结果推进到数字几或者是花色几。
  首先,KRR回归分析的解需要全部的训练集样本。我们采用日到日的纽约黄金交易数据,建立一个约4000个训练点的训练集,每一个点都对应每日的黄金收盘价格,然后,我们再另外建立一个数组,里面包含我们要预测的下一个交易日的预测点。随后我们创建训练核矩阵,KRR会随机的将数据拆解成若干个大小相同的子集,然后对每一个子集进行独立的KRR估计,最后去的局部解的均值,进而进行全局预测。实际上,我们惊喜的发现。日的黄金的收盘价格,观测值为1234.8,而观测值(月均)为1192,预测值则分别是86(月均)。两者的差距非常接近。这为量化交易者制定交易策略提供了有力的预测。
  有关大数据与量化投资领域方面的畅想还有很多。综上,我们已经能够大致的描述出两者之间的联系及发展前景的轮廓。更为进一步的探讨则欢迎到我们的恒生量化社区中与众多的大数据与量化投资爱好者一同分享这一方面的前沿进展。
(责任编辑: 赵诚)
分享文章到
财经新闻 你总比别人先知道机器学习与量化交易:大数据
& & J.P.摩根最新的280&页研究报告《大数据和&AI&策略——面向投资的机器学习和另类数据方法》,极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来,对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义。& & 另类数据可用&分析数据的新定量技术& & ——机器学习,正在成为竞争优势的新来源& & 大数据和机器学习“革命”:目前,联网设备以电子方式获得了大多数的记录和观察。这原则上允许投资者实时访问广泛的市场相关数据。例如,可用于评估通货膨胀数百万项目的在线价格,可以实时估计销售量的商店访问和交易的客户数量,可以评估石油钻井平台或农业活动产量的卫星图像。历史上,类似的数据只能以低频率(例如每月CPI、每周钻机数量、美国农业部作物报告、零售销售报告和季度收入等)提供。鉴于可用的数据量,有经验的量化投资者在理论上可以接近获得实时的某公司特定的数据,而这些数据不能从传统的数据源获得。在实践中,有用的数据不容易获得,需要购买,需要组织和分析另类数据集以提取可交易信号。大型或非结构化数据集的分析通常使用机器学习来完成。在设计定量策略方面,成功应用机器学习技术需要一定的理论知识和很多实践经验。& & 在苦苦追寻&Alpha&(对于非金融领域的读者,可以简单地将&Alpha&理解为超额回报)的过程中,基金经理越来越多地采用量化策略。另类数据的可用以及分析这些数据的新定量技术——机器学习,正在成为竞争优势的新来源。这种“数据的工业革命”旨在通过信息优势和发现新的不相关信号的能力来提供&Alpha。大数据信息优势来自手机、卫星、社交媒体等新技术创造的数据。大数据的信息优势与专家、行业网络甚至企业管理能力不直接相关,更多体现的是收集大量数据并实时分析数据的能力。在这方面,大数据有能力深刻改变投资环境,进一步将投资行业趋势从自由决定性转变为量化投资风格。& & 有三个趋势使大数据革命成为可能:& & 1)可用数据量的指数增加;& & 2)提高计算能力和数据存储容量的成本降低;& & 3)分析复杂数据集的机器学习方法取得了进展。& & 有许多经常使用的概念可以用于描述大数据,这里我们给出最简明的用来描述大数据的维度:& & 大数据有三个重要的特征维度:& & 体量:通过记录、公报、图表、文件等等收集并存储的数据的规模,大数据的“大”的下限正在持续升高;& & 速度:数据的发送和接收速度经常被作为大数据的显著特征。大数据能够批量传送;大数据的获取是实时的,或是接近实时的。& & 多样性:大数据经常具有多样性的形式——结构化的(如SQL&表格或&CSV&文件),半结构化的(如&JSON&或&HTML),非结构化的(如博客或视频信息)。& & 另类数据集的分类& & 在投资管理中,大数据革命的核心在于能够提供具有信息优势的数据资源。另类数据带来的优势可能是在于发现传统的信息源中没有包含的新信息,或者发现的是相同的信息,但是速度更快,时间更早。例如,矿井或者土地的卫星图片能够在媒体或者官方报告前,揭示供应短缺。& & 我们旨在提供大数据的框架或分类。首先,我们根据数据的生成方式对数据进行分类。然后,我们考虑的是数据集的属性,也就是与投资专业直接相关的,例如将数据集映射到资产类别或投资风格,alpha内容,数据质量,技术规格等。& & 我们首先在高水平上对数据来源进行分类,指出它们到底是由个人(如社交媒体帖子)生成,还是通过业务流程(如电子商务或信用卡交易数据)生成,或由传感器(比如卫星图片、雷达等等)生成。& & 在根据数据来源对数据进行分类之后,我们还要提供另一个投资人士可能更为感兴趣的分类方法。一个零售版块的投资组合经理可能更关心的是特定的销售数据,而无所谓它们是卫星生成的还是消费者志愿填写的。高频交易者关心每天产生的数据,比如推特、最新发布等等,但不太关心有明显延迟的信息,比如信用卡数据。在下图这个“投资分类”中,我们为各种另类数据标示了不同的属性,这些属性和投资专业人士比如&CIO、投资组合经理等高度相关。& & 大型和较少结构化的数据集通常不能用简单的电子表格工作和散点图进行分析。我们需要新的方法来解决新数据集的复杂性和规模。例如,使用金融分析师的标准工具不可能对非结构化数据(如图像,社交媒体和新闻稿)进行自动分析。即使在大型传统数据集上,使用简单的线性回归往往会导致过度拟合或不一致的结果。机器学习方法可用于分析大数据,以及更有效地分析传统数据集。& & 毫无疑问,机器学习技术在应用于图像识别,模式识别,自然语言处理以及自动驾驶汽车等复杂任务时,产生了一些惊人的成果。那么,机器学习在金融中的应用是什么,这些方法相互之间有何不同?& & 首先需要强调,任务的自动化不是机器学习。我们可以指示计算机根据固定的规则执行某些操作。例如,如果资产价格下降了一定量(止损),我们可以指示电脑出售资产。即使给机器(也称为“符号人工智能”)大量复杂的规则,并不意味着就是机器学习,这只能说是任务的自动化。使用这个“符号人工智能”,机器在遇到与此前预编程的规则不匹配的情况时,只会选择自我“冻结”。& & 在机器学习中,给予计算机一个输入(一组变量和数据集),输出是输入变量的结果。该机器然后发现或“学习”在输入和输出之间起到链接作用的规则。& & 最终,这个学习任务的成功会被进行“样本外测试”,也就是,在未知的情景下,测试它所获得的这种连接变量和可能的预测结果之间的关系能力。& & 机器学习可以是监督的或无监督的。在监督学习中,我们试图找到一个规则,一个可以用来预测变量的“方程式”。例如,我们可能想要寻找一种能够预测未来市场表现的能力(趋势跟踪)信号。这可以通过运行先进的回归模型来评估哪一个具有较高的预测能力,并且对于regime变化最为稳定。& & 在无监督学习中,我们发现了数据的结构。例如,我们可能获得了市场回报,现在尝试确定回报的主要驱动力。例如,一个成功的模式可能会揭示,在某个时间点,市场受动量因素、能源价格、美元水平以及与流动性有关的新因素的驱动。深度学习是一种机器学习方法,可以分析在多个层级上学习数据(因此“深度”)。&我们经常说的自动化的目标是执行易于定义但执行起来乏味的任务,而深度学习&AI&系统的目标是执行难以定义但易于执行的任务。深度学习本质上与人们学习的方式更相似,因此是人为重建人类智慧的真正尝试。& & 深度学习用于非结构化大数据集的预处理(例如,它用于计算卫星图像中的汽车,识别新闻稿中的情绪等)。在假设的财务时间序列示例中,深度学习预测(或估计)了市场修正的概率。我们可以将大量的数据集输入到深度学习模型中。该模型可能首先确定一些对市场产生负面影响的简单特征,例如动量崩溃,波动性增加,流动性下降等。这些因素单提出来可能不会导致市场纠正(market correction)。此外,算法可以识别这些简单特征之间的模式和它们之间的非线性关系。从这些模型中,它可以构建更复杂的特征,如EM&驱动灾难(EM driven crises),财务压力,这些最终可能导致更为显著的市场纠正(market correction)甚至衰退。& & 上图显示了交易策略中各种机器学习/人工智能及其潜在应用。最初,先提供灰框中的步骤给算法(作为训练集的一部分),然后由机器学习算法生成绿色框中的步骤。& & 在另类数据中实施机器学习的主要步骤& & 鉴于风险和不确定的回报,许多投资者都在思考何时应该采用更具量化性的、数据驱动型的投资方法。首先我们简要概述实施过程中的主要步骤(例如有多少需要外包、内部构建大数据/机器学习所需的人才、典型的技术设置等等)。如下图所示:& & 首先需要识别和获取数据。数据采集团队可以直接通过数据所有者/供应商或聚合第三方数据的专业公司(并与供应商和最终用户相匹配)来获取新数据源的使用权。一旦许可协议到位,数据需要存储和预处理。大数据很少呈现出干净的形式,一般都无法直接提供给机器学习算法使用。需要专门的团队预处理数据(例如检测异常值、缺失值等)。数据科学团队由量化研究人员组成,借助机器学习、反向测试策略和可视化技术分析数据,根据数据推导出可交易信号或见解。最后,信号由投资组合经理实施,或者在某些情况下以自动化方式执行(这将涉及到系统的另一层和将信号链接到执行系统的软件专家)。& & 我们认为,大数据与机器学习革命将深刻改变投资环境。随着越来越多的投资者采用大数据,市场的反应将更快,并将越来越多地期待传统或“旧”数据源。这将为量化经理和愿意采用和了解新数据集和分析方法的人们提供优势。那些不学习、拒绝进化的人将面临过时的风险。不管这些变化的时间表如何,我们认为,分析师,投资组合经理、交易者和首席信息官最终将不得不熟悉大数据和机器学习的发展和相关的交易策略。来源:YYQuant
警示:文中如涉及个股仅作案例之用,不构成任何推荐!据此操作,风险自负!
点击输入您的评论(文明发言、理性评论,勿发恶意评论,禁止人身攻击)
请勿发任何形式的广告、勿私自建群、发布群号、QQ号或其他联系方式!
请勿向他人索要联系方式。请所有用户小心非官方QQ号,谨防上当受骗!
购买:49人
购买:710人
购买:47人
赞美率:90%
赞美率:88%
赞美率:93%
赞美率:87%
赞美率:95%
赞美率:90%
赞美率:94%
赞美率:89%
对标涨跌:
累计涨跌:
对标涨跌:
相对涨跌:
对标指数:
相对涨跌:
下载点掌财经客户端
友情链接:
违法和不良信息举报热线:021-
网站安全值班QQ:
举报邮箱:
您还未绑定手机号
请绑定手机号码,进行实名认证。
手机号码:
请输入手机号码,您的个人信息严格保密,请放心
图形验证码:
请输入右侧图形验证码
短信验证码:
请输入接收的短信验证码
获取短信验证码
下载客户端
您修改的价格将提交至后台审核审核时间为1个工作日,请耐心等待
互联网跟帖评论服务管理规定
第一条 为规范互联网跟帖评论服务,维护国家安全和公共利益,保护公民、法人和其他组织的合法权益,根据《中华人民共和国网络安全法》《国务院关于授权国家互联网信息办公室负责互联网信息内容管理工作的通知》,制定本规定。
第二条 在中华人民共和国境内提供跟帖评论服务,应当遵守本规定。
本规定所称跟帖评论服务,是指互联网站、应用程序、互动传播平台以及其他具有新闻舆论属性和社会动员功能的传播平台,以发帖、回复、留言、“弹幕”等方式,为用户提供发表文字、符号、表情、图片、音视频等信息的服务。
第三条 国家互联网信息办公室负责全国跟帖评论服务的监督管理执法工作。地方互联网信息办公室依据职责负责本行政区域的跟帖评论服务的监督管理执法工作。
各级互联网信息办公室应当建立健全日常检查和定期检查相结合的监督管理制度,依法规范各类传播平台的跟帖评论服务行为。
第四条 跟帖评论服务提供者提供互联网新闻信息服务相关的跟帖评论新产品、新应用、新功能的,应当报国家或者省、自治区、直辖市互联网信息办公室进行安全评估。
第五条 跟帖评论服务提供者应当严格落实主体责任,依法履行以下义务:
(一)按照“后台实名、前台自愿”原则,对注册用户进行真实身份信息认证,不得向未认证真实身份信息的用户提供跟帖评论服务。
(二)建立健全用户信息保护制度,收集、使用用户个人信息应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。
(三)对新闻信息提供跟帖评论服务的,应当建立先审后发制度。
(四)提供“弹幕”方式跟帖评论服务的,应当在同一平台和页面同时提供与之对应的静态版信息内容。
(五)建立健全跟帖评论审核管理、实时巡查、应急处置等信息安全管理制度,及时发现和处置违法信息,并向有关主管部门报告。
(六)开发跟帖评论信息安全保护和管理技术,创新跟帖评论管理方式,研发使用反垃圾信息管理系统,提升垃圾信息处置能力;及时发现跟帖评论服务存在的安全缺陷、漏洞等风险,采取补救措施,并向有关主管部门报告。
(七)配备与服务规模相适应的审核编辑队伍,提高审核编辑人员专业素养。
(八)配合有关主管部门依法开展监督检查工作,提供必要的技术、资料和数据支持。
第六条 跟帖评论服务提供者应当与注册用户签订服务协议,明确跟帖评论的服务与管理细则,履行互联网相关法律法规告知义务,有针对性地开展文明上网教育。跟帖评论服务使用者应当严格自律,承诺遵守法律法规、尊重公序良俗,不得发布法律法规和国家有关规定禁止的信息内容。
第七条 跟帖评论服务提供者及其从业人员不得为谋取不正当利益或基于错误价值取向,采取有选择地删除、推荐跟帖评论等方式干预舆论。跟帖评论服务提供者和用户不得利用软件、雇佣商业机构及人员等方式散布信息,干扰跟帖评论正常秩序,误导公众舆论
第八条 跟帖评论服务提供者对发布违反法律法规和国家有关规定的信息内容的,应当及时采取警示、拒绝发布、删除信息、限制功能、暂停更新直至关闭账号等措施,并保存相关记录。
第九条 跟帖评论服务提供者应当建立用户分级管理制度,对用户的跟帖评论行为开展信用评估,根据信用等级确定服务范围及功能,对严重失信的用户应列入黑名单,停止对列入黑名单的用户提供服务,并禁止其通过重新注册等方式使用跟帖评论服务。国家和省、自治区、直辖市互联网信息办公室应当建立跟帖评论服务提供者的信用档案和失信黑名单管理制度,并定期对跟帖评论服务提供者进行信用评估。
第十条 跟帖评论服务提供者应当建立健全违法信息公众投诉举报制度,设置便捷投诉举报入口,及时受理和处置公众投诉举报。国家和地方互联网信息办公室依据职责,对举报受理落实情况进行监督检查。
第十一条 跟帖评论服务提供者信息安全管理责任落实不到位,存在较大安全风险或者发生安全事件的,国家和省、自治区、直辖市互联网信息办公室应当及时约谈;跟帖管理服务提供者应当按照要求采取措施,进行整改,消除隐患。
第十二条 互联网跟帖评论服务提供者违反本规定的,由有关部门依照相关法律法规处理。
第十三条 本规定自日起施行。
请前往个人中心进行实名认证
您还可以使用天翼视讯账号登录阿牛直播
没有账号?
请选择打赏数
该文章您还未购买,确定要打赏吗?
付100牛即可查看有谁在踩
您还未绑定手机号
请输入手机号码,获取验证码进行手机绑定。
手机号码:
您的个人信息将严格保密,请放心填写

我要回帖

更多关于 量化交易论坛 的文章

 

随机推荐