如何收集及利用股市资讯网

浅析股票投资中的信息收集_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
浅析股票投资中的信息收集
上传于|0|0|暂无简介
阅读已结束,如果下载本文需要使用5下载券
想免费下载本文?
定制HR最喜欢的简历
你可能喜欢干货基于微信大数据的股票预测研究-应用案例-@大数据资讯
你好,游客
干货基于微信大数据的股票预测研究
来源:清华大数据&
  王勇院长、杰出的各位教授们、社科学院的同学们以及各位来宾:
  下午好!我很荣幸今天来到这里做这篇关于和股市预测的演讲。当图索丽女士邀请我今天来参加第一届网络经济与大数据国际会议时,我想,来给远比我专业比我权威的专家学者演讲?这事我能做。
  大数据是近些年来的热门话题,无论国际上还是国内,影响很大。经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。而全球经济目前生成了史无前例的大量数据,如果把每天产生的大量数据比作神话时期的大洪水是完全正确的,这个数据洪流是我们前所未见的,他是全新的、强大的、当然,也是让人恐慌但又极端刺激的。
  我 2007年从南京大学本科毕业,获得软件工程学士学位;2015年进入清华大学计算机专业,攻读硕士学位;可以说,这个世界在这短短的10年当中发生了翻天覆地的变化,移动互联网、云计算、大数据在悄然改变着我所生存的环境。10年前,智能手机还未诞生,而如今小米手机、苹果手机已普及到每个人手中。
  我非常欣赏现代管理学之父-彼得-德鲁克的话&预测未来的最佳方式就是创造它! &。我也欣赏美国波士顿大学教授玛丽-克洛宁博士所描述的&互联网可以让资金以光速到达全球的任何角落&。2012年以来,在互联网与金融在中华大地掀起了一股股创新热潮下,在中国在教育程度及经济增长方面都已是世界的领先者这样的环境下,作为清华大学的毕业生的我们,担负着领导中国,领导全球的使命。
  而我所分享的话题,正是在互联网环境下,如何利用大数据技术,进行股票预测的研究。--今天,我想分享我认为有意义的四点。
  第一、大数据下的商业预测
  根据大数据,我们可以有效地进行故障、人流、流量、用电量、股票市场、疾病预防、交通、食物配送、产业供需等方面的预测。而本文我们所关心的内容是股票市场的预测。
  大数据的核心是预测,预测依赖于对数据的分析。那么分析的方法是否是基于随机采样的结果而设计的,这样的分析方法是否会有误差?
  从传统认识上,由于资源和科技的局限,如人和计算资源受限、从计算机处理能力来讲无法处理全部数据来获取人们所关注的结果。因此随机采样应运而生,通过所选取的个体来代表全体,如使用随机抽取的方式来使得推论结果更科学。但既然提到了大数据,它是资源发展到一定程度、以及技术发展到一定阶段产生的一个新的认识。如同电力的出现,使人类进入了一个快速发展阶段,大数据也一样,它的含义是全体样本,从整体样本来做推论。在本文大数据的含义是所有股票在整个社交网络上的流动信息,从数据源上讲,本文没有采用所有社交网络上的数据,只分析了微信这个最具代表性的社交媒体作为信息源。
  互动数据能反映用户情绪,搜索数据能反映用户的关注点和意图,在股市预测时这两种数据哪种更具有参考价值?
  我认为都有价值,互动数据反映了用户对某一特定股票的喜好和厌恶,可以简单描述为对该股票的操作是继续持有还是卖出;而搜索数据则代表用户在收集该股票信息的过程,它是关注度的概念,某只股票搜索度高则意味着消息的影响力大。互动代表着方向,搜索代表着振幅。
  我们知道这两种数据得出的结论会有差异,您是如何平衡这两种数据反映的情况来进行预测的?
  正如上一个问题里提到的,如果是股票推荐,买进卖出等原则问题,则应该考虑互动数据,但如果已经买到手了,搜索数据可以提供一个幅度的概念,类似债券评级A级、AA级、AAA级等,供投资者参考,因为不同投资者对风险的承受度是不同的。
  将股票和市场的消息整理成140字的短消息发布,是否意味着主要发布渠道是微博?现在微信公众号很火,有没有考虑通过这个渠道也发布消息?
  事实上,信息传播的方式很多,微信作为新媒体当然影响力不容小觑,但目前技术投入最小的还是邮件、短信等方式,未来会考虑使用公众号来推送股票和市场消息。
  如果在未来通过微信公众号推送消息,那么推送的消息会不会作为数据来源被再次采集?这会有多大的影响?
  会被采集,但互联网上的每日关于个股的信息数量会达到很大,该推送会增加推荐股票1点权重,每只股票的权重成百上千,因此影响极小。
  数据来源是微信公众号,除了准确性的考虑之外,是否还考虑过这样收集数据会较少触犯个人隐私?
  从法律角度来看,搜索微信或其他个人聊天记录,是侵犯个人隐私权的,因此如果腾讯开放了这样的接口,每个公民都可以对这样的行为进行投诉、抗议、甚至进行法律起诉直至其改正过错、赔偿损失的。
  这样是否意味着即使存在违法的行为,其结果也是由腾讯来承担,而我们作为数据的使用方不需要承担任何法律责任?
  在整个社会,我们作为系统技术提供方,应恪守大数据的伦理道德,遵守国家法律,如侵犯个人隐私,系统不会采集,谷歌有一句座右铭&谷歌不作恶&,本文提到的系统也一样。
  第二、基于大数据进行股票推荐实验
  股票的及时度反应了微信文章所发布的时效性,及时度越高,数据价值就越大。
  股票的热度反应了当前某只股票被关注的频度,关注频度越大,上涨的可能性越高。
  数据的完整性:我们采用循环的方式对所有深沪两地发行约2236只股票(创业版除外)在微信搜索网站上的搜索结果进行保存。
  数据的一致性:文件格式由负责保存数据文件的程序决定,单一的流程保障了文件的一致性。
  数据的准确性:由于所分析的订阅号文章的是由微信公共平台的公众号所提供,在一定程度上杜绝了虚假消息对于预测系统的破坏。
  数据的及时性:考虑到磁盘读写以及采集程序所处的网络带宽,以及搜索引擎对于采集程序的屏蔽,程序中采集两条信息之间间隔了5秒,因此理论上11180秒(3.1个小时)可收集完当日推荐所需要的数据。对于每个交易日,在9点-9点30分之间采集所有数据,需要7台以上的设备可达到最佳效果。本次试验受限于试验设备,在一台设备上,交易日每天早六时开始进行数据采集,也满足及时性要求。
  数据分析:查看三个高优先级的股票,该股票当日的开盘价与收盘价,再与当日()上证综指进行比较,可得在收益上该算法是优于上证综指为样本的整体股票的股价差收益的。
  实验结论:按照上述方式,系统每天推荐出当日股票,在开盘时进行买进,在第二个交易日进行卖出。经过一个月21个交易日(至 ),系统的收益为20%/月。通过微信搜索公众号来预测市场走势和投资情绪呈现出正相关性,因此可以作为股票甄选的因子。
  第三、股票预测的大数据发展趋势
  网络数据分成三种:一是浏览数据,主要用于电商领域的消费者行为分析,浏览数据反映了用户每一步的访问脚步,进一步刻画出用户的访问路径,分析不同页面的跳转概率等。二是搜索数据,主要指搜索引擎记录的关键词被搜索频次的时间序列数据,能反映数亿用户的兴趣、关注点、意图。三是互动数据,主要是微博、微信、社交网站的数据,反映用户的倾向性和情绪因素。
  2013 年诺贝尔经济学奖得主罗伯特&席勒的观点被无数采访对象引述。席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中,主要参考三个变量:投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应(市场情绪)。他认为,市场本身带有主观判断因素,投资者情绪会影响投资行为,而投资行为直接影响资产价格。
  计算机通过分析新闻、研究报告、社交信息、搜索行为等,借助自然语言处理方法,提取有用的信息;而借助机器学习智能分析,过去量化投资只能覆盖几十个策略,大数据投资则可以覆盖成千上万个策略。
  基于互联网搜索数据和社交行为的经济预测研究,已逐渐成为一个新的学术热点,并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上,研究发现搜索数据可有效预测未来股市活跃度(以交易量指标衡量)及股价走势的变化。
  对于搜索数据:互联网搜索行为与股票市场的关联机理。这个研究属于行为金融与互联网的交叉领域,其原理是:股票量价调整是投资者行为在股票市场上的反应;与此同时,投资者行为在互联网搜索市场也有相应地行为迹象,我们要做到是:找到互联网搜索市场中领先于股票交易的行为指标,综合众多投资者的先行搜索指标,对未来的股票交易做出预判。
  如同天气预报那样,不断优化模型、灌入海量信息,然后给出结果。并且在处理的信息中,有80%是&非结构化&数据,例如政策文件、自然事件、地理环境、科技创新等,这类信息通常是电脑和模型难以消化的。采用了语义分析法,可以将互动数据里的金融对话量化为 &-1(极度看空)&到&1(极度看多)&之间的投资建议,通过分析互动数据的数据文本,作为股市投资的信号。
  第四、正在发生的未来
  大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的将来。
  大数据在实用层面的影响很广泛,解决了大量的日常问题。大数据更是利害攸关的,它将重塑我们的生活、工作和思维方式。在某些方面,我们面临着一个僵局,比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。我们脚下的地面在移动。过去确定无疑的事情正在受到质疑。大数据需要人们重新讨论决策、命运和正义的性质。拥有知识曾意味着掌握过去,现在则意味着能够预测未来。
  大数据并不是一个充斥着算法和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。就好像我们学习处理混乱数据一样,因为这些数据服务的是更加广大的目标。必将混乱构成了世界的本质,也构成了人脑的本职,而无论是世界的混乱还是人脑的混乱,学会接受和应用他们才能得益。
  我相信,利用基础数据、搜索数据、互动数据再进行加权计算,可以对所有股票进行大数据遴选,从而给出投资建议。我认为,我们的肉身刚刚步入大数据时代,但我们的精神还滞留在小数据、采样思维之中,率先用理性击碎固有思维的人,也将率先获得大数据带来的益处。
  最后,我送上四个祝愿:
  1. 祝愿我们受益于大数据预测。让数据萌发价值,助力商业预测。2.祝愿我们可获得准确的股市预测情报。让股市更理性,普惠普通百姓。3.祝愿我们研究出更好的股市预测技术。在大数据时代,提高我们的全球竞争力。4.祝愿我们可以生活在一个更好的时代。发挥人类的创造力、直觉和天赋,来改变世界。谢谢!
  清华大数据产业联合会的微信公众平台,旨在传播数据科学理念,分享数据运营心得,扩展数据应用空间,捕捉数据产业商机。定期发布线下活动预告,独家发布讲座素材,清华大数据产业联合会活动报名唯一渠道。
  寻求合作请联系微信号@小数点(ID: decimal_point)
相关新闻 & & &
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款【总0136-量化实验040】如何利用Python获得Yahoo上的股票信息(2)
作者:量化金融前沿 微信公众号
特别注意一下,本文结尾留了一个思考题!我们接着上一期的内容继续讨论,上一期我们讨论了如何利用Python的Pandas包从Yahoo上抓数据(仍然以S&P500为例),我们今天有以下几个重点:第一,利用Pandas计算算术收益率;第二,计算对数收益率;第三,计算算术收益率和对数收益率的均值和标准差,并汇报出来;最后把股票指数和两种收益率的图画出来。先复习一下算术收益率如何计算:然后我们再计算一下对数收益率。需要注意的是,计算算术收益率时Pandas有一个自带的功能可供我们直接使用,而Pandas尽然不提供计算对数收益率的功能。因此计算对数收益率得自己写一行代码。计算完两种收益率之后,我们把指数、算术收益率和对数收益率的图画出来,图就是以下这个样子。然后再计算一下算术收益率和对数收益率的样本均值和样本方差,然后打印出来,结果也就是以下这个样子了。如上图,我们可以看出,两者是非常接近的,所以金融学教科书都说算术收益率可以近似等于对数收益率,甚至两者可以混用。下面我们来看看以上这些结果是如何实现的。我们的讨论是接着昨天的讨论进行的,昨天我们讨论到程序的第11行,下面开始讨论程序的第12行。我们将股指走势图、算术收益率和对数收益率三个图放在一个界面里,我们需要利用subplot功能,由上图可见,其实这相当于把四个图放在一个界面里面,而S&P500的走势图独占了左上和右上两个图的位置,所以第12行程序表示的就是这个意思。然后第13-15行程序应该不难理解,13行是画一下背景网格(grid),14行驶具体画图的命令,提取St中Adj Close画图,第15行给x横轴和y竖轴标注。下面我们看看如何快速的生成算术收益率,并如何把它画出来。计算算术收益率主要是利用第18行程序,其实实现起来也非常简单,就是调用Pandas自带的pct_change()命令,至于后面的dropna()是pandas一个非常贴心的功能,该功能的意思是如果数据出现缺失,此时在计算算术收益率过程中,Pandas会将该其自行去掉,命令中的“na“,表示Not Avaliable的意思。下面看看如何计算对数收益率,如前文所说,该功能pandas不提供。所以,我们这需要我们自己动手“造轮子”,写一行简单的程序。我们需要借用Pandas提供的diff()功能,该功能从名字上也可看出是“差分”的意思。所以计算对数收益率的思路就是,先取对数,然后差分,于是得到对数收益率,所以代码实现如下(具体见第26行):最后打印算术收益率的样本均值和样本标准差,以及对数收益率得到样本均值和样本标准差(具体见34-36行)。最后把整个程序贴一下。【思考题】其实在这里可以留一个Project给学生,你能不能把S&P500对应的股票的历史数据都提取下来,同时你把S&P500指数也提取出来(我们的讲义就是告诉大家如何提取S&P500指数)。如果你把500只股票数据和股指提取下来之后,我们可以有很多有趣的游戏可以做。比如,我们自己来玩玩干index tracking的事情,或者smart tracking的事情啊!这多有意思!!!以下是抓取数据的基本思路(其实思路非常非常简单):首先去wiki找关于SP500的信息,你会发现wiki会告诉你S&P500对应的股票名称和代码,此外你还会发现,其实SP500现在对应的还真不是500只股票,是504只股票。然后你会找到股票的代码。当然你要喜欢折腾,你可以写一个爬虫程序去把wiki的网站上关于SP500的股票代码爬下来(我觉得真的好stupid,你其实直接复制黏贴到excel里,存成csv,然后要程序都那个csv文件即可。但是有人确实就是这么干的!)然后改写一下今天给各位的程序,然后就自动抓取504只股票吧(国内网速不好,你可能会下载数据非常慢),为了简单起见,我们也就只关注Adj Close,所以大家就只下载Adj Close吧!......此外有些股票可能在你选取的日期内没有数据,你要思考一下如何处理这种情况。(一般是利用Python的Try.....Exception功能,这也是搞程序开发都必须用的功能,叫“异常处理”,这个功能在Python里面还是非常好学易用的。这个以后上课介绍吧!)数据都存成Pandas的格式,你脑子里能有个大概的概念吗?结果就如同一张大的excel表!横行是所有的股票,纵行是日期。有数据了,我们平时计量金融学介绍的那些ARMA、Garch模型就可以开始应用到后续的工作里面了!(本系列完)欢迎转发和关注由首都经济贸易大学金融学院投资系师生共建的公众号:量化金融前沿(ID: Empiricalfinance)
相关微信文章:
相关推荐:
本网站所有内容均采集自网络,如有侵权麻烦邮箱联系删除。股票内幕消息是什么?怎样才能获得内幕消息
日&&&&&&来源:炒股吧&&&文字大小:【】【】【】
股票内幕消息是什么?怎样才能获得内幕消息
  股市内幕消息是什么意思,哪些消息才能算是股市的内幕消息呢?内幕消息是指什么?
  内幕消息,通常指公司基本面的变化、国家政策的变化。
  提前知道了内幕消息,如是利好,就提早买入,如是利空,就提早卖出。
  释放内幕消息,为了出货,叫做利好出尽,为了吸货,叫做利空出尽,正所谓真真假假。
  能够给散户知道的&内幕消息&就不算真的内幕消息了;真正内幕消息只有上市公司高层或者通过高层透露给股票才会知道(他们之间合作关系的那种);知道消息提前入货建仓;当消息透露出外界的时候,主力已经达到高度控筹,早已经拉高股价,逐步出货。 也有些&内幕消息&是无中生有的,目的都是为了拉高股价出货,或者基于其他目的获得利益。 内幕消息有可能是业绩方面或者高送转,也有可能是国家规划利好,也可能大型项目等等。
(责任编辑:vv)
------分隔线----------------------------
上一篇: 下一篇:
郑重声明:炒股吧网发布此信息出于传递更多信息之目的,不表明证实其描述或赞同其观点。本站不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担。
Copyright& 炒股吧
All Rights Reserved 版权所有 复制必究
特别声明:本站所载文章、数据仅供参考,使用前务请仔细阅读法律声明,风险自负。

我要回帖

更多关于 新加坡股市资讯 的文章

 

随机推荐