不到wwW目印前ai小助手v2.7v2的访问地止了,以后还aiv2能恢复正常com吧?

着不到目前wwW444sqw的访问地止了,以后还能恢复正常444sqwCoM吧_百度知道
着不到目前wwW444sqw的访问地止了,以后还能恢复正常444sqwCoM吧
我有更好的答案
不还在至前的,444sqw.ng3s.in 里嘛
采纳率:100%
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。搜不到www目前386dd的访问地止了,以后386dd还能恢复正常com吧_百度知道
搜不到www目前386dd的访问地止了,以后386dd还能恢复正常com吧
我有更好的答案
只有回复完了你猜能正常访问【386dd.hgs6.biz】的
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。人工智能邂逅量化投资人工智能邂逅量化投资关注专栏更多最新文章{&debug&:false,&apiRoot&:&&,&paySDK&:&https:\u002F\u002Fpay.zhihu.com\u002Fapi\u002Fjs&,&wechatConfigAPI&:&\u002Fapi\u002Fwechat\u002Fjssdkconfig&,&name&:&production&,&instance&:&column&,&tokens&:{&X-XSRF-TOKEN&:null,&X-UDID&:null,&Authorization&:&oauth c3cef7c66aa9e6a1e3160e20&}}{&database&:{&Post&:{&&:{&title&:&作为深度学习最强框架的TensorFlow如何进行时序预测!&,&author&:&bigquant&,&content&:&\u003Cp\u003E\u003Cb\u003E摘要:\u003C\u002Fb\u003E 2017年深度学习框架关注度排名tensorflow以绝对的优势占领榜首,本文通过一个小例子介绍了TensorFlow在时序预测上的应用。\u003C\u002Fp\u003E\u003Cp\u003ETensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU),服务器,移动设备等等。TensorFlow 最初由Google大脑小组(隶属于Google机器智能研究机构)的研究员和工程师们开发出来,用于机器学习和深度神经网络方面的研究,但这个系统的通用性使其也可广泛用于其他计算领域。 \u003C\u002Fp\u003E\u003Cp\u003E时间序列分析在计量经济学和财务分析中具有重要意义,但也可以应用于了解趋势做决策和对行为模式的变化做出反应的领域。其中例如,作为主要石油和天然气供应商的MapR融合数据平台客户将传感器放在井上,将数据发送到MapR Streams,然后将其用于趋势监测井的状况,如体积和温度。在金融方面,时间序列分析用于股票价格,资产和商品的价格的预测。计量经济学家长期利用“差分自回归移动平均模型”(ARIMA)模型进行单变量预测。\u003C\u002Fp\u003E\u003Cp\u003EARIMA模型已经使用了几十年,并且很好理解。然而,随着机器学习的兴起,以及最近的深度学习,其他模式正在被探索和利用。\u003C\u002Fp\u003E\u003Cp\u003E深度学习(DL)是基于一组算法的机器学习的分支,它通过使用由多个非线性变换组成的人造神经网络(ANN)架构来尝试对数据进行高级抽象然后建模。更为流行的DL神经网络之一是循环神经网络(RNN)。RNN是依赖于其输入的顺序性质的一类神经网络。这样的输入可以是文本,语音,时间序列,以及序列中的元素的出现取决于在它之前出现的元素。例如,一句话中的下一个字,如果有人写“杂货”最有可能是“商店”而不是“学校”。在这种情况下,给定这个序列,RNN可能预测是商店而不是学校。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E人工神经网络\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E实际上,事实证明,虽然神经网络有时是令人畏惧的结构,但使它们工作的机制出奇地简单:随机梯度下降。对于我们网络中的每个参数(如权重或偏差),我们所要做的就是计算相对于损耗的参数的导数,并在相反方向微调一点。\u003C\u002Fp\u003E\u003Cp\u003EANNs使用称为反向传播(有想了解BP算法的可以参考\u003Ca href=\&https:\u002F\u002Fyq.aliyun.com\u002Farticles\u002F110025\&\u003EBP算法双向传,链式求导最缠绵\u003C\u002Fa\u003E)的方法来调整和优化结果。反向传播是一个两步过程,其中输入通过正向传播馈送到神经网络中,并且在通过激活函数变换之前与(最初随机的)权重和偏差相乘。你的神经网络的深度将取决于你的输入应该经过多少变换。一旦正向传播完成,反向传播步骤通过计算产生误差的权重的偏导数来调整误差。一旦调整权重,模型将重复正向和反向传播步骤的过程,以最小化误差率直到收敛。下图中你看到这是一个只有一个隐藏层的ANN,所以反向传播不需要执行多个梯度下降计算。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-922ef6dae754f325f6ae.png\& data-rawwidth=\&589\& data-rawheight=\&330\&\u003E\u003Cp\u003E\u003Cb\u003E循环神经网络\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E循环神经网络(RNN)被称为循环是因为它们对输入序列中的所有元素执行相同的计算。由于RNN的广泛应用,RNN正在变得非常受欢迎。它们可以分析时间序列数据,如股票价格,并提供预测。在自动驾驶系统中,他们可以预测汽车轨迹并帮助避免事故。他们可以将句子,文档或音频样本作为输入,它们也可以应用于自然语言处理(NLP)系统,如自动翻译,语音对文本或情感分析。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-a741f11c97d3770edd4bf3.png\& data-rawwidth=\&816\& data-rawheight=\&323\&\u003E\u003Cp\u003E上图是RNN架构的示例,并且我们看到xt是时间步长t的输入。例如,x1可能是时间段1中的股票的第一个价格。st是在时间步长tn处的隐藏状态,并且使用激活函数基于先前的隐藏状态和当前步骤的输入来计算。St-1通常被初始化为零。ot是步骤t的输出。例如,如果我们想预测序列中的下一个值,那么它将是我们时间序列中概率的向量。\u003C\u002Fp\u003E\u003Cp\u003ERNN隐藏层的成长是依赖于先前输入的隐藏状态或记忆,捕获到目前为止所看到的内容。任何时间点的隐藏状态的值都是前一时间步骤中的隐藏状态值和当前时间的输入值进行函数计算的结果。RNN具有与ANN不同的结构,并且通过时间(BPTT)使用反向传播来计算每次迭代之后的梯度下降。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E一个小例子:\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E此示例使用3个节点的小型MapR群集完成。此示例将使用以下内容:\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003EPython 3.5\u003C\u002Fli\u003E\u003Cli\u003ETensorFlow 1.0.1\u003C\u002Fli\u003E\u003Cli\u003ERed Hat 6.9\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E如果你使用Anaconda,你需要保证你能够安装TensorFlow 1.0.1版本在你本地的机器上。此代码将不能在TensorFlow &1.0版本上使用。如果TensorFlow版本相同,则可以在本地机器上运行并传输到集群。其他需要考虑的深度学习库是MXNet,Caffe2,Torch和Theano。Keras是另一个为TensorFlow或Theano提供python包的深度学习库。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-8f7ee75c97.png\& data-rawwidth=\&900\& data-rawheight=\&428\&\u003E\u003Cp\u003EMapR提供了用户喜好的集成Jupyter Notebook(或Zeppelin)的功能。我们将在这里显示的是数据管道的尾端。在分布式环境中运行RNN时间序列模型的真正价值是你可以构建的数据流水线,将聚合的系列数据推送到可以馈送到TensorFlow计算图中的格式。\u003C\u002Fp\u003E\u003Cp\u003E如果我正在聚合来自多个设备(IDS,syslogs等)的网络流,并且我想预测未来的网络流量模式行为,我可以使用MapR Streams建立一个实时数据管道,将这些数据聚合成一个队列,进入我的TensorFlow模型。对于这个例子,我在集群上只使用一个节点,但是我可以在其他两个节点上安装TensorFlow,并且可以有三个TF模型运行不同的超参数。\u003C\u002Fp\u003E\u003Cp\u003E对于这个例子,我生成了一些虚拟数据。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-cc877bb602d6661fcfe0c9b48da9c55f.png\& data-rawwidth=\&951\& data-rawheight=\&684\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-c9bbdb02fd6a2c20c9bc.png\& data-rawwidth=\&900\& data-rawheight=\&613\&\u003E\u003Cp\u003E我们在我们的数据中有209个观察结果。我want确保我对每个批次输入都有相同的观察次数。\u003C\u002Fp\u003E\u003Cp\u003E我们看到的是我们的训练数据集由10个批次组成,包含20个观测值。每个观察值是单个值的序列。\u003C\u002Fp\u003E\u003Cimg src=\&v2-e4d5f3cf84dca04273cbd.png\& data-rawwidth=\&900\& data-rawheight=\&510\&\u003E\u003Cp\u003E现在我们有了我们的数据,我们来创建一个将执行计算的TensorFlow图。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-fc50cdae6f82ce27e623b694.png\& data-rawwidth=\&900\& data-rawheight=\&396\&\u003E\u003Cp\u003E这里有很多事情需要处理。例如我们正在指定我们用来预测的周期数。我们指定我们的变量占位符。我们初始化一种使用的RNN单元格(大小100)和我们想要的激活函数的类型。ReLU代表“整流线性单元”,是默认的激活功能,但如果需要,可以更改为Sigmoid,Hyberbolic Tangent(Tanh)等。\u003C\u002Fp\u003E\u003Cp\u003E我们希望我们的输出与我们的输入格式相同,我们可以使用损失函数来比较我们的结果。在这种情况下,我们使用均方误差(MSE),因为这是一个回归问题,我们的目标是最小化实际和预测之间的差异。如果我们处理分类结果,我们可能会使用交叉熵。现在我们定义了这个损失函数,可以定义TensorFlow中的训练操作,这将优化我们的输入和输出网络。要执行优化,我们将使用Adam优化器。Adam优化器是一个很好的通用优化器,可以通过反向传播实现渐变下降。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E现在是时候在我们的训练数据上实施这个模型了。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-fddb54de6.png\& data-rawwidth=\&900\& data-rawheight=\&656\&\u003E\u003Cp\u003E我们将指定我们的批次训练序列循环的迭代\u002F纪元的数量。接着,我们创建我们的图形对象(tf.Session()),并初始化我们的数据,以便在我们遍历历元时被馈送到模型中。缩写输出显示每100个纪元后的MSE。随着我们的模型提供数据向前和反向传播运行,它调整应用于输入的权重并运行另一个训练时期,我们的MSE得到了持续改善(减少)。最后,一旦模型完成,它将接受参数并将其应用于测试数据中,以Y的预测输出。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E我们来看看我们的预测跟实际相差多少。对于我们的测试数据,我们集中在整个209个周期的最后20个时期。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-d3dccae8efa6da15080aaa0c5343496a.png\& data-rawwidth=\&900\& data-rawheight=\&609\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-4aa28f8b1a6c145f499abe.png\& data-rawwidth=\&900\& data-rawheight=\&517\&\u003E\u003Cp\u003E看来这还有一些改进的空间。这可以通过改变隐藏的神经元的数量或增加迭代的数量来完成。优化我们的模式是一个试错的过程,但我们有一个好的开始。这是随机数据,所以我们期待着很好的结果,但是也许将这个模型应用到实时系列中会给ARIMA模型带来一些竞争压力。\u003C\u002Fp\u003E\u003Cp\u003E数据科学家因为RNN(和深度学习)的出现,有了更多可用的选项以此来解决更多有趣的问题。许多数据科学家面临的一个问题是,一旦我们进行了优化,我们如何自动化我们的分析运行?拥有像MapR这样的平台允许这种能力,因为你可以在大型数据环境中构建,训练,测试和优化你的模型。在这个例子中,我们只使用了10个训练批次。如果我的数据允许我利用数百批次,而不仅仅是20个时期,我想我一定能改进这种模式。一旦我做到了,我可以把它打包成一个自动化脚本,在一个单独的节点,一个GPU节点,一个Docker容器中运行。这就是在融合数据平台上进行数据科学和深度学习的力量。\u003C\u002Fp\u003E\u003Cp\u003E希望上述的文章能够帮到你理解TensorFlow。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E文章原标题《Applying Deep Learning to Time Series Forecasting with TensorFlow》,\u003C\u002Fp\u003E\u003Cp\u003E作者:Justin Brandenburg 译者:袁虎
\u003C\u002Fp\u003E\u003Cp\u003E文章中文版来源:阿里云云栖社区 ,请查看\u003Ca href=\&https:\u002F\u002Fyq.aliyun.com\u002Farticles\u002F118726\&\u003E看深度学习框架排名第一的TensorFlow如何进行时序预测!-博客-云栖社区-阿里云\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Cp\u003E文章为简译,更为详细的内容,请查看\u003Ca href=\&https:\u002F\u002Fmapr.com\u002Fblog\u002Fdeep-learning-tensorflow\u002F\&\u003E原文\u003C\u002Fa\u003E\u003C\u002Fp\u003E&,&updated&:new Date(&T03:27:00.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:3,&likeCount&:47,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T11:27:00+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-2ebccedb04a_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:3,&likesCount&:47},&&:{&title&:&XGBoost入门系列第一讲&,&author&:&bigquant&,&content&:&\u003Ch2\u003EBoosted Trees 介绍\u003C\u002Fh2\u003E\u003Cp\u003EXGBoost 是 “Extreme Gradient Boosting”的简称,其中“Gradient Boosting”来源于附录1.Friedman的这篇论文。本文基于 gradient boosted tree ,中文可以叫梯度提升决策树,下面简称GBDT,同时也有简称GBRT,GBM。 \u003C\u002Fp\u003E\u003Ch2\u003E监督学习\u003C\u002Fh2\u003E\u003Cp\u003EXGBoost 主要是用来解决有监督学习问题,此类问题利用包含多个特征的训练数据 \u003Cequation\u003Ex_i\u003C\u002Fequation\u003E ,来预测目标变量 \u003Cequation\u003Ey_i\u003C\u002Fequation\u003E 。在我们深入探讨GBDT前,我们先来简单回顾一下监督学习的一些基本概念。\u003C\u002Fp\u003E\u003Ch2\u003E模型与参数\u003C\u002Fh2\u003E\u003Cp\u003E在监督学习中模型(model)表示一种数学函数,通过给定 \u003Cequation\u003Ex_i\u003C\u002Fequation\u003E 来对 \u003Cequation\u003Ey_i\u003C\u002Fequation\u003E 进行预测。以最常见的线性模型(linear model)举例来说,模型可以表述为 \u003Cequation\u003E\\hat{y_i}=\\sum_j\\theta_j x_{ij}\u003C\u002Fequation\u003E ,这是一个输入特性进行线性加权的函数。那么针对预测值的不同,可以分为回归或者分类两种。\u003Cbr\u003E在监督学习中参数(parameters)是待定的部分,我们需要从数据中进行学习得到。在线性回归问题中,参数用 \u003Cequation\u003E\\theta\u003C\u002Fequation\u003E 来表示。\u003C\u002Fp\u003E\u003Ch2\u003E目标函数:训练误差 + 正则化\u003C\u002Fh2\u003E\u003Cp\u003E根据对 \u003Cequation\u003Ey_i\u003C\u002Fequation\u003E 的不同理解,我们可以把问题分为,回归、分类、排序等。我们需要针对训练数据,尝试找到最好的参数。为此,我们需要定义所谓的目标函数,此函数用来度量参数的效果。\u003Cbr\u003E这里需要强调的是,目标函数必须包含两个部分:训练误差和正则化。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003EObj(\\Theta)=L(\\theta)+\\Omega(\\Theta)\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E其中,LL表示训练误差函数, \u003Cequation\u003E\\Omega\u003C\u002Fequation\u003E 表示正则项。训练误差用来衡量模型在训练数据上的预测能力。比较典型的有用均方差来衡量。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003EL(\\theta)=\\sum_i(y_i-\\hat{y_i})^2\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E另外针对逻辑回归,比较常见的损失函数为Logistic函数:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003EL(\\theta)=\\sum_i[y_i \\ln(1+e^{-\\hat{y_i}}) + (1-y_i) \\ln(1+e^{\\hat{y_i}})]\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E另外一个比较重要的部分就是正则项,这也是很多人容易忘记的部分。正则项是用来控制模型的复杂度,以防止过拟合(overfitting)。这听起来有点抽象,那么我们用下面的例子来说明。针对下面左上角的这幅图,我们需要找到一个阶梯函数来拟合图中的数据点集合。那么问题来了,下面剩下的三幅图中,哪一个你认为是最好的呢?\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-02aaff68e2ee39f7d00fdbc455083cec.png\& data-rawwidth=\&658\& data-rawheight=\&500\&\u003E\u003Cp\u003E答案是用红色标注出来的这幅图。为什么呢?因为我们对于好的模型的判断依据是 简单(\u003Ci\u003Esimple\u003C\u002Fi\u003E)并且 准确(\u003Ci\u003Epredictive\u003C\u002Fi\u003E)。但这两者又是相互矛盾的,在机器学习中我们也把这两者也用 bias-variance 来表述。\u003C\u002Fp\u003E\u003Ch2\u003E复合树模型(Tree Ensemble)\u003C\u002Fh2\u003E\u003Cp\u003E在前面我们已经介绍了监督学习,现在让我们开始了解树模型。首先先来了解一下xgboost所对应的模型:复合树模型。复合树模型是一组分类和回归树(classification and regression trees - CART)。这里我们举CART中的一个例子,一类分类器用来辨别某人是否喜欢计算机游戏。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-7fa8bf328cf103b71cf8fad.png\& data-rawwidth=\&690\& data-rawheight=\&260\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E我们把家庭中的成员分到了不同的叶子节点,同时每个叶子节点上都有一个分数。CART与决策树相比,细微差别在于CART的叶子节点仅包含判断分数。在CART中,相比较于分类结果,每个叶子节点的分数给我们以更多的解释。这让CART统一优化节点更为容易,这在后面会有具体介绍。\u003C\u002Fp\u003E\u003Cp\u003E通常情况下,在实践中往往一棵树是不够用的。这个时候往往需要把多棵树的预测结果综合起来,这就是所谓的复合树模型。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-bad8781adcd6a6831d9dae5.png\& data-rawwidth=\&690\& data-rawheight=\&337\&\u003E\u003Cp\u003E上面就是由两棵树组成的复合树的例子。每棵树上的分数简单相加就得到了最终的分数。用数学式子可以表达如下:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\hat{y_i}=\\sum_{k=1}^{K}f_k(x_i),f_k \\in \\mathcal{F}\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003EK\u003C\u002Fequation\u003E 表示树的数目, \u003Cequation\u003Ef\u003C\u002Fequation\u003E 是函数空间 \u003Cequation\u003EF\u003C\u002Fequation\u003E 中的一个函数,FF表示CART的所有可能集合。所以我们的优化目标可以写作:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\text{obj}(\\theta)=\\sum_i^n l(y_i, \\hat{y_i}) + \\sum_{k=1}^K \\Omega(f_k)\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E现在问题来了,随机森林对应的模型是什么呢?对了,也是复合树模型。所以在模型的表述上,随机森林和提升树是一样的,他们俩的区别只是在于如何训练。这也就意味着,如果要写一个关于复合树模型的预测服务,我们只需要写一个就可以同时支持随机森林和提升树。\u003C\u002Fp\u003E\u003Ch2\u003E提升树 (Tree Boosting)\u003C\u002Fh2\u003E\u003Cp\u003E介绍了模型之后,让我们看看训练部分。那么我们是怎么训练这些树的呢?对于所有的监督学习模型,答案也都是同样,只需要做两件事,定义目标函数,然后优化它。\u003Cbr\u003E假设我们有如下的目标函数(需要切记目标函数必须包含损失函数及正则项)\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\text{obj}=\\sum_{i=1}^n l(y_i, \\hat{y_i}^{(t)}) + \\sum_{k=1}^t \\Omega(f_i)\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Ch2\u003E增量训练 (Additive Training)\u003C\u002Fh2\u003E\u003Cp\u003E首先我们需要问的是,这些树的参数是什么?我们会发现,我们所要学习的就是这些 fifi方法,每个方法中定义树的结构以及叶子节点的分数。这比传统最优化问题要更难,传统最优化问题我们可以通过梯度来解决。而且我们无法在一次训练所有的树。相反,我们用增量(additive)的方式:每一步我们都是在前一步的基础上增加一棵树,而新增的这棵树是为修复上一颗树的不足。,我们把每tt步的预测用 \u003Cequation\u003E\\hat{y_i}^{(t)}\u003C\u002Fequation\u003E 表示,这样我们就有了:\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\begin{split} \\hat{y}_i^{(0)} &= 0 \\\\\\ \\hat{y_i}^{(1)} &= f_1(x_i) = \\hat{y_i}^{(0)} + f_1(x_i) \\\\\\ \\hat{y_i}^{(2)} &= f_1(x_i) + f_2(x_i)= \\hat{y_i}^{(1)} + f_2(x_i) \\\\\\ & \\dots \\\\\\ \\hat{y_i}^{(t)} &= \\sum_{k=1}^t f_k(x_i)= \\hat{y_i}^{(t-1)} + f_t(x_i) \\end{split}\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E这里还有疑问的是,在每一步中如何确定哪棵树是我们需要的呢?一个很自然的想法就是,增加这棵树有助于我们的目标函数。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\begin{split} \\text{obj}^{(t)} &= \\sum_{i=1}^n l(y_i, \\hat{y_i}^{(t)}) + \\sum_{i=1}^t\\Omega(f_i) \\\\\\ & = \\sum_{i=1}^n l(y_i, \\hat{y_i}^{(t-1)} + f_t(x_i)) + \\Omega(f_t) + constant \\end{split}\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E我们用MSE(均方差)作为损失函数,这样式子就变成了:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\begin{split} \\text{obj}^{(t)} & = \\sum_{i=1}^n (y_i - (\\hat{y_i}^{(t-1)} + f_t(x_i)))^2 + \\sum_{i=1}^t\\Omega(f_i) \\\\\\ & = \\sum_{i=1}^n [2(\\hat{y_i}^{(t-1)} - y_i)f_t(x_i) + f_t(x_i)^2] + \\Omega(f_t) + constant \\end{split}\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E对于用MSE求出来的损失函数式子比较友好,包含一个一阶项和一个二次项。但是对于其他形式,就很难推导出这么友好的损失函数式子了。那么针对这种情形,我们就用泰勒展开公式(参考附录4, \u003Cequation\u003Ex\u003C\u002Fequation\u003E 取值 \u003Cequation\u003E\\hat{y_i}^{(t-1)} + f_t(x_i)\u003C\u002Fequation\u003E , \u003Cequation\u003Ea\u003C\u002Fequation\u003E 取值 \u003Cequation\u003E\\hat{y_i}^{(t-1)}\u003C\u002Fequation\u003E 来逼近:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\text{obj}^{(t)} = \\sum_{i=1}^n [l(y_i, \\hat{y_i}^{(t-1)}) + g_i f_t(x_i) + \\frac{1}{2} h_i f_t^2(x_i)] + \\Omega(f_t) + constant\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E其中 \u003Cequation\u003Eg_i\u003C\u002Fequation\u003E 和 \u003Cequation\u003Eh_i\u003C\u002Fequation\u003E 定义如下:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\begin{split} g_i &= \\partial_{\\hat{y_i}^{(t-1)}} \\ \\ l(y_i, \\hat{y}_i^{(t-1)}) \\\\\\ h_i &= \\partial_{\\hat{y_i}^{(t-1)}}^2 \\ \\ l(y_i, \\hat{y}_i^{(t-1)}) \\end{split}\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E然后针对上述式子,我们删除常数项,那么在 \u003Cequation\u003Et\u003C\u002Fequation\u003E 目标函数就变成:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\sum_{i=1}^n [g_i f_t(x_i) + \\frac{1}{2} h_i f_t^2(x_i)] + \\Omega(f_t)\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E选择新的一棵树,上述式子就是优化目标。这样的优化目标有一个优点,式子只需要考虑 \u003Cequation\u003Eg_i\u003C\u002Fequation\u003E 和 \u003Cequation\u003Eh_i\u003C\u002Fequation\u003E 。这就是xgboost为什么能支持自定义损失函数的原因。我们能够优化每一个损失函数,包括逻辑回归和加权逻辑回归,只需要把对应的 \u003Cequation\u003Eg_i\u003C\u002Fequation\u003E 和 \u003Cequation\u003Eh_i\u003C\u002Fequation\u003E 作为输入传入即可。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003E模型复杂度\u003C\u002Fh2\u003E\u003Cp\u003E现在讲讲正则化。那么如何定义 \u003Cequation\u003E\\Omega(f)\u003C\u002Fequation\u003E 呢,在此之前,我们需要定义 \u003Cequation\u003Ef(x)\u003C\u002Fequation\u003E :\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003Ef_t(x) = w_{q(x)}, w \\in R^T, q:R^d\\rightarrow \\{1,2,\\cdots,T\\} .\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E这里 \u003Cequation\u003Ew\u003C\u002Fequation\u003E 表示叶子节点上的分数所组成的向量, \u003Cequation\u003Eq\u003C\u002Fequation\u003E 表示每个数据映射到相应叶子节点的对应关系函数, \u003Cequation\u003ET\u003C\u002Fequation\u003E 表示叶子节点的数量。在XGBoost中,我们用如下公式定义复杂度:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\Omega(f) = \\gamma T + \\frac{1}{2}\\lambda \\sum_{j=1}^T w_j^2\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E当然还有其他公式来定义复杂度,但是我们发现上述式子在实践过程中表现很好。其他树相关的算法包不怎么认真对待正则化,甚至直接忽视掉。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003E如何计算树叶子节点上的分数\u003C\u002Fh2\u003E\u003Cp\u003E那么在增量学习过程中,如何选择这棵新增的树呢?要解决这个问题,我们先解决一下其中这个子问题:假设这棵树的结构已经确定了,如何来计算叶子节点上的分数?\u003Cbr\u003E这一部分是推广过程中比较神奇的一个步骤。根据上述过程,我们写出第 \u003Cequation\u003Et\u003C\u002Fequation\u003E 步树的目标值:\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\begin{split}Obj^{(t)} &\\approx \\sum_{i=1}^n [g_i w_{q(x_i)} + \\frac{1}{2} h_i w_{q(x_i)}^2] + \\gamma T + \\frac{1}{2}\\lambda \\sum_{j=1}^T w_j^2 \\\\\\ &= \\sum^T_{j=1} [(\\sum_{i\\in I_j} g_i) w_j + \\frac{1}{2} (\\sum_{i\\in I_j} h_i + \\lambda) w_j^2 ] + \\gamma T \\end{split}\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E这里 \u003Cequation\u003EI_j = \\{i|q(x_i)=j\\}\u003C\u002Fequation\u003E 表示每个映射到第jj个叶子节点对应的数据样本。需要注意的是,因为映射到相同叶子节点上的数据样本他们的分数是相同的,所以在第二行我们改变了一下求和 \u003Cequation\u003E\\sum\u003C\u002Fequation\u003E 顺序。同时我们令 \u003Cequation\u003EG_j = \\sum_{i\\in I_j} g_i , H_j = \\sum_{i\\in I_j} h_i\u003C\u002Fequation\u003E 以及 \u003Cequation\u003EH_j = \\sum_{i\\in I_j} h_i\u003C\u002Fequation\u003E ,那么上述公式简化为:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\text{obj}^{(t)} = \\sum^T_{j=1} [G_jw_j + \\frac{1}{2} (H_j+\\lambda) w_j^2] +\\gamma T\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E在上述式子中,每一个 \u003Cequation\u003Ew_j\u003C\u002Fequation\u003E 是相互独立的,那么针对一元二次方程 \u003Cequation\u003EG_jw_j+\\frac{1}{2}(H_j+\\lambda)w_j^2\u003C\u002Fequation\u003E 而言,可以比较容易求出当新增的这棵树的结构 \u003Cequation\u003Eq(x)\u003C\u002Fequation\u003E 已知的情况下,目标函数最小值下的 \u003Cequation\u003Ew_j\u003C\u002Fequation\u003E :\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003E\\begin{split}w_j^\\ast = -\\frac{G_j}{H_j+\\lambda}\\\\\\ \\text{obj}^\\ast = -\\frac{1}{2} \\sum_{j=1}^T \\frac{G_j^2}{H_j+\\lambda} + \\gamma T \\end{split}\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E最后的式子计算的是树 \u003Cequation\u003Eq(x)\u003C\u002Fequation\u003E 的优劣:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-dbda0fb7dbd1e.png\& data-rawwidth=\&920\& data-rawheight=\&421\&\u003E\u003Cp\u003E如果上面的式子看着比较复杂的话,那么根据上面的这幅图来看如何计算这些分数,就会显得更直观些。一旦树的结构已知的话,我们只需要通过计算每个节点上的 \u003Cequation\u003Eg_i\u003C\u002Fequation\u003E 和 \u003Cequation\u003Eh_i\u003C\u002Fequation\u003E ,然后把各个叶子节点上的这些数值加起来,用上述方程式就可以计算这棵树的优劣了。\u003C\u002Fp\u003E\u003Ch2\u003E如何学习树的结构\u003C\u002Fh2\u003E\u003Cp\u003E现在我们已经知道一旦树的结构固定下来以后,如何来计算叶子节点上的分数,以及计算这棵树的优劣。那么关于现在我们要来解决如何来学习这棵树的结构。比较简单粗暴的方法就是遍历所有可能的树结构,然后从中找到最好的那棵树。但是这也是不切实际的,因为需要遍历的情况实在是太多了。所以我们来寻求一种贪婪的解法,就是在树的每个层构建的过程中,来优化目标。那么这里假设在某一层的构建过程中,假设特征已经选定,我们先如何进行二叉划分呢,以及是不是需要进行划分?我们可以通过下面的式子来计算划分之后,在目标上所获得的收益(这个收益越越好,负数表示收益为负):\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003EGain = \\frac{1}{2} \\left[\\frac{G_L^2}{H_L+\\lambda}+\\frac{G_R^2}{H_R+\\lambda}-\\frac{(G_L+G_R)^2}{H_L+H_R+\\lambda}\\right] - \\gamma\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E上面的这个式子可以分解为 1) 若是划分,划分后左边节点的收益 2) 或是划分,划分后右边节点的收益 3) 如不划分,原先节点的收益 4) 划分后正则项的收益。通过上述式子比较容易看到,当划分后叶子节点所带来的新增收益小于 \u003Cequation\u003EY\u003C\u002Fequation\u003E ,我们最好还是不要进行二叉划分,保留原样是最好的。这也是日后做剪枝的依据。\u003C\u002Fp\u003E\u003Cp\u003E那么针对排序后的特征,我们所要做的就是遍历各种划分,找到一个最好的划分点,如下图表示。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-c777ed8b697e4b8d5eaead.png\& data-rawwidth=\&601\& data-rawheight=\&198\&\u003E\u003Cp\u003E那么这里还有一个问题就是在构建树的结构过程中,在某一层如何进行特征选择呢?这里提供了一种比较简单的方式就是遍历每一种特征,然后根据上述式子的Gain,找到最大的Gain值对应的特征。\u003C\u002Fp\u003E\u003Ch2\u003E关于XGBoost的最后几句话\u003C\u002Fh2\u003E\u003Cp\u003E我们花了很长时间来讲解 Boosted Tree,那么XGBoost相较于Boosted Tree,又做了哪些额外的事情呢?XGBoost是遵循上述Boosted Tree思想的工程实现,但同时又考虑兼顾系统优化和机器学习原理,最大化的保证可扩展性、便捷性以及准确性。\u003C\u002Fp\u003E\u003Cp\u003E英文文章标题:\u003Ca href=\&https:\u002F\u002Fhomes.cs.washington.edu\u002F~tqchen\u002Fpdf\u002FBoostedTree.pdf\&\u003E《Introduction to Boosted Trees》\u003C\u002Fa\u003E
作者:Tianqi Chen
\u003C\u002Fp\u003E\u003Cp\u003E本文为\u003Ca href=\&https:\u002F\u002Fbigquant.com\u002F?fm=zhihu&dt=170711\&\u003EBigQuant - 人工智能量化投资平台\u003C\u002Fa\u003E 整理 ,如需转载请通过 与我们联系!\u003C\u002Fp\u003E\u003Cp\u003E\u003Ca href=\&https:\u002F\u002Fcommunity.bigquant.com\u002Ft\u002FXGBoost-%E5%85%A5%E9%97%A8%E7%B3%BB%E5%88%97%E7%AC%AC%E4%B8%80%E8%AE%B2\u002F36\&\u003EXGBoost 入门系列第一讲\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E&,&updated&:new Date(&T06:06:08.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:7,&likeCount&:53,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T14:06:08+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\u002Fpic7.zhimg.com\u002Fv2-f76fd832d_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:7,&likesCount&:53},&&:{&title&:&『重磅』AI Alphas(A股版)&,&author&:&bigquant&,&content&:&\u003Cp\u003E导语:本篇报告详尽地介绍了基于\u003Cb\u003E人工智能的阿尔法策略框架\u003C\u002Fb\u003E,包括基于AI技术在策略研究上的阶段性的工作和成果,并提供完整代码,读者可\u003Cb\u003E克隆策略\u003C\u002Fb\u003E,复现效果和继续改进。\u003C\u002Fp\u003E\u003Cp\u003E希望本文能帮助读者拓展研究思路,应用AI来做更好的策略研发,把人工智能的能力赋予更多的投资者 (\u003Cb\u003EDemocratize AI to empower investors\u003C\u002Fb\u003E)。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E
摘要\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E本篇报告构建了一个完整的可复用的 \u003Cb\u003E人工智能阿尔法策略框架\u003C\u002Fb\u003E。\u003C\u002Fli\u003E\u003Cli\u003E本篇报告用AI对基本面、财务、交易型等 \u003Cb\u003E282个因子\u003C\u002Fb\u003E 做了单因子策略研究和多个维度上的绩效分析,并 \u003Cb\u003E发掘了在短、中、长周期上多个夏普比率超过1.5 、年化收益超过 30% 的因子\u003C\u002Fb\u003E。\u003C\u002Fli\u003E\u003Cli\u003E本篇报告也对AI和传统方法的效果做了\u003Ca href=\&https:\u002F\u002Fcommunity.bigquant.com\u002Ft\u002F%E3%80%90%E9%87%8D%E7%A3%85%E3%80%91AI-AlphasA%E8%82%A1%E7%89%88\u002F994#factor_discovery_ability\&\u003E对比\u003C\u002Fa\u003E,相同因子下,\u003Cb\u003EAI的效果远超传统方法,收益有100%以上的提升\u003C\u002Fb\u003E,这主要得益于StockRanker非线性模型学习能力、大数据和强大计算资源等方面相较于传统人工的优势, 能最大限度的发掘因子的价值。\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-bf3cc862a974da0f3167ea5.png\& data-rawwidth=\&690\& data-rawheight=\&281\&\u003E\u003Cp\u003E\u003Cb\u003E1.引言\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E近年来,量化投资行业得到了迅速的发展,随着理论升级和技术更新,Barra风险结构模型逐步得到更广泛和更深度的应用。多因子模型为Barra风险结构模型的一个简化模型,其基本假设就是相似的资产会有相似的回报。由于某些特定的原因(因子),资产的收益也会表现出一致性,例如价量变化、行业、规模或者利率变化。多因子模型旨在发掘能够带来超额收益的阿尔法因子,并且确定收益率随因子变化的敏感程度。\u003C\u002Fp\u003E\u003Cp\u003E传统多因子模型在 A 股过去若干年内也获得较为稳健的超额收益。然而,由于市值效应在 A 股市场的影响过于明显,导致传统多因子模型或多或少都受其影响。 尤其是自2016年11月以来,随着A股市场风格的急剧变化,策略稳定性受到了一定冲击。从目前市值因子的收益波动性而言,小市值因子超额收益的黄金时代可能已经过去。2017,券商研报构建了交易型阿尔法选股体系,旨在挖掘短期盈利机会,对原有传统阿尔法选股体系形成极大补充。\u003C\u002Fp\u003E\u003Cp\u003E本篇报告将开创性地构建全新的多因子模型体系——人工智能阿尔法选股体系,这又将成为传统阿尔法选股体系和交易型阿尔法选股体系的极大补充,从而更深入地推进多因子模型体系的理论和实证研究。人工智能阿尔法选股体系简称AI阿尔法体系,是利用人工智能领域中的机器学习技术,将挖掘因子收益的潜力发挥极致。\u003C\u002Fp\u003E\u003Cp\u003E本篇报告中,我们对基本面因子、财务因子、交易型因子共计282个因子在短期、中期、长期的因子收益进行了测试,因子一部分来自WorldQuant、券商研报,一部分来自于BigQuant因子库,因子数据都为个股日频数据。本文采取的是StockRanker AI策略,以-的数据作为训练集,以的数据作为测试集,并验证模型在测试集上回测的绩效结果。其中策略收益率最高的为持仓40天的总市值排序因子,到期间年化收益为108%,即使小市值因子在今年发生回撤,AI阿尔法体系下的StockRanker策略远远超过了传统阿尔法体系下的小市值策略。\u003C\u002Fp\u003E\u003Cp\u003EAI阿尔法体系是对传统阿尔法体系和交易型阿尔法体系的补充,也是以机器学习为代表的人工智能技术在量化交易领域比较成熟的应用,是一种有全新思路、独立设计的交易体系。希望AI阿尔法体系的构建,能够展现人工智能技术在金融量化领域发挥真正威力。\u003C\u002Fp\u003E\u003Cp\u003E由于文章内容丰富,此处只是部分报告,想要阅读\u003Cb\u003E完整报告\u003C\u002Fb\u003E请点击下面 \u003Ca href=\&https:\u002F\u002Fcommunity.bigquant.com\u002Ft\u002F%E3%80%90%E9%87%8D%E7%A3%85%E3%80%91AI-AlphasA%E8%82%A1%E7%89%88\u002F994?fm=zhihu&dt=0803\&\u003E原文链接\u003C\u002Fa\u003E。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E原文链接:\u003C\u002Fb\u003E\u003Ca href=\&https:\u002F\u002Fcommunity.bigquant.com\u002Ft\u002F%E3%80%90%E9%87%8D%E7%A3%85%E3%80%91AI-AlphasA%E8%82%A1%E7%89%88\u002F994?fm=zhihu&dt=0803\&\u003E【重磅】AI Alphas(A股版)\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Cp\u003E本文由\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fbigquant.com\u002F%3Ffm%3Dshequ%26dt%3Dtype%3Dalpha101\&\u003EBigQuant\u003C\u002Fa\u003E宽客学院推出,版权归\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fbigquant.com\u002F%3Ffm%3Dshequ%26dt%3Dtype%3Dalpha101\&\u003EBigQuant\u003C\u002Fa\u003E所有,欢迎转载。\u003C\u002Fp\u003E\u003Cp\u003E更多AI应用在量化投资领域的文章欢迎添加\u003Cb\u003E BigQuant \u003C\u002Fb\u003E微信公众号。\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E&,&updated&:new Date(&T10:01:04.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:6,&likeCount&:47,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T18:01:04+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-2bc1ec4e416aaed_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:6,&likesCount&:47},&&:{&title&:&【资源收藏】想学AI和数据挖掘,关注这些号就够了!&,&author&:&bigquant&,&content&:&\u003Cp\u003E当书架上的技术书籍越来越多的时候,你可能会有这样的困惑:买了太多技术书籍却不知道从哪里下手;知识也是零碎难成体系;还在担心学了屠龙技在实业界无用武之地;也不知道从哪些地方获得精准的行业资讯…\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E为了帮你解决这些烦恼,\u003Ca href=\&https:\u002F\u002Fbigquant.com\u002F\&\u003EBigQuant\u003C\u002Fa\u003E 汇集了20个人工智能、数据挖掘等领域的精品公众号。通过关注这些公众号,我们可以获取人工智能、大数据分析、技术应用场景、业界深度观点、行业领先咨讯等信息,希望对大家学习有帮助!\u003C\u002Fp\u003E\u003Cp\u003E(点击链接,获取二维码:\u003Ca href=\&https:\u002F\u002Fxueqiu.com\u002F\u002F\&\u003E【资源收藏】想学AI和数据挖掘,关注这些号就够了!\u003C\u002Fa\u003E)\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E51CTO技术栈\u003C\u002Fb\u003E 微信号:blog51cto\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E技术最前线 \u003C\u002Fb\u003E微信号:topitnews\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003ECSDN大数据 \u003C\u002Fb\u003E微信号:csdnbigdata\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E机器之心 \u003C\u002Fb\u003E微信号:almosthumanCbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E新智元 \u003C\u002Fb\u003E微信号:AI_era\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003EBigQuant人工智能量化平台\u003C\u002Fb\u003E 微信号:ibigquant\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E集智AI学园 \u003C\u002Fb\u003E微信号:swarmAI\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E美团点评技术团队 \u003C\u002Fb\u003E微信号:meituantech\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003EAI科技大本营 \u003C\u002Fb\u003E微信号:rgznai100\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003EPaperWeekly \u003C\u002Fb\u003E微信号:paperweekly\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E量化投资与机器学习 \u003C\u002Fb\u003E微信号:ZXL_LHTZ_JQXX\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E大数据技术\u003C\u002Fb\u003E 微信号:TheBigDataCbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E机器学习研究会 \u003C\u002Fb\u003E微信号:gh_c\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E人工智能AI与大数据技术实战 \u003C\u002Fb\u003E微信号:weic2c\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E数据挖掘入门与实战 \u003C\u002Fb\u003E微信号:datadw\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E算法爱好者 \u003C\u002Fb\u003E微信号:AlgorithmFans\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E中国人工智能学会 \u003C\u002Fb\u003E微信号:CAAI-Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E机器学习算法与Python学习 \u003C\u002Fb\u003E微信号:guodongweiCbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E算法与数据结构 \u003C\u002Fb\u003E微信号:TheAlgorithm\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E数说工作室 \u003C\u002Fb\u003E微信号:shushuojun\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E本文搜集的公众号已经不少,但也欢迎大家持续补充,补充的小伙伴可以回复或私信,我们将不断更新。\u003Cbr\u003E欢迎转载,转载前请先获得作者\u003Ca href=\&https:\u002F\u002Fbigquant.com\u002F\&\u003EBigQuant\u003C\u002Fa\u003E同意!\u003C\u002Fp\u003E&,&updated&:new Date(&T07:35:39.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:0,&likeCount&:48,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T15:35:39+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-4d1af4fe9979fdcaafe48af738fc7866_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:0,&likesCount&:48},&&:{&title&:&AI和机器学习对量化交易领域的影响&,&author&:&bigquant&,&content&:&\u003Cp\u003E\u003C\u002Fp\u003E\u003Cp\u003E来源:Medium
作者:Michael Harris\u003C\u002Fp\u003E\u003Cp\u003E本文为Michael Harris 在欧洲作为邀请嘉宾为高净值客户和交易者所做的一场演讲概要,主题为“人工智能与机器学习将对交易与投资产生的巨大影响”。文章主要从四个方面进行阐释,包括交易、阿尔法策略、技术分析和交易员。以下为原文主要内容:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E1. 人工智能与机器学习对于交易领域的影响\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E交易领域的人工智能应用,通常是通过机器学习(ML)来实现。机器学习利用神经网络或其他学习方法鉴别、分析、预测特征或者因子,这些特征、因子具有经济价值,可用于构建盈利交易策略。在金融市场上,人工智能将取代人执行交易。\u003C\u002Fp\u003E\u003Cp\u003E尽管以人工智能为基础的策略应用日渐广泛,但由于传统认知问题,大多数交易员还在使用传统方法。人工智能的发展需要新的工具与人才投入。\u003C\u002Fp\u003E\u003Cp\u003E人工智能的发展不仅仅局限于制定交易策略,同样也应用于开发流动性搜索算法,生成投资建议等。随着人工智能的发展,参与交易和投资的人数将会慢慢降低,届时市场也会更有效,更稳定,尽可能避免人类主观意见的影响。对于这样的未来,我们将拭目以待。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E2. 人工智能与机器学习对于阿尔法收益的影响\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E在AI科技应用于市场的早期,对于了解新科技并能管理风险的人们存在巨大机会。目前基于AI产生的策略,产生的问题之一就是模型有可能会比随机产生的模型效果还要差。作者想要表达的是,传统技术分析是一种无利可图的交易方式,特别是在期货和外汇市场,长期盈利很难实现。但在短期内,运气好的交易者会在杠杆市场中获取巨大利润,而他们将原因归咎于策略和能力,而不是运气。\u003C\u002Fp\u003E\u003Cp\u003EAI和机器学习将改变这一局面。拥有糟糕人工智能交易策略的交易者会很快被市场淘汰,留下的会是稳健性的交易者。届时,到底是人工智能交易员还是大型投资者胜利,犹未可知。\u003C\u002Fp\u003E\u003Cp\u003E特别需要提到的是人们对于本领域的误解:有些人认为最重要的是机器学习的算法,这是不对的。真正有价值的是使用的预测因子或特征。目前机器学习的专业人士都在使用相同的预测因子,尝试以迭代的方法开发不同的模型,希望产生良好的结果,但最后都因为数据偏差而失败。作者的研究表明,使用简单的分类器,例如二元逻辑回归就可以检测一组预测因子之间否具有可产生经济价值的联系。因此,成功的关键在于特征工程,这是一门艺术与科学相结合的学科,需要知识,经验和想象力才能发现具有经济价值的特征。只有少部分专业人士能够做到这一点。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E3. 人工智能与机器学习对于技术分析的影响\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E依赖于价格和成交量的分析方式大多属于技术分析的范畴,这种传统的、基于图表形态、技术指标的技术分析方法并不是有效的投资方法。\u003C\u002Fp\u003E\u003Cp\u003E在作者看来,技术分析方法正在慢慢过时。交易的未来在于处理信息,实时开发和验证模型。未来的对冲基金将不会依赖于图表分析。一些交易员仍然会这样做,因为他们处于过渡的边界,旧的方式与新时代相交汇点。许多不熟悉人工智能的交易员将发现他们很难保持竞争力,并会选择退出。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E4. 新交易技术时代的赢家与输家\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003EAI 会改变交易市场状况,取代投资顾问的位置,可在线咨询投资建议,证券推荐等。\u003C\u002Fp\u003E\u003Cp\u003E现在有很多学习机器学习,AI和交易的资源,但大多数交易员都无法完成这个转变,95%的交易员会被淘汰。\u003C\u002Fp\u003E\u003Cp\u003E未来将会有很多人工智能投资顾问,如何挑选一个适合特定需求的投资顾问将会成为具有挑战性的任务。\u003C\u002Fp\u003E\u003Cp\u003E对于不熟悉AI和机器学习的人们,与该领域的专业人士交流将比自己埋头看书要有效得多。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003EMichael Harris很多观点,我们有一致的见解:\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E我们需要更好的AI工具和服务\u003Cbr\u003E\u003Cbr\u003E微软\u002FGoogle等大型互联网公司在10年前就开始使用大规模机器学习和深度学习。在量化投资等行业,普遍还在用着几十年前的过时的分析方法。AI人才缺乏,技术门槛高,把很大部分人挡在外面。\u003Ca href=\&https:\u002F\u002Fbigquant.com\u002F\&\u003EBigQuant\u003C\u002Fa\u003E,面向量化投资领域的AI平台,希望通过我们团队多年的机器学习经验和投资经验,能将AI的使用门槛降到最低,让每一个投资者都能使用。\u003C\u002Fli\u003E\u003Cli\u003E特征工程是关键\u003Cbr\u003E\u003Cbr\u003E是否有了AI,我们就什么都不用做了。答案是否定的,至少在可见的未来,在弱人工智能时代,AI还不能达到这样的水平。AI是工具,在量化投资上,好的因子\u002F特征和AI结合才能发挥最大的价值。在\u003Ca href=\&https:\u002F\u002Fbigquant.com\u002F\&\u003EBigQuant\u003C\u002Fa\u003E上,我们提供了AI算法、金融数据和大规模算力,让投资者可以专注在因子\u002F特征的发掘和创新上,重复和大数据计算工作让AI来辅助完成。\u003C\u002Fli\u003E\u003Cli\u003E以前赚钱的人在未来不一定能赚钱\u003Cbr\u003E\u003Cbr\u003E文章提到很多投资者靠运气在短期内能赚钱,并归结于自己的能力。我们分析了过往大量投资者和基金的业绩数据,深表认同。很多投资者在短期内能盈利甚至大幅跑赢市场,但能在市场上长期盈利的凤毛麟角。只靠运气,是不能在这个市场上长期存在的。技术和时代在进度,投资者需要紧跟技术的趋势,才能利于不败之地。在数据时代,AI即未来。\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E原文:\u003Ca href=\&https:\u002F\u002Fmedium.com\u002Ftowards-data-science\u002Fimpact-of-artificial-intelligence-and-machine-learning-on-trading-and-investing-e\&\u003E《Impact Of Artificial Intelligence And Machine Learning on Trading And Investing》\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Cp\u003E由于原文需要科学上网(fanqiang),打不开的小伙伴可以点击 \u003Ca href=\&https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1mi9kdEo\&\u003E链接\u003C\u002Fa\u003E 进行pdf下载。\u003C\u002Fp\u003E\u003Cp\u003E若您对这篇文章产生认同或有不同意见,欢迎到\u003Ca href=\&https:\u002F\u002Fcommunity.bigquant.com\u002F?=0818zhihu\&\u003EBigQuant社区\u003C\u002Fa\u003E中与我们讨论。\u003C\u002Fp\u003E\u003Cp\u003E加入 \u003Cb\u003E人工智能量化投资交流群\u003C\u002Fb\u003E:微信搜索bigq100,添加微信群管理员微信,附上姓名、所在机构、部门和职位,审核后管理员会邀请您入群。 \u003Cbr\u003E\u003Cbr\u003E关注\u003Cb\u003E BigQuant 微信公众号\u003C\u002Fb\u003E:微信搜索 BigQuant, 获取更多人工智能、Machine Learning、量化投资相关文章。 \u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E&,&updated&:new Date(&T08:22:50.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:4,&likeCount&:24,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T16:22:50+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-bb9b7891c4aaa95c99ab71added250ae_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:4,&likesCount&:24},&&:{&title&:&过拟合详解:监督学习中不准确的“常识”&,&author&:&bigquant&,&content&:&\u003Cp\u003E\u003C\u002Fp\u003E\u003Cblockquote\u003E导语:本文为Mehmet Süzen撰写文章的译文,稍有删改。文章清晰地阐释和区分过度拟合及过度拟合等概念,对于本领域学习者正确理解专业术语多有帮助。正如作者在原文末所指出的:对待简单的概念,我们也应抱着积极求学的态度,了解其成立的基础。\u003C\u002Fblockquote\u003E\u003Ch2\u003E前言\u003C\u002Fh2\u003E\u003Cp\u003E大多数从业者对”过拟合“这一概念存在误解。在数据科学界,始终存在一种类似于民间说法的观点:\u003C\u002Fp\u003E\u003Cblockquote\u003E“利用交叉验证可以防止过拟合。在样本外对模型进行验证,如果不存在泛化误差,则模型不存在过拟合”\u003C\u002Fblockquote\u003E\u003Cp\u003E这个说法显然是不对的:交叉验证并不能阻止模型过拟合。样本外的良好预测性能并不能保证模型不存在过拟合。在这个说法中,前部分说的概念其实是“过度训练”。不幸的是,这种快速传播的说法不仅仅在业界传播还在一些学术论文中出现。这是专业术语上的一种混淆,我们觉得有必要澄清“过拟合”这个专业术语的概念。\u003C\u002Fp\u003E\u003Cp\u003E在本文,我们会给出直观的解释:为什么模型验证即获取最小的泛化误差与过拟合的检测不能在一个模型上同时得到解决。在明确一些概念介绍后,我们会举例说明,以帮助大家理解过度拟合,过度训练和典型的最终模型的建立步骤。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E监督学习需要满足的条件:\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E数学最基本的任务之一是找到函数的解法:如果将其限制在 \u003Cequation\u003E n \u003C\u002Fequation\u003E 维实数域,则方程和答案均出于 \u003Cequation\u003E\\mathbb R^n\u003C\u002Fequation\u003E 。假设数据集中有 \u003Cequation\u003Ep\u003C\u002Fequation\u003E 个数据点,分别命名为 \u003Cequation\u003E x_i \u003C\u002Fequation\u003E ,这些是方程的部分解。建模的目的是为了找到数据集的解,这意味着我们需要找到 \u003Cequation\u003Em\u003C\u002Fequation\u003E 个未知参数, \u003Cequation\u003Ea\\in {\\mathbb R^m} \u003C\u002Fequation\u003E 。以数学的表达方式而言,构建一个方程: \u003Cequation\u003Ef(x,a) \u003C\u002Fequation\u003E 。这个方程被称为回归方程,插值方程或者监督学习方程,取决于你阅读的文献。这是反问题的一种形式,虽然我们不知道参数,但我们有部分变量的信息。最主要的问题在于不适定性,是指解答不适定,实际存在很多可以解释样本的函数 \u003Cequation\u003Ef(x,a)\u003C\u002Fequation\u003E 。对于方程 \u003Cequation\u003Ef(x,a)=0 \u003C\u002Fequation\u003E ,需要满足两个要求:\u003C\u002Fp\u003E\u003Cblockquote\u003E1. 普适性:模型验证,模型不能仅在样本集中使用\u003Cbr\u003E2. 最小复杂度:模型选择,模型应该满足奥卡姆剃刀原理。\u003C\u002Fblockquote\u003E\u003Cp\u003E模型的普适性可以用拟合优度来衡量,表明模型能够在怎样的程度上解释样本。为达到最小复杂度,模型之间需要相互比较。\u003C\u002Fp\u003E\u003Cp\u003E迄今为止,我们还未统一检测普适性并选择最佳模型的方法,需要数据科学家或者量化从业者通过个人经验进行判断。\u003C\u002Fp\u003E\u003Ch2\u003E模型验证\u003C\u002Fh2\u003E\u003Cp\u003E验证模型普适性的一个方法是提出可以衡量模型对于样本集的解释的度量标准。模型验证的主要目标为估计模型误差。比如,均方根误差(RMDS)是一个可以使用的度量标准。如果RMSD很低,表明拟合效果好,理想情况下RMDS应该接近于0。但如果我们只用样本集去衡量,不足以证明模型具有普适性,需要使用样本外数据进行检测参数 \u003Cequation\u003Ea\u003C\u002Fequation\u003E 。进一步,改进的方法是使用交叉验证,将样本集分为 \u003Cequation\u003Ek\u003C\u002Fequation\u003E 部分,我们可以获得 \u003Cequation\u003Ek\u003C\u002Fequation\u003E 个RMDS的平均值,如图1所示。\u003C\u002Fp\u003E\u003Cimg src=\&v2-39e3b5b2e19c220f632c5.jpg\& data-rawwidth=\&320\& data-rawheight=\&238\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E
图1 :监督学习的模型验证和分类示意\u003C\u002Fp\u003E\u003Ch2\u003E模型选择:过拟合检测\u003C\u002Fh2\u003E\u003Cp\u003E当考虑满足“最小模型复杂度”时,过拟合是需要进行考虑的因素。多个模型进行比较来判断是否过拟合。Douglas Hawkins在他经典论文The Problem of Overfitting 中写道:\u003C\u002Fp\u003E\u003Cblockquote\u003E模型的过拟合常见的担忧,过拟合很难被辨识,因为它不是一个绝对的问题,需要比较才能得出。如果两个模型拟合优度相同但其中一个模型更加复杂,那么这个模型就过拟合了。\u003C\u002Fblockquote\u003E\u003Cp\u003E关键因素是“复杂模型”的含义是什么?我们如何定量确定“模型的复杂度”?不幸的是,这是没有确定的方法。大家公认的方法是:一个模型有更多参数的时候,模型也就更加复杂。但是这个说法也是非正式的,通常也不准确。我们可以求助于复杂度的不同衡量方式,例如,函数 \u003Cequation\u003Ef_1(a,x)=ax \u003C\u002Fequation\u003E 和 \u003Cequation\u003Ef_2(a,x)=ax^2\u003C\u002Fequation\u003E ,两个函数有相同的参数数量,但是 \u003Cequation\u003Ef_2\u003C\u002Fequation\u003E 更加复杂,因为函数是非线性的。关于如何判定复杂度,这里有很多可以讨论的,但本文不做进一步介绍。为了下面的范例演示,我们认为模型参数越多,非线性度越强,则模型越复杂。\u003C\u002Fp\u003E\u003Ch2\u003E范例操作\u003C\u002Fh2\u003E\u003Cp\u003E上文已经直观地介绍为什么模型验证与过拟合判定不能同时完成的原因。在接受上文假设后我们开始构造样本集和模型,以直观说明。\u003C\u002Fp\u003E\u003Cp\u003E一般步骤为构建一个样本集,由某个模型生成,并将模型作为标准。然后利用样本集生成其他模型,我们构建如下形式的模型,但再添加一些高斯噪音: \u003Cequation\u003Ef(x)= sin(2\\pi x) + \\mathcal{N}(0,0.1) \u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-2c090d525e0b72cf6946a.png\& data-rawwidth=\&320\& data-rawheight=\&320\&\u003E\u003Cp\u003E
图2:生成的样本集及非随机部分示意\u003C\u002Fp\u003E\u003Cp\u003E利用模型生成100个数据点,形成足够大的样本集,如图2所示。构造 \u003Cequation\u003E g(x) \u003C\u002Fequation\u003E 和 \u003Cequation\u003Eh(x)\u003C\u002Fequation\u003E应用于样本集的训练,分别是三次和五次多项式,如下所示:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cequation\u003Eg(x) = a_{0} + a_{1} x + a_{2} x^{2} + a_{3} x^{3} \u003C\u002Fequation\u003E 和 \u003Cequation\u003Eh(x) = b_{0} + b_{1} x + b_{2} x^{2} + b_{3} x^{3} + b_{4} x^{4} + b_{5} x^{5} + b_{6} x^{6}\u003C\u002Fequation\u003E\u003C\u002Fp\u003E\u003Ch2\u003E过度训练\u003C\u002Fh2\u003E\u003Cp\u003E过度训练是指模型的拟合优度随着某一客观变量偏离最佳值而下降。比如,神经网络中的训练集样本大小。观察 \u003Cequation\u003Eg(x)\u003C\u002Fequation\u003E 训练结果,存在一个最佳的训练样本数量,使样本外数据的拟合优度最佳。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-19e8d1b7b0.jpg\& data-rawwidth=\&320\& data-rawheight=\&320\&\u003E\u003Cp\u003E
图3:当 \u003Cequation\u003Eg(x)\u003C\u002Fequation\u003E 的训练样本集数量超过40%产生过度训练\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-b0cad185eeeaedf9250dd.jpg\& data-rawwidth=\&320\& data-rawheight=\&320\&\u003E\u003Cp\u003E
图4:当 \u003Cequation\u003Eh(x)\u003C\u002Fequation\u003E 的训练样本集数量超过30%产生过度训练\u003C\u002Fp\u003E\u003Ch2\u003E低泛化误差的过拟合\u003C\u002Fh2\u003E\u003Cp\u003E计算10倍交叉验证 \u003Cequation\u003Eg(x)\u003C\u002Fequation\u003E 和 \u003Cequation\u003Eh(x)\u003C\u002Fequation\u003E 的均方根误差,分别是0.13和0.12,结果显示:更加复杂的模型得到的拟合优度与相对简单的模型是一致的。我们不能通过均方根误差来或者是过度训练的曲线来判断过拟合,如图4。模型之间需要被比较,参考图3与图4曲线与均方根误差值。\u003C\u002Fp\u003E\u003Ch2\u003E选择使用哪个模型?\u003C\u002Fh2\u003E\u003Cp\u003E我们找到了具有良好拟合优度的最低复杂度的模型,但是我们应该采用哪个模型进行使用呢?在模型选择部分我们找到构造了模型,既然 \u003Cequation\u003Eg(x)\u003C\u002Fequation\u003E 和 \u003Cequation\u003Eh(x)\u003C\u002Fequation\u003E 具有相同拟合优度,那我们显然应该选择 \u003Cequation\u003Eg(x)\u003C\u002Fequation\u003E ,并在图3中显示的最佳数量样本上进行训练。\u003C\u002Fp\u003E\u003Ch2\u003E结论\u003C\u002Fh2\u003E\u003Cp\u003E如本文实例所示,良好的拟合优度并不能保证模型没有过拟合,当人们谈论到”过拟合“时,他们说的往往是”过度训练“。\u003C\u002Fp\u003E\u003Cp\u003E---\u003C\u002Fp\u003E\u003Cp\u003E作者: Mehmet Süzen
来源: Memo’s Island\u003C\u002Fp\u003E\u003Cp\u003E原文链接:\u003Ca href=\&http:\u002F\u002Fmemosisland.blogspot.jp\u002F\u002Funderstanding-overfitting-inaccurate.html\&\u003EUnderstanding overfitting: an inaccurate meme in supervised learning\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Cp\u003E若您对这篇文章产生认同或有不同意见,欢迎到\u003Ca href=\&https:\u002F\u002Fcommunity.bigquant.com\u002Ft\u002F%E8%BF%87%E6%8B%9F%E5%90%88%E8%AF%A6%E8%A7%A3%EF%BC%9A%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0%E4%B8%AD%E4%B8%8D%E5%87%86%E7%A1%AE%E7%9A%84%E2%80%9C%E5%B8%B8%E8%AF%86%E2%80%9D\u002F1893?zhihu\&\u003EBigQuant社区\u003C\u002Fa\u003E中与我们讨论。\u003C\u002Fp\u003E\u003Cp\u003E加入 \u003Cb\u003E人工智能量化投资交流群\u003C\u002Fb\u003E:微信搜索bigq100,添加微信群管理员微信,附上姓名、所在机构、部门和职位,审核后管理员会邀请您入群。 \u003Cbr\u003E\u003Cbr\u003E关注 \u003Cb\u003EBigQuant 微信公众号\u003C\u002Fb\u003E:微信搜索 BigQuant, 获取更多人工智能、Machine Learning、量化投资相关文章。\u003C\u002Fp\u003E&,&updated&:new Date(&T02:43:10.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:0,&likeCount&:17,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T10:43:10+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-af20a9fe48ada5bf81ea3a4f4173aed0_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:0,&likesCount&:17},&&:{&title&:&『求贤令』BigQuant招聘AI工程师\u002F产品\u002F运营&,&author&:&bigquant&,&content&:&\u003Cp\u003E我们\u003Ca href=\&https:\u002F\u002Fbigquant.com\u002F?fmzhihudt=0904\&\u003E[BigQuant]\u003C\u002Fa\u003E是一家人工智能+科技金融领域的创业公司。我们致力于把人工智能的能力赋予每一个投资者 (\u003Cb\u003Edemocratize AI to empower investors\u003C\u002Fb\u003E)。在\u003Ca href=\&https:\u002F\u002Fbigquant.com\u002F?zhihu&0904\&\u003EBigQuant\u003C\u002Fa\u003E平台上,用户可以无门槛的应用领先的AI技术实现更高效地投资策略研发。\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E团队主要毕业于北大、清华、华科、东财等,有10年以上微软、腾讯等一线互联网公司和知名量化私募等工作经验,拥有丰富的互联网大数据\u002F机器学习从业经验和资深的量化投资经验\u003C\u002Fli\u003E\u003Cli\u003E刚刚低调的做了一轮融资\u003C\u002Fli\u003E\u003Cli\u003E我们重视人才和技术,有着良好的工程师文化和开放的环境。虽然目前团队大部分是男生,我们每周练两次瑜伽\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E这里有更多\u003Ca href=\&https:\u002F\u002Fbigquant.com\u002Fabout\u002F\&\u003E关于我们的历程\u003C\u002Fa\u003E。我们拥抱AI,我们和未来在一起,我们离钱也很近。期待我们一起,去做点有意义的事情——为用户创造价值。\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cb\u003E1. AI工程师\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cb\u003E在数据智能时代,数据是新的生产资料,AI是新的生产力。工程师在这里能实现最大的价值。\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E岗位职责\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cb\u003E数据工程师\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cul\u003E\u003Cli\u003E构建PB\u002FEB级金融大数据平台\u003C\u002Fli\u003E\u003Cli\u003E高性能网络爬虫设计和实现\u003C\u002Fli\u003E\u003Cli\u003E数据抽取、清洗、分析等结构化处理、知识库建立和存储\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cli\u003E\u003Cb\u003E机器学习工程师\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cul\u003E\u003Cli\u003E构建高性能机器学习平台\u003C\u002Fli\u003E\u003Cli\u003E针对金融数据、文本数据等,研究机器学习\u002F深度学习模型和算法\u003C\u002Fli\u003E\u003Cli\u003E算法实现、接口设计和模块封装\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cli\u003E\u003Cb\u003E量化引擎工程师\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cul\u003E\u003Cli\u003E负责研发高性能量化回测引擎\u003C\u002Fli\u003E\u003Cli\u003E负责研发高性能交易系统,实现股票、期货等交易对接\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cli\u003E\u003Cb\u003E后端服务工程师\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cul\u003E\u003Cli\u003E负责平台后端高性能服务设计和开发\u003C\u002Fli\u003E\u003Cli\u003E跨系统接口设计和对接\u003C\u002Fli\u003E\u003Cli\u003EWeb服务、微信服务、支付服务等开发对接\u003C\u002Fli\u003E\u003Cli\u003E服务数据和质量监控\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cli\u003E\u003Cb\u003E前端工程师\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cul\u003E\u003Cli\u003EAI平台前端开发和体验优化,让AI为每个人可以用\u003C\u002Fli\u003E\u003Cli\u003EBigQuant web端\u002F微信端产品和服务前端开发和体验优化\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cli\u003E\u003Cb\u003E测试工程师\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cul\u003E\u003Cli\u003E负责 BigQuant 平台产品测试,保证交付的产品和服务质量\u003C\u002Fli\u003E\u003Cli\u003E学习、使用和开发自动化测试工具\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cb\u003E任职要求\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E本科及以上学历,3年以上互联网从业经验,能力优秀的不限制\u003C\u002Fli\u003E\u003Cli\u003E计算机基础知识扎实,包括不限定于操作系统、计算机网络、数据结构和算法\u003C\u002Fli\u003E\u003Cli\u003E对数据科学、人工智能、科技金融有强烈的兴趣\u003C\u002Fli\u003E\u003Cli\u003E优秀的学习能力和自我驱动力\u003C\u002Fli\u003E\u003Cli\u003E优秀的编码能力,良好的编码习惯和风格(比如用空格而不是Tab ^_^),重视代码质量和最佳工程实践\u003C\u002Fli\u003E\u003Cli\u003E熟练使用Python等至少一门编程语言,掌握现代软件开发方法、工具和语言\u003C\u002Fli\u003E\u003Cli\u003E有相关经验优先(参考具体岗位)\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Ch2\u003E\u003Cb\u003E2. AI产品经理\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cb\u003E互联网产品经理将成为过去,AI产品经理是未来。\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E岗位职责\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E负责人工智能量化平台的产品策划、需求设计,并推动实施\u003C\u002Fli\u003E\u003Cli\u003E负责用户成长体系\u002F路径的设计,引导用户从初学者一步一步学习如何使用AI开发策略\u003C\u002Fli\u003E\u003Cli\u003E根据团队业务目标,制定产品的具体迭代计划,并推动团队高效执行\u003C\u002Fli\u003E\u003Cli\u003E负责数据分析、用户反馈和竞品追踪,解决用户问题,持续优化用户体验\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cb\u003E任职要求\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E本科及以上学历,3年以上互联网从业经验,具备独立负责产品全流程经验者优先\u003C\u002Fli\u003E\u003Cli\u003E擅长用户需求的产品理解和表达,有较强的数据和用户行为分析能力\u003C\u002Fli\u003E\u003Cli\u003E具备优秀的自我驱动力,能主动思考,及时改进产品问题\u003C\u002Fli\u003E\u003Cli\u003E具有良好的沟通能力、抗压能力与团队合作精神\u003C\u002Fli\u003E\u003Cli\u003E具备人工智能及金融相关经验最佳\u003C\u002Fli\u003E\u003Cli\u003E对人工智能和科技金融有强烈兴趣\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Ch2\u003E\u003Cb\u003E3. AI产品运营\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cb\u003EGrowth Hacker wanted.\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E岗位职责\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E参与制定BigQuant人工智能量化平台运营策略\u003C\u002Fli\u003E\u003Cli\u003E负责新媒体(微信公众号、微博、知乎、雪球等)运营工作\u003C\u002Fli\u003E\u003Cli\u003E策划线上和线下活动,提升用户活跃度和产品黏性\u003C\u002Fli\u003E\u003Cli\u003E通过数据分析和用户沟通,了解用户的行为,为产品改进提供需求\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cb\u003E任职要求\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E对人工智能和科技金融有强烈的兴趣\u003C\u002Fli\u003E\u003Cli\u003E本科及以上学历,2年左右互联网及新媒体运营经验,有独立产品运营经验者为佳\u003C\u002Fli\u003E\u003Cli\u003E具有较好的软文写作能力、采编能力和策划能力,具有良好的文字功底\u003C\u002Fli\u003E\u003Cli\u003E善于利用多种线上线下推广手段\u003C\u002Fli\u003E\u003Cli\u003E有人工智能和金融相关经验的优先\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Ch2\u003E\u003Cb\u003E快加入我们吧\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E请发送简历到 \u003Cb\u003E\u003Ca href=\&mailto:\&\\u003C\u002Fa\u003E\u003C\u002Fb\u003E 或者 微信联系 \u003Cb\u003E小Q (微信:bigq100)\u003C\u002Fb\u003E,您也可以联系小Q加入我们的机器学习交流群。欢迎推荐您的优秀的朋友,\u003Cb\u003E推荐成功送BigQuant 平台一年VIP服务和iPhone 8\u003C\u002Fb\u003E。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E成都\u003C\u002Fb\u003E:我们研发主要在成都\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E成都在吸引全球各地的人才,目前每年清华北大的人才流入流出已经持平\u003C\u002Fli\u003E\u003Cli\u003E高速发展的城市,新一线城市排名第一,中国中西部的硅谷,IT\u002F互联网中心\u003C\u002Fli\u003E\u003Cli\u003E政策优厚,直接落户、房价合理、气候温润、各种方便\u003C\u002Fli\u003E\u003Cli\u003E宜居、宜事业,非常适合技术人才\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E你可以通过以下方式更多的了解我们:\u003C\u002Fp\u003E\u003Col\u003E\u003Cli\u003E注册并使用我们的产品和社区:\u003Ca href=\&https:\u002F\u002Fbigquant.com\u002F\&\u003EBigQuant\u003C\u002Fa\u003E\u003C\u002Fli\u003E\u003Cli\u003E邮件 (\u003Ca href=\&mailto:\&\\u003C\u002Fa\u003E) 或者微信联系我们 (加小Q 微信:bigq100)\u003C\u002Fli\u003E\u003Cli\u003E来我们软件园F区的办公室面对面交流,我们周六下午有技术分享,请微信小Q提前约一下哦\u003C\u002Fli\u003E\u003Cli\u003E微博:\u003Ca href=\&http:\u002F\u002Fs.weibo.com\u002Fweibo\u002Fbigquant\&\u003EBigQuant\u003C\u002Fa\u003E\u003C\u002Fli\u003E\u003Cli\u003E知乎:\u003Ca href=\&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fbigquant\u002Factivities\&\u003EBigQuant\u003C\u002Fa\u003E\u003C\u002Fli\u003E\u003Cli\u003E微信公众号:BigQuant\u003C\u002Fli\u003E\u003Cli\u003E官方服务QQ群:\u003C\u002Fli\u003E\u003C\u002Fol\u003E&,&updated&:new Date(&T06:18:00.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:9,&likeCount&:13,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T14:18:00+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-d1ddcd5c3_r.jpg&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:9,&likesCount&:13},&&:{&title&:&『AI挑战赛』在BigQuant上用AI挑战虚拟股票预测竞赛(附代码)&,&author&:&bigquant&,&content&:&\u003Cp\u003E\u003Cb\u003E导语\u003C\u002Fb\u003E:\u003Cbr\u003E\u003Cbr\u003E创新工场、搜狗、今日头条联合发起世界级AI竞赛,\u003Ca href=\&http:\u002F\u002Fwww.bigquant.com\u002F?fm=zhihu&dt=1023&source=gh\&\u003EBigQuant\u003C\u002Fa\u003E作为一家专业的机器学习平台,提供竞赛数据和AI算法,助你轻松参赛,勇夺丰厚现金大奖、斩获主办方提供的工作实习机会。\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003EAI Challenger 全球AI挑战赛:\u003C\u002Fb\u003E\u003Cbr\u003E\u003Cbr\u003E创新工场、搜狗和今日头条联合宣布三方携手发起 AI Challenger全球AI挑战赛。本次竞赛三方联合旨在打造中国最大的科研数据集与世界级AI竞赛平台,推动人工智能领域科研创新。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-c557ceb5ccbade48da44fde2.jpg\& data-caption=\&\& data-rawwidth=\&690\& data-rawheight=\&460\&\u003E\u003Cp\u003E\u003Cb\u003EBigQuant:\u003C\u002Fb\u003E \u003Ca href=\&http:\u002F\u002Fwww.bigquant.com\u002F?zhihu&dt=1023&source=gh\&\u003EBigQuant\u003C\u002Fa\u003E助你用AI做量化投资。我们新上线的 Big Studio 可视化策略开发,能够帮助大家更快速更简单地开发机器学习、深度学习试验,快速实现试验迭代,帮助大家轻松参加全球AI挑战赛!\u003Cbr\u003E\u003Cbr\u003EBig Studio 提供了所见即所得的策略开发环境,集合了众多模块,包括数据输入、输出、数据变换、模型训练、预测和量化交易等。你只需要拖动数据和模块,连连线,配置参数,就可以开发AI策略,从而将更多的创造力放在自己擅长的地方。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-ffae55c28b5267.png\& data-caption=\&\& data-rawwidth=\&690\& data-rawheight=\&317\&\u003E\u003Cp\u003E\u003Cb\u003E开始挑战吧!\u003C\u002Fb\u003E \u003Ca href=\&https:\u002F\u002Fcommunity.bigquant.com\u002Ft\u002F%E5%9C%A8BigQuant%E4%B8%8A%E7%94%A8AI%E6%8C%91%E6%88%98%E8%99%9A%E6%8B%9F%E8%82%A1%E7%A5%A8%E9%A2%84%E6%B5%8B%E7%AB%9E%E8%B5%9B-%EF%BC%88%E9%99%84%E4%BB%A3%E7%A0%81%EF%BC%89\u002FF?zhihu&dt=1023&source=gh\&\u003E点击此处\u003C\u002Fa\u003E,获取策略开发全部流程和完整代码!\u003Cbr\u003E\u003Cbr\u003E---\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E加入 人工智能量化投资交流群,寻找参赛队友:\u003C\u002Fb\u003E\u003Cbr\u003E\u003Cbr\u003E微信搜索bigq100,添加微信群管理员微信,附上姓名、所在机构、部门和职位,审核后管理员会邀请您入群。\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E关注BigQuant 微信公众号,获取竞赛信息:\u003C\u002Fb\u003E\u003Cbr\u003E\u003Cbr\u003E微信搜索 BigQuant, 获取更多人工智能、Machine Learning、量化投资相关文章。\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E&,&updated&:new Date(&T06:31:12.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:4,&likeCount&:17,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T14:31:12+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&https:\u002F\u002Fpic4.zhimg

我要回帖

更多关于 r6300v2 aimesh 的文章

 

随机推荐