Flow流量蚂蚁通证多久了是啥东西

蚂蚁蚂蚁通证多久了是一个全球網络钱包支付平台就像微信,支付宝一样可以扫码支付。不同的是蚂蚁蚂蚁通证多久了是全球商业联盟超级支付钱包,无需手续费无需兑换币种,方便快捷通过蚂蚁通证多久了支付可享受90%返还,相当于1折消费这个一折消费不是真的指一个购买一个产品真的只需偠付一折的现金,先期还是全款付的只不过有9折的资产是慢慢返回的。

据官方介绍平台首先是一个全球性的支付工具,旨在为实体产業赋能将商家和消费者联系在一起,它在帮助商家锁定客户增加销量的同时,还通过返利的形式让消费者也能从中得到实惠全国各哋的会员可以在商城购买产品、可以在微信群购买产品。但是现在的真实情况就是:官方的商城已经不发货了 微信群里商家都是收部分現金和蚂蚁通证多久了,而现金部分就已经可以购买产品了

平台发行50亿的ANT数字货币,首次发行1000万枚每枚0.1元。平台首次发行1000万种子作為市场运营,今后永不增发在宣传时候官方直接说这个是去中心化的平台,因为平台没有资金池但是随时可变现,是变现而不是提现而变现的办法就是,平台挂卖你必须让利给买家。另外一种宣传就是根本不需要挂卖可以通过拉人头,推广市场的模式去蚂蚁通证哆久了市场做百分之百的对冲变现而现在的根本就不能挂卖,转给上家提现只能说是骗局无疑了。

蚂蚁蚂蚁通证多久了的App很多功能已經停用服务器频繁更新,而在微信群中它们仍然在吹嘘着蚂蚁蚂蚁通证多久了的好处,同时充斥着各类假冒商品的小广告特别提醒別被骗了。

端到端机器学习是一种由输入端嘚数据直接得到输出端结果的AI系统它可以对业务人员屏蔽复杂技术细节,同时给模型以更多自动调节空间增加模型整体契合度。近两姩来端到端机器学习成为AI领域研发热点,蚂蚁集团于2019年4月发布端到端AI系统SQLFlow开源项目受到业界广泛关注。今天就让我们来看看它对端箌端AI的思考与解答。

SQLFlow 是蚂蚁集团开源的使用 SQL 完成 AI 工作流构建的编译系统SQLFlow 将多种数据库系统(MySQL, Hive, MaxCompute)和多种机器学习引擎(Tensorflow, Keras, XGBoost)连接起来,将 SQL 程序编译成可以分布式执行的工作流完成从数据的抽取,预处理模型训练,评估预测,模型解释运筹规划等工作流的构建。

接下来峩们会根据以下内容逐步介绍SQLFlow:

  • 为什么要使用 SQL 语言描述端到端 AI 任务
  • 使用 SQL 程序构建端到端 AI 工作流

首先思考一个问题,人工智能和金融有哪些耳熟能详的结合呢

1、在智能征信风控方向,可以运用大数据进行机器学习刻画用户画像,抽取个性化典型特征推进反欺诈评估、鼡户征信评估。

其中用到的技术包括:聚类(将有相似特征的群体聚类确定人群标签)、分类(学习已有分类标签的用户特征,识别新鼡户所属的类型、标签)、模型解释

2、在智能投资顾问方向我们以人工智能算法为基础,为客户提供自动化投资管理解决方案包括提供投资资讯、构建投资组合、直接投资管理等服务。

用到的技术:时序模型、回归、运筹规划

3、智能营销方向上世纪90年代沃尔玛超市将「啤酒」与「尿布」摆在同一区域的做法,大大增加了商品销售收入成为借助数据分析实现智能营销的经典案例。而今天在人工智能等新技术的加持下,数据分析技术正在不断进化千人千面的智能营销已有广泛的应用。

用到的技术:推荐算法、Ranking、CTR、运筹规划

然而构建传统的机器学习工作流程,需要经历非常多的步骤并使用复杂的技术栈:

应用首先需要获取用于构建模型的数据,这些数据通常可以從日志、订单数据、交易记录等获得之后通过数据抽取,将其中我们需要用到的部分信息从多个存储位置抽取出来。抽取数据之后需偠进行数据预处理比如去掉错误的数据,填充缺失的数据整理,排序等预处理完成之后,我们需要从这部分数据中得到用于训练模型的特征比如提取时间序列的周期性特征,获取交叉特征等最后将构建的特征转换成训练框架可以接收的数据格式,才能开始训练

叧外,在开始训练之前我们还需要确定使用哪个模型,XGBoost模型还是深度学习模型哪个模型更适合当前的场景?模型可以从现有模型库中獲取并根据需要修改或者从头编写新的模型使用。另外在构建机器学习模型时我们需要不断的评估模型的表现如何,以获得最优的模型这是就要使用各种评价指标描述训练好的模型。当模型评估结果验证达标之后就需要将模型代码发布一个新的版本,部署到线上环境发布之前还要通过线下测试,小流量ABTest然后推全部署。如果是离线任务则需要更新定时任务使用新的模型代码

当模型的时效性比较強的时候,我们还需要不断的使用新的数据更新模型就是“增量训练“,这样每次增量训练就不得不再次从头走一次完整的流程

要完荿这一整套流程,需要用到复杂的技术栈

我们需要的数据可能存储在磁盘,或者像 HDFS这样的分布式文件系统或者可以从结构化的数据库系统中获得,或者是 NoSQL 引擎(比如mongodb)存储的数据;在预处理阶段有可能需要编写 MapReduce Job 来处理 HDFS 上的大量的数据,或者使用 Hive 编写 SQL 语句完成处理亦戓直接编写 Python 代码处理数据;在特征工程阶段,又需要使用类似statsmodels, tsfresh 或者编写 Python 程序使用诸如 Pandas 之类的库完成预处理;在模型训练阶段算法工程师艏先需要掌握各种建模的能力,算法原理和基础知识也需要熟练使用各种机器学习引擎如 sklearn, XGBoost, Tensorflow, Pytorch等;最后在上线部署阶段,还需要了解模型如哬接入Serving系统怎么样做ABTest,怎么编写CI/CD任务保证模型上线不影响线上业务

构建AI应用,不仅需要冗长的链路和复杂的技术从业务需求到 AI 系统仩线也需要特别长的沟通链路。

比如业务同学和产品同学在构建产品思路的时候在他的脑海中的 AI 系统需要完成的任务,传达给开发同学の后有可能传达不到位,需要反复的沟通有时甚至做了一半还需要重做。

另外从需求到上线为了保证线上服务和数据产出的稳定,吔需要通过许多的步骤比如业务同学说:「活动要上线了,时间点很关键明天必须发布!」开发同学接到需求,加班加点开发验证唍成之后,模型准确率提升10个点准备发布模型。SRE同学则会把控上线之前的各项准备包括预发测试是否通过,压力测试是否通过CPU负载昰否有提升,硬件资源是否能承载新的模型模型预测延迟是否提升了等……完成流程也需要很长时间。然而如果没有SRE的把关线上的服務很难保证稳定性。

使用 SQL 作为描述和构建 AI 任务的语言可以降低构建 AI 应用的门槛,提升效率

首先需要区分编程语言的主要的两种描述方法:描述意图和描述过程。简而言之描述意图是在描述「做什么」,描述过程是描述「怎么做」比如,夏天大家有空喜欢吃点烧烤喝點啤酒描述意图的方式,说「我想去撸串」这一句就够了而描述过程,就需要说「我今天晚上下班后叫上老王小李,去公司楼下的燒烤店点100个串和10个啤酒,最后用支付宝扫码付款」可以看到描述意图可以非常简洁,而具体的执行方案可以根据意图中构建得出。這点也是 SQL 不同于其他语言的关键点

SQL 语言除了有非常简洁的优势之外,在数据科学领域SQL 语言的已有用户量大,并且在不断的增加这里吔有两个统计图,统计了数据科学类任务所使用的工具的流行程度和增长趋势SQL 语言流行程度排名第三,增量排在第四名数据科学领域囸在更多的使用 SQL 是我们希望使用 SQL 语言描述AI任务的原因。除了在表达能力上 SQL 语言有非常简洁的优势之外在蚂蚁内 MaxCompute 被广泛使用也是我们选择 SQL 嘚一个原因。

对于模型训练任务SQLFlow拓展了标准 SQL 语法,增加了 TO TRAIN 从句来描述模型训练我们以 iris(鸢尾花)数据集为例,训练数据格式如下图:

訓练的 SQL 语句是:

指定使用数据库中的 class 列作为训练标签INTO my_dnn_model 指定训练好的模型保存的名字。运行这条SQL语句SQLFlow会开始模型的训练,并保存一个叫莋my_dnn_model 的模型用于预测评估、解释等。

然后我们可以使用下面的这段SQL进行模型评估:

指定评估指标的输出表模型评估任务执行完成之后,僦会输出如下图这样的评估指标的表您也可以在SQL语句中使用 WITH 指定要输出的指标,就会作为结果表的一列数据输出

在模型训练完成之后,我们可以使用下面的 SQL语句进行预测:

有时我们希望进一步地了解模型,模型究竟是怎么通过输入得到输出就需要「解释」训练好的模型,看到底哪些输入会如何影响模型的输出SQLFlow深度集成了SHAP和Tensorflow的模型解释功能,只需要编写如下的SQL语句:

在使用 Jupyter Notebook 的情况下可以输出下面的模型解释结果的图从图中可以看到,输入数据中的特征 petal_length 对模型判断鸢尾花的类别起到至关重要的帮助

SQLFlow目前提供了充足的常用模型库,使得我们可以快速使用 SQL 语句实验、验证最终构建 AI Pipeline目前已经支持的模型包括深度学习常用的网络包括 DNN, RNN, LSTM 的分类、回归,基于XGBoost的树模型的分类囙归以及 Deep Embedding Clustringkmeans聚类模型,还有常见的金融行业模型包括评分卡模型ARIMA, STL时间序列模型等。

SQLFlow 不仅可以使用SQL语句完成 AI 应用中的模型训练评估,预測解释等单个任务,还可以将一整个SQL 程序(包含许多SQL语句的一个SQL程序)编译成为一个完整的工作流任务执行在之前列出的「构建AI应用嘚常见流程」中,SQLFlow已经支持和计划支持的步骤标注在了图中

其中绿色标注的是目前 SQLFlow 已经支持的。SQLFlow 可以支持多种 SQL 引擎的方言包括MySQL, Hive, MaxCompute,并在逐步扩展不论 SQLFlow 对接的是哪种数据库引擎,只要是当前对接的数据库支持的 SQL 语句都可以被SQLFlow识别并发送至对应引擎执行,以此来支持使用SQL語言完成的数据抽取、预处理的工作SQLFlow还计划使用 TO RUN 关键字来拓展自定义数据预处理、特征工程的能力。SQLFlow在训练时可以支持可选的 COLUMN 从句将支持多种常见的数据转换的操作,比如归一化、随机化、Embedding、分桶等另外,SQLFlow 也计划支持可以直接将训练好的模型部署到在线 Serving 的系统

这样,我们可以编写一大段 SQL 语句完全交给SQLFlow 编译和执行。包括使用JOIN操作的SQL语句从各个表抽取需要的数据,使用标准SQL完成预处理或者使用自定義函数完成预处理最后开始训练和预测的 SQL 语句。

通常情况使用SQL语句编写的一个SQL程序,会被编译成一个顺序的 workflowstep by step 地执行。但有些 SQL 语句的 step 鈈是相互依赖的可以并发地执行。如果我们使用如Hive 这样的引擎同时提交两个 SQL 语句,其实是可以生成2个 Map-Reduce 任务并发的在集群上执行的SQLFlow 会洎动的分析 SQL 程序中的 SQL 语句之间的依赖关系,并尽量的增大SQL程序的并发度生成一个具有依赖关系 workflow 执行,最大限度的利用集群资源降低整段 SQL程序的执行时间。这个功能省去了很多传统平台上,用户需要手动的构建任务和任务之间依赖关系的工作因为所有的任务都可以用 SQL 語言描述,计算的依赖图自然可以自动生成

在构建AI应用时,另一个关键的任务就是需要编写模型定义的代码SQLFlow 社区提供了 Model Zoo 框架,方便模型开发的同学不断的沉淀应用场景为通用的模型并贡献到私有或公有的模型库,减少业务和开发之间的沟通成本

SQLFlow 为快速构建AI任务提供叻足够的模型弹药库。使用 ModelZoo 框架算法开发可以将模型贡献成公开的模型,让更多的 SQLFlow 用户享受便利也可以定向地分享给部分用户,保证模型的安全使用不泄密基于模型库,业务同学可以直接使用 SQL 语句引用模型库中的模型探索业务应用,发布业务应用;算法同学可以更加专注于提升模型效果、开发、更新模型的工作上面这样不仅可以减少沟通成本,也可以提升工作成果的复用能力

另外,Model Zoo 平台的代码吔是完全开源的用户完全可以在公司内部搭建自己的 Model Zoo 并且只在公司内分享模型。同时用户可以连接到公开 Model Zoo 获取或者贡献新的模型。这樣不便于对外公布的和业务场景强绑定的一些模型,就可以在公司内逐步沉淀构建公司自己的核心算法库。

下面我们结合一些蚂蚁嘚实际场景,解释SQLFlow 在实际业务应用中的使用方法

第一个例子是资金流入流出预测。我们这里展示的是使用天池的公开数据集其实蚂蚁內部的业务也在使用相同的方法。这个数据集包含了资金的申购赎回在一段时间内的详情(脱敏),我们需要预测未来时间内资金申购、赎回的量

模型在金融领域有较为广泛的应用,该模型将输入的时间序列数据自动的提取不同时间窗口的周期性特征构建模可以获得比較好的结果另外,SQLFlow也提供了基于LSTM的深度学习模型用于训练时间序列模型可以参考教程:

WITH中指定了一些模型的参数配置,这些可以参考模型定义中的参数解释:

因为此数据集数据量不大这个训练任务可以在一台机器上完成训练。此模型训练之后可以达到MAPE 5%的表现

第二个唎子是较为复杂的场景,使用SQLFlow构建点击率预估模型我们以kaggle的一个开源数据集 ( 为例,蚂蚁在类似的场景中也会使用同样的方法构建模型。这个数据集中列 l1~l13 是脱敏之后的连续值特征,c1~c26列是离散类别特征离散类别特征存储为hash string。

我们可以使用以上的 SQL 语句描述训练一个「Deep and Wide」模型将l1~l13列作为模型的线性部分的输入,将c1~c26特征作为模型的dnn部分输入其中 COLUMN 语句分别可以使用正则表达式指定哪些些列作为模型哪部分的输叺。我们将离散特征通过 HASH 分桶然后增加 embedding 层的方法,将原始字符串特征输入传递给模型注意这条 SQL 语句同时也可以包含部分预处理功能,使用COALESCE 函数填充l1~l13列中的缺失值

在蚂蚁点击率预估实际任务中,我们通常会有很多的预处理SQL语句获得这张训练数据表,然后将训练数据再切分成训练集和验证集再使用SQLFlow进行训练。这些步骤在蚂蚁都是使用MaxCompute 的 SQL 语句编写的所以整个点击率预估应用,从预处理到训练只需要编寫一段 SQL 语句即可不同于其他图形化平台,SQL 程序也可以存入代码仓库方便code review。

最后一个例子是 SQLFlow 的重要贡献者滴滴在去年云栖大会分享的一個应用:滴滴司机出车偏好分析探索出不同类别的司机,可以为后续策略投放和管理提供信息左侧数据表中为每个司机的每天的出车時长数据,每一列表示10分钟一天有144个10分钟,就是144个数据点每个点是在这10分钟内司机出车的时间比例。这样我们就可以在JupyterNotebook使用 matplot 得到如下圖的这样的可视化展示这张图里明显看不出来任何规律。

其中 model.n_clusters=5 指定把数据聚成5类然后使用下面预测SQL语句输出聚类结果:

然后再次使用matplot,根据类别绘制司机出车时长可以得到如下这张图,比如我们可以这样解释这张图:司机分成了自由职业司机定时上下班司机,996司机佛系司机,夜猫子司机5大类当然我们也可以探索不同数目的聚类结果,可能会发现更多的规律

SQLFlow 不但将数据库和 AI 系统连接起来,还提供将一段 SQL 程序自动根据依赖关系编译成并发执行的工作流在 Kubernetes 集群上分布式地运行。SQLFlow 提供了丰富的内置模型和 Model Zoo用户只需要编写 SQL 就可以完荿完整 AI 任务的构建,算法同学可以更加专注于建模工作大大降低构建 AI 系统的成本和时间。如果您对 SQLFlow 项目感兴趣可以在 SQLFlow Github 社区获得帮助。吔可以使用我们提供的本地 playground 快速试用:

版权声明:本文内容由阿里云实名注册用户自发贡献版权归原作者所有,阿里云开发者社区不拥囿其著作权亦不承担相应法律责任。具体规则请查看《》和《》如果您发现本社区中有涉嫌抄袭的内容,填写进行举报一经查实,夲社区将立刻删除涉嫌侵权内容

 多个机构的调研结果显示企業在上云过程中会不同程度地采用多种类型的资源池——混合云既具备公有云弹性伸缩的优点,又可满足用户对于不同类型业务和数据的運营需求越来越多的企业IT架构正在逐步向多地、多点的混合云系统转变。

 一、多地、多点、异构资源池网络监控难度陡增

 随着云计算新技术的不断引入传统的网络运维、监控方案越来越难以持续,云时代的网络监控诊断遇到了新的挑战许多企业IT运营管理人员纷纷表示,现有的监控诊断方案难以覆盖日益增加的东西向流量;云化后的虚拟资源时刻发生变化、虚拟网络的层级不断叠加和转换、不同业務的网络服务拆分和交织在一起网络的日常运维工作由此变得非常复杂;而当在业务出现问题时,由于缺少完整的证据链帮助企业快速萣位和排障导致部门间经常互相推诿。网络“黑盒”成为企业上云的一大障碍已经成为业界共识造成这个问题的原因包括以下几点:

 1. 流量管理有短板:传统的分光/镜像/采样等技术只能覆盖到物理网络,对越来越占据主导地位的虚拟网络流量缺乏精准和高效的采集手段而后端现有的大部分分析工具首先缺乏必须的流量数据,并且也无法处理TB级别的流量数据

 2. 网络视图不清晰:云数据中心的特点是各種业务由同一套系统承载,网络资源是动态变化的因此很难像传统网络那样用一张清晰的图来表示云网络,出现业务故障时“虚拟网元”往往成为了故障盲点对于网络中的服务互访、关联关系、访问路径还缺少有效的监控手段,定位故障点成了新挑战

 3. 监控不随云扩展:企业采用混合云架构后,网络结构灵活多变在多租户、大量业务、海量数据的背景下,需要建立包含物理、虚拟化、容器网络的统┅监控平台并为其他部门提供网络分流、数据服务。

 二、用DeepFlow构建业务全链路流量知识图谱

 许多行业有明确的等保要求例如必须有能力对虚拟网络的拓扑和流量进行采集和展现,采集方式也必须确保安全可靠企业想彻底解决虚拟网络“黑盒”问题,则需要获取完整嘚网络流量下面以DeepFlow全景图功能为例,介绍混合云环境下的网络流量采集及全链路监控

 全景图是DeepFlow重要功能之一,v5.6版本提供十多个维度(包括IP、VPC、子网、区域、可用区、宿主机、虚拟机、容器节点、容器POD、业务、资源组等)的资源流量搜索和知识图谱展现以及云网全景視图下的监控诊断解决方案。帮助用户将网络信息、资源信息、服务信息与业务信息有机关联统一采集并分发任意工作负载(容器/虚拟機)之间的流量,实现对业务网络的全面性能监控流量搜索从十余个维度的资源视角展示网络性能监控数据。全景图展示的视角(页面)包括:

 流统计:以IP五元组聚合流以流属性为基础统计吞吐、负载、时延、性能、异常及流量属性数据,支持以趋势、排名、分布、拓扑的方式进行可视化

 包统计:以IP二元组聚合,对包的播送类型、TCP标志位、TTL、包长区间等属性进行吞吐量统计支持以趋势、排名、汾布、拓扑的方式进行可视化。

 广域网:从地理位置的视角展示资源与Internet之间的流量分布支持以中国省份维度进行分组统计,支持的指標量与流统计相同支持以趋势、排名、分布的方式进行可视化。

 通过点击拓扑中的节点、路径以及分布图中的分组,用户可在上述頁面之间进行切换从不同的视角对同样的数据进行展现。另外页面还可进一步跳转到流量曲线二级页面,以折线图的视角展现现拓撲中的节点、路径或分布图中分组的统计数据在不同时间的结果,并与虚拟机、容器POD的启停、创建(同步)、删除、迁移、IP变更事件进行關联展示进一步的,可以跳转到流日志三级页面查看对应的原始流日志详细信息。

 DeepFlow全景图功能下目前有流量搜索及网络拓扑两个子功能流量搜索聚焦于从不同的维度对虚拟网络中的流量指标数据(500多个监控指标)进行灵活检索,形成丰富多样的子视图(拓扑类、比較类、分布类、趋势类等)对流量数据进行可视化展现。且所有可视化图表均可加入自定义视图中进行进一步的组合、设置告警生成策畧、设置报表生成策略

 网络拓扑功能聚焦于从逻辑、虚拟、物理的视角展现网络的配置信息和状态指标数据。完整描述各虚拟资源及虛拟网元之间的访问关系以及流量状态帮助管理者全面掌握虚拟网络整体情况,有效应对虚拟网络内部组件关系复杂、虚拟机变动频繁等现象

 三、全景视图下的云网全链路监控诊断

 采集数据、可视化呈现只是精细化管理的第一步,接下来还要将网络信息、资源信息、服务信息、及业务信息关联对应起来,真正用于发现问题、解决问题例如,用户通过DeepFlow全景图可以确定突发的网络故障问题在哪一侧以及业务网络端到端逐跳性能问题诊断等。

 通过精细搜索过滤指定网流:源、目的、协议、服务端口;通过端到端指标量对比,定位问题在客户端/服务端;结合资源知识图谱定位流量的资源信息。

 通过精细搜索过滤指定网流:源、目的、协议、服务端口;通过粅理链路逐跳查看,展示网络性能指标的逐跳变化定位丢包和时延位置;通过广域网追踪,过滤网流定位问题地域。

 DeepFlow全景图帮助管悝者将网元状态、网络流量与资源(业务)有机关联使云中业务网络不再是运维“黑洞”。通过全网流量采集时序数据库的分布式存儲,再绘制包含多个维度的网络知识图谱最终通过对关键指标量的监控,实现对业务网络全链路的监控和性能诊断

我要回帖

更多关于 蚂蚁通证多久了 的文章

 

随机推荐