AI好厉害的样子,那么它的出海数据分析工具可以查到吗?

在去年上海财经大学的MBA讲座中,“下一场数据革命”,本人提出未来数据平台的有几大趋势: 新型的数据交易所可信计算平台
数据安全中台 新型数据分析系统(流式,交互式) 算力云 AI数据库低碳AI ABCD一体化平台例如,阿里的datatrust就是可信计算平台的一种。
datatrust里面有一项特色是对SQL分析的集成。 这里我想谈论的就是 SQL + 分布式(D) + 流式(F) + AI + 隐私计算(PEC) +算力(GPU)六合一数据中台, 正在走向从未有过的融合。 从DataTrust,大致可以看到SQL+PEC的融合。 其实AI+PEC也不是新闻了,只是早期更倾向于使用TEE环境去搞定。Spark也往往是作为底层分布式框架。 只是最近联邦学习, 多方安全计算软件解决方案全面追上来了。 SQL+AI的融合其实SQL+ML融合的思想,在Clickhouse的设计里面就有一定的体现了。 倒是ML毕竟不是AI。 滴滴与蚂蚁金服搞了一个SQLFlow, 希望融合SQL+AI, 其实本质就是AI数据库的思路。 但是就实现上, SQLFlow只是一层解释层,目前语法的接受程度也有限。 底层当然可以实现一定的分布式。SQL+AI+流式 的融合其实阿里的Blink中就有SQL的集成,阿里也有意将这一块推动融入Flink。 所以Blink其实有点SQL+ML+流式的融合了。 要从ML过渡到AI,就得对主流的AI框架进行支持。 最近Fugue项目如火如荼的进行着, 算是前沿的SQL+AI+流式的融合了。 SQL+AI+流式 + 分布式的融合Spark时代BSP分布式模型非常适合大数据计算, 而走向更适合AI的Asynchronous Parameter Server,时代就有很多改造, 例如Glint项目。 但是一个全新的Python的异步服务器分布式平台也是非常好的选择, 例如Dask, Ray。 其实Spark,Dask,Ray有非常相似的地方,就是维护一张分布式宽表。所以他们之间相互调用会比较简单。 很多人好奇,Spark与Ray/Dask有啥不一样呢, 其实一句话可能比较好的解释了:
最好他俩组合起来用, Spark做分布式数据预处理。而且Ray/Dask做分布式训练。 SQL+AI+流式 + 分布式 + GPUAI现在天然离不开算力支持了。 因此不管是DASK,还是Ray对GPU的支持都会比Spark好。 尤其今年虚拟化对GPU的支持也越发有提升。 六合数据中台相信充分的融合后,在算力虚拟化的基础上, 分布式宽表的组织可能能力也不同。 流式 + AI +SQL + 分布式会充分融合成大型数据中台。当然核心功能依然少不了隐私计算的能力。 因为在隐私计算的划分下, 宽表也会分成纵向分割的宽表, 与横向分割的宽表。 对此有兴趣的可以看一下SecretFlow的实现。 小结:从AI数据库到六合一数据中台, 都将是国产的机会。 尤其国内在图AI, 隐私计算方向都有优势。
希望中国可以引领六合数据中台 (SQL + 分布式(D) + 流式(F) + AI + 隐私计算(PEC) +算力(GPU))一张表中通常会包含很多字段,造成数据冗余,在做数据分析时,我们仅需要提取数据分析所需要的字段,这里就需要用到数据选取的知识点,同时还可以依据特定条件筛选。本文介绍数据提取、数据筛选、条件聚合运算等内容,数据筛选后又类比EXCEL做条件计数和条件求和等操作,类似于countif、sumif函数功能,下面一起来学习。示例工具:MySQL8.0、Navicat Premium 12本文讲解内容:SQL简单与高级查询适用范围:SQL中条件聚合运算数据提取按列提取数据,使用SELECT函数,提取对应的字段名即可。#按列提取
SELECT cname
FROM course;按行提取需要特定加一个按行筛选的条件。#按行提取
SELECT * FROM course
WHERE cname='数学';按位置提取数据,这里使用LIMIT限制数据的大小,"LIMIT 3,4"的含义表示从第3行开始筛选4行数据。#按位置提取
SELECT * FROM student
LIMIT 3,4;按条件提取数据,普通提取数据后,需要按照一定的条件筛选数据,这里使用WHERE函数,在后面设定条件即可完成筛选。#按条件提取并计算
SELECT * FROM score
WHERE cid=02 AND score>80;逻辑条件筛选常用的逻辑条件有与(AND)、或(OR)、非(NOT),这里使用AND函数,筛选条件为课程号为03,且分数大于80分。#数据筛选AND
SELECT * FROM score
WHERE cid=03 AND score>80;此处使用OR函数,筛选学号为01,或者分数大于98分的数据。#数据筛选OR
SELECT * FROM score WHERE sid=01 OR score>98;添加一个不等于条件,筛选性别中不为"女"的数据,其中,不等于号用"!="来表示。#数据筛选(不等于)
SELECT * FROM student
WHERE ssex != '女';使用IN函数,可以将条件值限定为具体的值,从而达到筛选确定值的目的。#数据筛选IN
SELECT * FROM score
WHERE score IN (90,99);使用LIKE模糊筛选,%是通配符,替代一个或多个字符,这里的条件可以筛选姓李的同学。#数据筛选like(模糊筛选)
SELECT * FROM student
WHERE sname LIKE '李%';条件聚合运算条件筛选后计数,类似于EXCEL中的countif函数,这里筛选课程号为03,且成绩大于60分的课程,然后计数。#筛选后计数
SELECT COUNT(cid) AS cid_count FROM score
WHERE cid=03 AND score>60;筛选后求和,类似于EXCEL中的sumtif函数。#筛选后求和
SELECT SUM(score) AS sum_score FROM score
WHERE sid=01 AND cid=01 AND score>60;同理可以设置条件,求条件平均。#筛选后求均值 averageif
SELECT AVG(score) AS avg_score
FROM score WHERE cid != 01;商业数据分析系列文章持续更新中,喜欢就转发分享一下吧~

我要回帖

更多关于 数据分析工具 的文章

 

随机推荐