测E2含量的仪器出现spss 变量缺失值是什么缘故

&figure&&img src=&https://pic2.zhimg.com/v2-6b621d64b89b58f120bc8_b.jpg& data-rawwidth=&1200& data-rawheight=&900& class=&origin_image zh-lightbox-thumb& width=&1200& data-original=&https://pic2.zhimg.com/v2-6b621d64b89b58f120bc8_r.jpg&&&/figure&&i&摘要: 本文以浅显易懂的语言介绍了机器学习和深度学习的定义及应用,以及在源数据要求,硬件支持,特征工程、问题解决方式、执行时间及可解释性等方面的区别,对于新手入门有很大启示意义。&/i&&br&&h2&&b&楔子:&/b&&/h2&&p&
机器学习和深度学习现在很火,你会发现突然间很多人都在谈论它们。如下图所示,机器学习和深度学习的趋势对比(来自Google trend,纵轴表示搜索热度):&/p&&figure&&img src=&https://pic3.zhimg.com/v2-731cec5c79ffb16c8acfea_b.png& data-rawwidth=&1137& data-rawheight=&347& class=&origin_image zh-lightbox-thumb& width=&1137& data-original=&https://pic3.zhimg.com/v2-731cec5c79ffb16c8acfea_r.jpg&&&/figure&&p&
本文将会以简单易懂的语言及示例为大家详细解释深度学习和机器学习的区别,并介绍相关用途。&/p&&h1&机器学习和深度学习简介&/h1&&h2&机器学习&/h2&&p&
Tom Mitchell 关于机器学习的定义被广泛引用,如下所示:&/p&&p&&b&对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而不断自我完善,那么我们称这个计算机程序在从经验E学习。&/b&&/p&&p&&i&“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E ”&/i&&/p&&p&
上面的抽象定义可能使你感到困惑,相信下面几个简单的示例会让你恍然大悟。&/p&&p&【例1 根据身高预测体重】&/p&&p&假设你要创建一个根据人的身高预测体重的系统。第一步是收集数据,收集完之后画出数据分布图如下所示。图中的每个点都代表一条数据,横坐标表示身高,纵坐标表示体重。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-2b37cdadaf4ac2b0c3879fb_b.jpg& data-rawwidth=&528& data-rawheight=&351& class=&origin_image zh-lightbox-thumb& width=&528& data-original=&https://pic4.zhimg.com/v2-2b37cdadaf4ac2b0c3879fb_r.jpg&&&/figure&&p&我们可以画一条简单的直线来根据身高预测体重,比如:&/p&&p&Weight (in kg) = Height (in cm) - 100&/p&&p&如果这条直线预测身高很准确,那怎样来衡量它的性能呢?比如以预测值和真实值之间的差值来衡量预测模型的性能。当然,源数据越多,模型效果就越好。如果效果不好,那么可以使用其他方法来提升模型性能,如增加变量(如性别)或者改变预测直线。&/p&&p&【例2 风暴预测系统】&/p&&p&
假定要构建一个风暴预测系统,你手头上有过去发生的风暴数据以及这些风暴发生前三个月的天气数据。那么怎样构建一个风暴预测系统呢?&/p&&figure&&img src=&https://pic2.zhimg.com/v2-5f326cced3f_b.jpg& data-rawwidth=&640& data-rawheight=&436& data-thumbnail=&https://pic4.zhimg.com/v2-5f326cced3f_b.jpg& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-5f326cced3f_r.jpg&&&/figure&&p&首先要做的是清洗数据并找到数据中的隐藏模式,比如导致风暴产生的条件。我们可以对一些条件建模,比如温度是否大于40摄氏度,湿度是否介于80到100之间,然后将这些特征输入模型。&/p&&p&你要做的就是充分利用历史数据,然后预测是否会产生风暴。在这个例子中,评价的指标是正确预测风暴发生的次数。我们可以重复预测过程多次,然后将性能结果返回系统。&/p&&p&
回到最初机器学习的定义,我们将风暴预测系统定义如下:任务T是找到造成风暴的大气条件,性能P是在模型参数学习好之后,正确预测的次数,经验E是系统的迭代过程。&br&&/p&&h2&深度学习&/h2&&p&深度学习其实很早之前就出现了,随着近几年的炒作,又逐渐火起来了。&/p&&p&&b&深度学习是一种特殊的机器学习,它将现实世界表示为嵌套的层次概念体系(由较简单概念间的联系定义复杂概念,从一般抽象概括到高级抽象表示),从而获得强大的性能与灵活性。&/b&&/p&&p&&i&Deep learning is a particular kind of machine learning that achieves great power and flexibility by learning to represent the world as nested hierarchy of concepts, with each concept defined in relation to simpler concepts, and more abstract representations computed in terms of less abstract ones.&/i&&/p&&p&【例1 图形检测】&/p&&p&
假设我们要将矩形和其他图形区别开。人眼首先是检测这个图形是否有4条边(简单概念)。如果有4条边,在检测它们是否相连,闭合且垂直,以及是否相等(嵌套层次概念)。事实上,我们将一个复杂的任务(矩形识别)分解成一些简单低抽象层次的任务。深度学习本质上是在更大的范围内做这件事。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-bec445c1523_b.jpg& data-rawwidth=&432& data-rawheight=&288& class=&origin_image zh-lightbox-thumb& width=&432& data-original=&https://pic4.zhimg.com/v2-bec445c1523_r.jpg&&&/figure&&p&【例2 猫还是狗】&br&&/p&&p&这个案例是构建一个能够识别图片中动物是猫或者狗的系统。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-446dd946deaa19d524ee1e_b.png& data-rawwidth=&720& data-rawheight=&433& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic3.zhimg.com/v2-446dd946deaa19d524ee1e_r.jpg&&&/figure&&p&如果使用机器学习解决这个问题,首先要定义一些特征,比如该动物是否有胡须、耳朵;如果有耳朵,那么耳朵是否是尖的。简单地说,我们要定义面部特征,然后让系统识别出在动物分类中哪些是重要特征。而深度学习会一次性完成这些任务,深度学习会自动找到对分类任务重要的特征,而机器学习不得不人工指定。&/p&&p&深入学习工作流程如下:&/p&&p&1. 首先在图片中找到和猫或者狗最相关的边界;&/p&&p&2. 然后找到形状和边界的组合,如是否能找到胡须和耳朵;&/p&&p&3. 在复杂概念的连续分层识别后,就能够确定哪些特征对识别猫狗起重要作用。&/p&&h1&机器学习和深度学习的对比&/h1&&h2&数据依赖&/h2&&p&
深度学习和传统机器学习最重要的区别是它的性能随着数据量的增加而增强。如果数据很少,深度学习算法性能并不好,这是因为深度学习算法需要大量数据才能很好理解其中蕴含的模式。这种情况下,使用人工指定规则的传统机器学习占据上风。如下图所示:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-3de02efb8ce567d67765f_b.png& data-rawwidth=&1218& data-rawheight=&869& class=&origin_image zh-lightbox-thumb& width=&1218& data-original=&https://pic4.zhimg.com/v2-3de02efb8ce567d67765f_r.jpg&&&/figure&&h2&硬件支持&/h2&&p&深度学习算法严重依赖于高端机,而传统机器学习在低端机上就可以运行。因为深度学习需要进行大量矩阵乘法操作,而GPU可以有效优化这些操作,所以GPU成为其中必不可少的一部分。&/p&&h2&特征工程&/h2&&p&特征工程将领域知识输入特征提取器,降低数据复杂度,使数据中的模式对学习算法更加明显,得到更优秀的结果。从时间和专业性方面讲,这个过程开销很高。机器学习中,大部分使用的特征都是由专家指定或根据先验知识确定每个数据域和数据类型。比如,特征可以是像素值,形状,纹理,位置,方向。大多数机器学习方法的性能依赖于识别和抽取这些特征的准确度。&/p&&p&深度学习算法试图从数据中学习高层特征,这是深度学习与众不同的一部分,同时也是超越传统机器学习的重要一步。深度学习将每个问题归结为开发新特征提取器,如卷积神经网络在底层学习如边和直线种种低层特征,然后是面部部分特征,最后是人脸的高层特征。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-eb16a96f5d54af_b.png& data-rawwidth=&951& data-rawheight=&268& class=&origin_image zh-lightbox-thumb& width=&951& data-original=&https://pic3.zhimg.com/v2-eb16a96f5d54af_r.jpg&&&/figure&&h2&问题解决方案&/h2&&p&当使用传统机器学习方法解决问题时,经常采取化整为零,分别解决,再合并结果求解的策略。而深度学习主张end-to-end模型,输入训练数据,直接输出最终结果,让网络自己学习如何提取关键特征。&/p&&p&比如说你要进行目标检测,需要识别出目标的类别并指出在图中的位置。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-ed4f95afba20a71deaf91fd_b.png& data-rawwidth=&800& data-rawheight=&600& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic3.zhimg.com/v2-ed4f95afba20a71deaf91fd_r.jpg&&&/figure&&p&典型机器学习方法将这个问题分为两步:目标检测与目标识别。首先,使用边框检测技术,如grabcut,扫描全图找到所有可能的对象,对这些对象使用目标识别算法,如HOG/SVM,识别出相关物体。&/p&&p&深度学习方法按照end-to-end方式处理这个问题,比如YOLO net通过卷积神经网络,就能够实现目标的定位与识别。也就是原始图像输入到卷积神经网络中,直接输出图像中目标的位置和类别。&/p&&h2&执行时间&/h2&&p&通常,深度学习需要很长时间训练,因为深度学习中很多参数都需要远超正常水平的时间训练。ResNet大概需要两周时间从零开始完成训练,而机器学习只需要从几秒到几小时不等的训练时间。测试所需要的时间就完全相反,深度学习算法运行需要很少的时间。然而,和KNN(K近邻,一种机器学习算法)相比,测试时间会随着测试数据量的增加而增加。不过并非所有的机器学习算法都需要很长时间,某些也只需要很少的测试时间。&/p&&h2&可解释性&/h2&&p&假定使用深度学习给文章自动评分,你会发现性能会很不错,并且接近人类评分水准。但它不能解释为什么给出这样的分数。在运行过程中,你可以发现深度神经网络的哪些节点被激活,但你不知道这些神经元是对什么进行建模以及这每层在干什么,所以无法解释结果。&/p&&p&另一方面,机器学习算法如决策树按照规则明确解释每一步做出选择的原因,因此像决策树和线性/逻辑斯蒂回归这类算法由于可解释性良好,在工业界应用很广泛。&/p&&h1&机器学习和深度学习应用场景&/h1&&p&&a href=&http://link.zhihu.com/?target=https%3A//en.wikipedia.org/wiki/Machine_learning%23Applications& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Wiki&/a&上面介绍了一些机器学习的应用领域:&/p&&p&1. &b&计算机视觉:&/b&如车牌号识别,人脸识别;&/p&&p&2. &b&信息检索:&/b&如搜索引擎,文本检索,图像检索;&/p&&p&3. &b&营销:&/b&自动邮件营销,目标识别;&/p&&p&4. &b&医疗诊断:&/b&癌症诊断,异常检测;&/p&&p&5.&b& 自然语言处理:&/b&语义分析,照片标记;&/p&&p&6. &b&在线广告&/b&&b&,&/b&等等。&/p&&p&下图总结了机器学习的应用领域,总的来说应用范围十分广泛。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-6b621d64b89b58f120bc8_b.jpg& data-rawwidth=&1200& data-rawheight=&900& class=&origin_image zh-lightbox-thumb& width=&1200& data-original=&https://pic1.zhimg.com/v2-6b621d64b89b58f120bc8_r.jpg&&&/figure&&p&谷歌是业内有名的使用机器学习/深度学习的公司,如下图所示,谷歌将深度学习应用到不同的产品。&/p&&p&&figure&&img src=&https://pic3.zhimg.com/v2-855a5d7ae2a5fdda5b1ca_b.jpg& data-rawwidth=&638& data-rawheight=&359& class=&origin_image zh-lightbox-thumb& width=&638& data-original=&https://pic3.zhimg.com/v2-855a5d7ae2a5fdda5b1ca_r.jpg&&&/figure&即时测试&/p&&p&为了评估你是否真正理解了机器学习和深度学习的区别,这里将会有一个快速测试,可以在&a href=&http://link.zhihu.com/?target=https%3A//discuss.analyticsvidhya.com/t/discussion-for-pop-quiz/17271%3Fu%3Djalfaizy& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&这里&/a&提交答案。你要做的就是分别使用机器学习和深度学习解决下面的问题,并决定哪个方法更好。&/p&&p&【场景1】 假设你要开发一个无人驾驶汽车系统,该系统以相机拍摄的原始数据作为输入,然后预测方向盘转动的方向及角度。&/p&&p&【场景2】给定一个人的信用凭证和背景信息,评估是否可以给他发放贷款。&/p&&p&【场景3】创建一个将俄语文本翻译为印度语的系统。&/p&&h1&未来趋势&/h1&&p&
前面总结了机器学习和深度学习的区别,本节对二者未来趋势:&/p&&p&
1. 鉴于工业界使用数据科学和机器学习呈增加的趋势,在业务中使用机器学习对那些想要生存下来的公司变得越发重要。同时,了解更多的基础知识也十分有必要。&/p&&p&
2. 深度学习给人越来越多的惊喜,将来也会一直是这样。深度学习被证明是已有技术中最先进的最好的技术之一。&/p&&p&
3. 深度学习和机器学习和研究还在继续,不像以前那样在学术界发展受限。目前机器学习和深度学习在工业界和学术界呈爆炸式发展。并且受到比以前更多的基金支持,很有可能成为人类发展的关键点之一。&/p&&h1&尾声&/h1&&p&本文将深度学习和机器学习进行了详细对比,希望能够激励大家去学到更多知识。请参考&a href=&http://link.zhihu.com/?target=https%3A//www.analyticsvidhya.com/learning-path-learn-machine-learning/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习路线图&/a&和&a href=&http://link.zhihu.com/?target=https%3A//www.analyticsvidhya.com/learning-path-learn-machine-learning/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深度学习路线图&/a&。&/p&&p&【作者简介】&/p&&figure&&img src=&https://pic4.zhimg.com/v2-cffb7c548ccc_b.jpg& data-rawwidth=&200& data-rawheight=&200& class=&content_image& width=&200&&&/figure&&p&&a href=&http://link.zhihu.com/?target=https%3A//www.analyticsvidhya.com/blog/author/jalfaizy/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Faizan Shaikh&/a&, 数据科学爱好者,深度学习,醉心于人工智能。&/p&&p&以上为译文&br&&/p&&p&本文由北邮&a href=&http://link.zhihu.com/?target=http%3A//weibo.com/fly51fly%3Fspm%3D.blogcont68901.17.sGsq0A& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&@爱可可-爱生活&/a& 老师推荐,&a href=&http://link.zhihu.com/?target=http%3A//weibo.com/taobaodeveloperclub%3Fspm%3D.blogcont68901.18.sGsq0A& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&阿里云云栖社区&/a&组织翻译。&br&文章原标题《Deep Learning vs. Machine Learning – the essential differences you need to know!》,作者:&a href=&http://link.zhihu.com/?target=https%3A//www.analyticsvidhya.com/blog/author/jalfaizy/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Faizan Shaikh&/a&,译者:李烽,审校:段志成-海棠&/p&&p&文章为简译,更为详细的内容,请查看&a href=&http://link.zhihu.com/?target=https%3A//www.analyticsvidhya.com/blog/2017/04/comparison-between-deep-learning-machine-learning/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&原文&/a&&/p&&br&&b&英文原文支持下载附件查看:&/b& &a href=&http://link.zhihu.com/?target=http%3A//click.aliyun.com/m/19820/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Comparis...[【方向】]..pdf&/a&
摘要: 本文以浅显易懂的语言介绍了机器学习和深度学习的定义及应用,以及在源数据要求,硬件支持,特征工程、问题解决方式、执行时间及可解释性等方面的区别,对于新手入门有很大启示意义。 楔子: 机器学习和深度学习现在很火,你会发现突然间很多人都在…
&p&「范式大学系列课程」第 5 篇文章:机器学习画布:一页纸把机器学习核心问题说清楚&br&&/p&&p&小薇是一个公司的数据科学家,她很懂机器学习,但最近有一个困扰:&br&&/p&&p&&br&&/p&&p&当老大想上一个机器学习项目时,她召集了业务团队、工程团队、产品团队和销售团队开会。但是 3 个小时过去了,讨论变得一团糟,大家找不到讨论重点,各部门同事也不清楚到底需要做什么、以及项目该怎么做。&/p&&p&&br&&/p&&p&出现这样的原因,很大程度在于机器学习是一门新兴服务,来自不同部门背景各异的同事们在讨论的时候,往往很难抓住问题的重点,大家也缺少讨论问题的框架。&/p&&p&&br&&/p&&p&而实际上,一个机器学习项目需要讨论的问题是有限的,如果能够把核心问题讨论清楚,项目的推进就会事半功倍。这时候我们就可以采用一些好用的工具,例如机器学习画布。&/p&&p&&br&&/p&&p&机器学习画布的作用是,它把机器学习项目最核心的问题都放在一张纸上了。这样当进行跨部门沟通的时候,就可以把它打印出来,或者放在 PPT 上放映,大家对着同一张纸、或者同一个屏幕讨论。这样即便需要开多次会议,大家也可以始终处于相同的理解频率,对过去已解决的问题、当下正在解决的问题和还需讨论的问题都有清晰的认识。&/p&&p&&br&&/p&&p&机器学习画布长这个样,第四范式基于 Louisdorard 画布的基础上制作。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-51a7d0c14e9ac5f326b0c3e3e1d47d0e_b.jpg& data-rawwidth=&1800& data-rawheight=&1013& class=&origin_image zh-lightbox-thumb& width=&1800& data-original=&https://pic1.zhimg.com/v2-51a7d0c14e9ac5f326b0c3e3e1d47d0e_r.jpg&&&/figure&&p&&b&机器学习画布 PPT 可编辑版本下载:&a href=&https://link.zhihu.com/?target=https%3A//pan.baidu.com/s/1eRXwJbc& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1eRXwJb&/span&&span class=&invisible&&c&/span&&span class=&ellipsis&&&/span&&/a&&/b&&br&&br&画布的框架分为 4 个部分,问题定义、模型预测、模型学习和系统评估,你可以自由选择顺序讨论。&br&&/p&&ul&&li&问题定义:预测系统会为终端用户带来什么价值?我们选择什么指标来解决问题?&/li&&/ul&&p&&br&&/p&&ul&&li&机器学习任务:预测的输入和输出是什么?机器学习任务的类型是什么?可选的算法模型是什么?&/li&&/ul&&p&&br&&/p&&ul&&li&决策行动:模型预测如何变成决策行动?&/li&&/ul&&p&&br&&/p&&ul&&li&线上预测:我们什么时候会对输入做出预测?我们多久做一次预测? &/li&&/ul&&p&&br&&/p&&ul&&li&离线评估:部署之前,用什么方法和指标来评估预测系统?&/li&&/ul&&p&&br&&/p&&ul&&li&数据标签:我们如何获得有标签的数据?&/li&&/ul&&p&&br&&/p&&ul&&li&数据来源:我们可以使用哪些原始数据?(内部数据和外部数据)&/li&&/ul&&p&&br&&/p&&ul&&li&特征工程:从原始数据中提取什么特征?如何处理这些特征?&/li&&/ul&&p&&br&&/p&&ul&&li&建立模型:新数据进来后,我们什么时候建立/更新模型?我们多久建立/更新一次模型?&/li&&/ul&&p&&br&&/p&&ul&&li&实施评估和监测:部署之后,用什么方法和指标来评估预测系统?如何量化它带来的价值? &/li&&/ul&&p&当你把这些问题定义清楚后,事情就好办多了。&/p&&p&下面是机器学习画布的两个使用实例:&/p&&p&(如果图片看不清,可以保存到手机浏览~)&/p&&p&&b&1、主播推荐系统&/b& &/p&&figure&&img src=&https://pic3.zhimg.com/v2-b78cbb7b9c73ce3be6cded_b.jpg& data-rawwidth=&1800& data-rawheight=&1013& class=&origin_image zh-lightbox-thumb& width=&1800& data-original=&https://pic3.zhimg.com/v2-b78cbb7b9c73ce3be6cded_r.jpg&&&/figure&&p&&b&2、垃圾邮件识别&/b& &/p&&figure&&img src=&https://pic1.zhimg.com/v2-ac71fcb2e54b4c4b470130_b.jpg& data-rawwidth=&1800& data-rawheight=&1013& class=&origin_image zh-lightbox-thumb& width=&1800& data-original=&https://pic1.zhimg.com/v2-ac71fcb2e54b4c4b470130_r.jpg&&&/figure&&p&&b&机器学习画布 PPT 可编辑版本下载:&a href=&https://link.zhihu.com/?target=https%3A//pan.baidu.com/s/1eRXwJbc& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1eRXwJb&/span&&span class=&invisible&&c&/span&&span class=&ellipsis&&&/span&&/a&&/b&&/p&&p&&br&&/p&&p&如果你对我们感兴趣,请在这里申请先知平台:&a href=&https://link.zhihu.com/?target=https%3A//prophet.4paradigm.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&https://prophet.4paradigm.com&/a&&/p&&p&AI FOR EVERYONE&/p&
「范式大学系列课程」第 5 篇文章:机器学习画布:一页纸把机器学习核心问题说清楚 小薇是一个公司的数据科学家,她很懂机器学习,但最近有一个困扰: 当老大想上一个机器学习项目时,她召集了业务团队、工程团队、产品团队和销售团队开会。但是 3 个小时过…
&figure&&img src=&https://pic3.zhimg.com/v2-eba1da4fc98ec_b.jpg& data-rawwidth=&1263& data-rawheight=&780& class=&origin_image zh-lightbox-thumb& width=&1263& data-original=&https://pic3.zhimg.com/v2-eba1da4fc98ec_r.jpg&&&/figure&&h2&&b&前言&/b&&/h2&
&p&“你把表达量和差异表达的表格给我就行了”&/p&
&p&花那么多钱就换两张表格,你的良心不会痛么!(当年表达芯片都这么做的也没见谁良心痛啊)&/p&
&p&当然,毕竟别人不一定靠这个吃饭,但 (找不到工作的) 学生物的你,稍微了解一下测序的分析流程还是值得的,毕竟技多不压身嘛。&/p&
&p&所以这一部分主要介绍转录组测序的分析流程和原理,从拿到原始数据开始,讲到KEGG/Gene Ontology等功能注释,顺便推荐一下常用软件。字数所限,这一篇先讲 (不生成文章能用的图表的) Data Cleaning和比对,如果只想知道怎么看懂文献里面的结果,可以直接等下一篇了。&/p&&h3&&b&流程概览&/b&&/h3&&p&转录组测序的分析流程大致可以分成三类,包括基因组比对(Genome mapping)、转录组比对(Transcriptome mapping)、转录组组装(Reference-free assembly),见下图。其中第三种主要是用于分析&b&&u&没有参考基因组和基因注释&/u&&/b&的物种,应用场合较少且不适合新手入门。对于人、小鼠、大鼠等模式物种,通常用前两种方法进行分析。虽然转录组比对相关软件和流程同样层出不穷,但对于基因组信息较为完善的模式物种,推荐使用基因组比对的方式进行分析,具体原因下文的“比对”部分会有说明。我们下面也主要对基因组比对的方法进行介绍。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-3f974d448f9eb211c644d5c5aa2886a9_b.jpg& data-rawwidth=&993& data-rawheight=&564& class=&origin_image zh-lightbox-thumb& width=&993& data-original=&https://pic3.zhimg.com/v2-3f974d448f9eb211c644d5c5aa2886a9_r.jpg&&&/figure&&p&图片来源:&a href=&https://link.zhihu.com/?target=https%3A//www.ncbi.nlm.nih.gov/pubmed/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&ncbi.nlm.nih.gov/pubmed&/span&&span class=&invisible&&/&/span&&span class=&ellipsis&&&/span&&/a&&/p&&h3&&b&1. Data Cleaning&/b&&/h3&&p&从原始数据(Raw Data)到干净数据(Clean
Data)的过程,有人翻译成“数据清洗”,实在叫不习惯,那我就不翻译了。&/p&&p&Illumina测序仪下机的数据通常为Bcl格式,是将同一个测序通道(Lane)所有样品的数据混杂在一起的,所以公司一般不会提供Bcl文件。测序公司使用Illumina官方出品的Bcl2FastQ软件,根据Index序列分割转换成每个样品的FastQ文件,打开长这样:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-ea30df2b7ffe3_b.jpg& data-rawwidth=&632& data-rawheight=&277& class=&origin_image zh-lightbox-thumb& width=&632& data-original=&https://pic3.zhimg.com/v2-ea30df2b7ffe3_r.jpg&&&/figure&&p&每一条序列(read)包含四行,第一行是read的ID,第二行是序列,第四行是序列中每个碱基的测序质量(更具体的细节可参考&a href=&https://link.zhihu.com/?target=https%3A//en.wikipedia.org/wiki/FASTQ_format& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&FASTQ format - Wikipedia&/a&)。&br&&/p&&p&原始数据没法直接分析,是因为部分reads测序质量较低,可能会误导后续结果,因此需要对低质量碱基太多或N(未能识别的碱基)太多的reads进行去除;此外,部分测序文库的插入片段太短,导致测到两侧的接头序列(请参考上一篇的测序文库结构图理解),这些序列接头也需要从reads中去除。最后,我们也会对清洗前后的Raw Data和Clean Data进行评估,评估内容包括碱基质量、序列长度、碱基比例、GC含量、重复序列、Kmers等(详情请参考FastQC说明文档&a href=&https://link.zhihu.com/?target=http%3A//www.bioinformatics.babraham.ac.uk/projects/fastqc/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&FastQC A Quality Control tool for High Throughput Sequence Data&/a&)。&br&&/p&&p&最后说一句,其实大多数测序公司都会提供Clean
Data的。&br&&/p&&p&&b&#常用软件#&/b&&/p&&p&我以前都是用cutadapt + FASTX-Toolkit的组合,直到同事们给我推荐了Trim Galore,质量评估使用FastQC。&br&&/p&&h3&&b&2. 比对&/b&&/h3&&p&由于二代测序的reads长度通常介于50~300个碱基,因此即便使用双端测序,也基本不可能覆盖完整的mRNA转录本,因此想直接用FastQ文件从头分析测到了哪些转录本需要非常复杂的分析和计算。好在通常情况下,公共数据库已经提供了测序样品的基因组和转录本的序列。因此我们只需要知道,每一条reads来自哪一条转录本就可以了,这个将reads与参考(Reference)基因组/转录组的序列进行比较和匹配的过程,我们通常称之为“比对”(文献中提到的read alignment和mapping通常说的都是这个)。&/p&&p&正如前文所述,转录组测序的比对通常分为基因组比对和转录组比对两种,顾名思义,基因组比对就是把reads比对到完整的基因组序列上,而转录组比对则是把reads比对到所有已知的转录本序列上。如果不是很急或者只想知道已知转录本表达量,个人建议使用基因组比对的方法进行分析,理由如下:&/p&&p&① 转录组比对需要准确的已知转录本的序列,对于来自未知转录本(比如一些未被数据库收录的lncRNA)或序列不准确的reads无法正确比对;&/p&&p&② 与上一条类似,转录组比对不能对转录本的可变剪接进行分析,数据库中未收录的剪接位点会被直接丢弃;&/p&&p&③ 由于同一个基因存在不同的转录本,因此很多reads可以同时完美比对到多个转录本,reads的比对评分会偏低,可能被后续计算表达量的软件舍弃,影响后续分析(有部分软件解决了这个问题);&/p&&p&④ 由于与DNA测序使用的参考序列不同,因此不利于RNA和DNA数据的整合分析。&/p&&p&而上面的问题使用基因组比对都可以解决。&/p&&p&此外,值得注意的是,RNA测序并不能直接使用DNA测序常用的BWA、Bowtie等比对软件,这是由于真核生物内含子的存在,导致测到的reads并不与基因组序列完全一致(如下图所示),因此需要使用Tophat/HISAT/STAR等专门为RNA测序设计的软件进行比对。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-a0f3ec2bfb4b_b.jpg& data-rawwidth=&1146& data-rawheight=&646& class=&origin_image zh-lightbox-thumb& width=&1146& data-original=&https://pic3.zhimg.com/v2-a0f3ec2bfb4b_r.jpg&&&/figure&&br&&p&图片来源:&a href=&https://link.zhihu.com/?target=https%3A//software.broadinstitute.org/gatk/best-practices/rnaseq.php& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GATK | Best Practices&/a&&/p&&p&比对结果会展示为BAM/SAM文件,其中BAM格式是SAM格式的二进制版本(请理解为压缩后的版本,用Samtools可以打开),打开之后长这样:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-da9ac913e6f55_b.jpg& data-rawwidth=&1874& data-rawheight=&231& class=&origin_image zh-lightbox-thumb& width=&1874& data-original=&https://pic3.zhimg.com/v2-da9ac913e6f55_r.jpg&&&/figure&&p&BAM文件中每行代表一条reads的比对信息,其中第一列是read的ID,第二列为FLAG(包括是否双端比对,比对位点是否唯一等信息),第三列为比对的染色体,第四列为比对的起始位置,第六列为CIGAR值,代表比对的具体方式(例60M2D80M代表60个碱基完美匹配+2个碱基缺失+80个碱基完美匹配)等等,BAM文件的具体内容可参考&a href=&https://link.zhihu.com/?target=http%3A//genome.sph.umich.edu/wiki/SAM_Format& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SAM - Genome Analysis Wiki&/a&和&a href=&https://link.zhihu.com/?target=http%3A//samtools.github.io/hts-specs/SAMv1.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&samtools.github.io/hts-&/span&&span class=&invisible&&specs/SAMv1.pdf&/span&&span class=&ellipsis&&&/span&&/a&(后面这个要翻墙)。&/p&&p&&b&#常用软件#&/b&&br&&/p&&p&&b&基因组比对:&/b&&/p&&p&Tophat2:可以说是最被公认的RNA测序比对软件(实际上是在DNA比对软件Bowtie的基础上做了一个壳),相信很多做RNA测序的同学都是看着Tophat发表在Nature Protocol上的步骤一步步入门RNA测序的;&/p&&p&HISAT2:Tophat2的非正式升级版本(因为据说还会有Tophat3),在Tophat的算法基础了上做了大量的改进,而且克服了Tophat最大的缺点——速度慢,Nature Protocol上同样发表了操作流程;&/p&&p&STAR:ENCODE计划御用比对软件,权威程度可以与Tophat平起平坐,并且比对速度极快;&/p&&p&MapSplice:TCGA使用的比对软件,我自己没用过;&/p&&p&RSEM:RSEM更像一个软件包而不是一个比对软件,能够提供从比对到计算差异表达的所有步骤,由于不需要自己写代码串联不同软件生成的数据格式,因此用起来比较省时省力,值得注意的是,TCGA使用MapSplice比对后再用RSEM计算表达量,并没有直接只用RSEM原装的Bowtie的比对结果。&/p&&p&&b&转录组比对:&/b&这类型的软件我用的不多,最近尝试过Nature Methods上面发表的Salmon,能从Clean reads直接算到表达量,优点是,快,非常快。然而这个软件连BAM文件都没生成,虽然只是定量的话BAM文件的确没什么用就是了…&/p&&h3&&b&1.5 #可选步骤# 核糖体RNA(rRNA)去除&/b&&/h3&&p&嗯,写完2再写1.5是我不对。&/p&&p&如果对上一篇还有印象的话,我们曾提到,转录组测序有一种 偏贵的 使用核糖体RNA去除技术构建文库的测序。但是经常做实验的你一定知道,这种去除是没法做到100%去除rRNA的,更糟糕的是,同一批测序的每个样品,rRNA的去除效率也会有一定差别的!&/p&&p&由于rRNA都是非编码RNA序列,因此如果我们后续分析需要使用转录本组装的方法鉴别新的lncRNA(long non-coding RNA,长非编码RNA),这些rRNA的序列特征很容易对lncRNA的鉴定造成干扰,因此我们必须对这些rRNA序列进行去除。&/p&&p&当然,如果不涉及组装新lncRNA的话,rRNA的存在对分析结果的影响并不大。但如果样品间rRNA残留率差别较大,对定量的准确性会有较大影响,因此有能力的话还是建议去除rRNA序列。就算不去除,用比对软件算算rRNA序列占总数据量的比例也是好的,一旦不小心发现12G的数据里面6G都来自于rRNA…(嗯我不是教你们跟公司撕X…)&/p&&p&&b&#常用软件#&/b&&/p&&p&核糖体去除实际上也是通过比对来进行,我在Rfam上下载rRNA的序列后,直接使用Bowtie2进行比对。&/p&&p&至于比对核糖体之后怎么拿到没有rRNA的FastQ文件,我不太清楚别人是怎么做的,我是用Python把没比对上的Reads的ID提取出来存成一个表格,再用Seqtk提取FastQ文件。&/p&&p&#########################未完待续,我们下回分解#########################&/p&&p& 最后关于常用软件:&/p&&p&首先推荐OMIC TOOLS网站(&a href=&https://link.zhihu.com/?target=https%3A//omictools.com/rna-seq-category& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&omictools.com/rna-seq-c&/span&&span class=&invisible&&ategory&/span&&span class=&ellipsis&&&/span&&/a&),上面收集了大量高通量测序相关的软件以及软件之间的对比评测文献。&/p&&p&其次,我写的常用软件基本基于我自己和身边同事的使用情况,以及在文献中看到的情况,并不涉及对软件自身性能的评判。比如华大基因开发的比对用软件SOAPsplice,没有提到不是说它不好,而是我的确没用过,而且用的人也比较少。&/p&&p&至于如何判断哪个软件更好,可以参考软件评测的文献,但没必要以此为绝对标准,例如我见到有评测说STAR完爆Tophat的,也有说Tophat完爆STAR的,而且这两篇评测都发在Nature Method上。我个人认为能一直存活下来也被广泛使用的软件大多各有千秋,对于一个没精力看源代码(也看不懂java和C++)的使用者来说,想要评估一个软件的好坏,直接参考高分杂志的使用情况来推算,可能是更靠谱的选择。&/p&&p&另外,长期欢迎推荐各类软件。&/p&
“你把表达量和差异表达的表格给我就行了”
花那么多钱就换两张表格,你的良心不会痛么!(当年表达芯片都这么做的也没见谁良心痛啊)
当然,毕竟别人不一定靠这个吃饭,但 (找不到工作的) 学生物的你,稍微了解一下测序的分析流程还是值得的,毕…
&p&相信看到这篇文章的朋友,几乎都想成为机器学习科学家。
怎么做呢?读个博士需要 5 年,以及几十到上百万元的花费。读个线下培训班,不仅教学质量参差不齐,而且价格也动辄需要好几万。
事实上,绝大多数的付费课程,基本上都有完全免费的课程放在另一个地方。我们只是把这些信息整理好,告诉你在哪儿可以找到他们,以及通过什么样的顺序进行学习。
这样,哪怕你是还没毕业的大学生,或者是初入职场的工程师,都可以通过自学的方式掌握机器学习科学家的基础技能,并在论文、工作甚至日常生活中快速应用。
在这里我们推荐一份用户友好型的机器学习教程,你可以通过几个月的学习成为机器学习科学家,完全免费。
&b&一份用户友好型的机器学习教程
当你学习机器学习课程时,有没有被信息过载所淹没?
大部分的学习者都遇到了这个问题,这不是他们的错,因为绝大多数的机器学习课程都过于关注个别算法了。
没错,虽然算法很重要,但他们还是把太多时间花在了算法上。
以至于......你几乎很难在短时间内走完一遍机器学习的流程,从而感受到通过它解决具体数据问题的巨大兴奋。
这些机器学习课程关注于算法是因为它容易教。相比之下,如果机器学习老师要带你走一遍机器学习的流程,那么他需要搭建计算环境,完成数据采集、清洗、拆分,特征处理,模型调参和模型预测,甚至他还需要一个面向学习者的交互界面。老师哪有这么多的工具,与其手把手带着学生走一遭,还不如学习机器学习算法。
但这样的问题是,很难有人能坚持通过自学,成为一个卓越的机器学习科学家。哪怕他是数学博士,或者技术高超的程序员,都很容易陷在细节中而难以有具体项目实现的成就感。
这份教程将会带来完全不同的思路。它非常适合自学者,即便完全没有编程的基础,也能通过恰当的工具快速实现机器学习模型,解决工作、生活中遇到的具体问题。
值得注意的是,我们享用了世界顶级的机器学习资源,而不需要花费 1 分钱。
&b&自我学习的方式
&/b&我们推荐通过 Doing Shit(不是技术术语)完成你的学习。
在这之前你也许已经学习过机器学习了,但从我和朋友们的经验来看,往往会被各种神秘的符号、公式、大量的教科书和论文整的晕头转向,然后再也不想碰这恼人的玩意了。
我们的方法会更加友好,它的学习过程就像小朋友学习一样,你会了解一些基础的知识(但不一定要完全弄懂),然后通过好用的工具快速实现出来就好了。而当你被建模出来的结果吸引,那时候我们才谈算法背后的数学逻辑和计算逻辑。
所以我们会在学习中做很多机器学习项目,这样的好处是当你面对一个工作机会时,你就是一个经验丰富的机器学习科学家了!
当然自学本身是需要自律的,这本教程将一直陪伴着你,以下是 4 个步骤。
1.前提条件 (不需要完全弄懂)
统计学、编程和数学(也可以不需要编程)
2.海绵模式
把自己浸泡在机器学习的各种理论中
3.目标实践
通过机器学习包实践 9 个有意思的题目
4.机器学习项目
深度参与到感兴趣的项目和领域中
&b&步骤 1:前提条件 &/b&&/p&&p&机器学习之所以看起来很吓人,是因为总伴随着那些晦涩难懂的术语。实际上,即便你是中文系毕业的,也可以学好机器学习。不过,我们需要你在一些领域有基础的理解。
好消息是,一旦你满足了前提条件,其余的将会非常容易。事实上,几乎所有的机器学习都是把统计学和计算机科学的概念应用于数据领域。
任务:确保你了解基础的统计学、编程和数学
统计学:理解统计学、特别是贝叶斯概率对许多机器学习算法来说都是至关重要的。
免费的指南:How to Learn Statistics for Data Science, The Self-Starter Way
&a href=&//link.zhihu.com/?target=https%3A//elitedatascience.com/learn-statistics-for-data-science& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&elitedatascience.com/le&/span&&span class=&invisible&&arn-statistics-for-data-science&/span&&span class=&ellipsis&&&/span&&/a&
编程:懂得编程将会更灵活的应用机器学习。
免费的指南:How to Learn Python for Data Science, The Self-Starter Way
&a href=&//link.zhihu.com/?target=https%3A//elitedatascience.com/learn-python-for-data-science& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&elitedatascience.com/le&/span&&span class=&invisible&&arn-python-for-data-science&/span&&span class=&ellipsis&&&/span&&/a&
数学:对原始算法的研究需要线性代数、多变量计算的基础。
免费的指南:How to Learn Math for Data Science, The Self-Starter Way
&a href=&//link.zhihu.com/?target=https%3A//elitedatascience.com/learn-math-for-data-science& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&elitedatascience.com/le&/span&&span class=&invisible&&arn-math-for-data-science&/span&&span class=&ellipsis&&&/span&&/a&
你可以先看看这些教程,给你的机器学习道路打下知识基础。
&b&步骤 2:海绵模式 &/b&&/p&&p&海绵模式是尽可能吸收足够多的机器学习理论知识。
现在有些人可能会想:“如果我不打算进行原创性研究,为什么在可以使用现有机器学习包的时候,还需要学习理论?”
这是一个合理的问题!
然而,如果你想把机器学习更灵活的应用于日常工作,学习一些基础理论还是很有好处的,而且你并不需要完全弄懂。下面我们会剧透学习机器学习理论的 5 个理由。
(1)规划和数据采集
数据采集真是一个昂贵和耗时的过程!那么我需要采集哪些类型的数据?根据模型的不同,我需要多少数据?这个挑战是否可行?
(2)数据假设和预处理
不同的算法对数据输入有不同的假设,那我应该如何预处理我的数据?我应该正则化吗?假如我的模型缺少一些数据,它还稳定吗?离群值怎么处理?
(3)解释模型结果
简单的认为机器学习是一个“黑盒子”的概念是错误的。是的,并不是所有的结果都直接可以解释,但你需要诊断自己的模型然后改善它们。我要怎么评估模型是过拟合还是欠拟合?我要向业务利益相关者怎么解释这些结果?以及模型还有多少的改善空间?
(4)改进和调整模型
你的第一次训练很少会达到最佳模式,你需要了解不同的调参和正则化方法的细微差别。如果我的模型是过拟合了,我该如何补救?我应该花更多时间在特征工程上,还是数据采集上?我可以组合我的模型吗?
(5)驱动商业价值
机器学习从来不会在真空中完成。如果你不了解武器库中的工具,就无法最大化发挥它们的效能。在这么多结果指标中,哪些是优化的参考指标?哪个更为重要?或者还有其他的算法会表现更好吗?
好消息是,你不需要一开始就知道所有问题的答案。所以我们推荐你从学习足够的理论开始,然后快速进入到实践。这样的话,你比较能够坚持下来,并在一段时间后真正精通机器学习。
以下是一些免费的机器学习资料。&/p&&p&&b&2.1 机器学习视频课程 &/b&&/p&&p&这是来自哈佛大学和耶鲁大学的世界级课程。
任务:完成至少一门课程
&b&哈佛大学数据科学课程
端到端的数据科学课程。相比吴恩达的课程,它对机器学习的重视程度较低,但是从数据收集到分析,你可以在这里学到整个数据科学的工作流程。
课程主页:&a href=&//link.zhihu.com/?target=http%3A//cs109.github.io/2015/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&cs109.github.io/2015/&/span&&span class=&invisible&&&/span&&/a&
&b&斯坦福大学机器学习课程
这是吴恩达的著名课程,这些视频说清楚了机器学习背后的核心理念。如果你的时间只能上一节课,我们建议这个。
课程主页:&a href=&//link.zhihu.com/?target=https%3A//www.youtube.com/watch%3Fv%3DqeHZOdmJvFU%26list%3DPLZ9qNFMHZ-A4rycgrgOYma6zxF4BZGGPW%26index%3D1& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&youtube.com/watch?&/span&&span class=&invisible&&v=qeHZOdmJvFU&list=PLZ9qNFMHZ-A4rycgrgOYma6zxF4BZGGPW&index=1&/span&&span class=&ellipsis&&&/span&&/a&
&b&2.2 机器学习参考资料 &/b&&/p&&p&接下来我们推荐行业中两本经典的教材。
任务:看这些 PDF 作为教科书
An Introduction to Statistical Learning
Gentler 在书里介绍了统计学习的基本要素,适合所有机器学习的学习者。
PDF 地址:&a href=&//link.zhihu.com/?target=http%3A//www-bcf.usc.edu/%7Egareth/ISL/ISLR%2520Sixth%2520Printing.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&www-bcf.usc.edu/~gareth&/span&&span class=&invisible&&/ISL/ISLR%20Sixth%20Printing.pdf&/span&&span class=&ellipsis&&&/span&&/a&
Elements of Statistical Learning
严格的介绍了机器学习理论和数学,推荐给机器学习的研究员。
PDF 地址:&a href=&//link.zhihu.com/?target=http%3A//statweb.stanford.edu/%7Etibs/ElemStatLearn/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&statweb.stanford.edu/~t&/span&&span class=&invisible&&ibs/ElemStatLearn/&/span&&span class=&ellipsis&&&/span&&/a&
&b&2.3 成功的关键 &/b&&/p&&p&以下是每个步骤成功的关键。
A:注重大局,总是问为什么
每当你被介绍一个新概念时,问一句“为什么”。为什么在某些情况下要使用决策树而不是回归?为什么要规范参数?为什么要拆分数据集?当你了解为什么使用每个工具时,你将成为真正的机器学习从业者。
B:接受你不会记得所有学过的东西
不要疯狂的做笔记,也不要每个课程都复习 3 次。在自己的实际工作中,你会经常需要回过头查看。
C:继续前进,不要气馁
尽量避免在一个话题上拖太久的时间。即便是对于机器学习教授来说,有些概念也很不好解释。但是当你在实践中开始应用时,你会很快就懂得概念的真实含义。
D:视频比教科书更有效
从我们的经验来看,教科书是很好的参考工具,但它很难坚持。我们强烈推荐视频讲座的形式。
&b&步骤 3:有目的实践 &/b&&/p&&p&在海绵模式之后,我们会通过刻意练习的方式磨练技能,把机器学习能力提高到一个新水平。目标包括三个方面:
1.实践完整的机器学习流程:包括数据收集、清洗、预处理,建立模型,调整参数和模型评估。
2.在真实的数据集中练习,逐渐建立哪种模型适合哪种挑战的直觉。
3.深入到一个具体主题中,例如在数据集中应用不同类型的聚类算法,看哪些效果最好。
在完成这些步骤后,当你开始解决大型项目时就不会不知所措了。
&b&3.1 机器学习的工具 &/b&&/p&&p&为了快速实现机器学习模型,我们推荐使用现成的建模工具。这样的话,你会在短时间内练习整个机器学习的工作流程,而无需在任何一个步骤花费太多时间。这会给你非常有价值的“大局直觉”(Big Picture Intuition)。
Python:Scikit-Learn
Scikit-learn 和 Sklearn 是通用机器学习中 Python 的黄金标准库,它具有常规算法的实现。
Caret 为 R 语言中的模型包提供一个统一的界面。它还包括了预处理、数据拆分、模型评估的功能,使其成为一个完整的端到端解决方案。
&b&3.2 实践数据集 &/b&&/p&&p&学习了工具后,你还需要一些数据集。数据科学和机器学习的艺术,很多都在于解决问题时的几十个微观决定。我们会在不同的数据集中看到建模的结果。
任务:从以下选项中选择 5 到 10 个数据集。我们建议从 UCI 的机器学习库开始,例如你可以选择 3 个数据集,分别用于回归、分类和聚类。
在进行机器学习工程的时候,想想以下问题:
你需要为每个数据集执行哪些类型的预处理?
你需要进行降维操作吗?你可以使用什么方法?
你可以如何拆分数据集?
你怎么知道模型是否出现“过拟合”?
你应该使用哪些类型的性能指标?
不同的参数调整会如何影响模型的结果?
你能够进行模型组合以得到更好的结果吗?
你的聚类结果和直观的相符么?
UCI 机器学习报告
UCI 机器学习报告采集了超过 350 个不同的数据集,专门为机器学习提供训练数据。你可以按照任务搜索(回归、分类或聚类),也可以按照行业、数据集大小搜索。
地址:&a href=&//link.zhihu.com/?target=http%3A//archive.ics.uci.edu/ml/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&archive.ics.uci.edu/ml/&/span&&span class=&invisible&&&/span&&/a&
&a href=&//link.zhihu.com/?target=http%3A//Kaggle.com& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&Kaggle.com&/span&&span class=&invisible&&&/span&&/a& 以举办数据科学比赛闻名,但是该网站还拥有超过 180 个社区数据集,它们包含了有趣的话题,从用户宠物小精灵到欧洲足球比赛的数据应有尽有。
&a href=&//link.zhihu.com/?target=https%3A//www.kaggle.com/datasets& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&kaggle.com/datasets&/span&&span class=&invisible&&&/span&&/a&
&a href=&//link.zhihu.com/?target=http%3A//Data.gov& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&Data.gov&/span&&span class=&invisible&&&/span&&/a&
如果你正在寻找社会科学或者与政府有关的数据集,请查看 &a href=&//link.zhihu.com/?target=http%3A//Data.gov& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&Data.gov&/span&&span class=&invisible&&&/span&&/a&。这是美国政府开放数据集合,你可以搜索超过 190,000 个数据集。
&a href=&//link.zhihu.com/?target=https%3A//www.data.gov/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&data.gov/&/span&&span class=&invisible&&&/span&&/a&
&b&步骤 4:机器学习项目 &/b&&/p&&p&好了,现在到了真正有趣的部分了。到目前为止,我们已经涵盖了前提条件、基本理论和有目的实践。现在我们准备好进入更大的项目。
这一步骤的目标是将机器学习技术整合到完整的、端到端的分析中。
&b&4.1 完成一个机器学习项目&/b&&/p&&p&任务:完成泰坦尼克幸存者挑战。
泰坦尼克号幸存者预测挑战是一个非常受欢迎的机器学习实践项目,事实上,这是 &a href=&//link.zhihu.com/?target=http%3A//Kaggle.com& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&Kaggle.com&/span&&span class=&invisible&&&/span&&/a& 上最受欢迎的比赛。
我们喜欢以这个项目作为起点,因为它有很多伟大的教程。你可以从中了解到这些有经验的数据科学家们是怎么处理数据探索、特征工程和模型调参的。
&b&Python 教程
&/b&我们真的非常喜欢这个教程,因为它教会你如何进行数据预处理和纠正数据。教程由 Pycon UK 提供。
教程地址:&a href=&//link.zhihu.com/?target=https%3A//github.com/savarin/pyconuk-introtutorial& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&github.com/savarin/pyco&/span&&span class=&invisible&&nuk-introtutorial&/span&&span class=&ellipsis&&&/span&&/a&
&/b&在 R 中使用 Caret 包来处理几个不同的模型。本教程很好总结了端到端的预测建模过程。
教程地址:&a href=&//link.zhihu.com/?target=http%3A//amunategui.github.io/binary-outcome-modeling/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&amunategui.github.io/bi&/span&&span class=&invisible&&nary-outcome-modeling/&/span&&span class=&ellipsis&&&/span&&/a&
这是一个“不负责任”的快速教程:仅仅是个教程,跳过了理论讲解。不过这也很有用,而且它显示了如何进行随机森林操作。
教程地址:&a href=&//link.zhihu.com/?target=http%3A//will-stanton.com/machine-learning-with-r-an-irresponsibly-fast-tutorial/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&will-stanton.com/machin&/span&&span class=&invisible&&e-learning-with-r-an-irresponsibly-fast-tutorial/&/span&&span class=&ellipsis&&&/span&&/a&
&b&4.2 从头写个算法 &/b&&/p&&p&为了对机器学习有更深的理解,没有什么比从头写个算法有帮助了,因为魔鬼总是在细节里。
我们建议从一些简单的开始,例如逻辑回归、决策树或者 KNN 算法。
这个项目也为你提供了一个将数据语言翻译成程序语言的实践。当你想把最新的学术界研究应用于工作时,这个技能将会十分方便。
&b&而如果你卡住了,这里有一些提示:
&/b&维基百科有很多好资源,它有很多常见算法的伪代码。
为了培养你的灵感,请尝试查看现有机器学习软件包的源代码。
将你的算法分解,为采样、梯度下降等编写单独的功能
从简单开始,在尝试编写随机森林前,先执行一个决策树。
&b&4.3 选择一个有趣的项目或领域 &/b&&/p&&p&如果你没有好奇心,你是很难学好的。但目前为止,也许你已经找到了想坚持下去的领域,那么开始建模吧!
老实说这是机器学习最好的部分了。这是一个强大的工具,而一旦你开始理解,很多想法都会主动找上门。
好消息是,如果你一直在跟踪,也准备好从事这份工作,那么你的收获会远超你的想象!
我们也推荐了 6 个有趣的机器学习项目。
地址:&a href=&//link.zhihu.com/?target=https%3A//elitedatascience.com/machine-learning-projects-for-beginners& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&elitedatascience.com/ma&/span&&span class=&invisible&&chine-learning-projects-for-beginners&/span&&span class=&ellipsis&&&/span&&/a&
&b&恭喜你到达了自学指南的终点&/b&&/p&&p&这里有一个好消息,如果你已经遵循并完成了所有任务,那么你在应用机器学习上将会比 90% 自称是数据科学家的人更好。
而更好的消息是,你还有很多东西要学习。例如深度学习、强化学习、迁移学习、对抗生成模型等等。
成为最好的机器学习科学家的关键是永远不要停止学习。在这个充满活力、激动人心的领域,开始你的旅程吧!
该教程由 EliteDataScience 提供,我们翻译了这份教程,略有改动。这是原文链接:&a href=&//link.zhihu.com/?target=https%3A//elitedatascience.com/learn-machine-learning& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&elitedatascience.com/le&/span&&span class=&invisible&&arn-machine-learning&/span&&span class=&ellipsis&&&/span&&/a&
相信看到这篇文章的朋友,几乎都想成为机器学习科学家。
怎么做呢?读个博士需要 5 年,以及几十到上百万元的花费。读个线下培训班,不仅教学质量参差不齐,而且价格也动辄需要好几万。
事实上,绝大多数的付费课程,基本上都有完全免费的课程放在另一个…
&p&&b&学习很重要的是能将纷繁复杂的信息进行归类和抽象。&/b&&br&对应到大数据技术体系,虽然各种技术百花齐放,层出不穷,但大数据技术本质上无非解决4个核心问题。&/p&&ol&&li&&b&存储,&/b&海量的数据怎样有效的存储?主要包括hdfs、Kafka;&/li&&li&&b&计算,&/b&海量的数据怎样快速计算?主要包括MapReduce、Spark、Flink等;&/li&&li&&b&查询,&/b&海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主要解决随机查询,Olap技术主要解决关联查询;&/li&&li&&b&挖掘,&/b&海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、caffe、mahout等;&/li&&/ol&&p&&b&大数据技术生态其实是一个江湖....&/b&&/p&&p&在一个夜黑风高的晚上,江湖第一大帮会Google三本阵法修炼秘籍流出,大数据技术江湖从此纷争四起、永无宁日...&/p&&p&这三本秘籍分别为:&/p&&ul&&li&《Google file system》:论述了怎样借助普通机器有效的存储海量的大数据;&/li&&li&《Google MapReduce》:论述了怎样快速计算海量的数据;&/li&&li&《Google BigTable》:论述了怎样实现海量数据的快速查询;&/li&&/ul&&p&&b&以上三篇论文秘籍是大数据入门的最好文章,通俗易懂,先看此三篇再看其它技术;&/b&&/p&&p&在Google三大秘籍流出之后,江湖上,致力于武学开放的apache根据这三本秘籍分别研究出了对应的武学巨著《hadoop》,并开放给各大门派研习,Hadoop包括三大部分,分别是hdfs、MapReduce和hbase:&br&hdfs解决大数据的存储问题。&br&mapreduce解决大数据的计算问题。&br&hbase解决大数据量的查询问题。&/p&&p&之后,在各大门派的支持下,Hadoop不断衍生和进化各种分支流派,其中最激烈的当属计算技术,其次是查询技术。存储技术基本无太多变化,hdfs一统天下。&/p&&p&以下为大概的演进:&/p&&p&1,传统数据仓库派说你mapreduce修炼太复杂,老子不会编程,老子以前用sql吃遍天下,为了将这拨人收入门下,并降低大数据修炼难度,遂出了hive,pig、impla等SQL ON Hadoop的简易修炼秘籍;&/p&&p&2,伯克利派说你MapReduce只重招数,内力无法施展,且不同的场景需要修炼不同的技术,太过复杂,于是推出基于内力(内存)的《Spark》,意图解决所有大数据计算问题。&/p&&p&3,流式计算相关门派说你hadoop只能憋大招(批量计算),太麻烦,于是出了SparkStreaming、Storm,S4等流式计算技术,能够实现数据一来就即时计算。&/p&&p&4,apache看各大门派纷争四起,推出flink,想一统流计算和批量计算的修炼;&/p&&p&&br&&/p&&p&以上,如有帮助,别忘了点个赞,谢谢&/p&&p&&br&&/p&&p&手撸【您可能感兴趣的内容】:&/p&&p&&br&&/p&&a href=&https://www.zhihu.com/question//answer/& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/80/v2-2fbb675afabe_180x120.jpg& data-image-width=&1954& data-image-height=&540& class=&internal&&hbase和hive的差别是什么,各自适用在什么场景中?&/a&&a href=&https://www.zhihu.com/question//answer/& data-draft-node=&block& data-draft-type=&link-card& class=&internal&&如何创建一个大数据平台?具体的步骤&/a&
学习很重要的是能将纷繁复杂的信息进行归类和抽象。 对应到大数据技术体系,虽然各种技术百花齐放,层出不穷,但大数据技术本质上无非解决4个核心问题。存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka;计算,海量的数据怎样快速计算?主要包括MapRe…
&figure&&img src=&https://pic4.zhimg.com/v2-5f572fe64e3f14fb5d1dd709ecbf46ce_b.jpg& data-rawwidth=&800& data-rawheight=&385& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic4.zhimg.com/v2-5f572fe64e3f14fb5d1dd709ecbf46ce_r.jpg&&&/figure&&b&提醒:&/b&&br&如果是相关领域的在职人员,或者计算机专业大学生比较适合自学后在这方面发展。&br&如果没有压力(比如快失业了),或者现实的动力(工作中用的到),基本上是坚持不下来的。&br&&br&&b&Step0&/b&&b&:&/b&准备阶段&br&1.英语阅读水平达到大学英语4级。&br&2.高数大致掌握,关键概念经查阅能随时记忆起来。&br&3.编程技能达到计算机2级水准。&br&这些都是大学期间应该积累的技能,如果不符合的话。。。可以凑合先学着,慢慢补。&br&&br&&br&&b&Step1:&/b&看视频学习,这一阶段的目标是对机器学习的理论有初步的了解。&br&&b&1.machine learning-Andrew Ng&/b&&br&&b&百度网盘地址:&/b&&a href=&http://link.zhihu.com/?target=https%3A//pan.baidu.com/s/1gfzJlej& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1gfzJle&/span&&span class=&invisible&&j&/span&&span class=&ellipsis&&&/span&&/a&&br&&b&在线学习地址:&/b&&a href=&http://link.zhihu.com/?target=https%3A//www.coursera.org/learn/machine-learning& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine Learning - Stanford University | Coursera&/a&&br&&b&说明:&/b&Coursera[1]是一个非常知名的公开课网站,Andrew Ng讲授的的“machine learning”课程可以说是它的成名作。我给的离线资源里Andrew Ng的课程只有英文字幕,在线学习有作业什么的,学习更加系统。&br&&b&2.机器学习基石/技法-林轩田&/b&&br&&b&百度网盘地址:&/b&&a href=&http://link.zhihu.com/?target=https%3A//pan.baidu.com/s/1bo6wFuB& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1bo6wFu&/span&&span class=&invisible&&B&/span&&span class=&ellipsis&&&/span&&/a&&a href=&http://link.zhihu.com/?target=https%3A//pan.baidu.com/s/1dEFggkL& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1dEFggk&/span&&span class=&invisible&&L&/span&&span class=&ellipsis&&&/span&&/a&&br&&b&在线学习地址:&/b&&br&&b&说明:&/b&这个资源是中文讲授的。之前在coursera上有,现在貌似找不到了。林轩田老师的讲解通俗易懂,技法课程难一点,可以结合step2进行学习。看的时候记得记笔记,网上也搜的到网友记的笔记,详细的学习方法就不多谈了。&br&&br&&br&&b&Step2:&/b&这一阶段是结合step1学习的理论基础,做一些基于python的动手练习,另外给出了两本参考书,可以阅读加深认识。&br&&b&1.python教程-廖雪峰的官方网站&/b&&br&地址:&a href=&http://link.zhihu.com/?target=http%3A//www.liaoxuefeng.com/wiki/958fa6d3a2e542c000& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Python教程&/a&&br&说明:廖雪峰的教程质量很好。没有必要全看完,大概了解python的基础语法即可,这步是为下面的练习做准备。&br&&b&2.《机器学习实战》&/b&&br&豆瓣地址:&a href=&http://link.zhihu.com/?target=https%3A//book.douban.com/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习实战 (豆瓣)&/a&&br&说明:这本书基于python对一些主要的机器学习算法进行了代码实现。一定要照着敲一遍。&br&&b&3.《机器学习》-周志华&/b&&br&豆瓣地址:&a href=&http://link.zhihu.com/?target=https%3A//book.douban.com/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习 (豆瓣)&/a&&br&说明:这本书是中文里最好的机器学习教科书了,说明很清晰而且全面。但是算法的推导过程很简略以至于完全看不懂。建议大致看一遍,算法的推导结合网上的博客和其他教程进行理解。&br&&b&4.《统计学习方法》-李航&/b&&br&豆瓣地址:&a href=&http://link.zhihu.com/?target=https%3A//book.douban.com/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&统计学习方法 (豆瓣)&/a&&br&说明:我也没看完。。但是据说很好,都是各种算法的推导过程。&br&&br&&br&&b&Step3:&/b&这一阶段是进行实战演练,方法是在机器学习竞赛网站上结合实际案例进行练习。我本人也在step3进行了没多久,祝我好运。&br&&b&1.《利用Python进行数据分析》&/b&&br&豆瓣地址:&a href=&http://link.zhihu.com/?target=https%3A//book.douban.com/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&利用Python进行数据分析 (豆瓣)&/a&&br&说明:numpy与pandas是python进行处理数据的两个关键库。这本书讲解了这两个库的使用方法。是实战前的准备步骤。&br&&b&2.kaggle&/b&&br&地址:&a href=&http://link.zhihu.com/?target=https%3A//www.kaggle.com/competitions& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Competitions | Kaggle&/a&&br&说明:kaggle是一个机器学习竞赛网站。除了在进行中的,有悬赏金的比赛,也有入门的练习赛。使用方法见&a href=&http://link.zhihu.com/?target=http%3A//blog.csdn.net/u/article/details/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&大数据竞赛平台--Kaggle 入门&/a&。&br&&b&3.阿里天池大数据竞赛&/b&&br&地址:&a href=&http://link.zhihu.com/?target=https%3A//tianchi.aliyun.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&天池大数据科研平台-打造“数据众智、众创”第一平台&/a&&br&说明:阿里办的,性质同kaggle。&br&&b&4.data castle&/b&&br&地址:&a href=&http://link.zhihu.com/?target=http%3A//www.pkbigdata.com/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&pkbigdata.com/&/span&&span class=&invisible&&&/span&&/a&&br&说明:中国版kaggle&br&&br&&br&&b&step4:&/b&当你在step3取得了一定成绩。比如在某个比赛中获得了还不错的名次,就可以说具有还不错的机器学习能力了。这时候可以找一些实习干干,实习生岗位要求低一些,通过它可以累积相关领域的实践知识,是正式工作前的跳板。如果实力很强的话,可以直接找工作哦。&br&&b&1.准备面试&/b&&br&大部分公司招聘实习生/员工时不仅会考察你的机器学习知识,如果希望找实习更顺利,可以参考我的找工作指南[2]做准备。一般的话,需要补习:算法,计算机基础知识。充分准备需要几个月的学习时间。&br&有的公司还会希望你掌握大数据工具的使用,学习方法我在“补充内容”中列出来了。&br&&b&2.寻找实习机会&/b&&br&拉勾网[3]上搜索数据挖掘相关的实习即可&br&&b&3.触宝数据团队欢迎你&/b&&br&校招:&a href=&http://link.zhihu.com/?target=http%3A//campus2017.chubao.cn/home& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&触宝2017校园招聘&/a&&br&社招:拉勾网搜索“触宝”&br&内推:发送简历至我的邮箱&br&知乎,触宝的工作环境如何?:&a href=&https://www.zhihu.com/question/& class=&internal&&触宝的工作环境如何? - 知乎&/a&&br&&br&&br&&b&补充内容:&/b&&br&&b&为什么要学习python?好像有R语言,java什么的?&/b&&br&看下面这张图,R,python,scala能够处理的数据量依次增大,应用领域偏重逐渐从科研移动到工业界。未来你可以考虑三门语言都学。目前python是在个人研究与企业应用中都非常广泛的一门编程语言,在入门阶段只学习它就可以了,其他的语言最好用得到的时候再学习。&br&&figure&&img src=&https://pic4.zhimg.com/v2-eebc355efc9ab_b.jpg& data-rawwidth=&468& data-rawheight=&119& class=&origin_image zh-lightbox-thumb& width=&468& data-original=&https://pic4.zhimg.com/v2-eebc355efc9ab_r.jpg&&&/figure&另外&b&编程语言的本质是工具&/b&,工具的学习一定要在实践中渐进的进行,每次只学用的到的部分,这样是效率最高的学习方法。很多人不去写代码,只看一本语言指南。脱离了编程实践,这样是不可能学的好的。&br&&br&&br&&b&我在比赛中碰到了一份5GB的数据,根本打不开,怎么办?&/b&&br&这个时候就得用到大数据技术了,简单的说你需要:&br&&ol&&li&拥有多台计算机。&br&&/li&&li&在它们上面安装linux操作系统。确保它们在同一个网络中。&br&&/li&&li&在它们上分别安装hadoop,spark,并配置好。&br&&/li&&li&使用spark操作数据。&br&&/li&&/ol&&br&这里的2,3,4步。网络上都有相关的教程,第2步建议参考《鸟哥的linux私房菜》[4],第3、4步建议参考hadoop[5]与spark[6]的官方文档以及相关书籍/博客。&br&这里涉及到的学习内容非常多。。。如果不是计算机专业的同学,几乎就是不可能完成的任务了。最好能找一个会的人手把手的指导。&br&好处在于,通过这个过程,你能学到很多大数据技术的操作方法,这是找实习/工作中的一个亮点。&br&坏处在于,搭建与管理大数据平台严格来说是大数据工程师的技能,与机器学习方向无关。而且这个过程非常困难。&br&&br&&br&&b&其他:&/b&&br&不同的机器学习算法往往共享一些基本的概念,如特征(feature),标签(label),训练集,测试集等。在这些概念的基础上,学习一个新算法很快,可能一下午就能读懂一个算法的原理。这时候会很有成就感,不过step2时不要急于学习各种算法,把学习的重心转移到对算法的实践上。最宝贵最实用的知识都是实践中得来的,脱离实践只看算法的原理过几天还是忘光光,而且不会掌握解决实际问题的能力。&br&&br&&br&&br&&br&&br&&br&&br&&br&1. &a href=&http://link.zhihu.com/?target=https%3A//www.coursera.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Coursera | Online Courses From Top Universities. Join for Free&/a&&br&2. &a href=&http://link.zhihu.com/?target=http%3A//v.youku.com/v_show/id_XMTg3MjA2NzY5Mg%3D%3D.html%3Fspm%3Da2hzp..0%26from%3Dy1.7-2& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&2017校招总结 如何准备计算机技术岗的应聘-夏路&/a&&br&3. &a href=&http://link.zhihu.com/?target=https%3A//www.lagou.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&拉勾网-最专业的互联网招聘平台_找工作_招聘_人才网_求职&/a&&br&4.&a href=&http://link.zhihu.com/?target=https%3A//book.douban.com/subject/4889838/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&鸟哥的Linux私房菜 (豆瓣)&/a&&br&5.&a href=&http://link.zhihu.com/?target=http%3A//hadoop.apache.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Welcome to Apache(TM) Hadoop(R)!&/a&&br&6. &a href=&http://link.zhihu.com/?target=http%3A//spark.apache.org/docs/latest/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Overview - Spark 2.1.0 Documentation&/a&
提醒: 如果是相关领域的在职人员,或者计算机专业大学生比较适合自学后在这方面发展。 如果没有压力(比如快失业了),或者现实的动力(工作中用的到),基本上是坚持不下来的。 Step0:准备阶段 1.英语阅读水平达到大学英语4级。 2.高数大致掌握,关键概…
&figure&&img src=&https://pic1.zhimg.com/v2-a739adf79bb49b49b4170f_b.jpg& data-rawwidth=&1024& data-rawheight=&533& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&https://pic1.zhimg.com/v2-a739adf79bb49b49b4170f_r.jpg&&&/figure&&p&大家好,我是一周进步的编辑丽诗。&br&&br&昨天愚人节,主编给我发来一篇文稿,原来是珍妮老师写的Excel教程。&/p&&p&小编我当时的反应就是:&/p&&p&EXO ME?(摊手状)今天过节耶。难道你们都不开黑庆祝吗?&/p&&p&直到今天凌晨确认今早要发推文。。严肃认真地看了这篇教程后,我只想惊叹。。。Excel原来隐藏着这么多的黑科技!而实际上,Excel能有多少花样玩法,取决于你有多少奇思妙想。&/p&&p&王者农药,毁我青春。债见,我要去玩Excel了。&/p&&p&---------------------------&/p&&figure&&img src=&https://pic4.zhimg.com/v2-b3aadfba78a324b7b8ab1_b.jpg& data-rawwidth=&1118& data-rawheight=&237& class=&origin_image zh-lightbox-thumb& width=&1118& data-original=&https://pic4.zhimg.com/v2-b3aadfba78a324b7b8ab1_r.jpg&&&/figure&&p&认识&strong&Excel&/strong&的,都知道它是由行和列组成的表格工具。&/p&&p&只要在单元格手按着键盘向下箭头,光标就会一直向下移动,表格行也会不断增加。那么它一共有多少行?有没有尽头?&/p&&p&来自美国的一位小哥Hunter Hobbs,用长达9个小时36分10秒,坚持把手指放在键盘的向下键上,告诉我们,excel是有尽头的。(心疼)&/p&&figure&&img src=&https://pic2.zhimg.com/v2-fde7ceb2bd_b.jpg& data-rawwidth=&1315& data-rawheight=&750& class=&origin_image zh-lightbox-thumb& width=&1315& data-original=&https://pic2.zhimg.com/v2-fde7ceb2bd_r.jpg&&&/figure&&p&最底部一行的行数为第1048576行。&/p&&p&其实,只需1s,我们就可以知道Excel的最后一行。按住&strong&跳转到末尾&/strong&的快捷键&strong&【CTRL+向下箭头】&/strong&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-999e7db1cdfc78a26cb0acd8_b.jpg& data-rawwidth=&1322& data-rawheight=&982& class=&origin_image zh-lightbox-thumb& width=&1322& data-original=&https://pic4.zhimg.com/v2-999e7db1cdfc78a26cb0acd8_r.jpg&&&/figure&&p&今天这篇文章,我想和你分享一些你应该知道的excel技巧,学会这些,让你不做楼上那位小哥。&/p&&p&&strong&【1】快手是如何产生的&/strong&&/p&&p&你经常需要使用鼠标点很多次的操作,可能一个快捷键就可以一次性搞定。这里精挑细选了一些常用的快捷键,保证让你的手速快到飞起。&/p&&p&&strong&【Ctrl+Pgdn/Pgup】&/strong&
切换工作表&/p&&p&&strong&【Shift+F11】&/strong&
插入一个新的工作表&/p&&p&&strong&【Ctrl+方向键】&/strong&
跳转到内容末尾&/p&&p&&strong&【Ctrl+Shift+方向键】&/strong& 全选指定范围&/p&&p&&strong&【Shift+方向键】&/strong&
连选&/p&&p&&strong&【Crtl+F】&/strong&
查找和替换&/p&&p&&strong&【Ctrl+G】&/strong&
定位&/p&&p&&strong&【Ctrl+:】&/strong&
显示当前日期&/p&&p&&strong&【Ctrl+Shift+;】&/strong& 显示当前时间&/p&&p&&strong&【Shift+F3】&/strong&
显示函数参数框&/p&&p&&strong&【2】&/strong&&strong&快速分析数据&/strong&&/p&&p&还不知道怎么分析你的数据,选中你的数据区域,按住【Ctrl+Q】启动快速分析,可以选择图表、条件格式、公式快速分析你的数据。&/p&&p&&figure&&img src=&https://pic1.zhimg.com/v2-3cd9b0aba7c6c2ba_b.jpg& data-rawwidth=&1006& data-rawheight=&652& class=&origin_image zh-lightbox-thumb& width=&1006& data-original=&https://pic1.zhimg.com/v2-3cd9b0aba7c6c2ba_r.jpg&&&/figure&(知乎没有动图哭哭,动态效果可看文末)&/p&&p&俗话说(好俗),字不如表,表不如图。&/p&&p&隆重推荐excel中的迷你图,让你的excel中有数有图,逼格提升一万点。&/p&&p&&strong&【3】&/strong&&strong&再见手动录入信息&/strong&&/p&&p&我们经常遇到从数据库导出来的表格内容是合并在一个单元格里,如果提取某一行单元格的特定数据时,比如身份证的出生日期,公司姓名、地址等,不会函数只能复制粘贴,练就一手鼠标快手(哭)&/p&&p&有了&strong&快速填充,无论是提取数据、还是转换格式&/strong&,都只需要输入第一个单元格内容,按住&strong&【Ctrl+E】&/strong&就一键就可以快速提取我们想要的信息!&/p&&figure&&img src=&https://pic1.zhimg.com/v2-5ef53b8fcde1a151c3c9_b.jpg& data-rawwidth=&1406& data-rawheight=&564& class=&origin_image zh-lightbox-thumb& width=&1406& data-original=&https://pic1.zhimg.com/v2-5ef53b8fcde1a151c3c9_r.jpg&&&/figure&&p&&strong&【4】&/strong&&strong&让数据开口说话&/strong&&/p&&p&拿着上万的数据表,想筛选和分析数据,数据太多无从下手。其实,是因为你不知道&strong&数据透视表&/strong&。&/p&&p&只要选中任意一个单元格,选择插入数据透视表。在字段列表里,任意筛选你需要的字段,得到你想要的结果只是一秒的事情。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-f2f30a8231cbd52307aaeff403efc856_b.jpg& data-rawwidth=&1014& data-rawheight=&578& class=&origin_image zh-lightbox-thumb& width=&1014& data-original=&https://pic4.zhimg.com/v2-f2f30a8231cbd52307aaeff403efc856_r.jpg&&&/figure&&p&还以为,&strong&Excel&/strong&就是简单的电子表格,只是算数统计做报表的工具?&/p&&p&&strong&其实,这只是不到20%的Excel功能,这种表格能做的事情超乎你想象。&/strong&&/p&&p&比如,你觉得Excel的数据分析的报表不够好看。&/p&&p&美丽又有才华的可视化报表工具- &strong&Excel Powerview&/strong&,(2013的加载项)类似一个数据透视表的切片器,可以对数据进行筛选查看。&/p&&p&即使缺少统计和编程的背景知识,也可以用它处理20亿条数据,快速做出&strong&交互式的动态数据&/strong&图表。&/p&&p&&figure&&img src=&https://pic4.zhimg.com/v2-20cfcf0a8e806bc33580b7_b.jpg& data-rawwidth=&977& data-rawheight=&723& class=&origin_image zh-lightbox-thumb& width=&977& data-original=&https://pic4.zhimg.com/v2-20cfcf0a8e806bc33580b7_r.jpg&&&/figure&知乎动图看不了。。。大家看文末的原文链接吧。。&/p&&p&如果你觉得 Excel Powerview已经很厉害了。那么,&strong&Excel Powermap&/strong&(2013的加载项,2016原生自带)就忍不住笑了。作为一款&strong&三维数据可视化&/strong&的工具,可以对地理和时间数据进行绘图、动态呈现和互动操作。&figure&&img src=&https://pic1.zhimg.com/v2-fffff8db9f86f715d66dbd718a311a91_b.jpg& data-rawwidth=&1325& data-rawheight=&394& class=&origin_image zh-lightbox-thumb& width=&1325& data-original=&https://pic1.zhimg.com/v2-fffff8db9f86f715d66dbd718a311a91_r.jpg&&&/figure&&/p&&p&&strong&碉堡了,Excel还能怎么玩?&/strong&&/p&&p&还可以,利用excel工作表的&strong&网格特性&/strong&,设置每个单元格的背景颜色、填充图案、边框样式,或者输入字母和字符来实现的独特的艺术作品—&strong&像素化的绘图&/strong&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-52a4b06ae72abf405fb5bd11ed1be8f5_b.jpg& data-rawwidth=&1304& data-rawheight=&738& class=&origin_image zh-lightbox-thumb& width=&1304& data-original=&https://pic4.zhimg.com/v2-52a4b06ae72abf405fb5bd11ed1be8f5_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-eaf98ddb23c1db704e2b_b.jpg& data-rawwidth=&1301& data-rawheight=&744& class=&origin_image zh-lightbox-thumb& width=&1301& data-original=&https://pic1.zhimg.com/v2-eaf98ddb23c1db704e2b_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/v2-a8b19e01f47f4eaaa9e24c4a6eb76b24_b.jpg& data-rawwidth=&1297& data-rawheight=&986& class=&origin_image zh-lightbox-thumb& width=&1297& data-original=&https://pic4.zhimg.com/v2-a8b19e01f47f4eaaa9e24c4a6eb76b24_r.jpg&&&/figure&&br&&p&或者拿Excel来画喜欢的动漫,又是跪着看完的。&br&&/p&&p&&figure&&img src=&https://pic1.zhimg.com/v2-77df580b84afbd_b.jpg& data-rawwidth=&929& data-rawheight=&1119& class=&origin_image zh-lightbox-thumb& width=&929& data-original=&https://pic1.zhimg.com/v2-77df580b84afbd_r.jpg&&&/figure&&figure&&img src=&https://pic2.zhimg.com/v2-453d267dee30b92a97b801c2b419aa29_b.jpg& data-rawwidth=&938& data-rawheight=&1035& class=&origin_image zh-lightbox-thumb& width=&938& data-original=&https://pic2.zhimg.com/v2-453d267dee30b92a97b801c2b419aa29_r.jpg&&&/figure&楼下这位日本老爷爷,居然因为其他绘画软件太昂贵,电脑预装了excel。于是选择了excel,用&strong&autoshape(自动图形)&/strong&功能制作,再填上颜色而画出了众多的绝美的风景、动物和人物画,还画到开画展。 &br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-79ac28fefc5b5b7a0cbcfa9d_b.jpg& data-rawwidth=&1135& data-rawheight=&760& class=&origin_image zh-lightbox-thumb& width=&1135& data-original=&https://pic1.zhimg.com/v2-79ac28fefc5b5b7a0cbcfa9d_r.jpg&&&/figure&&p&@堀内辰男&/p&&p&Joey 从美国人口调查局、纽约市开放数据与美国劳工统计处获得数据,并制作了这张二十四小时呼吸的地图,显示曼哈顿的工作与在宅人口。利用&strong&条件格式与小方块&/strong&,地图便在 Excel 上被视觉化了。每个 Gif 图的框架就是一张 Excel 的萤幕截图。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-b71bc882f0f7_b.jpg& data-rawwidth=&1097& data-rawheight=&1501& class=&origin_image zh-lightbox-thumb& width=&1097& data-original=&https://pic3.zhimg.com/v2-b71bc882f0f7_r.jpg&&&/figure&&p& @Joey Cherdarchuk&/p&&p&信不信由你,这些图表与地图都是用 &strong&Excel 数据透视表&/strong&作成的。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-f5bcc08bf_b.jpg& data-rawwidth=&1078& data-rawheight=&1272& class=&origin_image zh-lightbox-thumb& width=&1078& data-original=&https://pic3.zhimg.com/v2-f5bcc08bf_r.jpg&&&/figure&&p&@Johnnelsonidv&/p&&p&每日手动去搜集股票交易资料太辛苦,利用excel&strong&汇入资料和宏的功能&/strong&,让excel自动分析股价走势,让投资更加方便。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-49afafad4_b.jpg& data-rawwidth=&1053& data-rawheight=&673& class=&origin_image zh-lightbox-thumb& width=&1053& data-original=&https://pic4.zhimg.com/v2-49afafad4_r.jpg&&&/figure&&p&@陳智揚&/p&&p&利用excel&strong&自带的模版&/strong&统计每月的收入及支出,更好的规划自己的大学预算。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-631aee83c284dc978e7d3d3749ad49

我要回帖

更多关于 缘故的近义词 的文章

 

随机推荐