新型大数据分析的四种工具系统有哪些？

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>数据分析 >>新型大数据分析的四种工具系统有哪些？

新型大数据分析的四种工具系统有哪些？

来源：蜘蛛抓取(WebSpider) 时间：2022-10-11 09:05 标签：大数据分析的四种工具

发表时间：阅读：831次作者：

一、智慧食堂有哪些优缺点？

近几年智慧食堂这个词已经开始逐渐走进大众视野，但仍然有一部分人对智慧食堂不是特别了解，到底智慧食堂是什么样的呢？智慧食堂对比传统食堂又有什么优点呢？智慧食堂到底有没有缺点。今天就给大家盘点下智慧食堂的优缺点！

　　一、智慧食堂“智慧”在降本提效

　　1、人脸支付，快速买单，提升支付效率

　　2、数据可视化，提升经营管理决策能力

　　3、营收报表一键生成，降低财务管理成本

二、智慧食堂“智慧”互动

　　1、系统根据就餐人员的整体口味偏好，生成数据分析，避免营养失衡

　　三、智慧食堂“智慧”在安全保障

　　1、支付宝：信赖之选，安全可靠

　　2、数据在阿里云，各商户数据彼此独立，互不相关;

内容标签：食堂数据分析

　　本文浅述民航可靠性管理的概念、特点和职能，旨在引申阐述民航行业内可靠性管理的作用。机队实施可靠性管理，按连续有效的维修方案进行维修，可以更好的保障飞行安全、降低维修成本和提高维修质量。

　　一、基本概念

　　可靠性管理，广义上是指为确定和达到要求的产品可靠性特性所需的各项管理活动的总称。通过制定和实施科学的计划，组织、控制和监督可靠性活动的开展，以保证用最少的资源,实现用户所要求的产品可靠性。现代航空业中，按CCAR-121《大型飞机公共航空运输承运人运行合格审定规则》第121.368条的要求，航空公司必须通过可靠性方案分析并保持CCAR-121第121.367条要求的飞机维修方案的有效性。航空公司根据中国民航适航当局要求编制的飞机维修可靠性方案，是为了确保公司所属飞机进行可靠性管理的飞机按照连续有效的维修方案进行维修，以达到保障飞行安全、降低维修成本和提高维修质量的目的。飞机维修可靠性方案是一个指导性文件，用于对航司飞机维修方案实施动态监控和调整。从质量管理的角度而言，可靠性管理是其中一项重要的内容。

　　二、可靠性管理特点

　　可靠性管理具备以下特点:

　　1、在从设计、制造到使用的全过程中，为提供能满足使用要求的高有效性(可靠性和维修性)的产品所采取的提高可靠性的一切措施、方法和活动，称之为可靠性管理。

　　2、可靠性管理不仅是单纯的保证技术，而且是企业中一项重要的经营决策，它有利于增强企业的素质，提高企业的可靠性水平，企业形成一整套以可靠性为重点的质量管理制度,将极大改善人员的可靠性素质、企业风气和企业面貌，是企业长期生产可靠性产品的强大力量。

　　3、民航业内合格证持有人应当建立可靠性管理体系来持续监控维修方案的有效性，制定可靠性方案来说明可靠性管理体系的工作方式。可靠性方案可以是一个复杂的整体方案,也可以按照机型或者监控对象各自单独制定可靠性方案。可靠性管理体系中应当包含一个以维修副总经理或者其授权人员为首的，由维修系统中各有关部门参加的可靠性管理机构,并明确其成员的职责和工作程序。可靠性方案的内容应当至少包括方案说明、可靠性管理机构和控制体系的说明，体系说明包含从数据收集、数据分析、改正措施、性能标准、数据显示和报告、维修间隔调整和工作内容变更、可靠性方案修订等。可靠性管理体系监控的项目还应当至少包括飞机各主要系统、维修重要项目和结构重要项目。

　　4、可靠性方案及其任何修订应得到局方的批准，可靠性管理机构应根据局方的要求定期向局方报告其活动情况并提交有关的报告。

　　三、产品可靠性

　　各航司可靠性管理机构负责制订可靠性工作的方针、计划、组织和规章制度，发布标准规范，检查和督促可靠性工作的进展情况。协调整个系统的可靠性工作(包括协作单位在内)，组织可靠性工作的教育和情报交流，指导所属部门的可靠性工作。涉及到产品可靠性问题中，维修系统中各相关部门也是各司其职，各自完成各自的任务，以保证产品的可靠性。如航材部门严格选用可靠性保证部门推荐使用的部件、耗材、要求的制造材料、特殊工艺要求等，对外购买的航材必须实施严格的质量检查，满足要求才能入库。维修部门制订严格的工装设备、量具、计量测试设备的维修计划，保证它们始终处于合格状态，对产品的生产过程进行严格的质量管理，保证工具设备的一致性和稳定性。工程部门搜集和整理各系统和航材使用过程中出现的故障情况，及时进行故障分析和系统上报。

　　四、可靠性管理保证系统

　　保证系统包括可靠性管理机构发布的可靠性标准规范、设计手册和可靠性工作等方面的各种指导性文件。可靠性管理机构为了对使用产品的可靠性负责，可以派出专门人员调查生产厂家的产品可靠性，根据自身要求器材的筛选条件，材料的检验条件和验收方案，必要时监督器材的生产过程，以此确定生产厂家能否承担产品的生产任务。一线维修单位根据要求对产品进行维护、修理、保管和使用，对运行中的故障进行收集和初步分析，提供给上游部门。航材部门储备合理的备件。工程管理部门对产品的使用情况进行故障分析、统计、反馈、制定改进措施和审查决议。这些机构是可靠性保证系统中不可缺少的一部分。

　　五、可靠性管理的误区

　　目前全球主要有两大航空器制造厂商（波音和空客），在飞机的生产制造过程中涉及到数以万计的系统部件，如何评价选择这些部件的好与坏，这是个比较大问题。在二十世纪40年代飞机制造业初具规模时，可靠性管理的理念即应运而生，因涉及到飞机的初始适航性，飞机配件只有满足设计要求后，才能符合型号合格证的要求，适航当局才会颁发初始适航证。飞机出厂后，就涉及到持续适航性的维护，所以从初始适航到持续适航，可靠性管理探索性的延伸到了民航使用领域。生产制造阶段的对于单个部件管控的理念延伸到了使用阶段，可靠性管理通过收集大量的数据，进行调查和分析，制定改进措施，航空运营人就可以对机队的整体运行情况进行把控。同时对于集中的问题反馈给制造厂商，制造厂商再对供应商进行管理，部件供应商通过找出薄弱环节，提高生产质量来满足设计要求。所以说可靠性管理不仅是121单位强制设立的职能，也是生产体系的延伸。

　　通过对多个公司可靠性管理进行比较和分析，多多少少会发现存在以下一些误区：

　　1、不少航司的可靠性管理形同虚设

　　可靠性管理部门天天忙，忙于提数据做图表，提供给领导作为开会素材，一年组织几个可靠性会议走个过场就算交差。有的因可靠性管理严格按照标准执行，但是总与公司领导关注重点有差距，毕竟在安全和效益的平衡上，短期的成本支出是可以看到的，但可靠性成果的展现又需要较长的周期，所以慢慢在无形中就被弱化。

　　2、可靠性管理职能归属不合理

　　可靠性管理的职能，分工包含收集数据、设定警戒值、分析数据、工程调查、制定措施和验证措施等，这些职能与生产、工程和质量等部门的职能均存在交叉情况。如收集数据，需要生产部门协助提供，可靠性分析、调查、制定措施和验证等这几项工作与质量部门工作又很类似，单独成立个部门，因机构编制和成本支出等原因，大多数公司肯定不愿意，职能交叉能合并又最好。可靠性管理就夹杂在几个部门之间，一线生产部门不愿管，工程部门不想管，质量部门也更不愿意管。

　　3、可靠性管理形式大于内容

　　其实可靠性管理和SMS类似，也是“拿来主义”，不完全能符合实际的国情，与各航司的管理水平和企业文化的适应契合度不高，也与公司领导层重视的程度息息相关。因为现阶段的可靠性管理毕竟没有那么的科学，自己收集到的数据没有那么的准确，分析出来的东西有时也与实际运行情况不相符。现实当中也确实出现过当一个飞机故障近期已经重复发生多次，运营层面都受影响了，结果我们的可靠性系统还没有发出预警，这也是一个不得不承认的现状。可靠性管理有时过于依赖系统，建个框架结果把自己框死了，这是可靠性管理现存的一个问题。如果可靠性管理工程师恰好又缺乏敏感性和维修经验不足，出现多起SDR事件或者多发类似的不正常事件时，未能及时行动起来，只机械式的依靠“警戒值”告警才动作，久而久之，这些问题多了，可靠性管理没有发挥出应有的作用，自然形式就会大于内容了。

　　建立一个系统的初衷，绝对不是要把自己的手脚都捆住，是要用这个系统去解决问题，当这个系统没有这么灵敏的时候，就要人为干涉主动去解决问题，而不是被动的等着系统报警。可靠性管理者必须要围绕航司运营这个“核心”工作，这样才能真正的把可靠性管理做好。

　　六、可靠性管理的定位

　　可靠性管理职能放在哪个部门，那这个公司的可靠性定位也就基本确定了。

　　如果可靠性管理放在生产一线部门，可以贴近一线，可以更加机动灵活的保障运行，但面临的是工程部门就会被动的工作，没有积极主动参与机队可靠性管理的意愿。

　　行业内都知道，工程部门是负责编制维修方案、评估适航指令、制定工卡和提供技术支援等工作的，这些是被动要做的事。如果要想主动做好工程管理，就需要有方式方法去实施管理，以可靠性管理为依托去实施工程管理，这就是一个非常好的选择。有句话说的很贴切：“不以可靠性管理为核心的工程管理那就是耍流氓。”可靠性管理放在工程部门，作为工程部门的大脑去开展工程管理工作，通过不正常事件的分析和结果，就可以决定到底是要更改维修方案，还是制定技术性的预防措施，或是联系厂家解决问题，或是对部件修理厂商施加压力等。这些动作将会大幅提高公司的工程管理能力，机队管理就更可靠，也符合局方对航司飞机维修方案实施动态监控和调整的要求，所以个人的建议还是将可靠性管理放在工程部门。

　　六、可靠性管理的小建议

　　“确保底线”、“守住红线”和“发挥基于可靠性的主动工程管理”，这三个层面是类似金字塔的结构，确保底线是金字塔的基底，基于可靠性的主动工程管理是金字塔的塔尖。建立基于可靠性为指导的工程管理体制，利用可靠性思维主动整理和分析利用机队运营数据，就可以将分析的结果用于指导工程政策的制定。该体制致力于解决机队技术问题和运行问题，最终提升机队的技术状态维护和保障运行平稳顺畅，达到提升公司效益的目的。

　　为保证可靠性管理工作的顺利和有效开展，必须组建航空公司的可靠性委员会，委员会对机队的可靠性管理工作负责，具体业务建议按以下内容制定符合自身运营的可靠性管理程序。

　　1、可靠性数据采集

　　可靠性管理工程师依据制定的《飞机维修可靠性方案》确定的数据收集范围和原则进行机队可靠性数据收集。数据收集系统是可靠性方案的重要组成部分，该系统必须能够全面、准确和及时的获得下列信息：

　　9) 发动机性能监控信息，包括机队报告、性能趋势等；

　　2、可靠性数据分析

　　可靠性数据分析，可以分为统计评估系统分析和事件分析系统分析。其中统计评估系统分析包含了使用的性能参数和分析方法，事件分析系统包含了监控对象和分析方法。

　　1）统计评估系统分析使用的性能参数如下：

　　b. 确认故障拆换率：确认故障拆换次数/1000附件小时。

　　2）统计评估系统性能分析方法

　　统计评估系统通过为每一性能参数设立上控限，当该性能参数的当月率和三月率均超过上控限，即产生告警。

　　3）事件分析系统监控对象含如下事件：

　　（1）使用困难报告（运行/结构）；

　　（3）重大故障；

　　（4）单机重复性/间歇性故障；

　　（5）机队多发性故障；

　　（7）高高原运行事件；

　　（8）老龄飞机重要结构损伤事件。

　　4)事件分析系统分析方法

　　事件分析系统监控的对象事件一旦发生，即产生告警。

　　3、可靠性调查

　　可靠性警告经评估后可发起可靠性调查，可靠性调查又分为工程调查和单机重复性故障调查。

　　工程调查由工程管理专业工程师负责开展，提交审核批准后可进行可靠性审议。对于原因复杂，需要较长时间进行研究和调查的故障，制定的预防措施需可靠性委员会决策的可靠性警告（涉及经济性的改装、航材储备、较大规模的普查等情况），专业工程师深入分析并按期完成工程调查。

　　2）单机重复性故障

　　（1）针对一般警戒，可靠性工程师及时干预，督促一线生产部门完成排故；

　　（2）针对琥珀色警戒，可靠性工程师发工程管理专业工程师评估，及时协助一线生产部门排故。在飞机故障排除后，可靠性工程师视情发起重复故障调查；

　　（3）针对红色警戒，可靠性工程师发起重复故障调查。

　　4、明确调查期限

　　事件分析系统告警，如使用困难报告（运行/结构）、RVSM事件、重大故障、ETOPS事件、高高原运行事件、多发性故障警告、老龄飞机重要结构件损伤事件等，要求自警告下发日起1个月内完成；统计评估系统警告，如部件非计划拆换、机组/机务报告故障警告，要求自下发日起2个月内完成；重复性故障调查要求自故障确认排除后7天内完成调查报告。

　　5、工程调查延期

　　1) 可靠性调查原则上不允许延期，除非由于调查者所无法控制的某些外部原因所致，如：未收到修理报告等。

　　2) 一次延期最多不超过三个月，不得多次延期，延期项目未完成之前在可靠性月报中显示，如延期后仍无法按时完成调查，需向可靠性委员会汇报调查进展情况，根据可靠性委员会意见开展后续工作。

　　定期召开可靠性会议。可靠性会议由可靠性管理工程师组织召开，会议须有可靠性委员会主任并且至少有50%的可靠性委员参加。对于会议内容涉及其它运行部门的，可在当次会议中视情邀请其它运行部门列席会议。

　　可靠性决议形式可以灵活分为会议决议和邮件决议，决议内容为工程调查、维修方案修订等，半数以上委员同意的视为通过决议。

　　8、行业运行数据对比

　　可靠性管理工程师定期收集行业内运行数据并进行分析，将自己公司的飞机可靠性与行业内其他公司进行对比。

　　9、可靠性管理报告

　　可靠性管理报告包括可靠性月报和年报，可靠性管理报告由可靠性管理工程师进行编写、发布和进行存档。

总而言之，航空公司制定的可靠性方案内容要包括方案说明、可靠性管理机构和工作职责、数据收集、数据分析、改正措施、性能标准、数据显示和报告、维修间隔与工作内容变更和可靠性方案修订等要素，并严格按可靠性管理落实机队管理和进行维修，就可以更好的保障飞行安全、降低维修成本和提高维修质量。（作者：桂林航空有限公司庞声海）

　　［1］CCAR-121《大型飞机公共航空运输承运人运行合格审定规则》

Nature子刊：宏基因组研究超强综述——从取样到分析

创作：刘永鑫审核：刘永鑫

原标题：鸟枪法宏基因组-从样本制作到数据分析

随着测序价格下降、配套软件的发表和更新，宏基因组广泛应用；
本文概述了宏基因组学的工作流程，总结了实验设计的基本思路，以及常见问题和解决方法；
实验阶段从DNA提取、文库制备和测序各阶段进行详细描述和经验分享；
分析阶段介绍了拼接、分箱、有参定量、基因和代谢通路和下游分析的方法和原理，同时对主流软件的优缺点和适合范围进行讨论；
本文是入手宏基因组研究必读综述，内容深入浅出，适合本领域各层次同行学习。

主编评语：此文是Nicola Segata领衔创作的宏基因组分析综述，是目前我所见到的指导宏基因组实验和分析最好的综述。Segata本人及其团队在宏基因组分析领域编写了最多的主流软件，如LEfSe、MetaPhlAn2基于多标记基因的宏基因组物种组成定量、HUMAnN2基于UniRef数据库的功能定量和等，而且还表发了众多顶级宏基因组研究文章，如、《Nature子刊：跨越人群的大肠癌肠道菌群特征和诊断标志物》（

细菌、古细菌、病毒和单细胞真核生物的不同微生物群落在环境和人类健康中起着至关重要的作用。然而，微生物经常难以在实验室中培养，这可能会混淆成员的命名和对群落如何运作的理解。高通量测序技术和计算流程已经应用到鸟枪法宏基因组学中，改变了微生物学。但仍然需要计算方法来克服影响基于组装和基于比对的宏基因组分析的挑战，特别是高复杂性样品或含有与测序基因组具有相似性生物的环境。了解这些群落的功能和表征特定菌株，为使用微生物工厂合成产品的治疗、发现和创新方法提供了生物技术前景，并可以确定微生物对我们的家园、动物和人类健康的贡献。

高通量测序方法可以对样品中的所有微生物进行基因组分析，而不仅仅是那些适合培养的微生物。鸟枪法宏基因组学（shotgun metagenomics）是对样本中存在的所有（’meta-‘）微生物基因组的非靶向（untargeted / ‘shotgun’）测序。鸟枪法测序可用于分析微生物群落的分类组成和功能潜力，并恢复全基因组序列。诸如高通量16S rRNA基因测序（其描绘所选生物或单个标记基因）的方法有时被称为宏基因组学，但这是用词不当，因为它们不针对样品的整个基因组含量。

自首次使用以来的15年中，宏基因组学已经能够对复杂的微生物组进行大规模研究。通过该技术的发现，包括鉴定具有内共生行为的环境细菌门、以及可以对氨进行完全硝化的物种。其他值得注意的发现包括共生细菌中广泛存在的抗生素抗性基因，追踪人类暴发病原体，微生物组的病毒和细菌部分与炎症性肠病的强烈关联，以及监测菌株的能力 - 在粪便微生物组移植引起的扰动后肠道微生物群的变化。

在这里，我们讨论鸟枪法宏基因组学研究的最佳实践，包括目前认识和应用的局限性，并提供未来宏基因组学的展望。

在初步研究设计之后，典型的鸟枪宏基因组学研究包括五个步骤：（i）样品的收集，处理和测序; （ii）测序读长的预处理; （iii）微生物组序列分析分类学、功能和基因组特征; （iv）统计和后处理分析，以及（v）验证（图1）。许多实验和计算方法可用于执行每个步骤，这意味着研究人员面临着艰巨的选择。而且，尽管其显而易见的简单，但由于潜在的实验偏差以及计算分析及其解释的复杂性，鸟枪法宏基因组学具有局限性。我们评估每个步骤伴随的选择和常见问题。

图1. 宏基因组分析流程概述

步骤（1）：研究设计和实验方案。在宏基因组学中经常低估这一步骤的重要性。步骤（2）：数据预处理。数据质量控制（quality control，QC）步骤最小化基本序列偏差，例如去除测序接头、质量修剪、去除测序重复（使用例如FastQC，Trimmomatic或Picard工具）。还过滤外源或非靶DNA序列，并且如果比较分类群或功能的多样性，则对样品进行二次采样以标准化读长数量。步骤（3）：序列分析。根据实验目标，采用“基于读长”和/或“基于组装”的方法。两种方法都有优点和局限性（表4）。步骤（4）：后处理。可以使用各种多变量统计技术来解释数据。步骤（5）：验证。高维生物学数据的结论易受研究驱动的偏差影响，因此后续验证至关重要。

附图1. 用于规划宏基因组学研究的示例工作流程

这里提出的建议针对的是该领域的入门级研究人员，特别是关注假设驱动的实验，与探索性/假设生成研究相比，这些实验当然可能设计得非常不同。

研究设计（蓝框），样品采集（绿框）和实验程序（黄框）的关键考虑因素突出显示。了解混杂因素的可能性和设计的优化，可以显著地提高宏基因组序列数据和解释的质量。 附框1包含进一步的具体建议。

附框1. 实验设计中的问题和解决方案

为研究提供的统计功效和测序深度的要求

能够检测显著差异所需的样品数量和测序深度将取决于诸如不同样品之间微生物组成的一致性、样品的固有微生物多样性和所研究现象的效应大小等因素。

解决方案：决策可以通过相同类型环境中先前研究的结果来指导。在缺乏此信息的情况下，进行基于标记基因的初步研究以评估谨慎的列出的每个因素的可能相对影响。

通常很难选择对照组与不含其他混杂变量的目标样本进行比较。这方面的一个例子是啮齿动物微生物组研究，其中笼和动物批次效应可导致微生物组成的显著差异，与所研究的变量无关。另一个例子是与病例相关微生物组的横断面研究（cross-sectional study），在没有积极治疗的情况下患者无法取样。

解决方案：当前的最佳实践是尽可能多地收集关于每个研究组的元数据，并在比较组时将这些元素纳入后续分析中。对于临床样本，通常包括性别、年龄、抗生素/药物使用、地理位置、饮食习惯和布里斯托尔粪便图表分数等特征。对于环境样品，通常包括地理位置、季节、pH、温度等。有关规划啮齿动物微生物组研究的进一步广泛建议，来自同一患者/位置的纵向采样也可作为额外控制，特别是当纵向变化可以与元数据相关联。

可能很难以完全相同的方式处理和保存所有样品（例如，当不同研究组从多个位置提供样品时）。通过纵向研究，在最终时间点收集的样品在DNA提取之前，冷冻保存中花费的时间少于在其他时间点收集的样品。采样和保存程序的这些变化可能会引入系统偏差。

解决方案：在可能的情况下，对于给定研究中的所有样品，应始终对收集和保存方法进行标准化。在进行后续数据分析时，还应记录所有使用的程序并将其作为相关元数据包括在内。理想情况下，这应包括收集和DNA提取之间的时间，冷冻储存的时间长度和冻融循环次数等因素。对于哺乳动物的肠道样本，有一些证据表明，在长期冷冻储存后，甘油储存可能会产生更具代表性的成分结果改变。同样，在长期冷冻储存之前进行冷冻干燥可能是一种谨慎的方法。

二代测序技术是高度敏感的，这意味着非常少量的DNA足以进行测序。然而，常见的实验室试剂盒和试剂并非无菌，意味着这些中存在的任何污染都可能超过仅含有极低微生物量的样品中的“真实”信号。

解决方案。在测序之前，使用定量方法如qPCR测量样品中存在的生物量水平是明智的。含有少于10⁵个微生物细胞的样品似乎受到背景污染的影响最大。表1提供了一些可以尝试的方法，以便在测序之前从样品中富集细胞数 / DNA产量。使用与实际样品相同的试剂盒/试剂处理的阴性对照样品应进行测序，以确定存在的污染微生物的类型。然后可以从最终序列数据集中生物信息地去除源自这些污染物的序列数据。注意，通过使用载体DNA可以增强这些阴性对照的灵敏度。

这一步骤可以极大地影响宏基因组学研究的结果。如果所选择的方法不够严格以从一些细胞类型中提取DNA，则它们将不会在随后的序列数据中准确地表示。从根本上说，DNA提取方法的最佳类型将取决于给定样品中存在的细胞类型的基本组成。不幸的是，即使在相同类型的样品中，这也可以变化很大（例如，一些人的粪便由革兰氏阴性物种主导，细胞壁相对容易破坏，而其他人的粪便由相对顽固的革兰氏阳性物种主导）。因此，没有一种DNA提取方法可以最佳地适用于所有样本类型。

解决方案：使用定义的模拟群落（Mock communities，人工混合成分确定的混菌），控制由来自特定环境中常见的物种类型的混合物的培养物组成，可以作为测试不同DNA提取方法效率和准确性的有效起点。通过包括系统发育上不同的物种集合可以优化模拟群落，这些物种已知在所研究的样本类型中通常很丰富。然而，使用简化模拟很难模拟真实微生物群落的复杂性，并且不可能测试未知/未培养生物的提取步骤的效率。大量证据表明，与化学裂解相比，将珠粒打浆步骤结合到DNA提取过程中可提高所得物种特征的产量和代表性。然而，这种类型的方法通常会导致更强烈的DNA打断，可能会限制新一代长读长测序技术的能力。在将序列数据上传到公共存储库时，DNA提取方法也应作为关键的元数据包含在内。这允许将方法选择的差异考虑到随后的荟萃分析中(荟萃分析包含来自不同实验室的宏基因组数据集)。

关于DNA提取方法选择，可阅读之前NBT发表的评测文章：

鸟枪法宏基因组学研究方案设计

基于假设的研究设计所涉及的步骤在附图1中概述，附框1中总结了具体建议。微生物含量可能因同一环境的样本而异，这使得在少量样本中检测具有统计学意义和生物学意义的差异变得复杂。因此，重要的是要确定研究是否足以检测差异，特别是影响很小时。一种有用的策略可能是生成试点(pilot)数据以获得功率计算（power calculations）。或者，可采用双层（two-tiered）方法，其中对用较便宜的微生物调查（例如16S rRNA基因测序）预筛选的样品，然后选择子集进行鸟枪法宏基因组学（N.S.）18。

特别是对于复杂环境的样品，对照可能很难获得。这对于那些研究人类微生物组的人来说尤其重要，其中栖息的微生物群落受多种因素的影响，如宿主基因型、年龄、饮食和环境。在可行的情况下，我们建议纵向研究纳入来自同一栖息地的样本，而不是简单的横断面研究，比较两个样本集的“快照(snapshots)”。重要的是，纵向研究不依赖于可能是非代表性异常值的单个样本的结果。排除可能被不需要的变量混淆的样本也是谨慎的。例如，在人类受试者的研究中，排除标准可能包括暴露于已知影响微生物组的药物，例如抗生素。如果这不可行，则应将潜在的混杂因素纳入比较分析（附栏1）。

如果样本来自动物模型，特别是共同饲养的啮齿动物，则应考虑动物年龄、居住环境、甚至处理动物人员的性别对微生物群落特征的潜在影响。通常可以通过单独容纳动物以防止微生物在笼子内、配偶之间传播来缓解研究设计中的潜在混杂因素（尽管这可能引入行为改变，可能导致不同的偏差），从而在不同的实验群组中容纳动物。使用来自不同供应商或具有不同遗传背景的小鼠品系进行笼养或重复实验。

sequence，MIxS）必须列出，以提供所需元数据，但宏基因组学现在应用于不同类型的环境，难以选择适合每种样本类型的参数。我们建议将尽可能多的描述性和详细的元数据与每个样本相关联，以使研究群组或样本类型之间的比较更有可能与特定的环境变量相关联。

样品采集和保存方案可能会影响宏基因组学数据的质量和准确性。重要的是，在某些情况下，这些步骤的影响大小可能大于感兴趣的生物学变量的影响大小。实际上，样本处理方法的变化也可能是来自不同研究数据进行荟萃分析中的重要混淆因素（附框1）。已经针对一种样本类型验证的收集和存储方法不能被认为对于其他样本类型是最佳的。因此，通常需要仔细的初步工作来优化样品类型的处理条件（附图1）。

常温保存方法的比较，可参考

主要目标是收集足够的微生物生物量进行测序，并尽量减少样品污染。富集方法可用于微生物稀缺的环境（表1）。然而，这些程序可能会将偏差引入测序数据。一些研究表明，样品采集和冷冻的时间长度以及样品经历的冻融循环次数等因素会影响检测到的微生物群落特征; 因此，应记录收集和储存协议和条件（附框1）。

DNA提取方法可以影响下游序列数据的组成。提取方法必须对多种微生物类群有效; 否则，测序结果可能由仅来自易于裂解的微生物DNA支配。包括机械裂解（或珠击）的DNA提取方法通常被认为优于化学裂解的方法。然而，基于珠击的方法在效率上提高，但强烈的提取技术如珠击可导致DNA片段长度缩短，这可能导致在使用片段大小选择技术的文库制备方法中DNA丢失。

样品处理阶段可能会发生污染。试剂盒或实验室试剂可能含有不同量的微生物污染物。来自低生物量样品（例如，皮肤拭子）的宏基因组数据集特别容易受到这个问题的影响，因为与低污染水平竞争的“真实”信号较少，我们建议使用低生物量样品的研究人员使用超净试剂并加入’空白’测序对照，其中对试剂进行测序而不添加样品模板。其他污染源包括先前测序运行中的交叉污染、基于Illumina的测序方案中添加的PhiX对照DNA、以及人或宿主DNA。

表1. 在测序之前富集微生物细胞和DNA方法的优点和局限性

即使微量材料也可以产生足够的DNA用于测序
可以应用于提取环境DNA
可以在一类样品中扩增全部的物种

扩增会产生显著的偏差，对宏基因组表征产生影响
扩增中产生嵌合体影响组装
对感兴趣的物种无法改变其丰度比例(没有富集特定类群的能力)

可以从未培养的生物体中产生基因组
可以与荧光原位杂交等靶向方法结合使用，以选择特定的分类群，包括那些可能是微生物群落中罕见成员的分类群
将基因组数据置于其正确的系统发育背景中
参考基因组可以帮助宏基因组拼接

分离单个细胞是成本昂贵的，需要专业设备
需要全基因组扩增的步骤
在基因组扩增过程中容易引入偏差，因此通常只能回收部分基因组

提供对感兴趣的细胞进行高通量分选的方法
可以选择特定的分类群，包括那些可能是微生物群落中罕见成员的分类群

需要昂贵的设备和专业操作人员
可能无法回收样品中附着于表面或固定在结构中的细胞，如生物膜
可以收集的细胞数量受流速和分选体积的限制

简化微生物群落结构，可以更容易地从宏基因组学数据中组装基因组
富集样品中特定分类群的存在，可以提供有关其在微生物群落中功能作用的线索

要求感兴趣的细胞可以在整个富集期内稳定地保持在微观世界中
简化微生物群落结构，偏差有利于能够在微观世界中茁壮成长的生物

允许对表型特征的分离株进行广泛测试
参考基因组可以帮助宏基因组拼接
提供功能数据以改进宏基因组学注释
将基因组数据置于其正确的系统发育背景中

通量低，可能是高度劳动密集型的工作（分几万个菌，点样就是一项体力活）
受到在实验室中一些难培养微生物的限制（永远不可能培养所有微生物）
不太可能恢复微生物群落的稀有成员，因为培养的分离物集合将由最丰富的生物体主导

可以使用寡核苷酸探针来鉴定感兴趣的物种，如最近证明的不依赖于培养的病毒诊断（在病毒组研究中有广泛应用，如）
通过仅关注感兴趣的物种，特别是当存在大量宿主污染时，可以实现更高的灵敏度

与PCR一样，当目标生物与用于设计探针的参考序列相比变异较大时无法捕获
可以对目标生物进行不均匀的基因组覆盖，影响组装

可以富集特定的分类群，包括那些可能是微生物群落中相对罕见的成员
远比单细胞基因组学或流式分选技术便宜得多
与其他有针对性的浓缩技术相比，在技术上更具挑战性，且更耗时

需要针对目标靶细胞的特异性抗体
如果目标细胞数量低，可能需要在细胞分离后进行全基因组扩增

背景(人和真核)消减技术

对于微生物细胞数远低于真核细胞的样品特别有用
增强了对微生物基因组数据的检测
需要较低的序列深度以获得良好的微生物基因组覆盖率，降低测序成本
相对便宜，而不是技术上的挑战

在加工步骤中可能失去感兴趣的细菌DNA，并在随后的微生物组分析产生偏差

文库制备和测序方法的选择取决于材料和服务的可用性、成本、易于自动化和DNA样品定量。 Illumina平台在鸟枪法宏基因组学中占据主导地位，因为它具有广泛的可用性，非常高的通量（每次运行高达1.5 Tb）和高精度（典型错误率为0.1-1％），尽管竞争的Ion Torrent S5或S5 XL仪器是另一种选择。诸如Oxford Nanopore MinION和Pacific Biosciences Sequel等长读长序列技术已经扩大了通量，现在每次运行可产生高达10 Gb，因此这些平台很快就会开始采用宏基因组学研究（详者注：两年后的今天，这些平台的准确度和通量均有明显的提升，而且已经有一大批采用三代测序的宏基因组文章率先发表于NBT杂志）。

三代测序应用于宏基因组的代表工作：

鉴于在单次运行中可实现非常高的输出，通常通过多达96或384个样品的标签混样一次对多个宏基因组样品进行测序，通常使用可用于所有文库制备方案的双索引条形码集。 Illumina平台在测序批次间（运行之间）和测序批次内（运行中）之间存在交叉污染的问题。最近，人们越来越担心使用新扩增方法（ExAmp）的新型Illumina仪器会遇到更高比率的“索引跳跃（index hopping）”，其中不正确的条形码标识符被纳入增长的簇中，但这种问题在典型宏基因组学项目中的程度尚未经过评估，Illumina已经提出了减轻此问题的最佳实践。研究人员可以通过随机选择含有已知加内参孔作为阳性对照，和模板阴性对照来评估这些问题的程度。这些措施对于诊断宏基因组学项目尤其重要，其中少量病原体读长可能是高宿主污染背景下的感染信号。尽管在该领域仍然不常见，但技术重复对于评估可变性是有用的，并且即使对样本的子集进行重复也可以提供足够的信息以将技术与真正的变异区分开来。

有多种方法可用于制备Illumina测序文库，通常使用片段化的方法来区分。例如，Illumina Nextera和Nextera XT产品中使用的基于转座酶的“标记(tagmentation)”很受欢迎，因为它的成本低（每个样品25-40美元，稀释方法可以进一步降低这些成本）。标记方法需要小的DNA起始量（建议使用1 ng DNA，但可以使用更少的DNA）。由于随后的PCR扩增步骤，这种低输入是可接受的。然而，由于标记靶向特定序列基序，它可能引入扩增偏差以及众所周知的与PCR相关的GC含量偏差。减少这些偏差的一种方法是使用依赖于物理片段化的无PCR方法（例如，无PCR的TruSeq）来产生可以更能代表样品中潜在物种组成的测序文库。

这里没有针对给定环境或研究类型的“合适”覆盖量/测序量的通用标准，并且这种数字不太可能存在。根据经验，我们经常建议选择一个最大化测序输出的系统，以便从尽可能多的低丰度微生物组成员中检索序列。 Illumina HiSeq 2500或4000，NextSeq和NovaSeq产生大量序列数据（每次运行120 Gb和1.5 Tb），非常适合宏基因组学研究（需要注意关于索引跳跃的问题）。这些仪器每次运行的通量是已知的，并且通过确定混样的数量，研究者可以设置每样品的期望测序深度。 2017年的典型实验旨在产生1到10 Gb，但这些深度可能过高或不足，这取决于检测样品中稀有成员所需的灵敏度（详者注：我见过的测序数据量范围是6-300GB，这取决于你想要研究多低丰度的物种，通用最低量 6Gb = 150 bp X 2 X 2千万，可使1%丰度菌基因组测序深度 = 6GB*1%/5MB = 12X，0.1%只有1.2X，而通常纯菌要获得较完整的基因组也需要30-100X的深度）。

Illumina平台的主要区别在于其总产出数据量和最大的测序长度。 Illumina HiSeq 2500虽然现在已有两代历史，但却是鸟枪法宏基因组学的热门选择，因为它能够在快速运行模式下生成2×250-nt读长（每个流通槽可产生高达180 Gb）或最多1个Tb处于高输出模式，具有2×125-nt读数。较新的HiSeq 3000和4000系统进一步提高了运行的总通量（4000的最高可达1.5 Tb），但读取长度限制为150-nt。 NextSeq台式仪器具有与HiSeq 2500快速运行模式类似的输出，但仅限于读长150 nt。然而，NextSeq的成本不到HiSeq价格的一半，因此可能对希望操作自己的仪器的研究团队具有吸引力。最近发布的NovaSeq平台承诺在不久的将来每个流动槽通量可达3 Tb。 Illumina MiSeq受输出限制（在2 × 300-nt 模式下高达15 Gb），但仍然是单标记基因微生物组研究的事实标准。 MiSeq（或MiniSeq）可能仍然可用于对有限数量的样品进行测序或评估文库浓度和平衡条形码混池，在运行更高通量的仪器之前提供良好初步结果判断，其中单个运行（Run）花费可能 > 10,000美元。

已经公开了许多用于从序列读长库中重建微生物群落组成的方法。选择“最佳”是一项艰巨的任务，主要取决于研究的目的。

宏基因组从头/无参（de novo)组装/拼接在概念上类似于全基因组组装。 de Bruijn图方法目前是一种非常流行的宏基因组装方法。对于单草图的基因组拼接，通过将每个测序读长分解为固定长度k的重叠子序列来构建de Bruijn图。这组重叠的“k-mers”定义了de Bruijn图的顶点和边。组装程序的任务是找到重建基因组的图形路径。生成非基因组序列的序列错误和重复序列会使此任务变得复杂，这可能导致错误组装和碎片化。

宏基因组拼接呈现出独特的挑战。首先，当组装单个基因组时，通常假设沿着基因组的序列覆盖近似均匀。组装程序可以使用序列覆盖来识别重复拷贝，区分真实序列和测序错误，并识别等位基因变异。宏基因的拼接更困难，因为每个基因组的覆盖范围取决于群落中每个基因组的丰度。如果总体测序深度不足以在图中形成连接，则低丰度基因组可能最终碎片化。在图形形成中使用短k-mer大小可以帮助恢复较低丰度的基因组，但这是以图中重复k-mer频率增加为代价，掩盖了基因组的正确重建。组装程序必须在恢复低丰度基因组和获得高丰度基因组的长而准确的重叠群之间取得平衡。第二个问题是样品可含有相同细菌种类的不同菌株。这些密切相关的基因组可以在组装图中引起分支，其中它们可以通过单核苷酸变体或整个基因或操纵子的存在或不存在而不同。组装程序通常会在这些分支点处停止，从而导致碎片重建。

特定的宏基因组的组装软件试图克服这些挑战。 Meta-IDBA使用多重k-mer方法来避免选择适合低丰度物种和高丰度物种的k-mer长度的任务。 Meta-IDBA具有对de Bruijn图分区的扩展（与MetaVelvet一样），最新版本IDBA-UD优化了不均匀序列深度分布的重建。 SPAdes组装程序已扩展用于宏基因组装配，可用于组装使用不同技术测序的数据（二、三混合组装）。

对于可能包含数百种菌株的复杂样品，必须尽可能增加测序深度。计算时间和内存可能不足以完成这样的组装。分布式组装程序，例如Ray，它在一组计算机集群上分布内存负载，已被用于组装来自人类粪便样本的宏基因组。为了帮助组装非常复杂的样品，Pell等人开发了一种轻量级方法，将宏基因组装图分割成可以独立组装的连接组件。另一种方法是潜在的菌株分析，使用k-mer丰度模式对读长进行分区，这样可以使用有限量的内存组装各个低丰度基因组。 MEGAHIT使用简洁的数据结构来降低组装复杂宏基因组的内存需求，并实现非常快的运行时间。

MEGAHIT的文章导读和软件使用教程如下：

关于不同装配软件的关键指标（如完整性，连续性和产生嵌合重叠群的倾向）方面的表现，几乎没有同行的共识。尽管宏基因组分析“烘焙比赛（bake-offs）”旨在为分析软件提出具体建议，但软件性能很可能取决于生物因素（例如，潜在的微生物群落结构）和技术因素（例如，测序平台特征和覆盖范围）。在Assemblathon项目中观察到没有一个组装软件表现出“最佳”。

我们分析了模拟合成和真实群落的组装结果（表2和表3）。我们评估了MEGAHIT和metaSPAdes从模拟群体中重建已知基因组并捕获真实数据集中的分类学和基因多样性的能力。两者都成功地重建了超过75％的模拟群落 - 一个包含20个生物，另一个包含49个细菌和10个古菌。 MetaSPAdes产生更长的重叠群，但这些似乎不太准确。当限于与模拟群落中的参考序列完全匹配的重叠群时，MEGAHIT成功地重建了更多真正的基因组。因此，在这种情况下选择组装软件将取决于重叠群大小与准确度的相对重要性。在真实数据集（表3）中，难以辨别一致的模式。然而，检查中等单拷贝核心基因数（以估计组装中的基因组数量）表明，对于更复杂的土壤和海洋群落，MEGAHIT汇集了更多可以在功能上注释的基因。这里的关键结论是，不同的最先进程序对于不同的数据集将是最佳的，同时需要相似的运行时间（在最大样本上使用16个线程约48小时）和内存使用峰值（不超过125 GB）。因此，谨慎尝试不止一种组装方法。 CAMI挑战报告称，MEGAHIT在其基准数据集中是位于前三名的宏基因组拼接软件，并且与metaSPAdes（未在CAMI中评估）一起，可能是当前最佳选择。无论使用哪种组装软件，结果都不是基因组，而是潜在的数百万个重叠群，这促使需要使用分箱工具将重叠群连接回它们所衍生的基因组。

表2. 基于已知成份的模拟群落评估宏基因组拼接

meta-sensitive”用于“MegaHIT”。输入的宏基因组是先前描述的模拟群落的Illumina测序数据，其被子采样到5000万个读长以用于相同深度下多样性和其它结果的可比性。子采样的双端fastq文件位于和用于HMP模拟群落（包括20个菌株）和和用于环境模拟群落（包括59株）。通过与BLASTN比对模拟群落中生物的基因组的重叠群来计算重建百分比和百分比同一性。 N50值对应于重叠群的大小，其中较长的重叠群代表总组装的至少一半，并且它是评估组件质量的关键参数之一。在括号中，我们报告称为“完全重叠群（perfect contigs）”的统计数据，其是通过宏基因组拼接重建的重叠群，其在重叠群的整个长度上与参考基因组具有 > 99％的同一性。值得注意的是，“完美的重叠群”不包括嵌合重叠群。

表3. 不同环境宏基因组拼接的比较

使用如表2中报告的SPAdes和MegaHIT产生组装。通过HMP（二次取样5千万读长的宏基因组）在对肠样品进行测序和），Ofek-Lalzar等人的土壤样本（5000万读长子样本宏基因组，网址为和）和Sunagawa等人的海洋样本（和，有5000万读取子采样的宏基因组）。功能注释如前所述进行，使用Prodigal（使用默认参数和“-p

宏基因组拼接高度分散，包含数千个重叠群（表2），研究人员不知道哪个重叠群来自哪个基因组，甚至不知道有多少基因组存在。重叠群“分箱”的目的是将重叠群分为物种。有监督的分箱方法使用已经测序的基因组数据库将重叠群标记为分类学类别。无监督（聚类）方法在数据中查找自然组。

监督和非监督方法都有两个主要元素：用于定义给定重叠群和分箱之间相似性的度量，以及将这些相似性转换为赋值的算法。对于物种分类学，针对已知基因组的重叠群同源性是一种潜在有用的方法，但大多数微生物物种尚未测序，因此大部分重建的基因组片段不能比对到参考基因组。这促使使用重叠群序列进行分箱。不同的微生物物种的基因组包含特定的碱基组合，这导致不同的k-mer频率。基于这些k-mer频率的度量可用于对重叠群进行分组，其中四聚体(4 k-mer)被认为是对宏基因组学数据进行分类的最有用信息。基于这些频率的许多软件选择可供选择，例如朴素贝叶斯分类器或支持向量机，但序列组成通常缺乏将复杂数据集解析到复杂群落中物种水平所必需的特异性。

重叠群的聚类分析非常有吸引力，因为它不需要参考基因组。直到最近，大多数重叠群聚类算法，例如MetaWatt和SCIMM，使用了各种物种组成指标，有时还与总覆盖率相结合。最近，随着多样本宏基因组数据集的产生，研究人员已经意识到跨多个样本的重叠群覆盖提供了更强大的信号，可以将重叠群聚集在一起。基本原则是来自相同基因组的重叠群在每个宏基因组内具有相似的覆盖值，尽管基因组内GC含量变异和细菌复制起点周围的读长深度增加可以挑战这一假设。例如，第一种算法，例如扩展的自身比对，需要人工输入来执行聚类，这是基于可以在二维中可视化的覆盖信息和组成。现在可以使用完全自动化的方法，例如CONCOCT，GroopM和MetaBAT，它们便于大数据集，但是当结合人工细化时可以获得更好的结果，例如使用可视化工具，例如Anvio。

当前已经有很多更新的分箱方法和提纯工具，如：

genomes，MAG）的方法对于揭示细菌的多样性是必不可少的。从富含醋酸盐和过滤的地下水样品中回收来自候选门的近1,000个MAG，没有培养的代表，显示了这种方法的潜力。回收的基因组很小，新陈代谢最少，并且形成了与先前培养的细菌多样性分开的单系分支。这些已被提议作为新的细菌细分，通过宏基因组学揭示候选Radiation门。

通过检查在大多数微生物基因组中发现的单拷贝核心基因来评估MAG的完整性，例如tRNA合成酶或核糖体蛋白。纯MAG将使所有这些基因以单拷贝存在。构建后，MAG为比较基因组学提供了丰富的数据集，包括构建系统发育树，功能谱和样本中MAG丰度的比较（图2，补充代码和）。

图2. 无参和有参宏基因组物种表征

从宏基因组病例对照设计开始，我们说明了识别生物体和编码功能所需的一些步骤，并尝试将这些样本的特征与病例或对照条件联系起来。左边是一个基于组装的流程（这可以完全按照命令和代码作为GitHub库在提供）。右边是使用MetaPhlAn2、HUMAnN2和最近MetaPhlAn2方法的种水平扩展的基于读长的流程。（原始数据可在获得。）

宏基因组的分类学分析确定了宏基因组中存在哪些微生物物种并估计它们的丰度。这可以通过外部序列数据资源（例如公众可获得的参考基因组）在没有组装的情况下进行。这种方法可以避免复杂的拼接问题，加快计算速度，并能够分析无法重新组装的低丰度生物（附框1）。其主要局限在于以前无特征的微生物难以描述（附框1）。然而，可用的参考基因组的数量正在迅速增加，每年产生数千个基因组，包括一些来自新培养方法靶向的难生长物种、单细胞测序方法或宏基因组拼接的不可培养物种。一些样本类型（例如人类肠道）可用的参考基因组的多样性现在足够广泛，可以使无组装的方法开展分类学的有效分析，包括缺乏足够序列覆盖和深度的相对低丰度的微生物，以便组装基因组。由于缺乏代表性的参考基因组，对包括土壤和海洋在内的更多样化环境的分析存在困难。因此，通常建议在分析来自这些环境的宏基因组时使用组装。

具有物种水平分辨率的无装配物种学组成，利用参考基因组和环境特定组装中提供的信息，并已用于迄今为止进行的最大的人类相关宏基因组学研究。读长到基因组的简单比对可能导致具有许多误报的错误匹配，但是当基于最低共同祖先（LCA）策略进行后处理或者与组合插值相结合的马尔可夫模型时，这种方法已被证明是有效的。但是，这些方法的运行时间并没有改善基于组装的方法的运行时间。 Kraken也利用LCA，但通过用k-mer匹配代替序列比对来加速计算。

通过从可用的参考序列中选择代表性或判别性基因（标记）进行分类学分析是另一种快速且准确的非组装方法，其已经通过若干改进，具有可操作性。例如，通过观察来自预组装的环境特异性基因目录的共同丰富的标记，MetaHIT联盟能够表征人类肠道中的已知和新型生物。类似地，mOTU侧重于普遍保守但系统发育信息标记（例如，编码核糖体蛋白的基因），而MetaPhlAn（图2）采用具有高辨别力的数千个进化枝特异性标记，并且有效地定量分析用于人类微生物组计划（HMP）的来自多个身体区域的微生物组具有非常低的假阳性率。这些方法是可扩展的，可用于大型宏基因组学荟萃分析。基于标记的方法也可用于使用数千个宏基因组的菌株水平比较微生物基因组学。重要的是，随着更多参考基因组和高质量宏基因组组件的出现，这些方法的准确性将得到提高。对于具有数百个样本的大型数据集，其上执行或解释宏基因组学是不切实际的，基于标记的方法是目前推荐选择的方法，特别是对于具有大量微生物多样性的环境，可充分表征的测序物种覆盖。

MetaPhlAn2基于多标记基因的宏基因组物种组成定量

宏基因组中的基因和代谢通路

利用片段化但高质量的宏基因组拼接结果，可以使用适合的单基因组表征工具鉴定微生物群落的基因库。这些基因鉴定步骤，通常具有宏基因组特异性参数设置，然后是通常用于表征纯分离基因组组装的基于同源性的注释流程（图2）。实际上，尽管这种方法通常受参考数据库目录中大部分未表征基因的限制，到目前为止一些最大的鸟枪法测序工作已经使用宏基因组拼接结果来汇编人类和小鼠肠道的宏基因组参考基因集。

其他大的宏基因组数据集通过针对功能特征性蛋白质家族的翻译序列搜索来解释。包括手动注释和计算预测的蛋白质家族组合的数据库，例如KEGG或UniProt，可以用于该任务并且能够表征微生物组的功能潜力（图2）。单个蛋白质家族聚类成更高级别的代谢途径和功能模块，提供图形报告或综合代谢存在、缺失和丰度表，如HUMAnN流程。无论采用无组装/有参还是基于组装/无参的方法，分析群落代谢潜力的主要限制因素是大多数微生物物种中缺乏对基因的注释（选定的模式生物除外; ）。这意味着在宏基因组中更加一致地检测和量化高度保守的途径和看家(housekeeping)功能，这可以解释为什么即使分类组成变化很大，功能性状在不同的样品和环境中经常出乎意料地一致。微生物蛋白，编码基因和其他基因组特征（tRNA，非编码RNA和CRISPR）的实验证明和功能描述，以更全面地评估个别基因座的功能是一个瓶颈，目前对分析宏基因组功能能力的提高具有至关重要的影响。

对宏基因组的代谢功能分析的补充方法是对感兴趣的特定功能的深入描述。例如，在微生物群落中鉴定参与抗生素抗性的基因（’抗性组resistome’）可以告知抗生素抗性的传播。临时方法（Ad hoc）和人工策划的抗生素抗性基因数据库对这种方法至关重要; ARDB是第一个广泛采用的抗性数据库，现在由其他资源补充，例如Resfams。相当大的努力也致力于报告宏基因组的毒力库; 针对特定感兴趣的基因家族的宏基因组的靶向分析也可用于验证来自单个基于培养分离实验的发现。

框1. 宏基因组的局限性的机遇

鸟枪法宏基因组研究存在一些局限性和挑战。局限性包括：

在无法获得测序和计算设施的情况下，对大量宏基因组进行测序和分析仍然很昂贵。改进的测序平台和云计算设施的发展将会降低这些入门级成本。

可用的 > 50,000个微生物基因组的集合偏向模式生物，病原体和易培养的细菌。所有宏基因组计算工具在某种程度上依赖于可用的基因组，因此它们受参考序列资源中偏差的影响。

由于大多数基因缺乏有效的注释，因此宏基因组中存在的功能类别的分析受到阻碍，这个问题只能通过昂贵且低通量的基因特异性功能研究来缓解。此外，内在的微生物组特性，例如其平均基因组大小，可以严重影响定量分析。

以前，基于培养的方法或宏基因组学可能尚未对微生物组的若干成员进行过表征。基于装配的方法可以恢复部分“微生物暗物质”。在组装后，一小部分读长仍可能未被使用，并且该部分的大小高度依赖于群落结构和复杂性（表2和3）。它还受到诸如测序噪音，污染物DNA和微生物以及质粒的影响，即使在其基因组的部分组装后仍保持在分类学上模糊不清。

在宿主细胞死亡后，DNA在环境中持续存在，因此测序结果可能不代表活性微生物群体。如果目的是研究活性微生物，可以使用结合游离DNA的化合物如异丙脒（propidium monazide），去除死亡或受损细胞内的DNA，或使用宏转录组技术研究有活跃表达的RNA部分。

定量宏基因组特征报告结果为相对总体的比例，与实际绝对浓度无关。因此，样品中真实浓度的变化可能产生错误的相关性。例如，如果高度丰富的生物体在两个相同的样品中使其浓度加倍，则样品中的所有其他生物在标准化后似乎丰度都存在差异。

人体粘膜组织是微生物与免疫系统之间的关键界面，但由于人类DNA的极高比例和微生物量低，因此用鸟枪法宏基因组学对粘膜微生物组进行测序是非常具有挑战性的。

鸟枪法宏基因组研究也提供了众多机遇，例如：

尽管使用RNA、蛋白质和代谢组学高通量检测可以对DNA测序进行有效补充，但是使用鸟枪法宏转录组学、基于质谱的宏蛋白质组学和代谢组学，目前尚不清楚如何在共同框架内整合和分析宏组学数据。

整合宏组学的方法，可参考此文：

可以通过鸟枪法宏基因组学检测病毒，但通常需要病毒体富集技术来获取更广泛的病毒。由于病毒基因组的可用性有限以及缺乏家族间系统发育信号，病毒组分析在计算上也具有挑战性。关于病毒组靶方富集的方法参考：。关于病毒组的常规分析套路，参考：

单一分离物测序的基因组分辨率仍然高于宏基因组背景下单个生物体的分辨率。将分析分辨率提高到单一菌株水平对于深入的群体基因组学和微生物流行病学至关重要。

许多鸟枪法宏基因组研究是横断面的，因此没有用于评估相互作用与受试者内部变异性和微生物组时间变异。已经开发了用于纵向队列研究的工具，但是需要更多的方法和数据来研究时间维度。

来自宏基因组研究的假设应该跟进实验工作以验证相关性和关联。纵向和前瞻性设置可以潜在地提供对感兴趣病症的致病动态的直接见解。

给定条件的微生物组生物标志物通常具有强烈的研究依赖性。因此，重要的是验证技术和群组中的生物标记物，以提高重现性并最小化批次效应。

强烈鼓励数据和元数据共享; 通常在发布和开源软件之前要求进行原始数据存储。然而，宏基因组学尚未达到其他更成熟的高通量技术的标准化特征水平。

无论用于初级宏基因组序列分析的方法如何，输出将包括样品与微生物特征（即物种、分类群、基因和通路）的数据矩阵。后处理分析使用统计工具来解释这些矩阵，并解释结果与样本元数据的关联程度。许多这些统计方法并不特定于宏基因组学。宏基因组衍生的定量值具体挑战，包括物种和功能组成的比例性质以及丰度的对数正态长尾分布。这些问题在高通量16S rRNA基因扩增子测序数据集中也存在问题，并且几种流行的R包，如最初为扩增子测序开发的DESeq2，vegan和metagenomeSeq，也可用于宏基因组学。

后处理工具包括传统的多变量统计和机器学习。无监督方法包括样本的简单聚类和相关，以及可视化技术，例如热图，排序（例如，主成分分析和主坐标分析）或网络，其允许以图形方式显示数据中的模式。一些无监督的统计工具旨在专门解决由宏基因组概况（组成型问题）（框1）的比例性质引入的问题，并推断群落内的生态关系。监督方法包括统计方法，例如用于组间差异直接假设检验的多变量方差分析（ANOVA），或训练模型标记样本组的机器学习分类器，例如随机森林或支持向量机。一个典型的机器学习例子是基于群落生态失调来诊断疾病（例如，型糖尿病），尽管开发交叉研究预测特征的研究具有挑战性。

无监督和有监督的方法将整个群落视为一个整体。补充策略是询问哪些特定分类群或功能基因在样本类型或患者组之间在统计学上是不同的。鉴于宏基因组学数据集的复杂性，和通常可以进行的大量比较、多重比较或效应大小估计的校正是至关重要的。

稳健的统计检验是确定结果有效性的关键，但简洁的图形表示可以直观地揭示模式。在许多情况下，后处理结果的可视化需要特殊的图形工具和精心选择通用的可视化方法。

宏基因组学仍然面临着适用性、实用性和标准化的障碍（框1）。对于缺少大部分微生物生命之树和许多微生物基因的功能注释、参考基因组序列数据，大大降低了用于分析大量序列计算方法的潜力。来自土壤或水等环境的宏基因组特别受到这一问题的影响，因为它们具有较高的微生物多样性和这些群落中未知分类群的比例。鸟枪法测序也无法区分活体和死体来源生物。然而，前景是光明的，因为大量的湿实验室和计算研究人员正在逐步找到解决这些问题的方法。

宏基因组生物信息学工具正在不断改进，特别是用于将原始读长序列解析成有意义的微生物特征（基因组、物种丰度和功能潜能特征）（图1）。例如，现在可以进行种水平分析，但关于哪种序列分析方法最好（表4）仍存在争议。如果有足够的基因组覆盖率（即超过20倍），则宏基因组组装是优先选择的理论解决方案，但是对于大多数微生物组成员来说这种覆盖水平很难获得（表4），并且不组装的方法具有其他优点，包括进行大规模种水平分析的潜力。这两种方法的成功取决于微生物群落的组成和复杂性、测序深度、数据集的大小和可用的计算资源（表4）。我们建议研究人员尽可能使用这两种方法进行序列分析，因为它们相互补充和验证。

至于群落DNA测序的技术改进，长读长序列平台已经成熟，并且可能对宏基因组拼接策略更有用，尽管目前很少有出版物（译者注：近期有大量相关研究，详见公众号目录或下面几篇三代测序在宏基因组中应用的文章供参考）。

如果实现足够的覆盖率（通常为30-100×），Pacific Biosciences仪器可以提供完整或接近完整的微生物基因组，具有低碱错误率。牛津纳米孔MinION是一种单分子、长读长设备，由于其尺寸和便携性（与智能手机相当）而具有吸引力，并且对该平台的读长的早期分析表明其错误率接近于Pacific Biosciences。将分离的基因组拼接成单个重叠群是可能的，因此MinION的便携性提高了野外宏基因组测序的诱人可能性。

从宏基因组改进基因组重建的另一种实验方法，是将Illumina测序与多标签文库制备方案相结合。这种“合成长读取”技术依赖于将基因组DNA稀释成由数百至数千个单个分子组成的片段化和条形码池，详见《》。对这些库进行测序并从头组装以产生合成的长读长。合成长读取的一个好处是因为它们是由Illumina序列的共识构建的，所以基本错误率极低。然而，该方案相当费力并且需要高DNA输入（1至10μg之间），并且局部重复序列存在问题。报告表明，这种方法对于宏基因组学是有用的，特别是当与标准鸟枪测序结合时，因为它可以从密切相关的菌株以及来自稀有微生物的菌株重建基因组。

鸟枪法宏基因组学的另一个突出优势是从遗传相近生物的混合物中精确重建株水平（strain-level）变异，基于组装、比对或两者结合的解决方案。比对到一个物种独特的基因可以解决样本中的显性单倍型，并且该方法已经应用于数千个不相关的宏基因组，提供了菌株水平的系统发育，使分析数百个基本上无明显差异特征物种的微生物群体基因组学成为可能。单个样品中来自相同物种菌株的混合物不能通过共有方法解析，但如果多个样品中存在相同的菌株，则单核苷酸变异中将存在特征。这些核苷酸变异可以与推断单倍型及其频率相关联。该方法最初仅在比对到参考基因之后应用，并且任选地与同时的菌株系统发育重建一起应用，但是现在它已经在完全无参考的方法中直接应用于具有菌株基因的拼接重叠群中。这种方法的一个限制是在某些环境中，如人类肠道，一种菌株通常比来自同一物种的其他菌株占主导地位。因此，检测低丰度物种的非优势菌株是具有挑战性的，并且用户必须权衡仅显性菌株的稳健性，与可从菌株混合物获得的潜在额外信息。株水平宏基因组学是一个非常活跃的研究领域，它有可能赋予宏基因组学以类似于培养的单一分离物测序的分辨率。尽管长读长技术可以在未来帮助这些工作，但在此之前，解决宏基因组学株水平分析的计算挑战可以说是该领域面临的最大挑战。

表4. 宏基因组无参(组装)和有参(读长比对)分析方法的优点和不足

读长层面的分析(比对)
可以构建多个全基因组，但仅适用于具有足够覆盖的生物体以进行组装和分箱	可以提供群落功能或结构的汇总图，但仅基于有效比对到参考数据库的部分读长
在复杂的群中，只有一小部分基因组可以通过组装来解决	在给定足够的测序深度和令人满意的参考数据库覆盖范围的情况
可以解析没有序列亲源的全新生物基因组	无法解析无近亲生物的基因组
需要计算成本极高的组装、比对和分箱	可以高效执行，实现大型荟萃分析
可以通过完全组装的基因组将代谢与系统发育联系起来，甚至是新的多样性	通常可以仅解决群落的聚合代谢，并且只有在已知参考基因组的背景下才能与系统发育相关联
精确分箱和支架以及错误装配检测所需要手工进行	通常不需要手动，但选择使用的参考基因组可能涉及人工监督
可以将组装到微生物基因组流程中，该流程设计用于分析来自纯培养分离物的基因组	获得的概况不能直接放入源自纯培养分离物基因组的背景中

Venter领导的团队开始将全DNA测序应用于环境样品以来，鸟宏基因组学已成为研究微生物群落的重要工具。由于测序成本的下降和计算方法的发展，使得宏基因组学的广泛应用成为可能。研究人员现在面临的主要限制是培训计算科学家分析复杂的宏基因组数据集以及为设计适当的研究并有足够样本的成本。诸如对宏基因组解释的关键评估（CAMI）等倡议对于计算工具的无偏差评估以提高可重复性和标准化至关重要。

鸟枪法宏基因组学将在各种生物医学和环境应用中发挥越来越重要的作用。我们希望这篇综述能够让我们了解鸟枪宏基因组学的基本概念，包括它的局限性和巨大的潜力。

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读

转载本文请联系原作者获取授权，同时请注明本文来自刘永鑫科学网博客。