如何在cdh5.2上cdh 运行状况不良mahout的itemcf on hadoop

用户:**6260493@qq.**
用户:**6260493@qq.**
用户:****
用户:**7289471@qq.**
用户:**95239@qq.co**
用户:**95239@qq.co**
用户:****
用户:****
用户:**0483385@qq.**
用户:****
用户:****
用户:****
用户:****
用户:****
用户:**3585881@qq.**
用户:****
用户:**f0202@hotma**
用户:**f0202@hotma**
用户:**f0202@hotma**
用户:**s007**
分享:9999+
课程顾问贴心解答
为你推荐精品课程,无论就业还是升职加薪,毫无压力。
名企定制紧随大流
量身打造紧贴企业需求的实用性课程。
系统教学把控效果
集学、测、练为一体的学习系统为你科学的安排学习进度,提高效率。
一线大师1对1指导
课程研发团队内一线资深讲师一对一指导,手把手教学,直到学会。
点播答疑完美结合
每周2-3次直播解答,保证学员日常学习问题能得到解决。
量身定制学习计划
告别杂乱的学习方式,我们会根据你的情况定制学习计划。
本课程属于迪伦老师的Hadoop课程的深入高阶升级课程,理论结合实战操作,对hadoop2.0的高阶应用及其他重要子项目做了详细深入地讲解和实战操作,其中涉及了丰富的实例操作以及错误诊断的案例!
1.课程环境
本课程涉及的技术产品及相关版本:
CentOS&6.5
CDH&Hadoop
2.内容简介
本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容:
1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和YARN的HA实现,
HDFS Federation实现等
2、搭建本地Yum部署CDH5的重要组件和优化配置
3、Impala、Oozie和Hue的部署、使用操作及调优
4、Hadoop安全认证及授权管理
5、Hadoop各组件性能调优
《Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)》http://www.ibeifeng.com/goods-435.html
《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(挑战年薪50万)》http://www.ibeifeng.com/goods-428.html
《基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析》http://www.ibeifeng.com/goods-377.html
迪伦老师:某知名500强企业大数据平台架构师,大数据处理专家。长期从事于大数据基础架构建设、企业级数据仓库、大数据分析、挖掘等领域项目的开发及管理。
熟悉多种技术架构的综合运用,包括Hadoop、Greenplum、Oracle、Cognos、Datastage等。对于Hadoop生态系统,特别是Hive、HBase、Mahout等开源框架的业务应用、& &可靠性、基础架构和高级应用等方面有着丰富经验。
迪伦老师在北风网参与的其他课程链接:
《基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\MapReduce\数据挖掘\项目实战) 》 http://www.ibeifeng.com/goods-440.html
《深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)》 http://www.ibeifeng.com/goods-438.html
《MapReduce/Hbase进阶提升(原理剖析、实战演练)》 http://www.ibeifeng.com/goods-438.html
《Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)》http://www.ibeifeng.com/goods-435.html
《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(挑战年薪50万)》http://www.ibeifeng.com/goods-428.html
《基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析》http://www.ibeifeng.com/goods-377.html
一、Hadoop2.0 动态增加节点
01.1 怎样添加节点
01.2 添加新的服务器节点
01.3 新节点操作系统配置
01.4 新节点Hadoop配置
01.5 调整新节点副本数
二、Hadoop2.0 动态删除节点
02.1 怎样删除节点
02.2 删除Hadoop2.0集群节点
02.3 测试监控删除节点后的集群
三、Hadoop2.0 HDFS HA部署
03.1 HDFS HA的实现方式
03.2 HDFS HA的实现步骤
03.3 HA集群环境配置
03.4 HA hdfs-site.xml参数配置
03.5 HA其他参数配置
03.6 JournalNode服务启动及初始化
03.7 HDFS HA服务启动及手工切换
03.8 基于ZK自动切换模式的实现
03.9 HDFS HA中ZooKeeper部署
03.10 配置HDFS HA自动切换模式
03.11 HDFS HA自动故障切换测试
四、Hadoop2.0 HDFS HA+Federation部署
04.1 HDFS Federation的实现方式及规划
04.2 HDFS Federation的配置步骤
04.3 配置HDFS Federation
04.4 HDFS Federation服务启动及测试
04.5 HDFS HA+Federation实现及配置步骤
04.6 HDFS HA+Federation的配置及服务启动
04.7 HDFS HA+Federation集群故障模拟测试
五、Hadoop升级
05.1 Hadoop内部升级的实现
05.2 Hadoop1.0升级到2.0步骤
05.3 HDFS升级配置操作
05.4 执行HDFS升级并测试验证
05.5 MapReduce升级
六、Hadoop2.0 YARN HA部署
06.1 YARN HA的实现
06.2 YARN HA的配置步骤及其相关参数
06.3 Hadoop2.0 YARN HA配置操作
06.4 YARN HA服务启动及测试
06.5 YARN HA测试及错误处理
06.6 解决YARN HA启动错误的问题
06.7 HDFS+YARN HA故障模拟测试
七、Hadoop安全管理深度剖析
07.1-Hadoop安全背景
07.2-Hadoop1.0安全问题及处理机制
07.3 Kerberos基本概念及授权认证过程
07.4 Kerberos在Hadoop中的应用
07.5 Hadoop1.0安全机制的具体实现
07.6 RPC安全之身份认证机制
07.7 RPC安全之服务访问控制机制
07.8 HDFS安全策略
07.9 Mapreduce安全策略
07.10 Hadoop上层服务的安全策略
07.11 Hadoop1.0安全机制的应用场景
07.12 Hadoop2.0安全认证机制的实现
07.13 Yarn中的各类令牌及其作用
07.14 Hadoop2.0授权机制的实现
八、搭建本地yum安装CDH5 Hadoop集群
08.1 为什么选择CDH
08.2 CDH的体系架构
08.3 CDH的集群规划
08.4 CDH操作系统配置步骤
08.5 CDH集群主机名及网络配置
08.6 操作系统yum源配置
08.7 CDH5的yum源配置
08.8 主机间信任关系的建立
08.9 NTP时间同步服务配置
08.10 JDK安装
08.11 安装和配置HDFS步骤
08.12 YUM安装HDFS
08.13 CDH集群环境变量配置
08.14 CDH5 HDFS核心配置
08.15 HDFS其他重要配置及服务启动
08.16 安装和配置YARN的步骤
08.17 YARN的安装
08.18 YARN的核心参数配置
08.19 MapReduce相关参数配置
08.20 服务启动及验证
08.21 CDH5集群测试
08.22 webHDFS的使用
九、基于Kerberos认证的Hadoop安全管理
09.1 Kerberos集群规划及配置步骤
09.2 Kerberos安装配置
09.3 Kerberos数据库创建及服务启动
09.4 Kerberos的使用及测试
09.5 Kerberos principal和keytab概念剖析
09.6 HDFS上配置Kerberos步骤
09.7 HDFS principal创建及生成keytab文件
09.8 HDFS keytab文件部署
09.9 HDFS安全参数配置
09.10 Namenode服务的安全启动
09.11 Datanode服务的安全启动
09.12 HDFS安全使用测试
09.13 YARN配置Kerberos步骤
09.14 YARN principal创建及keytab文件生成部署
09.15 YARN安全参数配置
09.16 YARN服务安全启动及测试
09.17 自动化集群管理
十、Zookeeper&HIVE&HBASE&LDAP实现Kerberos认证
10.01 Zookeeper配置Kerberos步骤
10.02 通过Yum安装Zookeeper
10.03 Zookeeper Server配置Kerberos
10.04 Zookeeper Client配置kerberos
10.05 HBase相关概念深度解析
10.06 HBase配置Kerberos步骤
10.07 通过Yum安装HBase 01
10.08 通过Yum安装HBase 02
10.09 为HBase配置Kerberos
10.10 HBase启动错误诊断及测试
10.11 CDH Hive架构及配置Kerberos认证步骤
10.12 安装HIVE组件及配置PostgreSQL
10.13 Hive的基础配置
10.14 为Hive配置Kerberos认证
10.15 Hive shell及Beeline安全访问测试
10.16 hive与hbase集成原理
10.17 hive-hbase集成安装配置
10.18 hive-hbase映射表创建
10.19 LDAP基本概念
10.20 LDAP模式设计
10.21 LDAP集成Kerberos配置步骤
10.22 LDAP安装和基础配置
10.23 LDAP集成Kerberos及数据库创建
10.24 导入系统用户到LDAP
10.25 OpenLDAP客户端配置和使用
十一、Impala大数据分析引擎
11.01 什么是Impala
11.02 Impala架构和进程
11.03 Impala安装配置步骤
11.04 Impala安装部署
11.05 Impala配置及服务启动
11.06 Impala配置Kerberos认证
11.07 Impala启停故障处理及测试
11.08 Impala的使用
11.09 Impala-shell基本功能的使用
11.10 Impala连接查询
11.11 Impala聚合及子查询
11.12 Impala分区表的使用
11.13 Impala的优化
11.14 Impala收集统计信息及生成查询计划
11.15 HDFS缓存池在Impala中的使用
十二、Oozie&Hue的使用及安全认证管理
12.01 什么是oozie
12.02 Oozie安装和配置步骤
12.03 Oozie安装和基本配置
12.04 Oozie安全配置及服务启动&
12.05 Oozie启动问题处理
12.06 Oozie Mapreduce作业测试
12.07 Oozie常用命令及工作流程定义
12.08 Oozie MR&hive&sqoop动作节点配置
12.09 Oozie pig&ssh&java&sw&shell动作节点配置
12.10 Oozie Coordinator作业
12.11 Coordinator动作和应用定义
12.12 Oozie Bundle应用定义
12.13 什么是Hue
12.14 安装配置Hue-HDFS&YARN
12.15 Hue配置Hive、Kerberos、Imapala和Zookeeper等
12.16 Hue安装启动问题处理
12.17 Hue页面初始化及查询问题解决
12.18 Hue控制台的使用
十三、Hadoop2.0授权及资源调度管理
13.01 Hadoop授权管理基础知识
13.02 服务访问授权
13.03 服务级授权配置实例
13.04 队列访问控制列表
13.05 队列访问控制配置实例
13.06 公平调度器配置步骤
13.07 公平调度器配置实例
13.08公平调度器验证
13.09 容量调度器配置
13.10 容量调度器配置
13.11 容量调度配置测试验证
13.12 基于标签的调度器
十四、Hadoop压缩
14.01 hadoop压缩概念及支持的格式
14.02 hadoop常用几种压缩格式对比
14.03 压缩格式的选择
14.04 Snappy压缩配置
14.05 Snappy&Gzip压缩测试
14.06 Hadoop LZO压缩安装配置步骤
14.07 cdh5 lzo压缩安装
14.08 lzo安装问题处理
14.09 lzo压缩配置及测试
14.10 hive配置使用lzo压缩
14.11 Hive外部表使用lzo压缩文件
14.12 Hive使用lzo压缩实例
14.13 hbase压缩配置
14.14 hbase压缩测试
十五、Hadoop文件存储格式
15.01 大数据存储需求及方式
15.02 Hadoop常用文件格式
15.03 HDFS块内三种存储方式实例
15.04 RCFile的设计和实现
15.05 ORCFile文件结构
15.06 Hive文件存储格式的选择
15.07 Hive不同文件格式数据加载测试
15.08 多种文件格式查询存储效率测试
15.09 RCFile性能测试
十六、Hadoop调优
16.01 调优思路
16.02 应用程序优化
16.03 Linux系统优化
16.04 Hadoop实现机制调优
16.05 机架感知策略实现
16.06 Hadoop参数调优综述及NameNode调优
16.07 Datanode参数调优
16.08 集中化缓存管理
16.09 集中缓存架构和概念
16.10 缓存管理及缓存池命令
16.11 缓存操作实例
16.12 缓存参数配置
16.13 YARN调优概述
16.14 Slave和Container资源分配
16.15 配置资源分配和进程大小属性
16.16 YARN内存监控
16.17 Reducer调度调优
16.18 Mapreduce其他关键参数调优
& 目标一. 掌握Hadoop2.0动态增加和删除节点的维护操作
& 目标二. 掌握通过Hadoop2.0 HDFS&YARN HA+Federation技术来搭建高可用集群的技能
& 目标三. 掌握Hadoop2.0升级操作
& 目标四. 熟悉Hadoop安全管理的知识
& 目标五. 掌握通过搭建本地yum来部署CDH5 Hadoop集群,包括HBase、Hive、Impala、Oozie和Hue等
& 目标六. 掌握Impala、Oozie和Hue的安装、使用及优化等
& 目标七. 掌握基于Kerberos认证的Hadoop安全管理的技能
& 目标八. 掌握Hadoop安全授权管理的技能
& 目标九. 掌握Hadoop性能优化的技巧
& &未完待续&
& 亮点一、Hadoop2.6.0、CDH5.3 等采用的均是目前为止最新的版本,技术的前沿性可以保证让您的技术在二到三年内不会落伍.
& 亮点二、理论与实战相结合,由浅入深。即照顾到基础学员,又照顾到有一定经验的学员。
& 亮点三、课程所有实例都有操作演示,手把手一步步带领学员从入门到精通.
一.课程针对人群
本课程针对掌握一定的Hadoop基础知识的学员,想通过本项目的学习,深入掌握Hadoop高阶运维、管理和调优技巧的学员。
没有Hadoop基础的同学,可先学习如下课程:
《Hadoop大数据零基础高端培训课程》 &http://www.ibeifeng.com/hadoop.html
二.我该怎么学,如何才能学好这门课程,给些建议
& &2.1、时间上的安排建议
& & & 本课程共80讲,如果您时间上充分,建议以每天2-3讲的进度往前学习。&
& &2.2、学习要求
& & & 如果您没有基础,建议还是中规中矩的按照课程进度一点一点仔细观看学习,并一定要把看完的视频中的代码自己手敲一遍,以加深理解和记忆
& & & 如果您有基础,可不必按步就搬进行,可以拿你感兴趣的部分去学习,但一定要注意实践,并学会举一反三&
& &2.3、讲师建议
& & & 1.最好看完视频之后,抛开视频,独立自己去把上课中的示例写一遍,看自己是否理解,如果不正确,可以回过头看再看下视频,如果反复,达到真正理解和
& & & &熟练掌握&的目的。
& & & 2.对于课程实战部分,一定要自己亲自动手做一遍,不要满足听完就OK了
& & & 3. 建议一般听视频,一般拿个纸和笔,做一些记录和笔记,这是一种非常好的学习习惯。
& & & 4. 一定不要过于依赖视频,要学会看文档日志和使用百度,学会思考,学会举一反三
& & & 5. 最后祝您学有所成
课程是属于某个特定的专业技术,掌握该技术后,你可以从事以下职位的相关工作
1.Hadoop运维工程师
2.Hadoop大数据架构师
您暂未登录不能收藏!请登录后在进行课程的收藏!Hadoop 是 Apache 软件基金会所研发的开放源码并行运算编程工具和分布式档案系统,与 MapReduce 和 Go…阅读全文关注话题分享阅读全文3.7K166 条评论分享收藏感谢阅读全文2.9K89 条评论分享收藏感谢阅读全文2K52 条评论分享收藏感谢阅读全文1.3K46 条评论分享收藏感谢阅读全文90323 条评论分享收藏感谢27,202hadoop-2.5.0-cdh5.2.0
mahout-0.9-cdh5.2.0
基本思路是,将mahout下的全部jar包都引入hadoop的classpath就可以,所以改动了$HADOOP_HOME/etc/hadoop/hadoop-env.sh,加入例如以下代码将mahout的全部jar包引入hadoop的classpath:
for b in $MAHOUT_HOME/lib/*. do
& if [ &$HADOOP_CLASSPATH& ]; then
& & export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$b
& & export HADOOP_CLASSPATH=$b
for c in $MAHOUT_HOME/*. do
& if [ &$HADOOP_CLASSPATH& ]; then
& & export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$c
& & export HADOOP_CLASSPATH=$c
加入完代码,准备好基础数据,上传好jar包后,运行命令:
hadoop jar gul-itemcf-hadoop.jar ItemCFHadoop
该jar包没有包括全部的依赖包,仅包括了mapreduce类。
用maven添加全部依赖包的做法会导致终于的jar包十分臃肿,这种做法是十分不优雅的,而且会添加网络和内存的负担。所以放弃。
顺利完毕第一个job的运行,从第二个job開始,先抛出例如以下异常
Error: java.lang.ClassNotFoundException:&org.apache.mahout.math.Vector
然后抛出例如以下异常
Exception in thread &main& java.io.FileNotFoundException: File does not exist: /RecommenderSystem/ & & & & & & & & & & & & & & & JiLinSMEPSP/RecommenderEngine/Service/GuessULike/tmp/6/preparePreferenceMatrix/numUser & & & & & & & & & & & & & & &
看到第一条错误相信大家都明确,这是hadoop没有识别到第三方(mahout)依赖jar包的问题。
首先能确定,向$HADOOP_HOME/etc/hadoop/hadoop-env.sh中加入HADOOP_CLASSPATH的方法是好使的,由于去掉最開始加入的语句后。连mahout的cf相关class都识别不到,可是,为什么仅仅识别了一部分呢?难道是冲突?
随后,我也饶了一些弯路,參照网上众多大神的招数,比方将jar包拷到$HADOOP_HOME/lib,但全部招数都不好使,最后思路还是回到“包冲突”思路上来。
终极解决方式
通过对照$MAHOUT_HOME下的几个jar包得知。mahout-core-0.9-cdh5.2.0-job.jar包括了全部运行job须要用到的class。而且和mahout-math-0.9-cdh5.2.0.jar都反复包括了org.apache.mahout.math.Vector,看来就是冲突导致的不识别该class,所以。终极解决方式非常easy,在$HADOOP_HOME/etc/hadoop/hadoop-env.sh中引入一个jar包就可以:
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$MAHOUT_HOME/mahout-core-0.9-cdh5.2.0-job.jar
然后,程序成功运行,世界一片光明!
阅读(...) 评论()他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)

我要回帖

更多关于 spark任务在cdh中运行 的文章

 

随机推荐