flume 监测 hive log, sink 到 hdfs报错“SinkRunner-PollingRunner-DefaultSinkProcessor”

在进行实时监控Hive日志并上传到HDFSΦ上时,出现下面的错误

使用flume监控本地磁盘文件夹中新文件的变化,上传到hdfs,运行conf时候报错,请前辈帮忙看看是什么问题,多谢.

下面是conf的具体配置

flume是一个分布式、可靠、和高可用嘚海量日志采集、聚合和传输的系统支持在日志系统中定制各类数据发送方,用于收集数据;同时Flume提供对数据进行简单处理,并写到各種数据接受方(比如文本、HDFS、Hbase等)的能力

一、什么是Flume?  flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用Flume 初始的发行版本目湔被统称为 Flume OG(original generation),属于 cloudera但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来尤其是在 Flume OG c)生成足够哆的内容在文件里 e)在m1的控制台,可以看到以下信息:

d)在m1的控制台可以看到以下信息: e)在m1上再打开一个窗口,去hadoop上检查文件是否生成

本手册主要介绍了一个将传统數据接入到Hadoop集群的数据接入方案和实施方法。供数据接入和集群运维人员参考



我们定时在每个节点运行一个脚本生成一条smart数据,将数据寫入/home/xdf/exec.txt文件

flume用上面那个命令一直监控文件/home/xdf/exec.txt,如有新数据写入则采集传输到kafka里。

2、指定了一个自定义的第三方插件Flume过滤器CSVInterceptor,将CSV格式的数據转化成结构化序列化的Event格式。

3、Sink为KafkaSink数据会写到kafka里面,特别注意:这里需要指定对应的brokerList示例如下:

在每个数据节点上运行createEvent.py脚本,生荿一条结构化好的smart数据

此脚本会解析smart原始信息,生成一条带topic字段的结构化smart数据写入到/home/xdf/exec.txt文件中数据格式如下:

用符号“@@”将topic跟smart数据分开,smart数据每列间用逗号隔开

测试时查看Kafka数据

查看数据是否成功生成到kafka中,可在kafka节点上通过下面命令查看:


数据落地到hive表中

修改完配置文件后,定时运行camusrun.sh脚本就会将新生成的smart数据接入到topic所对应的hive表中了。

至此数据接入流程完毕。

我要回帖

 

随机推荐