热线电话:13121318867

登录
2020-07-07 阅读量: 1395
Flume之Taildir Source的特点

Flume Taildir Source的特点如下:

(1)断点续传、多目录

(2)哪个flume版本产生的?Apache1.7、CDH1.6

(3)没有断点续传功能时怎么做的? 自定义

(4)taildir挂了怎么办?

不会丢数:断点续传

重复数据:

(5)怎么处理重复数据?

不处理:生产环境通常不处理,因为会影响传输效率;

处理:

自身:在taildirsource里面增加自定义事务

找兄弟:下一级处理(hive dwd sparkstreaming flink布隆)、去重手段(groupby、开窗取窗口第一条、redis)

(6)taildir source 是否支持递归遍历文件夹读取文件?

不支持。但是可以自定义递归遍历文件夹 +读取文件。


19.5582
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子