Flink落盘Parquet文件

2019年3月2日 507 次阅读 0 条评论 0 人点赞

前言

在实时数仓方面除了直接将数据写入Druid,Kafka等相关的消息队列以外,Flink还支持将数据写出到HDFS上并以Parquet格式进行存储,本案例简单地介绍了整个过程的实现,为后续实时数仓或者其他业务线提供参考。

依赖

除了Flink所依赖的常规Jar包以外,还需要提供以下依赖:

编码

Flink同时支持Java和Scala,本文中采用Scala进行示例:

效果

可以看到,数据按照分钟级别生成文件夹,然后再生成多个文件。

注意事项

Streaming到Parquet数据的生成是由Checkpoint触发的,因此必须设置Checkpoint为Enable状态,至于数据刷盘时间根据业务线数据量不同自行决定。

过往不恋、当下不杂、未来不迎

文章评论(0)