大数据

Flink IDEA中执行的WebUI

7年前（2019-04-19） 5703浏览 0评论

Flink程序在Debug的过程中为了方便看到代码执行详细和相关指标，支持ExecutionEnvironment创建带有UI的LocalEnvironment： ExecutionEnvironment environmentWithWebUI =...

7年前（2019-04-10） 2583浏览 0评论

前言由于Spark应用程序本身运行在JVM上运行，因此–verbose和–verbose:class选项都是可用的。–verbose会在输出设备上显示Java虚拟机运行的相关信息和Spark配置的详细信息，——v...

7年前（2019-03-22） 6461浏览 0评论

前言公司望京机房把CDH从5.12升级到了6.0.1，但是在附属组件升级的过程中其他组件都顺利升级，但是Hive和HBase升级出现了一些问题，本文针对Hive出现的问题进行一个回顾。 Metastore validate Hive在升级后需要对M...

7年前（2019-03-18） 5413浏览 0评论

前言 Apache Spark是一个开源的分布式计算框架，最初是由加州大学柏克莱分校AMPLab所开发。正如其首页（spark.apache.org）描述的一样：Lightning-fast unified analytics eng...

8年前（2019-03-03） 4347浏览 0评论

前言日志是应用软件中不可缺少的部分，Apache的开源项目Log4j是一个功能强大的日志组件,提供方便的日志记录。在Apache网站：https://logging.apache.org/log4j/2.x/可以免费下载到Log4j最新版本的软件包...

8年前（2019-03-02） 6415浏览 0评论

前言在实时数仓方面除了直接将数据写入Druid，Kafka等相关的消息队列以外，Flink还支持将数据写出到HDFS上并以Parquet格式进行存储，本案例简单地介绍了整个过程的实现，为后续实时数仓或者其他业务线提供参考。依赖除了Flink所依...

8年前（2019-02-22） 5128浏览 0评论

资源简介近年来，流处理变得越来越流行。作为高度创新的开源流处理器，Flink拥有诸多优势，包括容错性、高吞吐、低延迟，以及同时支持流处理和批处理的能力。本书分为6章，侧重于介绍Flink的核心设计理念、功能和用途，内容涉及事件时间和处理时间、窗口和...

8年前（2019-02-01） 2885浏览 0评论

资源简介 Druid 作为一款开源的实时大数据分析软件，最近几年快速风靡全球互联网公司，特别是对于海量数据和实时性要求高的场景，包括广告数据分析、用户行为分析、数据统计分析、运维监控分析等，在腾讯、阿里、优酷、小米等公司都有大量成功应用的案例。本书的...

8年前（2018-12-20） 2584浏览 0评论

Apache Flink Forward China 2018年12月20日中国•北京•国家会议中心照片回放 http://t.cn/EUsQs9s 视频回放分会场1：https://yq.aliyun.com/live/703 分会场2：ht...

8年前（2018-12-01） 6527浏览 0评论

Flink中如果使用Apache Kafka需要注意下connector的版本，因为从Kafka0.9/0.10开始部分参数发生了较大变化。以开启自动提交偏移量为例，Apache Kafka 0.8.2之前的参数设置项为auto.commit.ena...

8年前（2018-08-29） 3902浏览 0评论

前言随着Spark在数据处理领域越来越火，应用范围也不断扩大。相应的Source和Sink支持也越来越多，因为项目中需要从Redis中读取数据并进行操作，所以需要一种优雅的方式来操作Redis。一番搜索以后发现，除了自定义Source以外还可以通过...

8年前（2018-07-11） 6658浏览 0评论

问题背景最近在做实时流计算，Coding过程中需要对写入到Redis中的数据进行Dump，经过综合考量决定采用Spark Core进行数据操作，并将结果数据Dump到HDFS上。Spark程序操作HDFS的工具类中，手动获取了FileSystem，...