最新消息:天气越来越冷,记得加一件厚衣裳

大数据

Failed to retrieve schema tables from Hive Metastore DB,Not supported

Failed to retrieve schema tables from Hive Metastore DB,Not supported

5年前(2019-03-22) 4737浏览 0评论

前言 公司望京机房把CDH从5.12升级到了6.0.1,但是在附属组件升级的过程中其他组件都顺利升级,但是Hive和HBase升级出现了一些问题,本文针对Hive出现的问题进行一个回顾。 Metastore validate Hive在升级后需要对M...

Spark On Yarn Cluster任务提交流程分析

Spark On Yarn Cluster任务提交流程分析

5年前(2019-03-18) 3412浏览 0评论

前言         Apache Spark是一个开源的分布式计算框架,最初是由加州大学柏克莱分校AMPLab所开发。正如其首页(spark.apache.org)描述的一样:Lightning-fast unified analytics eng...

Spark中log4j配置方法

Spark中log4j配置方法

5年前(2019-03-03) 2519浏览 0评论

前言 日志是应用软件中不可缺少的部分,Apache的开源项目Log4j是一个功能强大的日志组件,提供方便的日志记录。在Apache网站:https://logging.apache.org/log4j/2.x/可以免费下载到Log4j最新版本的软件包...

Flink落盘Parquet文件

Flink落盘Parquet文件

5年前(2019-03-02) 4565浏览 0评论

前言 在实时数仓方面除了直接将数据写入Druid,Kafka等相关的消息队列以外,Flink还支持将数据写出到HDFS上并以Parquet格式进行存储,本案例简单地介绍了整个过程的实现,为后续实时数仓或者其他业务线提供参考。 依赖 除了Flink所依...

[电子书]Flink基础教程|Introduction to Apache Flink

[电子书]Flink基础教程|Introduction to Apache Flink

5年前(2019-02-22) 3503浏览 0评论

资源简介 近年来,流处理变得越来越流行。作为高度创新的开源流处理器,Flink拥有诸多优势,包括容错性、高吞吐、低延迟,以及同时支持流处理和批处理的能力。本书分为6章,侧重于介绍Flink的核心设计理念、功能和用途,内容涉及事件时间和处理时间、窗口和...

[电子书]Druid实时大数据分析原理与实践

[电子书]Druid实时大数据分析原理与实践

5年前(2019-02-01) 1432浏览 0评论

资源简介 Druid 作为一款开源的实时大数据分析软件,最近几年快速风靡全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分析、运维监控分析等,在腾讯、阿里、优酷、小米等公司都有大量成功应用的案例。本书的...

Apache Flink Forward China - 2018

Apache Flink Forward China – 2018

5年前(2018-12-20) 1332浏览 0评论

Apache Flink Forward China 2018年12月20日 中国•北京•国家会议中心 照片回放 http://t.cn/EUsQs9s 视频回放 分会场1:https://yq.aliyun.com/live/703 分会场2:ht...

Flink中KafkaConnector常用设置

Flink中KafkaConnector常用设置

5年前(2018-12-01) 4563浏览 0评论

Flink中如果使用Apache Kafka需要注意下connector的版本,因为从Kafka0.9/0.10开始部分参数发生了较大变化。以开启自动提交偏移量为例,Apache Kafka 0.8.2之前的参数设置项为auto.commit.ena...

Spark优雅操作Redis

Spark优雅操作Redis

6年前(2018-08-29) 2037浏览 0评论

前言 随着Spark在数据处理领域越来越火,应用范围也不断扩大。相应的Source和Sink支持也越来越多,因为项目中需要从Redis中读取数据并进行操作,所以需要一种优雅的方式来操作Redis。一番搜索以后发现,除了自定义Source以外还可以通过...

Listener EventLoggingListener threw an exception java.io.IOException

Listener EventLoggingListener threw an exception java.io.IOException

6年前(2018-07-11) 5048浏览 0评论

问题背景 最近在做实时流计算,Coding过程中需要对写入到Redis中的数据进行Dump,经过综合考量决定采用Spark Core进行数据操作,并将结果数据Dump到HDFS上。Spark程序操作HDFS的工具类中,手动获取了FileSystem,...

Mesos+Marathon+Docker+JStorm运维

Mesos+Marathon+Docker+JStorm运维

6年前(2018-06-15) 771浏览 0评论

背景 公司计算基础设施除了YARN+Spark Streaming之外还配备了Mesos+Marathon+Docker+JStorm/Storm,大部分流式计算任务都是基于JStorm框架。开始总结常用运维操作之前首先普及下Mesos和Marath...