最新消息:天气越来越冷,记得加一件厚衣裳

大数据

一次Hadoop DistCp Java API跨集群数据备份异常问题排查

一次Hadoop DistCp Java API跨集群数据备份异常问题排查

2年前(2022-12-05) 1772浏览 0评论

背景 模型文件重要性不言而喻,除了权限控制以外定期备份也是一个必要的安全措施。公司在迁移机房前与模型训练相关的集群有两个,分别是位于同一个物理机房下的Hadoop Cluster A和Hadoop Cluster B,其中Cluster A作为算法专...

跨集群提交CopyTable任务备份HBase表

跨集群提交CopyTable任务备份HBase表

3年前(2021-09-18) 1252浏览 0评论

背景 短期画像数据有一部分存储在HBase(Hadoop Cluster E)中,每天都需要备份[T-5,T]的数据。但是Azkaban执行机上的Hadoop环境和配置文件是为了在Cluster D上提交任务而配置的,和上述HBase隶属于不同的物理...

Maven设置Cloudera官方仓库

Maven设置Cloudera官方仓库

3年前(2021-09-08) 1073浏览 0评论

背景 开始前不得不提一下,Cloudera在2021年向普通用户关闭了http://archive.cloudera.com/cdh5(6)/cdh/5(6)的下载权限还是挺可惜的,依赖下载地址继续开放也算是一件好事吧。 公司大数据计算/存储集群迁移...

b

b

3年前(2021-07-01) 1078浏览 0评论

转载请注明:雪后西塘 » b

用户指定Hadoop版本部署Spark 2.4.7

用户指定Hadoop版本部署Spark 2.4.7

4年前(2020-11-20) 925浏览 0评论

背景 Spark官网提供spark-2.4.7-bin-without-hadoop.tgz、spark-2.4.7-bin-hadoop2.(6|7).tgz和spark-2.4.7.tgz (源代码)三种类型的压缩包下载,第二种是基于Hadoop...

Spark访问Aliyun OSS

Spark访问Aliyun OSS

4年前(2020-07-09) 3773浏览 0评论

OSS简介 阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。 O...

Kafka可视化客户端工具Kafka Tool

Kafka可视化客户端工具Kafka Tool

4年前(2020-05-20) 5852浏览 0评论

简介 Kafka Tool是一个用于管理和使用Apache Kafka®集群的GUI应用程序。 Kafka Tool提供了一个较为直观的UI可让用户快速查看Kafka集群中的对象以及存储在topic中的消息,提供了一些专门面向开发人员和管理员的功能,...

Flink Meetup [190629] 北京站

Flink Meetup [190629] 北京站

5年前(2019-06-30) 1790浏览 0评论

主题PDF列表 Apache Flink 1.9 特性解读 打造基于Flink Table API的机器学习生态 基于Flink on Kubernetes的大数据平台 大合影 资源下载 https://pan.baidu.com/s/1JV1eUu...

Flink IDEA中执行的WebUI

Flink IDEA中执行的WebUI

5年前(2019-04-19) 3942浏览 0评论

Flink程序在Debug的过程中为了方便看到代码执行详细和相关指标,支持ExecutionEnvironment创建带有UI的LocalEnvironment: ExecutionEnvironment environmentWithWebUI =...

Spark Driver与Executor端添加调试信息

Spark Driver与Executor端添加调试信息

5年前(2019-04-10) 976浏览 0评论

前言 由于Spark应用程序本身运行在JVM上运行,因此–verbose和–verbose:class选项都是可用的。–verbose会在输出设备上显示Java虚拟机运行的相关信息和Spark配置的详细信息,——v...