一次Hadoop DistCp Java API跨集群数据备份异常问题排查

背景 模型文件重要性不言而喻,除了权限控制以外定期备份也是一个必要的安全措施。公司在迁移机房前与模型训练相关的集群有两个,分别是位于同一个物理机房下的Hadoop Cluster A和Hadoop Cluster B,其中Cluster A作为算法专用集群存储Paddle、TF和图模型的模型文件,C…

跨集群提交CopyTable任务备份HBase表

背景 短期画像数据有一部分存储在HBase(Hadoop Cluster E)中,每天都需要备份[T-5,T]的数据。但是Azkaban执行机上的Hadoop环境和配置文件是为了在Cluster D上提交任务而配置的,和上述HBase隶属于不同的物理集群,这时候需要跨集群提交HBase的CopyTa…

Maven设置Cloudera官方仓库

背景 开始前不得不提一下,Cloudera在2021年向普通用户关闭了http://archive.cloudera.com/cdh5(6)/cdh/5(6)的下载权限还是挺可惜的,依赖下载地址继续开放也算是一件好事吧。 公司大数据计算/存储集群迁移到新机房后使用的CDH版本升级到了5.16.2,内…

用户指定Hadoop版本部署Spark 2.4.7

Spark官网提供spark-2.4.7-bin-without-hadoop.tgz、spark-2.4.7-bin-hadoop2.(6|7).tgz和spark-2.4.7.tgz (源代码)三种类型的压缩包下载,第二种是基于Hadoop 2.6/7的预先编译版,需要与本机安装的Hadoop版…

Spark访问Aliyun OSS

阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。 OSS具有与平台无关的RESTful API接口,您可以在任何应…

Kafka可视化客户端工具Kafka Tool

简介 Kafka Tool是一个用于管理和使用Apache Kafka®集群的GUI应用程序。 Kafka Tool提供了一个较为直观的UI可让用户快速查看Kafka集群中的对象以及存储在topic中的消息,提供了一些专门面向开发人员和管理员的功能,主要特性包括: 快速查看所有Kafka集群信息,包…