一次Hadoop DistCp Java API跨集群数据备份异常问题排查
2年前(2022-12-05) 2165浏览 0评论
背景 模型文件重要性不言而喻,除了权限控制以外定期备份也是一个必要的安全措施。公司在迁移机房前与模型训练相关的集群有两个,分别是位于同一个物理机房下的Hadoop Cluster A和Hadoop Cluster B,其中Cluster A作为算法专...
2年前(2022-12-05) 2165浏览 0评论
背景 模型文件重要性不言而喻,除了权限控制以外定期备份也是一个必要的安全措施。公司在迁移机房前与模型训练相关的集群有两个,分别是位于同一个物理机房下的Hadoop Cluster A和Hadoop Cluster B,其中Cluster A作为算法专...
3年前(2021-09-18) 1574浏览 0评论
背景 短期画像数据有一部分存储在HBase(Hadoop Cluster E)中,每天都需要备份[T-5,T]的数据。但是Azkaban执行机上的Hadoop环境和配置文件是为了在Cluster D上提交任务而配置的,和上述HBase隶属于不同的物理...
3年前(2021-09-08) 1397浏览 0评论
背景 开始前不得不提一下,Cloudera在2021年向普通用户关闭了http://archive.cloudera.com/cdh5(6)/cdh/5(6)的下载权限还是挺可惜的,依赖下载地址继续开放也算是一件好事吧。 公司大数据计算/存储集群迁移...
3年前(2021-07-01) 1395浏览 0评论
转载请注明:雪后西塘 » b
4年前(2021-01-26) 1778浏览 0评论
转载请注明:雪后西塘 » Spark读取大文件避免切块与分区
4年前(2020-11-20) 1122浏览 0评论
背景 Spark官网提供spark-2.4.7-bin-without-hadoop.tgz、spark-2.4.7-bin-hadoop2.(6|7).tgz和spark-2.4.7.tgz (源代码)三种类型的压缩包下载,第二种是基于Hadoop...
4年前(2020-07-10) 1708浏览 0评论
转载请注明:雪后西塘 » Spark追加指定文件名文件到HDFS已有目录
4年前(2020-07-09) 4103浏览 0评论
OSS简介 阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。 O...
5年前(2020-05-20) 6381浏览 0评论
简介 Kafka Tool是一个用于管理和使用Apache Kafka®集群的GUI应用程序。 Kafka Tool提供了一个较为直观的UI可让用户快速查看Kafka集群中的对象以及存储在topic中的消息,提供了一些专门面向开发人员和管理员的功能,...
5年前(2019-06-30) 1994浏览 0评论
主题PDF列表 Apache Flink 1.9 特性解读 打造基于Flink Table API的机器学习生态 基于Flink on Kubernetes的大数据平台 大合影 资源下载 https://pan.baidu.com/s/1JV1eUu...
6年前(2019-04-19) 4232浏览 0评论
Flink程序在Debug的过程中为了方便看到代码执行详细和相关指标,支持ExecutionEnvironment创建带有UI的LocalEnvironment: ExecutionEnvironment environmentWithWebUI =...
6年前(2019-04-10) 1257浏览 0评论
前言 由于Spark应用程序本身运行在JVM上运行,因此–verbose和–verbose:class选项都是可用的。–verbose会在输出设备上显示Java虚拟机运行的相关信息和Spark配置的详细信息,——v...