最新消息:天气越来越冷,记得加一件厚衣裳

大数据

CM(Cloudera Manager)部署客户端配置失败问题排查

CM(Cloudera Manager)部署客户端配置失败问题排查

2年前(2023-06-24) 90浏览 0评论

背景 目前接手了Hadoop集群的维护,由于服务器老旧经常出现宕机的问题,无法维修的需要从集群中摘除掉再加入新的机器。新机器加入集群后需要重新下发配置,此前一直没有关注下发配置成功的服务器数量。这次在集群新增机器下发配置的过程中发现有台机器更新配置居...

一次Hadoop DistCp Java API跨集群数据备份异常问题排查

一次Hadoop DistCp Java API跨集群数据备份异常问题排查

3年前(2022-12-05) 3240浏览 0评论

背景 模型文件重要性不言而喻,除了权限控制以外定期备份也是一个必要的安全措施。公司在迁移机房前与模型训练相关的集群有两个,分别是位于同一个物理机房下的Hadoop Cluster A和Hadoop Cluster B,其中Cluster A作为算法专...

跨集群提交CopyTable任务备份HBase表

跨集群提交CopyTable任务备份HBase表

4年前(2021-09-18) 2409浏览 0评论

背景 短期画像数据有一部分存储在HBase(Hadoop Cluster E)中,每天都需要备份[T-5,T]的数据。但是Azkaban执行机上的Hadoop环境和配置文件是为了在Cluster D上提交任务而配置的,和上述HBase隶属于不同的物理...

Maven设置Cloudera官方仓库

Maven设置Cloudera官方仓库

4年前(2021-09-08) 2252浏览 0评论

背景 开始前不得不提一下,Cloudera在2021年向普通用户关闭了http://archive.cloudera.com/cdh5(6)/cdh/5(6)的下载权限还是挺可惜的,依赖下载地址继续开放也算是一件好事吧。 公司大数据计算/存储集群迁移...

b

b

4年前(2021-07-01) 2070浏览 0评论

转载请注明:雪后西塘 » b

用户指定Hadoop版本部署Spark 2.4.7

用户指定Hadoop版本部署Spark 2.4.7

5年前(2020-11-20) 1620浏览 0评论

背景 Spark官网提供spark-2.4.7-bin-without-hadoop.tgz、spark-2.4.7-bin-hadoop2.(6|7).tgz和spark-2.4.7.tgz (源代码)三种类型的压缩包下载,第二种是基于Hadoop...

Spark访问Aliyun OSS

Spark访问Aliyun OSS

5年前(2020-07-09) 4937浏览 0评论

OSS简介 阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。 O...

Kafka可视化客户端工具Kafka Tool

Kafka可视化客户端工具Kafka Tool

5年前(2020-05-20) 7581浏览 0评论

简介 Kafka Tool是一个用于管理和使用Apache Kafka®集群的GUI应用程序。 Kafka Tool提供了一个较为直观的UI可让用户快速查看Kafka集群中的对象以及存储在topic中的消息,提供了一些专门面向开发人员和管理员的功能,...

Flink Meetup [190629] 北京站

Flink Meetup [190629] 北京站

6年前(2019-06-30) 2590浏览 0评论

主题PDF列表 Apache Flink 1.9 特性解读 打造基于Flink Table API的机器学习生态 基于Flink on Kubernetes的大数据平台 大合影 资源下载 https://pan.baidu.com/s/1JV1eUu...

Flink IDEA中执行的WebUI

Flink IDEA中执行的WebUI

6年前(2019-04-19) 4945浏览 0评论

Flink程序在Debug的过程中为了方便看到代码执行详细和相关指标,支持ExecutionEnvironment创建带有UI的LocalEnvironment: ExecutionEnvironment environmentWithWebUI =...