Spark On Yarn Cluster任务提交流程分析

        Apache Spark是一个开源的分布式计算框架,最初是由加州大学柏克莱分校AMPLab所开发。正如其首页(spark.apache.org)描述的一样:Lightning-fast unified analytics engine(快如闪电的统一分析引擎),目前已经在各大互联网公…

Spark Streaming中的Log4J

日志是应用软件中不可缺少的部分,Apache的开源项目Log4j是一个功能强大的日志组件,提供方便的日志记录。在Apache网站:https://logging.apache.org/log4j/2.x/可以免费下载到Log4j最新版本的软件包和项目详细说明。   [crayon-5d2e…

Spark优雅操作Redis

随着Spark在数据处理领域越来越火,应用范围也不断扩大。相应的Source和Sink支持也越来越多,因为项目中需要从Redis中读取数据并进行操作,所以需要一种优雅的方式来操作Redis。一番搜索以后发现,除了自定义Source以外还可以通过redislabs.com出品的Connector进行操…