Spark On Yarn 部署与配置 hadoop与其生态圈

Spark On Yarn 部署与配置

Spark 运行在 YARN 上时,不需要启动 Spark 集群,只需要启动 YARN即可!! YARN的 ResourceManager 相当于 Spark Standalone 模式下的 Master Spark on YARN 有两种运行模式: 1. Cluster -- Driver 运行在 YARN集群下的某台机器上的JVM进程中 2. Client -- Driver 运行在当前提交程序的机器上 Standalone 模式下启动Spark集群(Master 和 Worker),其实启动的是资源管理器。真正作业的计算和资源管理器没有关系。
阅读全文
Hbase高可用集群搭建 hadoop与其生态圈

Hbase高可用集群搭建

HBase是一个分布式的、面向列的开源数据库,就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。它是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
阅读全文
用idea开发我们的spark项目 hadoop与其生态圈

用idea开发我们的spark项目

如果你是刚入行的java(或大数据)菜鸟,如果你还不会使用idea这样的“神兵利器”,如果你还对 mvn clean package 这样的命令一知半解。那么,你有必要花点时间,瞧一瞧这篇文章,正所谓,“工欲善其事,必先利其器”,它将指导你一步一步用idea开发出我们的spark程序,用maven编译打包我们的Scala(Scala与Java混合)代码。当然,大神请自动忽略。
阅读全文
Kafka集群部署与配置 hadoop与其生态圈

Kafka集群部署与配置

kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息,消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。
阅读全文
Hive的安装与配置 hadoop与其生态圈

Hive的安装与配置

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
阅读全文
Loading...