死磕spark中的job、stage、task spark踩坑记录

死磕spark中的job、stage、task

台风夜的电话面试里被问到了spark运行任务的过程中stage的划分依据。一下子就给整懵了,支支吾吾答非所问。从事大数据的开发也有一年半光景,spark任务的运行原理依旧知之甚少。因此就参阅各种优秀的文章,再配上一个自己工作中的实际项目,特意整理出这篇笔记,以此警示自己的自大与无知。
阅读全文
Spark On Yarn 部署与配置 hadoop与其生态圈

Spark On Yarn 部署与配置

Spark 运行在 YARN 上时,不需要启动 Spark 集群,只需要启动 YARN即可!! YARN的 ResourceManager 相当于 Spark Standalone 模式下的 Master Spark on YARN 有两种运行模式: 1. Cluster -- Driver 运行在 YARN集群下的某台机器上的JVM进程中 2. Client -- Driver 运行在当前提交程序的机器上 Standalone 模式下启动Spark集群(Master 和 Worker),其实启动的是资源管理器。真正作业的计算和资源管理器没有关系。
阅读全文
记一次Spark与SpringBoot的整合 spark踩坑记录

记一次Spark与SpringBoot的整合

起一个常驻集群的Spark+SpringBoot 服务,以API的方式,手动或定时触发我们的Spark任务,避免繁琐冗长的Submit命令,避免一次又一次的资源申请,实时监控任务运行,及时得到运行反馈。使非开发人员,点点拽拽,也可以运行我们的日常业务,操作我们的大数据平台。
阅读全文
用idea开发我们的spark项目 hadoop与其生态圈

用idea开发我们的spark项目

如果你是刚入行的java(或大数据)菜鸟,如果你还不会使用idea这样的“神兵利器”,如果你还对 mvn clean package 这样的命令一知半解。那么,你有必要花点时间,瞧一瞧这篇文章,正所谓,“工欲善其事,必先利其器”,它将指导你一步一步用idea开发出我们的spark程序,用maven编译打包我们的Scala(Scala与Java混合)代码。当然,大神请自动忽略。
阅读全文
Loading...