【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节①...-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节①...

阅读量：7242 次

发布时间：2019-06-29

本文共 481 字，大约阅读时间需要 1 分钟。

一、以RDD为基石的Spark编程模型

在Spark中一切都是基于RDD的：

什么是RDD呢？官方给出的解释是：

也就是说每个RDD都至少有以下三个函数实现:

Spark自带了非常多的RDD:

RDD主要分为两种：

其中的transformations是lazy execution的，需要具体的action去触发，每个action操作都是一个单独的job；

接下来我们看一个具体的RDD操作的例子：

RDD中有两个比较特殊的RDD:

这两个RDD的特殊之处在于皆是控制性操作的RDD：

二，RDD的依赖和运行时

在Spark中RDD是具备依赖关系的，而依赖分为两种：

“Narrow”依赖的一个好处就是可以进行内部的pipeline操作：

运行的时候是以RDD为统一抽象并行化运行：

更进一步的详细RDD并行化计算过程如下所示：

正如所有的分布式结构一样，Spark分布式集群也是主从结构的：

Spark运行时组件如下所示：

Spark运行时候的事件流如下所示：

转载于:https://my.oschina.net/u/1791057/blog/362072

你可能感兴趣的文章

《C语言及程序设计》实践项目——循环嵌套

阿里价值“千万”的秒杀场景参数优化

互联网创业公司黑话指南，很严肃的，不许笑！

设计模式之适配器模式

2017新年快乐特效

PostgreSQL 9.6 内核优化 - sort性能增强(batch化quicksort代替replacement selection when work_mem small)...

Tomcat启动时报错：“ Error starting static Resources”问题解决

3月21日云栖精选夜读：用数据统计说话：2016年收入最高的编程语言与流行web框架（程序猿爱看）...

Infrastructure as Code——Kubernetes一键编排实践

触摸云端编程之道——基于函数计算的serverless应用开发

让BASH,VIM美美的Powerline

Genymotion安装配置指南

最近架设的MUNIN,WEBALIZER,AWSTATS截图存档

Adapter 适配器模式（设计模式03）

前端调错（一）---ajax返回数据成功，却进入error方法

Java千百问_05面向对象（009）_java的多态性都有什么表现

SQL Server分页3种方案比拼[转]

《从零开始学Swift》学习笔记（Day 25）——类和结构体定义

每周一道数据结构（四）A*算法&博弈树α-β剪枝

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-13 11:05:50 当前IP: 3.141.193.54 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我