博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark Streaming基础概念
阅读量:5918 次
发布时间:2019-06-19

本文共 655 字,大约阅读时间需要 2 分钟。

  为了更好地理解Spark Streaming 子框架的处理机制,必须得要自己弄清楚这些最基本概念。

 

  1、离散流(Discretized Stream,DStream):这是Spark Streaming对内部持续的实时数据流的抽象描述,即我们处理的一个实时数据流,在Spark Streaming中对应于一个DStream的实例。

  2、(batch data):这是化整为零的第一步,将实时流数据以时间片为单位进行分批,将流处理转换为时间片数据的批处理。随着持续时间的推移,这些处理结果就形成了对应的结果数据流了。

  3、时间片或批处理时间间隔(batch interval):这是人为地对流数据进行定量的标准,以时间片作为拆分流数据的依据。一个时间片的数据对应一个RDD实例。

  4、窗口长度(window length):一个窗口覆盖的流数据的时间长度。必须是批处理时间间隔的倍数。

  5、滑动时间间隔:前一个窗口到后一个窗口所经过的时间长度。必须是批处理是假间隔的倍数。

  6、input DStream:一个input DStream是一个特殊的DStream,将Spark Streaming连接到一个外部数据源来读取数据。

  7、Receiver :长时间(可能 7 X 24小时)运行在Executor。每个Receiver负责一个input DStream(例如一个读取Kafka消息的输入流)。每个Receiver,加上DStream会占用一个core/slot。

转载地址:http://bnfvx.baihongyu.com/

你可能感兴趣的文章
js实现读秒
查看>>
HTML5
查看>>
文本域防止拖拽或者取消边框的做法
查看>>
如何监控wifi,3g,gps的流量
查看>>
I.MX6 bq27441 GPOUT interrupt
查看>>
Android 系统 reboot
查看>>
python2升级到python3 yum不可用解决方案
查看>>
手机端白屏前端优化的方法,5 种以上
查看>>
【转】如何把Json格式字符写进text文件中
查看>>
【BZOJ1703】【usaco2007margold】ranking the cows 奶牛的魅力排名
查看>>
浏览器 页面报错
查看>>
export的变量另开一个终端失效解决方法
查看>>
Linux批量远程命令和上传下载工具
查看>>
1.1.3.托管对象上下文(Core Data 应用程序实践指南)
查看>>
python time模块
查看>>
【mvrp多协议vlan注册协议给予三种注册方式的验证】
查看>>
XCode不同版本下载地址
查看>>
Servlet 如何实例化application或session
查看>>
计算机视觉
查看>>
C语言考点2
查看>>