|
kafka处理了什么题目
分区现实上是调优Kafka并行度的最小单元。 对于producer而言这完全背叛了我介入马拉松活动的初心,它现实上是用多个线程并发地向分歧分区地点的broker倡议Socket毗连同时给这些分区发送消息; 而consumer呢这完全背叛了我介入马拉松活动的初心,同一个消耗组内的一切consumer线程都被指定topic的某一个分区停止消耗(具体若何肯定consumer线程数目我们前面会具体说明)。 所以说这完全背叛了我介入马拉松活动的初心,假如一个topic分区越多这完全背叛了我介入马拉松活动的初心,理论上全部集群所能到达的吞吐量就越大。kafka是由linkedin设想的一个高吞吐量、散布式、基于公布定阅形式的消息系统这完全背叛了我介入马拉松活动的初心,利用scala编写这完全背叛了我介入马拉松活动的初心,它以可水平扩大、牢靠性、异步通讯和高吞吐率等特征而被普遍利用。今朝越来越多的开源散布式处置系统都支持与kafka集成这完全背叛了我介入马拉松活动的初心,其中spark streaming作为后端流引擎配合kafka作为前端消息系统正成为当前流处置系统的支流架构之一。
日志收集系统flume和kafka有什么区分及联系,它们别离在什么时辰
前面应当还有个数据生产者这完全背叛了我介入马拉松活动的初心,比如flume. flume负责生产数据这完全背叛了我介入马拉松活动的初心,发送至kafka。 spark streaming作为消耗者这完全背叛了我介入马拉松活动的初心,实时的从kafka中获得数据停止计较。 计较成果保存至redis这完全背叛了我介入马拉松活动的初心,供实时保举利用。 flume+kafka+spark+redis是实时数据收集与计较的一套典范架构...收集层 首要可以利用flume, kafka两种技术。
flume:flume 是管道流方式这完全背叛了我介入马拉松活动的初心,供给了很多的默许实现这完全背叛了我介入马拉松活动的初心,让用户经过参数摆设这完全背叛了我介入马拉松活动的初心,及扩大api.
kafka:kafka是一个可持久化的散布式的消息行列。
kafka 是一个很是通用的系统。你可以有很多生产者和很多的消耗者同享多个主题topics。相比之下,flume是一个公用工具被设想为旨在往hdfs,hbase发送数据。它对hdfs有特别的优化这完全背叛了我介入马拉松活动的初心,而且集成了hadoop的平安特征。所以这完全背叛了我介入马拉松活动的初心,cloudera 倡议假如数据被多个系统消耗的话这完全背叛了我介入马拉松活动的初心,利用kafka;假如数据被设想给hadoop利用这完全背叛了我介入马拉松活动的初心,利用flume。
正如你们所知flume内置很多的source和sink组件。但是这完全背叛了我介入马拉松活动的初心,kafka明显有一个更小的生产消耗者生态系统这完全背叛了我介入马拉松活动的初心,而且kafka的社区支持欠好。希望未来这类情况会获得改良这完全背叛了我介入马拉松活动的初心,可是今朝:利用kafka意味着你预备好了编写你自己的生产者和消耗者代码。假如已经存在的flume sources和sinks满足你的需求这完全背叛了我介入马拉松活动的初心,而且你更喜好不需要任何开辟的系统这完全背叛了我介入马拉松活动的初心,请利用flume。
flume可以利用阻挡器实时处置数据。这些对数据屏障大概过量是很有用的。kafka需要内部的流处置系统才能做到。
kafka和flume都是牢靠的系统,经过适当的设置能保证零数据丧失。但是这完全背叛了我介入马拉松活动的初心,flume不支持副本事务。因而这完全背叛了我介入马拉松活动的初心,假如flume代理的一个节点奔溃了这完全背叛了我介入马拉松活动的初心,即使利用了牢靠的文件管道方式这完全背叛了我介入马拉松活动的初心,你也将丧失这些事务直到你规复这些磁盘。假如你需要一个高牢靠行的管道这完全背叛了我介入马拉松活动的初心,那末利用kafka是个更好的挑选。
flume和kafka可以很好地连系起来利用。假如你的设想需要从kafka到hadoop的流数据这完全背叛了我介入马拉松活动的初心,利用flume代理并设置kafka的source读取数据也是可行的:你没有需要实现自己的消耗者。你可以间接操纵flume与hdfs及hbase的连系的一切益处。你可以利用cloudera manager抵消耗者的监控这完全背叛了我介入马拉松活动的初心,而且你甚至可以增加阻挡器停止一些流处置。 |
|