这一篇我们主要来看看分区副本重分配限流是如何实现的,此源码分析基于kafka2.5版本。在开始之前我们先来回顾一下分区重分配的流程,如图一所示。 图一
大家也可以思考一下,如果把限流这个功能交给你,你会如何设计与开发?今天我们想聊的限流,就是在创建新的副本中实现的。在需要创建副本时,kafkaController会向对应的broker发送LeaderAndISRRequest请求,下面我们就从这里开始。
入口在kafka.server.KafkaApis.handleLeaderAndIsrRequest,处理LeaderAndIsrRequest 请求的代码就不放了,处理也比较简单,因为我们现在是做分区重分配,是先增加副本然后再下线删除不要的副本.所以会走里面makeFollowers方法的逻辑,在makeFollowers 中主要就是建立对应的文件夹,然后启对应的ReplicaFetcherThread来跟leader通信拉取数据,下面我们主要来分析一下ReplicaFetcherThread的代码。
private def maybeFetch(): Unit = {
//同步数据,获取锁
val fetchRequestOpt = inLock(partitionMapLock) {
//2.1 构建同步数据request
val ResultWithPartitions(fetchRequestOpt, partitionsWithError) = buildFetch(partitionStates.partitionStateMap.asScala)
handlePartitionsWithErrors(partitionsWithError, "maybeFetch")
if (fetchRequestOpt.isEmpty) {
trace(s"There are no active partitions. Back off for $fetchBackOffMs ms before sending a fetch request")
//如果发现没有需要构建的数据,则等待1秒
partitionMapCond.await(fetchBackOffMs, TimeUnit.MILLISECONDS)
}
fetchRequestOpt
}
//2.2 在限流的情况下fetchRequestOpt是空,所以不会发请求,直接样本重置,或者达到限流标准
fetchRequestOpt.foreach { case ReplicaFetch(sessionPartitions, fetchRequest) =>
processFetchRequest(sessionPartitions, fetchRequest)
}
}
在这里,我们看到了关键代码shouldFollowerThrottle,下面我们进入到这个方法,看是如何实现限流的。
override def buildFetch(partitionMap: Map[TopicPartition, PartitionFetchState]): ResultWithPartitions[Option[ReplicaFetch]] = {
val partitionsWithError = mutable.Set[TopicPartition]()
val builder = fetchSessionHandler.newBuilder(partitionMap.size, false)
partitionMap.foreach { case (topicPartition, fetchState) =>
// 2.1.1判断是否需要限流
if (fetchState.isReadyForFetch && !shouldFollowerThrottle(quota, fetchState, topicPartition)) {
try {
val logStartOffset = this.logStartOffset(topicPartition)
builder.add(topicPartition, new FetchRequest.PartitionData(
fetchState.fetchOffset, logStartOffset, fetchSize, Optional.of(fetchState.currentLeaderEpoch)))
} catch {
case _: KafkaStorageException =>
// The replica has already been marked offline due to log directory failure and the original failure should have already been logged.
// This partition should be removed from ReplicaFetcherThread soon by ReplicaManager.handleLogDirFailure()
partitionsWithError += topicPartition
}
}
}
val fetchData = builder.build()
//判断如果fetchData是空的话直接返回None
val fetchRequestOpt = if (fetchData.sessionPartitions.isEmpty && fetchData.toForget.isEmpty) {
None
} else {
val requestBuilder = FetchRequest.Builder
.forReplica(fetchRequestVersion, replicaId, maxWait, minBytes, fetchData.toSend)
.setMaxBytes(maxBytes)
.toForget(fetchData.toForget)
.metadata(fetchData.metadata)
Some(ReplicaFetch(fetchData.sessionPartitions(), requestBuilder))
}
ResultWithPartitions(fetchRequestOpt, partitionsWithError)
}
这里代码实际很简单,有三个判断,第一个是判断副本是否同步,如果没同步则!fetchState.isReplicaInSync为true。第二个会去判断topicPartition是否在限流的内存配置中,这里的内存配置就是在分区重分配第一步时,将配置数据写入zk后触发的。
第三个就是真正的限流了,判断是否达到阙值。如果达到zk中设置的阙值,就会返回false,fetchData就会为空,在外层代码中会使等待一秒再重新请求。
private def shouldFollowerThrottle(quota: ReplicaQuota, fetchState: PartitionFetchState, topicPartition: TopicPartition): Boolean = {
!fetchState.isReplicaInSync && quota.isThrottled(topicPartition) && quota.isQuotaExceeded
}
val shouldLeaderThrottleResult = shouldLeaderThrottle(quota, tp, replicaId)
val fetchDataInfo = if (shouldLeaderThrottleResult) {
// If the partition is being throttled, simply return an empty set.
FetchDataInfo(readInfo.fetchedData.fetchOffsetMetadata, MemoryRecords.EMPTY)
} else if (!hardMaxBytesLimit && readInfo.fetchedData.firstEntryIncomplete) {
// For FetchRequest version 3, we replace incomplete message sets with an empty one as consumers can make
// progress in such cases and don't need to report a `RecordTooLargeException`
FetchDataInfo(readInfo.fetchedData.fetchOffsetMetadata, MemoryRecords.EMPTY)
} else {
readInfo.fetchedData
}
//此处省略若干代码
def shouldLeaderThrottle(quota: ReplicaQuota, topicPartition: TopicPartition, replicaId: Int): Boolean = {
val isReplicaInSync = nonOfflinePartition(topicPartition).exists(_.inSyncReplicaIds.contains(replicaId))
!isReplicaInSync && quota.isThrottled(topicPartition) && quota.isQuotaExceeded
}
从上面的代码分析我们知道了限流是在哪一步代码中控制的,却不知道是怎么实现的,这里我们单独来讲解一下,具体见图二
这里我只画出了简单的组合关系,限流有关的是从Metrics类开始的,Metrics类相当于全局的限流工厂类,里面有两个ConcurrentMap分别装载KafkaMetric及Sensor,我们先来看看KafkaMetric ,里面主要就是初始化一些参数,然后提供获取当前值的方法,KafkaMetric的作用就是对一种限流类型的封装。
double measurableValue(long timeMs) {
synchronized (this.lock) {
if (this.metricValueProvider instanceof Measurable)
return ((Measurable) metricValueProvider).measure(config, timeMs);
else
return 0;
}
}
在Kafka服务端启动时会初始化一个全局的Metrics及QuotaManagers限流信息管理类,可以看到QuotaFactory.instantiate中分别初始化了leader及follower的限流管理类,QuotaManagers或者是ReplicationQuotaManager对象就会一层一层作为入参传入到其他方法使用,是单例的。
def startup(): Unit = {
try {
//省略若干代码
metrics = new Metrics(metricConfig, reporters, time, true)
/* register broker metrics */
_brokerTopicStats = new BrokerTopicStats
quotaManagers = QuotaFactory.instantiate(config, metrics, time, threadNamePrefix.getOrElse(""))
//省略若干代码
}
catch {
//省略若干代码
}
}
def instantiate(cfg: KafkaConfig, metrics: Metrics, time: Time, threadNamePrefix: String): QuotaManagers = {
val clientQuotaCallback = Option(cfg.getConfiguredInstance(KafkaConfig.ClientQuotaCallbackClassProp,
classOf[ClientQuotaCallback]))
QuotaManagers(
new ClientQuotaManager(clientFetchConfig(cfg), metrics, Fetch, time, threadNamePrefix, clientQuotaCallback),
new ClientQuotaManager(clientProduceConfig(cfg), metrics, Produce, time, threadNamePrefix, clientQuotaCallback),
new ClientRequestQuotaManager(clientRequestConfig(cfg), metrics, time, threadNamePrefix, clientQuotaCallback),
new ReplicationQuotaManager(replicationConfig(cfg), metrics, LeaderReplication, time),
new ReplicationQuotaManager(replicationConfig(cfg), metrics, FollowerReplication, time),
new ReplicationQuotaManager(alterLogDirsReplicationConfig(cfg), metrics, AlterLogDirsReplication, time),
clientQuotaCallback
)
}
对于Sensor,这个类的作用就比较多了,代码如下,由于篇幅的关系这里并没有放完整的代码,这里提供了两个重要的方法,一个是record,会在关键代码处调用此方法记录流量值,另一个是checkQuotas ,判断是否达到阙值.
这里可能会有小伙伴疑惑,为什么在Metrics类中装载了KafkaMetric,而Sensor又有个Map<MetricName, KafkaMetric> metrics对象,可以这样理解,Metrics中装载的是所有的KafkaMetric对象,而在Sensor中是针对一种记录值特有的限制。
public final class Sensor {
private final Metrics registry;
private final String name;
private final Sensor[] parents;
private final List<Stat> stats;
private final Map<MetricName, KafkaMetric> metrics;
public final MetricConfig config;
private final Time time;
private volatile long lastRecordTime;
private final long inactiveSensorExpirationTimeMs;
private final Object metricLock;
public void record(double value, long timeMs) {
record(value, timeMs, true);
}
public void checkQuotas(long timeMs) {
for (KafkaMetric metric : this.metrics.values()) {
MetricConfig config = metric.config();
if (config != null) {
Quota quota = config.quota();
if (quota != null) {
//获取当前计算的流量值
double value = metric.measurableValue(timeMs);
//与配置的流量值比对,如果不满足则抛异常
if (!quota.acceptable(value)) {
throw new QuotaViolationException(metric.metricName(), value,
quota.bound());
}
}
}
}
}</br>
代码在SampledStat的record方法中,代码的逻辑我已注解,主要就是根据传入的时间获取当前样本对象,如果超出了config 中配置的值,则增加样本,否则更新样本数据。
这里要特别说明一下,样本的数量及是否增加样本的时间都是在MetricConfig初始化的时候传入的,样本数量是samples默认为11,可通过配置replication.quota.window .num来修改,样本时间是timeWindow,默认为1秒,可以通过replication.quota.window.size.seconds配置来修改。
public void record(MetricConfig config, double value, long timeMs) {
//记录流量,获取当前的样本
Sample sample = current(timeMs);
//如果过去了1秒,则增加样本
if (sample.isComplete(timeMs, config))
sample = advance(config, timeMs);
//否则,更新当前样本值
update(sample, config, value, timeMs);
sample.eventCount += 1;
}
前面我们知道在checkQuotas中主要就是获取当前的流量值与配置的比对,而计算当前流量值就是在Rate#measure方法中实现的,在measure方法里面主要是会调用SampledStat#measure,在SampledStat#measure方法中会调用purgeObsoleteSamples 方法来重置过期的副本.
然后再调用具体的combine方法,我们这里combine调用的是在WindowedSum中实现的,也就是循环各个样本累加在一起,回到Rate#measure 中,发现逻辑无非就是统计各个样本中的流量相加,然后除以时间来计算平均流量。
//Rate#measure
public double measure(MetricConfig config, long now) {
double value = stat.measure(config, now);
return value / convert(windowSize(config, now));
}
//SampledStat#measure
public double measure(MetricConfig config, long now) {
purgeObsoleteSamples(config, now);
return combine(this.samples, config, now);
}
protected void purgeObsoleteSamples(MetricConfig config, long now) {
long expireAge = config.samples() * config.timeWindowMs();
//如果样本数据过去了11秒,则重置
for (Sample sample : samples) {
if (now - sample.lastWindowMs >= expireAge) {
//即11秒reset一次
System.out.println("reset====" + now + "----" + sample.lastWindowMs + "---" + expireAge);
sample.reset(now);
}
}
}
//WindowedSum#combine
public double combine(List<Sample> samples, MetricConfig config, long now) {
double total = 0.0;
for (Sample sample : samples) {
total += sample.value;
}
return total;
}
相信读到这里很多人都有这个疑问,在followers端是在FetchResponse返回的时候记录的,代码见图三
在leader端,是在读完日志文件之后会记录流量值
可以看到在follower端需要判断是否在限流副本中才记录流量值,而在leader端则没有这个限制,不知道这是不是kafka的bug?针对这个问题我也做了测试,的确是在leader端被同步副本时,不在限流配置中的topic 也会被记录流量值,不太能猜到这样做的意图。在这里我们也可以梳理一下Kafka限流的实现原理:
1、在broker启动的时候初始化限流管理类及全局的限流配置。
2、如果在zk节点中写入了leader及follower的限流配置,则会在同步副本时调用方法isQuotaExceeded来判断是否达到限流值.在这里我还想说明一下为什么在zk中写入leader.replication .throttled.replicas数据时为什么要包含原来所有的副本,因为在同步新副本的时候leader有可能会掉线然后重新选举leader,所以不如一次性全写入。
3、如果没有达到限流值则会在对应的地方分别记录流量,leader与follower的流量值是分开记录的。
4、判断是否达到限流值的方式就是记录最近一定数量的样本并计算平均值。
学到这里可能大家对限流代码逻辑有了一个基本的认识,我们下面就通过几个问题来让大家加深印象。
不完全是,可以设想一下,如果副本数据小于一次fetch的值,leader跟follower之前也完全没有流量记录,那一次同步之后就结束了,样本那也只能记录一下这次的流量,但达到完全没有流量记录是十分苛责的,只存在于demo 版的kafka.
在follower端还可以达到,而在leader端,根据我的测试,平常完全没有数据的一次fetch也会返回18k的流量,一秒大概是36k的数据,所以如果数据大于一次fetch的上限,那在之后fetch的时候都会被leader端限制。
我们在设置限流值的时候一定要考虑副本的日常流量,这点在官方文档上也有提及,如果小于日常流量的话那将无法完成迁移。
[controller-event-thread] INFO kafka.controller.KafkaController - [Controller id=1] reassignment :Map(topic_1-0 -> ReplicaAssignment(replicas=1,2, addingReplicas=2, removingReplicas=), topic_2-0 -> ReplicaAssignment(replicas=1,3, addingReplicas=3, removingReplicas=)) start at 2021-11-13 13:18:20
......
[controller-event-thread] INFO kafka.controller.KafkaController - [Controller id=1] No more partitions need to be reassigned. Deleting zk path /admin/reassign_partitions at 2021-11-13 13:37:31
[controller-event-thread] INFO kafka.controller.KafkaController - [Controller id=1] reassignment :Map(topic_1-0 -> ReplicaAssignment(replicas=1,3, addingReplicas=3, removingReplicas=), topic_2-0 -> ReplicaAssignment(replicas=2,3, addingReplicas=3, removingReplicas=)) start at 2021-11-13 14:22:42
......
[controller-event-thread] INFO kafka.controller.KafkaController - [Controller id=1] No more partitions need to be reassigned. Deleting zk path /admin/reassign_partitions at 2021-11-13 14:43:17
[controller-event-thread] INFO kafka.controller.KafkaController - [Controller id=1] reassignment :Map(topic_1-0 -> ReplicaAssignment(replicas=1,2, addingReplicas=2, removingReplicas=), topic_2-0 -> ReplicaAssignment(replicas=2,3, addingReplicas=3, removingReplicas=)) start at 2021-11-13 15:04:37
......
[controller-event-thread] INFO kafka.controller.KafkaController - [Controller id=1] No more partitions need to be reassigned. Deleting zk path /admin/reassign_partitions at 2021-11-13 15:15:40
我给出的意见是分别取所有leader跟follower的并集并去重计算个数,分别乘以限流值,然后取小值来估算。即sum = Math.min(leader,follower)*throttle。
我觉得kafka限流不仅是给了我们一种限流的实现方式,更是教会我们如何拆分功能,这套就完全是跟kafka主要功能分离的,对外只提供关键方法,然后在关键代码处记录流量值,这也是我们在平常开发与设计中需要学习的。
本文由哈喽比特于3年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/fu7kQFFsDOnbJ6XgQLy-4w
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。