Apache Kafka经验 - 技术经验

异源数据同步 → DataX 为什么要支持 kafka？

开心一刻昨天发了一条朋友圈：酒吧有什么好去的，上个月在酒吧当服务员兼职，一位大姐看上了我，说一个月给我 10 万，要我陪她去上海，我没同意朋友评论道：你没同意，为什么在上海？我回复到：上个月没同意前情回顾关于 DataX，官网有很详细的介绍，鄙人不才，也写过几篇文章异构数...[2024/8/26]

解锁强强组合: 使用 Kafka + ClickHouse 快速搭建流数据实时处理平台(DoubleCloud 博客)

我们想要解决的问题让我们深入一个现实场景：设想你负责汇总多个销售点系统产生的大量数据。这些数据需要被实时处理并在高级分析仪表板上展示，以提供全面的洞察。在数据处理领域，速度至关重要。ClickHouse 作为速度之王，它从不减速且异常迅速。其在并发处理方面的高效性以及成本效益使其成...[2024/8/19]

Kafka多维度调优

优化金字塔应用程序层面框架层面（Broker层面） JVM层面操作系统层面应用程序层面：应当优化业务代码合理使用kafka，合理规划主题，合理规划分区，合理设计数据结构；框架层面：在不改动源码的情况下，从kafka参数配置入手，结合业务体量和运行数据进行调优 JVM层面：在...[2024/6/12]

Kafka 线上性能调优

Kafka 线上性能调优是一项综合工程，不仅仅是 Kafka 本身，还应该从硬件（存储、网络、CPU）以及操作系统方面来整体考量，首先我们要有一套生产部署方案，基于这套方案再进行调优，这样就有了可靠的底层保证，才能保证 Kafka 集群整体的稳定性。 1. 线上部署方案 1.1 操作系统我们...[2024/4/19]

Kafka原理剖析之「位点提交」

一、背景 Kafka的位点提交一直是Consumer端非常重要的一部分，业务上我们经常遇到的消息丢失、消息重复也与其息息相关。位点提交说简单也简单，说复杂也确实复杂，没有人能用一段简短的话将其说清楚，最近团队生产环境便遇到一个小概率的报错 “Offset commit failed with...[2024/4/8]

“田由甲” - Kafka重复消费线上问题暴雷

　　Kafka作为一款高性能、分布式的消息队列系统，在大数据领域被广泛应用。然而，在使用Kafka时，重复消费问题是一个常见的挑战，可能会对系统的数据一致性和业务逻辑造成影响。我知道Kafka这个名词时还是在2019年刚工作的时候，但那时候公司使用的消息队列体量很小，所以只用了activeMq,...[2024/3/11]

Kafka 社区KIP-382中文译文（MirrorMaker2/集群复制/高可用/灾难恢复）

原文地址：https: cwiki.apache.org/confluence/display/KAFKA/KIP-382%3A+MirrorMaker+2.0#KIP382:MirrorMaker2.0-Walkthrough:RunningMirrorMaker2.0 译者：对于Ka...[2024/1/24]

kafka源码阅读之MacBook Pro M1搭建Kafka2.7版本源码运行环境

原创/朱季谦最近在阅读Kafka的源码，想可以在阅读过程当中，在代码写一些注释，便决定将源码部署到本地运行。日常开发过程中，用得比较多一个版本是Kafka2.7版本，故而在MacBook Pro笔记本上用这个版本的源码进行搭建，进行Kafka源码的阅读学习。在搭建的过程当中，遇到不少...[2024/1/8]

Kafka干货之「零拷贝」

一、背景周所周知，Kafka是一个非常成熟的消息产品，开源社区也已经经历了多年的不断迭代，特性列表更是能装下好几马车，比如：幂等消息、事务支持、多副本高可用、ACL、Auto Rebalance、HW、Leader Epoch、Time Index、Producer Snapshot、Str...[2024/1/3]

扫盲Kafka？看这一篇就够了！

kafka的使用场景为什么要使用 Kafka 消息队列？解耦、削峰：传统的方式上游发送数据下游需要实时接收，如果上游在某些业务场景：例如上午十点会流量激增至顶峰，那么下游资源可能会扛不住压力。但如果使用消息队列，就可以将消息暂存在消息管道中，下游可以按照自己的速度逐步处理；可扩展：通过横...[2023/12/8]

Kafka 如何保证消息消费的全局顺序性

哈喽大家好，我是咸鱼今天我们继续来讲一讲 Kafka 当有消息被生产出来的时候，如果没有指定分区或者指定 key ，那么消费会按照【轮询】的方式均匀地分配到所有可用分区中，但不一定按照分区顺序来分配我们知道，在 Kafka 中消费者可以订阅一个或多个主题，并被分配一个或多个分区 ...[2023/11/29]

Kafka 集群如何实现数据同步？

哈喽大家好，我是咸鱼最近这段时间比较忙，将近一周没更新文章，再不更新我那为数不多的粉丝量就要库库往下掉了 T﹏T 刚好最近在学 Kafka，于是决定写篇跟 Kafka 相关的文章（文中有不对的地方欢迎大家指出）考虑到有些小伙伴可能是第一次接触 Kafka ，所以先简单介绍一下什么是 K...[2023/11/17]

从一次Kafka宕机说起（JVM hang）

一、背景时间大概是在夏天7月份，突然收到小伙伴的情报，我们线上的一个kafka实例的某个broker突然不提供服务了，也没看到什么异常日志，反正就是生产、消费都停了。因为是线上服务，而且进程还在，就是不提供服务了，第一反应就是保留一下 stack 信息，先重启吧因为这个现象是第一次出现，...[2023/10/19]

Kraft模式下Kafka脚本的使用

Kafka集群版本：V3.5.1 名称 Node1 Node2 Node3 IP 172.29.145.157 172.29.145.182 172.29.145.183 （1）查看Kraft集群中的状态以及Leader节点，投票节点使用--status可以查看集群...[2023/10/19]

Kafka为什么这么快？

Kafka 是一个基于发布-订阅模式的消息系统，它可以在多个生产者和消费者之间传递大量的数据。Kafka 的一个显著特点是它的高吞吐率，即每秒可以处理百万级别的消息。那么 Kafka 是如何实现这样高得性能呢？本文将从七个方面来分析 Kafka 的速度优势。零拷贝技术仅可追加日志结构消息...[2023/8/29]

谈谈 Kafka 的幂等性 Producer

使用消息队列，我们肯定希望不丢消息，也就是消息队列组件，需要保证消息的可靠交付。消息交付的可靠性保障，有以下三种承诺：最多一次（at most once）：消息可能会丢失，但绝不会被重复发送。至少一次（at least once）：消息不会丢失，但有可能被重复发送。精确一次（exactl...[2023/8/4]

从Kafka中学习高性能系统如何设计

1 前言相信各位小伙伴之前或多或少接触过消息队列，比较知名的包含Rocket MQ和Kafka，在京东内部使用的是自研的消息中间件JMQ，从JMQ2升级到JMQ4的也是带来了性能上的明显提升，并且JMQ4的底层也是参考Kafka去做的设计。在这里我会给大家展示Kafka它的高性能是如何设计的，...[2023/7/3]

kafka学习之三_信创CPU下单节点kafka性能测试验证

kafka学习之三_信创CPU下单节点kafka性能测试验证背景前面学习了 3controller+5broker 的集群部署模式. 晚上想着能够验证一下国产机器的性能. 但是国产机器上面的设备有限. 所以想着进行单节点的安装与测试. 并且记录一下简单结果希望对以后的工作有指导意义 ...[2023/6/21]

Kafka的系统架构和API开发

系统架构主题topic和分区partition topic Kafka中存储数据的逻辑分类；你可以理解为数据库中“表”的概念；比如，将app端日志、微信小程序端日志、业务库订单表数据分别放入不同的topic partition分区（提升kafka吞吐量） topic中数据的具体管理单元；...[2023/6/9]

面试官问：kafka为什么如此之快？

前言天下武功，唯快不破。同样的，kafka在消息队列领域，也是非常快的，这里的块指的是kafka在单位时间搬运的数据量大小，也就是吞吐量，下图是搬运网上的一个性能测试结果，在同步发送场景下，单机Kafka的吞吐量高达17.3w ，不愧是高吞吐量消息中间件的行业老大。那究竟是什么原因让k...[2023/6/7]

kafka集群是如何选择leader，你知道吗？

前言 kafka集群是由多个broker节点组成，这里面包含了许多的知识点，以下的这些问题你都知道吗? 你知道topic的分区leader是怎么选举的吗？你知道zookeeper中存储了kafka的什么信息吗？起到什么做呢？你知道kafka消息文件是怎么存储的吗？如果kafka中lead...[2023/5/30]

Kafka实时数据即席查询应用与实践

作者：vivo 互联网搜索团队- Deng Jie Kafka中的实时数据是以Topic的概念进行分类存储，而Topic的数据是有一定时效性的，比如保存24小时、36小时、48小时等。而在定位一些实时数据的Case时，如果没有对实时数据进行历史归档，在排查问题时，没有日志追...[2023/5/26]

kafka生产者你不得不知的那些事儿

前言 kafka生产者作为消息发送中很重要的一环，这里面可是大有文章，你知道生产者消息发送的流程吗？知道消息是如何发往哪个分区的吗？如何保证生产者消息的可靠性吗？如何保证消息发送的顺序吗？如果对于这些问题还比较模糊的话，那么很有必要看看这篇文章了，本文主要是基于kafka3.x版本讲解。生产者...[2023/5/25]

8张图带你全面了解kafka的核心机制

前言 kafka是目前企业中很常用的消息队列产品，可以用于削峰、解耦、异步通信。特别是在大数据领域中应用尤为广泛，主要得益于它的高吞吐量、低延迟，在我们公司的解决方案中也有用到。既然kafka在企业中如此重要，那么本文就通过几张图带大家全面认识一下kafka，现在我们不妨带入kafka设计者的角...[2023/5/19]

一文了解清楚kafka消息丢失问题和解决方案

前言今天分享一下kafka的消息丢失问题，kafka的消息丢失是一个很值得关注的问题，根据消息的重要性，消息丢失的严重性也会进行放大，如何从最大程度上保证消息不丢失，要从生产者，消费者，broker几个端来说。消息发送和接收流程 kafka生产者生产好消息后，会将消息发送到broke...[2023/3/22]

kafka的原理及集群部署详解

kafka原理详解消息队列概述消息队列分类点对点组成：消息队列（Queue）、发送者（Sender）、接收者（Receiver）特点：一个生产者生产的消息只能被一个接受者接收，消息一旦被消费，消息就不在消息队列中了发布/订阅组成：消息队列（Queue）、发布者（...[2023/3/20]

Kafka最佳实践

前言 Kafka 最佳实践，涉及典型使用场景 Kafka 使用的最佳实践 Kafka 典型使用场景 Data Streaming Kafka 能够对接到 Spark、Flink、Flume 等多个主流的流数据处理技术。利用 Kafka 高吞吐量的特点，客户可以通过 Kafka 建立传输通...[2023/3/14]

Apache Kafka教程--Kafka新手入门

Apache Kafka教程--Kafka新手入门 Kafka A istant 是一款 Kafka GUI 管理工具——管理Broker,Topic,Group、查看消费详情、监控服务器状态、支持多种消息格式。目录Apache Kafka教程--Kafka新手入门摘要什么是Kafka？...[2023/3/14]

聊一下kafka的消费组

介绍消费组使kafka中很重的概念，只有弄清楚消费组的概念，才能在项目中把它运用好，在kafka中，每个消费者都对应一个消费组，消费者可以是一个线程，一个进程，一个服务实例，如果kafka想要消费消息，那么需要指定消费那个topic的消息以及自己的消费组id(groupId)，也可以直接指...[2023/3/3]

Kafka事务原理剖析

一、事务概览提起事务，我们第一印象可能就是ACID，需要满足原子性、一致性、事务隔离级别等概念，那kafka的事务能做到什么程度呢？我们首先看一下如何使用事务 Producer端代码如下 KafkaProducer<String, String> producer = n...[2022/11/23]

工作总结：kafka踩过的坑

餐饮系统每天中午和晚上用餐高峰期，系统的并发量不容小觑。公司规定各部门都要轮流值班，防止出现线上问题时能够及时处理。后厨显示系统属于订单的下游业务。用户点完菜下单后，订单系统会通过发 Kafka 消息给系统；系统读取消息后，做业务逻辑处理，持久化订单和菜品数据，然后展示到划...[2022/11/17]

Kafka Eagle分布式模式

1.概述最近有同学留言，Kafka Eagle的分布式模式功能怎么使用，如何部署安装？今天笔者就为大家来详细介绍一下Kafka Eagle的分布式模式功能的安装和使用。 2.内容首先，这里我们需要说明一下，Kafka Eagle已经更名为EFAK（Eagle For Apache Kafk...[2021/12/31]

【赵强老师】Kafka的消息持久化

1、Kafka消息持久性概述 Kakfa依赖文件系统来存储和缓存消息。对于硬盘的传统观念是硬盘总是很慢，基于文件系统的架构能否提供优异的性能？实际上硬盘的快慢完全取决于使用方式。同时 Kafka 基于 JVM 内存有以下缺点：对象的内存开销非常高，通常是要存储的数据的两倍甚至更高 ...[2021/5/6]

Kafka核心技术与实战,分布式的高性能消息引擎服务

Kafka是LinkedIn开发并开源的一套分布式的高性能消息引擎服务，是大数据时代数据管道技术的首选。如今的Kafka集消息系统、存储系统和流式处理平台于一身，并作为连接着各种业务前台和数据后台的消息中间件，承担了非常重要的作用。胡夕，老虎证券用户增...[2021/4/12]

一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考

本次遇到的问题描述，日志采集同步时，当单条日志（日志文件中一行日志）超过2M大小，数据无法采集同步到kafka，分析后，共踩到如下几个坑。1、flume采集时，通过shell+EXEC（tail -F xxx.log 的方式） source来获取日志时，当单条日志过大超过1M时，sou...[2019/11/7]

从大数据工程师那里知道的大数据学习方法

首先要认识大数据什么是大数据？可能有人会说写字楼的所有人的资料信息就是个大数据。NO！这里的数据只能说比较大，但却不能称之为大数据。百度百科上给出了很明确的解释“大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理...[2019/10/14]

消息队列的作用以及kafka和activemq的对比

背景分析消息队列这个类型的组件一直是非常重要的组件，当经过两家企业后我就很坚信这个结论了。队列这种东西，最广泛的作用还是在于解耦，宽泛一点的说，它可以将不同部门的工作内容进行有效的整合，基于一个约定好的格式，就可以两头互相不干扰的进行开发。可以说这个生产消费的思想不仅仅适用于程序也适...[2019/10/12]

Micronaut 微服务中使用 Kafka

今天，我们将通过Apache Kafkatopic构建一些彼此异步通信的微服务。我们使用Micronaut框架，它为与Kafka集成提供专门的库。让我们简要介绍一下示例系统的架构。我们有四个微型服务：订单服务，行程服务，司机服务和乘客服务。这些应用程序的实现非常简单。它们都有内存存储，...[2019/9/30]

Kafka常见错误整理（不断更新中）

1、UnknownTopicOrPartitionException org.apache.kafka.common.errors.UnknownTopicOrPartitionException: This server does not host this topic-partiti...[2019/9/17]

Kafka运维命令大全

1、集群管理前台启动broker bin/kafka-server-start.sh <path> erver.properties Ctrl + C 关闭后台启动broker bin/kafka-server-start.sh -daemon <path&...[2019/9/16]

KafkaProducer源码分析

Kafka常用术语 Broker：Kafka的服务端即Kafka实例，Kafka集群由一个或多个Broker组成，主要负责接收和处理客户端的请求 Topic：主题，Kafka承载消息的逻辑容器，每条发布到Kafka的消息都有对应的逻辑容器，工作中多用于区分业务 Partition：分...[2019/9/16]

最简单流处理引擎——Kafka Streams简介

Kafka在0.10.0.0版本以前的定位是分布式，分区化的，带备份机制的日志提交服务。而kafka在这之前也没有提供数据处理的顾服务。大家的流处理计算主要是还是依赖于Storm，Spark Streaming，Flink等流式处理框架。 Storm，Spark Streamin...[2019/9/10]

Kafka入门宝典（详细截图版）

1、了解 Apache Kafka 1.1、简介官网：http: kafka.apache.org/ Apache Kafka 是一个开源消息系统，由Scala 写成。是由Apache 软件基金会开发的一个开源消息系统项目。 Kafka 最初是由LinkedIn 开发，并于2...[2019/9/10]

替代Flume——Kafka Connect简介

我们知道过去对于Kafka的定义是分布式，分区化的，带备份机制的日志提交服务。也就是一个分布式的消息队列，这也是他最常见的用法。但是Kafka不止于此，打开最新的官网。我们看到Kafka最新的定义是：Apache Kafka? is?a distributed stre...[2019/8/30]

大数据之路【第十篇】：kafka消息系统

一、简介 1、简介简介• Kafka是Linkedin于2010年12月份开源的消息系统• 一种分布式的、基于发布/订阅的消息系统 2、特点 – 消息持久化：通过O(1)的磁盘数据结构提供数据的持久化– 高吞吐量：每秒百万级的消息...[2019/8/30]

Kafka到底有几个Offset？——Kafka核心之偏移量机制

? Kafka是由LinkIn开源的实时数据处理框架，目前已经更新到2.3版本。不同于一般的消息中间件，Kafka通过数据持久化和磁盘读写获得了极高的吞吐量，并可以不依赖Storm，SparkStreaming的流处理平台，自己进行实时的流处理。 ? Kakfa的Offset机制是...[2019/8/28]

Kafka的消息会丢失和重复吗？——如何实现Kafka精确传递一次语义

我们都知道Kafka的吞吐量很大，但是Kafka究竟会不会丢失消息呢？又会不会重复消费消息呢？ ? 有很多公司因为业务要求必须保证消息不丢失、不重复的到达，比如无人机实时监控系统，当无人机闯入机场区域，我们必须立刻报警，不允许消息丢失。而无人机离开禁飞区域后我们需要将及时报警解除。...[2019/8/27]

Kafka监控工具汇总

对于大数据集群来说，监控功能是非常必要的，通过日志判断故障低效，我们需要完整的指标来帮我们管理Kafka集群。本文讨论Kafka的监控以及一些常用的第三方监控工具。一、Kafka Monitoring 首先介绍kafka的监控原理，第三方工具也是通过这些来进行监控的，我们也可以自...[2019/8/26]

Kafka 2.3 Producer (0.9以后版本适用)

kafka0.9版本以后用java重新编写了producer，废除了原来scala编写的版本。这里直接使用最新2.3版本，0.9以后的版本都适用。注意引用的包为：org.apache.kafka.clients.producer import java.util.Propert...[2019/8/21]