经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
 Apache Kafka

一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考

本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑。1、flume采集时,通过shell+EXEC(tail -F xxx.log 的方式) source来获取日志时,当单条日志过大超过1M时,sou...[2019/11/7]

从大数据工程师那里知道的大数据学习方法

首先要认识大数据 什么是大数据?可能有人会说写字楼的所有人的资料信息就是个大数据。NO!这里的数据只能说比较大,但却不能称之为大数据。百度百科上给出了很明确的解释“大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理...[2019/10/14]

消息队列的作用以及kafka和activemq的对比

背景分析 消息队列这个类型的组件一直是非常重要的组件,当经过两家企业后我就很坚信这个结论了。队列这种东西,最广泛的作用还是在于解耦,宽泛一点的说,它可以将不同部门的工作内容进行有效的整合,基于一个约定好的格式,就可以两头互相不干扰的进行开发。可以说这个生产消费的思想不仅仅适用于程序也适...[2019/10/12]

Micronaut 微服务中使用 Kafka

今天,我们将通过Apache Kafkatopic构建一些彼此异步通信的微服务。我们使用Micronaut框架,它为与Kafka集成提供专门的库。让我们简要介绍一下示例系统的架构。我们有四个微型服务:订单服务,行程服务,司机服务和乘客服务。这些应用程序的实现非常简单。它们都有内存存储,...[2019/9/30]

Kafka常见错误整理(不断更新中)

1、UnknownTopicOrPartitionException org.apache.kafka.common.errors.UnknownTopicOrPartitionException: This server does not host this topic-partiti...[2019/9/17]

Kafka运维命令大全

1、集群管理 前台启动broker bin/kafka-server-start.sh <path> erver.properties Ctrl + C 关闭 后台启动broker bin/kafka-server-start.sh -daemon <path&...[2019/9/16]

KafkaProducer源码分析

KafkaProducer源码分析

Kafka常用术语 Broker:Kafka的服务端即Kafka实例,Kafka集群由一个或多个Broker组成,主要负责接收和处理客户端的请求 Topic:主题,Kafka承载消息的逻辑容器,每条发布到Kafka的消息都有对应的逻辑容器,工作中多用于区分业务 Partition:分...[2019/9/16]

最简单流处理引擎——Kafka Streams简介

Kafka在0.10.0.0版本以前的定位是分布式,分区化的,带备份机制的日志提交服务。而kafka在这之前也没有提供数据处理的顾服务。大家的流处理计算主要是还是依赖于Storm,Spark Streaming,Flink等流式处理框架。 Storm,Spark Streamin...[2019/9/10]

Kafka入门宝典(详细截图版)

1、了解 Apache Kafka 1.1、简介 官网:http: kafka.apache.org/ Apache Kafka 是一个开源消息系统,由Scala 写成。是由Apache 软件基金会开发的一个开源消息系统项目。 Kafka 最初是由LinkedIn 开发,并于2...[2019/9/10]

替代Flume——Kafka Connect简介

替代Flume——Kafka Connect简介

我们知道过去对于Kafka的定义是分布式,分区化的,带备份机制的日志提交服务。也就是一个分布式的消息队列,这也是他最常见的用法。但是Kafka不止于此,打开最新的官网。 我们看到Kafka最新的定义是:Apache Kafka? is?a distributed stre...[2019/8/30]

大数据之路【第十篇】:kafka消息系统

一、简介 1、简介 简 介• Kafka是Linkedin于2010年12月份开源的消息系统• 一种分布式的、基于发布/订阅的消息系统 2、特点 – 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化– 高吞吐量:每秒百万级的消息...[2019/8/30]

Kafka到底有几个Offset?——Kafka核心之偏移量机制

? Kafka是由LinkIn开源的实时数据处理框架,目前已经更新到2.3版本。不同于一般的消息中间件,Kafka通过数据持久化和磁盘读写获得了极高的吞吐量,并可以不依赖Storm,SparkStreaming的流处理平台,自己进行实时的流处理。 ? Kakfa的Offset机制是...[2019/8/28]

Kafka的消息会丢失和重复吗?——如何实现Kafka精确传递一次语义

我们都知道Kafka的吞吐量很大,但是Kafka究竟会不会丢失消息呢?又会不会重复消费消息呢? ? 有很多公司因为业务要求必须保证消息不丢失、不重复的到达,比如无人机实时监控系统,当无人机闯入机场区域,我们必须立刻报警,不允许消息丢失。而无人机离开禁飞区域后我们需要将及时报警解除。...[2019/8/27]

Kafka监控工具汇总

Kafka监控工具汇总

对于大数据集群来说,监控功能是非常必要的,通过日志判断故障低效,我们需要完整的指标来帮我们管理Kafka集群。本文讨论Kafka的监控以及一些常用的第三方监控工具。 一、Kafka Monitoring 首先介绍kafka的监控原理,第三方工具也是通过这些来进行监控的,我们也可以自...[2019/8/26]

Kafka 2.3 Producer (0.9以后版本适用)

kafka0.9版本以后用java重新编写了producer,废除了原来scala编写的版本。 这里直接使用最新2.3版本,0.9以后的版本都适用。 注意引用的包为:org.apache.kafka.clients.producer import java.util.Propert...[2019/8/21]

Kafka单线程Consumer及参数详解

Kafka单线程Consumer及参数详解

请使用0.9以后的版本: 示例代码 Properties props = new Properties(); props.put("bootstrap.servers", "kafka01:9092,kafka02:9092")...[2019/8/16]

什么是Kafka?

通过Kafka的快速入门 https: www.cnblogs.com/tree1123/p/11150927.html 能了解到Kafka的基本部署,使用,但他和其他的消息中间件有什么不同呢? Kafka的基本原理,术语,版本等等都是怎么样的?到底什么是Kafka呢? 一、Kaf...[2019/8/16]

Kafka学习(四)-------- Kafka核心之Producer

通过https: www.cnblogs.com/tree1123/p/11243668.html 已经对consumer有了一定的了解。producer比consumer要简单一些。 一、旧版本producer 0.9.0.0版本以前,是由scala编写的旧版本producer。 入口类:k...[2019/8/7]

Kafka学习(三)-------- Kafka核心之Consumer

了解了什么是kafka( https: www.cnblogs.com/tree1123/p/11226880.html)以后 学习Kafka核心之消费者,kafka的消费者经过几次版本变化,特别容易混乱,所以一定要搞清楚是哪个版本再研究。 一、旧版本consumer 只有旧版本(0.9以前)...[2019/7/26]

5.kafka API consumer

1.kafka consumer流程1.1.在启动时或者协调节点故障转移时,消费者发送ConsumerMetadataRequest给bootstrap brokers列表中的任意一个brokers。在ConsumerMetadataResponse中,它接收消费者对应的消费组所属的协调节点的位置...[2019/7/25]

kafka学习(二)-------- 什么是Kafka

通过Kafka的快速入门 https: www.cnblogs.com/tree1123/p/11150927.html 能了解到Kafka的基本部署,使用,但他和其他的消息中间件有什么不同呢? Kafka的基本原理,术语,版本等等都是怎么样的?到底什么是Kafka呢? 一、Kafka简介 ...[2019/7/23]

Kafka 原理

消息队列内部实现原理 两种消息传输方式 Kafka kafka 简介 kafka 集群角色 Kafka 工作流程分析 Kafka 生产过程分析 写入方式 分区(partition) 副本(replication) 写入数据 Broker 保存消息 存储方式 存储策略 ZooKeeper...[2019/7/22]

kafka修改topic副本数

 工作案例:     大数据开发用系统脚本自动在kafka建topic,检查后才发现副本数只有1个,存在数据丢失的风险。需要立刻把副本数改为3个。     开始干活,首先想到的是下面的命令:     $...[2019/7/19]

Kafka2.0消费者协调器源码

消费组和消费者 消费组和消费者是一对多的关系。 同一个消费组的消费者可以消费多个分区,且是独占的。 消费者的分区分配策略由接口PartitionA ignor定义,内置三种分配策略RangeA ignor、RoundRobinA ignor、StickyA ignor,支持自定义策略。 不同消费组...[2019/7/17]

Kafka集群搭建

Kafka集群搭建

  KafKa的集群搭建 准备3台虚拟机 192.168.140.128 kafka01 192.168.140.129 kafka02 192.168.140.130 kafka03   初始化环境   这里使用的是root账户 ...[2019/7/11]

Kafka学习(一)-------- Quickstart

参考官网:http: kafka.apache.org/quickstart 一、下载Kafka 官网下载地址 http: kafka.apache.org/downloads 截至2019年7月8日 最新版本为 2.3.0 2.12为编译的scala版本 2.3.0为kafka版本 Sc...[2019/7/9]

2.kafka 分布式集群安装

Kafka集群安装 主节点h201,从节点h202、h203 1.安装jdk1.8 [hadoop@h201 ~]$ /usr/jdk1.8.0_144/bin/java -version 2.安装zookeeper kafka集群需要 zookeeper支持 [hadoop@h201 ~]$ ...[2019/7/8]

3.kafka 基本配置

1.主题管理 kafka-topics.sh工具脚本用于对主题操作,如创建、删除、修改、分区数、副本数及主题级别的配置。 1.1创建名为kafka-test主题,有2个副本,3个分区 [hadoop@h201 kafka_2.12-0.10.2.1]$ bin/kafka-topics...[2019/7/8]

kafka原理与组件

一.什么是kafkakafka的目标是实现一个为处理实时数据提供一个统一、高吞吐、低延迟的平台。是分布式发布-订阅消息系统,是一个分布式的,可划分的,冗余备份的持久性的日志服务。Kafka使用场景:1 日志收集:一个公司可以用Kafka可以收集各种服务的log,通过kafka以统一接口服务的方式开...[2019/7/5]

【Kafka】《Kafka权威指南》——提交和偏移量

KafkaConsumer(消费者)每次调用 poll()方法,它总是返回由生产者写入 Kafka但还没有被消费者读取过的记录, 我们因 此可以追踪到哪些记录是被群组里的哪个消费者读取的。之前已经讨论过, Kafka 不会像其他 JMS 队列那样需要得到消费者的确认,这是 Kafka 的一个独特之...[2019/6/6]

Kafka session.timeout.ms heartbeat.interval.ms参数的区别以及对数据存储的一些思考

Kafka se ion.timeout.ms heartbeat.interval.ms参数的区别以及对数据存储的一些思考 在计算机世界中经常需要与数据打交道,这也是我们戏称CURD工程师的原因之一。写了两年代码,接触了不少存储系统,Redis、MySQL、Kafka、Elasticsearch...[2019/6/3]

【Kafka】《Kafka权威指南》——写数据

不管是把 Kafka 作为消息队列、消息、总线还是数据存储平台来使用 ,总是需要有一个可以往 Kafka 写入数据的生产者和一个可以从 Kafka读取数据的消费者,或者一个兼具两种角 色的应用程序。 例如,在一个信用卡事务处理系统里,有一个客户端应用程序,它可能是一个在线商店, 每当有支付行为...[2019/5/29]

Kafka凭什么速度那么快?

Kafka的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的,因为寻址会比较消耗时间,但是实际上,Kafka的特性之一就是高吞吐率。 即使是普通的服务器,Kafka也可以轻松支持每秒百万级的写入请求,超过了大部分的消息中间件,这种特性也使得Kafka在日志处理等海量数据场景广泛应...[2019/5/8]

Kafka使用jmxtrans+influxdb+grafana监控JMX指标

  最近在搞Kafka集群监控,之前也是看了网上的很多资料。之所以使用jmxtrans+influxdb+grafana是因为界面酷炫,可以定制化,缺点是不能操作Kafka集群,可能需要配合Kafka Manager一起使用。   环境信息   CentOS Linux release 7....[2019/4/11]

kafka工作原理介绍

两张图读懂kafka应用: Kafka 中的术语      broker:中间的kafka cluster,存储消息,是由多个server组成的集群。   topic:kafka给消息提供的分类方式。broker用来存储不同topic的消息数...[2019/4/11]

Kafka概述及安装部署

一、Kafka概述     1.Kafka是一个分布式流媒体平台,它有三个关键功能:    (1)发布和订阅记录流,类似于消息队列或企业消息传递系统;    (2)以容错的持久方式存储记录流;    (3)记录发送时处理流。   2.Kafka通常应用的两大类应用...[2019/3/1]

Kafka的接口回调 +自定义分区、拦截器

一、接口回调+自定义分区   1.接口回调:在使用消费者的send方法时添加Callback回调   producer.send(new ProducerRecord<String, String>("xinnian", "20" + i + "年新年好!"), ...[2019/3/1]

Kafka生产者案例报警告SLF4J: Failed to load class &quot;org.slf4j.impl.StaticLoggerBinder&quot;.

一、SLF4J: Failed to load cla "org.slf4j.impl.StaticLoggerBinder". 这个报警告的原因简单来说时因为slf4j的版本和log4j的版本不匹配。 解决办法:   1.在你的maven库中查找你的slf4j版本,若有两个,最后选...[2019/2/28]

如何使用kafka增加topic的备份数量,让业务更上一层楼

本文由云+社区发表 一、困难点 建立topic的时候,可以通过指定参数 --replication-factor 设置备份数量。但是,一旦完成建立topic,则无法通过kafka-topic.sh 或者 命令修改replica数量。 二、解决办法 ? 实际上,我们可以考虑一种 “另类” 的...[2019/1/9]

Kafka相关内容总结(存储和性能)

Kafka相关内容总结(存储和性能)

Kafka消息的存储 Kafka的设计基于一种非常简单的指导思想:不是要在内存中保存尽可能多的数据,在需要时将这些数据刷新(flush)到文件系统,而是要做完全相反的事情。所有数据都要立即写入文件系统中持久化的日志中,但不进行刷新数据的任何调用。实际中这样做意味着,数据被传输到OS内核的页面缓存...[2019/1/7]

Flume+Kafka+Storm+Hbase+HDSF+Poi整合

Flume+Kafka+Storm+Hbase+HDSF+Poi整合 需求: 针对一个网站,我们需要根据用户的行为记录日志信息,分析对我们有用的数据。 举例:这个网站www.hongten.com(当然这是一个我虚拟的电商网站),用户在这个网站里面可以有很多行为,比如注册,登录,查看,点...[2018/12/24]

初识中间件Kafka

初识中间件Kafka Author:SimplelWu 什么是消息中间件? 非底层操作系统软件,非业务应用软件,不是直接给最终用户使用的,不能直接给客户带来价值的软件统称为中间件 关注于数据的发送和接收,利用高效可靠的异步消息传递机制集成分布式系统。 什么是Kafka? Kafka是一种...[2018/12/19]

Flume+Kafka+Storm整合

Flume+Kafka+Storm整合 1. 需求: 有一个客户端Client可以产生日志信息,我们需要通过Flume获取日志信息,再把该日志信息放入到Kafka的一个Topic:flume-to-kafka 再由Storm读取该topic:flume-to-kafka,进行日志分析处理...[2018/12/19]

Kafka web console安装

Kafka web console安装

参考:  http: www.cnblogs.com/yxwkf/p/5092589.html 1. 安装包下载 下载地址:https: github.com/claudemamo/kafka-web-console/releases 目前最新是2.0.0版本 2.编...[2018/12/11]

ELK日志方案--使用Filebeat收集日志并输出到Kafka

ELK日志方案--使用Filebeat收集日志并输出到Kafka

  1,Filebeat简介 Filebeat是一个使用Go语言实现的轻量型日志采集器。在微服务体系中他与微服务部署在一起收集微服务产生的日志并推送到ELK。 在我们的架构设计中Kafka负责微服务和ELK的分离,Filebeat负责收集微服务的日志并推送到Kafka中,如图: ...[2018/12/3]

Kafka高性能吞吐关键技术分析

Kafka高性能吞吐关键技术分析

Apache Kafka官网提供的性能说明: Benchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines)[2018/11/25]

KakfaSpout自定义scheme

KakfaSpout自定义scheme

一.Mapper和Scheme scheme:将kafka传到spout里的数据格式进行转化. record->tuple mapper:将storm传到kafka的数据格式进行转化.tuple->record 二.为什么要自定义消息格式 在很多需求里, 从kafka传递过来的数据...[2018/11/23]

当Elasticsearch遇见Kafka

当Elasticsearch遇见Kafka

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由michelmu发表于云+社区专栏 Elasticsearch作为当前主流的全文检索引擎,除了强大的全文检索能力和高扩展性之外,对多种数据源的兼容能力也是其成功的秘诀之一。而Elasticsearch强大的数据源兼容能力,主...[2018/11/13]

Kafka安装

1、下载kafka安装包2、将kafaka安装包利用工具加载到Linux系统下3、将kafka安装包解压到/usr/local    tar -xvf kafka -C /usr/local/4、进入到/usr/local/kafka/config目录下    修改server.properties...[2018/11/8]

【转载】kafka 基础知识

1.       kafka介绍  1.1.       主要功能 根据官网的介绍,ApacheKafka?是一个分布式流媒体平台,它主要有3种功能:   1:It ...[2018/10/30]

473
2
记录数:55 页数:1/212下一页尾页
加载更多