经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
 Hadoop
java大数据最全课程学习笔记(2)--Hadoop完全分布式运行模式

java大数据最全课程学习笔记(2)--Hadoop完全分布式运行模式

目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages 目录Hadoop完全分布式运行模式步骤分析:编写集群分发脚本xsync集群配置集群部署规划配置集群集群单点启动SSH无密登陆配置登录状态的环境变量群起集群集群启动/停止方式总结集群时间同步其他注意事项...[2020/7/17]

Hadoop/HBase Kerberos认证失败:Clock skew too great

Hadoop/HBase Kerberos认证失败:Clock skew too great

组件启动失败,查看日志是在创建集群连接前的Kerberos认证没通过: 异常信息提示时钟偏差较大。于是检查组件运行所在节点与集群节点的时间,确实存在不小偏差,同步时间后问题解决。同步时间最好使用ntpd服务,如果临时使用可以使用ntpdate命令。 原文链接:http: www...[2020/7/9]

HBase2.0 meta信息丢失的修复方法

在HBase入库日志中发现有一个表入库失败,检查HBase服务端后发现该表的meta信息丢失了: 而HDFS上的region还在: 而HBCK工具不支持HBase2.0版本,只好自己写一个修复工具。网上可以搜到前辈们自己编写的一些工具,比如这一篇写的就比较详细 ht...[2020/7/8]

HBase写入异常RejectedExecutionException

HBase在大数据量并发写入时,写一段时间后HBase监控界面出现告警,写入程序日志里频繁出现异常java.util.concurrent.RejectedExecutionException: 从异常堆栈信息可以看出是flush请求时被拒绝引起的,核对一下flush的代码。 我...[2020/7/8]

ol7.7安装部署4节点hadoop 3.2.1分布式集群学习环境

准备4台虚拟机,安装好ol7.7,分配固定ip192.168.168.11 12 13 14,其中192.168.168.11作为master,其他3个作为slave,主节点也同时作为namenode的同时也是datanode,192.168.168.14作为datanode的同时也作为...[2020/7/6]

HDFS 常用操作命令

HDFS 文件操作命令 注,其实常用命令不用网上搜,和linux下的命令很类似,触类旁通,直接在linux 上 hadoop fs 看一下就行了,不需要刻意去记 我把 linux 上的 help 列举下,方便直接看吧,hdfs dfs 与 hadoop fs 效果一样 常用的就是 ...[2020/7/6]

Hadoop2.7.7 centos7 完全分布式 配置与问题随记 - G-Aurora

Hadoop2.7.7 centos7 完全分布式 配置与问题随记 这里是当初在三个ECS节点上搭建hadoop+zookeeper+hbase+solr的主要步骤,文章内容未经过润色,请参考的同学搭配其他博客一同使用,并记得根据实际情况调整相关参数。 ? 0.prepare jdk...[2020/7/6]

hbase2.1.9 centos7 完全分布式 搭建随记 - G-Aurora

hbase2.1.9 centos7 完全分布式 搭建随记 - G-Aurora

hbase2.1.9 centos7 完全分布式 搭建随记 这里是当初在三个ECS节点上搭建hadoop+zookeeper+hbase+solr的主要步骤,文章内容未经过润色,请参考的同学搭配其他博客一同使用,并记得根据实际情况调整相关参数 ? 1. 指定位置解压 ? 2. vi ...[2020/7/6]

HIVE架构

UI:      用于提交查询的客户端,hive自带有CLI(command line)。 DRIVER:            ...[2020/6/25]

Hadoop介绍

Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台,允许使用简单的编程模型在大量的计算机集群上对大型数据集进行分布式处理。 下面是Hadoop的版本: HDFS(分布式文件系统):解决海量数据存储 YARN(作业调度和集...[2020/6/24]

Hive sql常用函数

1.获取当前日期 如2020-13-22 current_date() 或者current_date 获取当前时间:from_unixtime(unix_timestamp()) -->返回格式:yyyy-MM-dd HH:mm:       :current_timestamp...[2020/6/15]

大数据技术栈,主要有哪些

往大数据方向发展需要学哪些技术?网上一搜真是指不胜屈。对于小白来说,实在是一头雾水,到底哪些是当下流行的?哪些是必须要先学会的?流行?主次搞不清。为了解决这些疑惑,羚羊专门花了些时间,  挨个技术去研究对比归类,大概总结出以下的技术点: 文件存储: Hadoop HDFS、G...[2020/6/15]

Hive-内部表&外部表&分区表

先看下如何创建数据表 create [external] table if not exists 表名 (列名数据类型 [comment 本列注释],...) [comment 表注释] [partitioned by (列名数据类型 [comment 本列注释],...)] [...[2020/6/12]

滴滴HBase大版本滚动升级之旅

滴滴HBase大版本滚动升级之旅

桔妹导读:滴滴HBase团队日前完成了0.98版本 -> 1.4.8版本滚动升级,用户无感知。新版本为我们带来了丰富的新特性,在性能、稳定性与易用性方便也均有很大提升。我们将整个升级过程中面临的挑战、进行的思考以及解决的问题总结成文,希望对大家有所帮助。 1. 背景 目前...[2020/6/12]

大数据分析之纳税人画像-实现和优化思路

1.背景环境 本文章来自最近做的项目模块的思考和总结,主要讲思路不涉及过多的基础和实现细节。 需求:统计出来纳税人名称、行业、近一年业务量(办税服务厅、电子税务局、自助渠道),近一年业务量top5(办税服务厅、电子税务局、自助渠道)、近一年纳税金额、近一年申报数、近一年用票数。支...[2020/6/8]

Hadoop的shell操作

打开虚拟机进入linux系统 进入Hadoop目录下 多用tab键 它可以自动补齐命令 1. 启动Hadoop集群 start-all.sh 等价于 start-dfs.sh 和 start-yarn.sh 2. 关闭Hadoop集群 stop-all....[2020/6/4]

伪分布式环境下启动Hadoop下的Hive

在本地搭建好伪分布式环境,打开虚拟机进入linux系统,如果是在root用户下则需要切换至Hadoop用户 su - hadoop 按需输入hadoop密码 在hadoop家目录下启动Hadoop集群 start-all.sh 查看进程,检查是否正常启动 j...[2020/6/4]

初识Hive

初识Hive

结合其他同学和自己的笔记总结如下   什么是hive? 基于Hadoop的开源的数据仓库工具,用于处理海量结构化数据。 Hive把HDFS中结构化的数据映射成表。 Hive通过把HiveSQL进行解析和转换,最终生成一系列在hadoop上运行的mapreduce任务...[2020/6/4]

一文读懂Hadoop-正确认识和理解

一.什么是hadoop? 1.Hadoop是Apache旗下的一套开源软件平台,是用来分析和处理大数据的软件平台。 2.Hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑, 对海量数据进行分布式处理。3.Hadoop的核心组件:由底层往上分别是 HDFS、Yarn、Map...[2020/6/4]

用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

? 本章我们开始正式搭建大数据环境,目标是构建一个稳定的可以运维监控的大数据环境。我们将采用Ambari搭建底层的Hadoop环境,使用原生的方式搭建Flink,Druid,Superset等实时计算环境。使用大数据构建工具与原生安装相结合的方式,共同完成大数据环境的安装。 Am...[2020/6/1]

用户画像标签体系——从零开始搭建实时用户画像(三)

用户画像标签体系 ? 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的用户画像。 ? 梳理标签体系是实现用户画像过程中最基础、也是最核心的工作,...[2020/5/29]

【赵强老师】在Hive中使用Load语句加载数据

一、Hive中load语句的语法说明 Hive Load语句不会在加载数据的时候做任何转换工作,而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法格式如下: LOAD DATA [LOCAL] INPATH ''filepath'' [OVERWRITE] INTO TA...[2020/5/25]

HBase原理 | HBase Region 运行状态学习

HBase为每个Region维护一个状态,并将该状态保留在hbase:meta中。hbase:meta 本身的Region状态保留在ZooKeeper中。可以在Master Web UI中查看Region的过渡状态。以下是可能的Region状态列表。 1. 状态机中包括下面几种状态:...[2020/5/25]

kudu安装与运行

首先我的服务器是Centos7.6。低于7版本的小伙伴不可照搬。 我选择的是使用rpm的方式进行安装,比较方便。 kudu安装包下载地址 ctrl+f 查找kudu,这6个rpm包都要下载下来,推荐使用迅雷下载 在下载的时候我们还需要做一些准备工作。执行以下命令,安装必备的...[2020/5/21]

Hadoop学习1

一.Hadoop社区版和发行版 社区版:我们把Apache社区一直开发的Hadoop称为社区版。简单的说就是Apache Hadoophttp: hadoop.apache.org/ 发行版:基于Apache Hadoop的基础上进行商业改造的解决方案,包含一系列定制的管理工具和软件。...[2020/5/21]

HBase Filter 过滤器之 ValueFilter 详解

前言:本文详细介绍了 HBase ValueFilter 过滤器 Java&Shell API 的使用,并贴出了相关示例代码以供参考。ValueFilter 基于列值进行过滤,在工作中涉及到需要通过HBase 列值进行数据过滤时可以考虑使用它。比较器细节及原理请参照之前的更文:H...[2020/5/20]

HBase Filter 过滤器之 DependentColumnFilter 详解

HBase Filter 过滤器之 DependentColumnFilter 详解

前言:本文详细介绍了 HBase DependentColumnFilter 过滤器 Java&Shell API 的使用,并贴出了相关示例代码以供参考。DependentColumnFilter 也称参考列过滤器,是一种允许用户指定一个参考列或引用列来过滤其他列的过滤器,过滤的...[2020/5/20]

大数据学习路线

前言 数据科学部为想从事大数据方向学习的小伙伴总结了一下大数据的学习路线,供大家学习参考。由于大数据是一个基础门槛较高就业前景较好的学习方向。所以打算学习大数据的小伙伴要加油啦! 大数据学习路线: 首先我要了解大数据处理流程: 第一步:数据收集 第二部:数据存储 ...[2020/5/19]

关于tez-ui的"All DAGs"和"Hive Queries"页面信息为空的问题解决过程

近段时间发现公司的HDP大数据平台的tez-ui页面不能用了,页面显示为空,导致通过hive提交的sql不能方便地查找到Yarn上对应的applicationId,只能通过beeline的屏幕输出信息、hiveserver2的日志、yarn的日志等一步步去查找,非常麻烦(查找方法见上一篇...[2020/5/18]

HBase Filter 过滤器之QualifierFilter详解

前言:本文详细介绍了 HBase QualifierFilter 过滤器 Java&Shell API 的使用,并贴出了相关示例代码以供参考。QualifierFilter 基于列名进行过滤,在工作中涉及到需要通过HBase 列名进行数据过滤时可以考虑使用它。比较器细节及原理请参...[2020/5/13]

HBase Filter 过滤器之FamilyFilter详解

前言:本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用,并贴出了相关示例代码以供参考。FamilyFilter 基于列族进行过滤,在工作中涉及到需要通过HBase 列族进行数据过滤时可以考虑使用它。比较器细节及原理请参照之前的更文...[2020/5/11]

去 HBase,Kylin on Parquet 性能表现如何?

Kylin on HBase 方案经过长时间的发展已经比较成熟,但也存在着局限性,因此,Kyligence 推出了 Kylin on Parquet 方案(了解详情戳此处)。通过标准数据集测试,与仍采用 Kylin on HBase 方案的 Kylin 3.0 相比,...[2020/5/7]

HBase Filter 过滤器之RowFilter详解

HBase Filter 过滤器之RowFilter详解

前言:本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用,并贴出了相关示例代码以供参考。RowFilter 基于行键进行过滤,在工作中涉及到需要通过HBase Rowkey进行数据过滤时可以考虑使用它。比较器细节及原理请参照之前的更文:HBase...[2020/5/6]

如何找到Hive提交的SQL相对应的Yarn程序的applicationId

如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换,大致方式是将ETL转换逻辑写在一个hsql文件中,脚本当中都是简单的SQL语句,不包含判断、循环等存储过程中才有的写法,仅仅支持一些简单的变量替换,比如当前账期等。然后通过一个通用的shell脚本来执行hsql文件。该脚本是主要是调用了hi...[2020/5/6]

如何在 HBase Shell 命令行正常查看十六进制编码的中文?哈哈~

今天比较开心,只想哈哈哈哈哈 啥也不多说了,直接看示例吧!绝对比我口才好~ hbase(main):050:0> scan ''test'' ROW COLUMN+CELL row-1 ...[2020/4/28]

HBase Filter 过滤器之 Comparator 原理及源码学习

前言:上篇文章HBase Filter 过滤器概述对HBase过滤器的组成及其家谱进行简单介绍,本篇文章主要对HBase过滤器之比较器作一个补充介绍,也算是HBase Filter学习的必备低阶魂技吧。本篇文中源码基于HBase 1.1.2.2.6.5.0-292 HDP版本。 H...[2020/4/27]

hadoop 伪分布配置

配置 Hadoop 伪分布式 任务配置说明: VMware 15 Centos 6.5 java -jdk 1.8 hadoop-2.6.0-cdh5.14.0.tar.gz 第一步 自行安装虚拟机 第二步 开始大配置 修改主机名和用户名 &...[2020/4/27]

安装 Hadoop 2.9.1 on Windows 10 64 bit (最全步骤整理)

  1. Java 下载Java 1.8 64位版本https: java.com/en/download/. 如果不是64位java,在启动资源节点管理器时会出现错误 Java 安装自选目录, 必须是中间不带空格的目录结构:比如 C:\java64  ...[2020/4/24]

HBase Filter 过滤器概述

abc 过滤器介绍 HBase过滤器是一套为完成一些较高级的需求所提供的API接口。 过滤器也被称为下推判断器(push-down predicates),支持把数据过滤标准从客户端下推到服务器,带有 Filter 条件的 RPC 查询请求会把 Filter 分发到各个 Region...[2020/4/24]

HBase BucketAllocatorException 异常剖析

近日,观察到HBase集群出现如下WARN日志: 2020-04-18 16:17:03,081 WARN [regionserver/xxx-BucketCacheWriter-1] bucket.BucketCache:Failed allocation for 604acc8...[2020/4/23]

hadoop全分布安装和搭建

            全分布模式安装 1、准备工作 (*)关闭防火墙 systemctl stop firewalld.service systemctl disable firewalld.service (*)安装JDK (*)配置主机名 v...[2020/4/18]

hive之大数据仓库

                                                                              hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转换、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规...[2020/4/18]

Hadoop伪分布安装搭建

  Hadoop伪分布安装搭建 搭建Hadoop的环境======================================一、准备工作 1、安装Linux、JDK、关闭防火墙、配置主机名 解压:tar -zxvf hadoop-2.7.3.tar.gz -C ~/traning/...[2020/4/18]

全方位认识HBase:一个值得拥有的NoSQL数据库(一)

前言:说起HBase这门技术,在认知上对于稍微接触或使用过它的人来讲,可能只是百千数据库中一个很普通的库,大概就像我对Redis的认知一样:缓存嘛!可对于HBase,我确实是带着某些感情在的。今日突然萌生了一个生趣的想法,想抛开技术的视角,从情感的角度,像写小说一样,写写这位老朋友,这...[2020/4/18]

大数据预处理综述

大数据预处理综述

数据预处理背景 大数据项目开发流程 数据质量 准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。 数据不准确的原因 数据收集设备故障。 数据输入错误。 数据传输过程出错。 命名约定、数据输入、输入字段格式不一致。 相关性:指数据与特定的应用和领域有...[2020/4/17]

HBase Shell 十大花式玩儿法

HBase Shell 十大花式玩儿法

前言:工欲善其事必先利其器,今天给大家介绍一下HBase Shell十大花式利器,在日常运维工作中,可以试着用起来。 1. 交互模式 也就是我们最常用到的Shell命令行的方式。 $ hbase shell hbase(main):001:0> list 2. 非交互模...[2020/4/17]

HBase协处理器加载的三种方式

本文主要给大家罗列了HBase协处理器加载的三种方式:Shell加载(动态)、Api加载(动态)、配置文件加载(静态)。其中静态加载方式需要重启HBase。 我们假设我们已经有一个现成的需要加载的协处理器Jar包:HelloCoproce or-0.0.1.jar。 协处理器加载的...[2020/4/17]

读者来信 | 如何判断HBase Major Compact是否执行完毕?(已解决)

前言:之前有朋友加好友与我探讨一些问题,我觉得这些问题倒挺有价值的;于是就想在本公众号开设一个问答专栏,方便技术交流与分享,专栏名就定为:《读者来信》。欢迎关注本人微信公众号《HBase工作笔记》,扫描文末二维码解锁更多姿势! 来信人:罗*铭 小猿提问 如何判断HBase Maj...[2020/4/10]

HBase 监控 | HBase Metrics 初探(一)

前言:对于任意一个系统而言,做好监控都是非常重要的,HBase也不例外。经常,我们会从JMX中获取相关指标来做展示、对HBase进行监控,那这些指标是怎么生成的呢?如果你想自定义自己的监控指标又该怎么做呢?基于好奇之心和学习的目的,最近打算学习一下HBase监控相关原理及实现,今天先简...[2020/4/8]

【赵强老师】搭建Hadoop环境

【赵强老师】搭建Hadoop环境

说明:这里我们以本地模式和伪分布模式伪列,为大家介绍如何搭建Hadoop环境。有了这个基础,大家可以自行搭建Hadoop的全分布模式。 需要使用的安装介质: hadoop-2.7.3.tar.gz jdk-8u181-linux-x64.tar.gz rhel-server-7.4-...[2020/4/8]

472
2
记录数:362 页数:1/812345678下一页尾页
加载更多
 友情链接: NPS  问卷模板