经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
 Hadoop

【赵强老师】在Hive中使用Load语句加载数据

一、Hive中load语句的语法说明 Hive Load语句不会在加载数据的时候做任何转换工作,而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法格式如下: LOAD DATA [LOCAL] INPATH ''filepath'' [OVERWRITE] INTO TA...[2020/5/25]

HBase原理 | HBase Region 运行状态学习

HBase原理 | HBase Region 运行状态学习

HBase为每个Region维护一个状态,并将该状态保留在hbase:meta中。hbase:meta 本身的Region状态保留在ZooKeeper中。可以在Master Web UI中查看Region的过渡状态。以下是可能的Region状态列表。 1. 状态机中包括下面几种状态:...[2020/5/25]

kudu安装与运行

首先我的服务器是Centos7.6。低于7版本的小伙伴不可照搬。 我选择的是使用rpm的方式进行安装,比较方便。 kudu安装包下载地址 ctrl+f 查找kudu,这6个rpm包都要下载下来,推荐使用迅雷下载 在下载的时候我们还需要做一些准备工作。执行以下命令,安装必备的...[2020/5/21]

Hadoop学习1

一.Hadoop社区版和发行版 社区版:我们把Apache社区一直开发的Hadoop称为社区版。简单的说就是Apache Hadoophttp: hadoop.apache.org/ 发行版:基于Apache Hadoop的基础上进行商业改造的解决方案,包含一系列定制的管理工具和软件。...[2020/5/21]

HBase Filter 过滤器之 ValueFilter 详解

前言:本文详细介绍了 HBase ValueFilter 过滤器 Java&Shell API 的使用,并贴出了相关示例代码以供参考。ValueFilter 基于列值进行过滤,在工作中涉及到需要通过HBase 列值进行数据过滤时可以考虑使用它。比较器细节及原理请参照之前的更文:H...[2020/5/20]

HBase Filter 过滤器之 DependentColumnFilter 详解

前言:本文详细介绍了 HBase DependentColumnFilter 过滤器 Java&Shell API 的使用,并贴出了相关示例代码以供参考。DependentColumnFilter 也称参考列过滤器,是一种允许用户指定一个参考列或引用列来过滤其他列的过滤器,过滤的...[2020/5/20]

大数据学习路线

大数据学习路线

前言 数据科学部为想从事大数据方向学习的小伙伴总结了一下大数据的学习路线,供大家学习参考。由于大数据是一个基础门槛较高就业前景较好的学习方向。所以打算学习大数据的小伙伴要加油啦! 大数据学习路线: 首先我要了解大数据处理流程: 第一步:数据收集 第二部:数据存储 ...[2020/5/19]

关于tez-ui的"All DAGs"和"Hive Queries"页面信息为空的问题解决过程

近段时间发现公司的HDP大数据平台的tez-ui页面不能用了,页面显示为空,导致通过hive提交的sql不能方便地查找到Yarn上对应的applicationId,只能通过beeline的屏幕输出信息、hiveserver2的日志、yarn的日志等一步步去查找,非常麻烦(查找方法见上一篇...[2020/5/18]

HBase Filter 过滤器之QualifierFilter详解

前言:本文详细介绍了 HBase QualifierFilter 过滤器 Java&Shell API 的使用,并贴出了相关示例代码以供参考。QualifierFilter 基于列名进行过滤,在工作中涉及到需要通过HBase 列名进行数据过滤时可以考虑使用它。比较器细节及原理请参...[2020/5/13]

HBase Filter 过滤器之FamilyFilter详解

前言:本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用,并贴出了相关示例代码以供参考。FamilyFilter 基于列族进行过滤,在工作中涉及到需要通过HBase 列族进行数据过滤时可以考虑使用它。比较器细节及原理请参照之前的更文...[2020/5/11]

去 HBase,Kylin on Parquet 性能表现如何?

Kylin on HBase 方案经过长时间的发展已经比较成熟,但也存在着局限性,因此,Kyligence 推出了 Kylin on Parquet 方案(了解详情戳此处)。通过标准数据集测试,与仍采用 Kylin on HBase 方案的 Kylin 3.0 相比,...[2020/5/7]

HBase Filter 过滤器之RowFilter详解

HBase Filter 过滤器之RowFilter详解

前言:本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用,并贴出了相关示例代码以供参考。RowFilter 基于行键进行过滤,在工作中涉及到需要通过HBase Rowkey进行数据过滤时可以考虑使用它。比较器细节及原理请参照之前的更文:HBase...[2020/5/6]

如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换,大致方式是将ETL转换逻辑写在一个hsql文件中,脚本当中都是简单的SQL语句,不包含判断、循环等存储过程中才有的写法,仅仅支持一些简单的变量替换,比如当前账期等。然后通过一个通用的shell脚本来执行hsql文件。该脚本是主要是调用了hi...[2020/5/6]

如何在 HBase Shell 命令行正常查看十六进制编码的中文?哈哈~

今天比较开心,只想哈哈哈哈哈 啥也不多说了,直接看示例吧!绝对比我口才好~ hbase(main):050:0> scan ''test'' ROW COLUMN+CELL row-1 ...[2020/4/28]

HBase Filter 过滤器之 Comparator 原理及源码学习

前言:上篇文章HBase Filter 过滤器概述对HBase过滤器的组成及其家谱进行简单介绍,本篇文章主要对HBase过滤器之比较器作一个补充介绍,也算是HBase Filter学习的必备低阶魂技吧。本篇文中源码基于HBase 1.1.2.2.6.5.0-292 HDP版本。 H...[2020/4/27]

hadoop 伪分布配置

hadoop 伪分布配置

配置 Hadoop 伪分布式 任务配置说明: VMware 15 Centos 6.5 java -jdk 1.8 hadoop-2.6.0-cdh5.14.0.tar.gz 第一步 自行安装虚拟机 第二步 开始大配置 修改主机名和用户名 &...[2020/4/27]

安装 Hadoop 2.9.1 on Windows 10 64 bit (最全步骤整理)

安装 Hadoop 2.9.1 on Windows 10 64 bit (最全步骤整理)

  1. Java 下载Java 1.8 64位版本https: java.com/en/download/. 如果不是64位java,在启动资源节点管理器时会出现错误 Java 安装自选目录, 必须是中间不带空格的目录结构:比如 C:\java64  ...[2020/4/24]

HBase Filter 过滤器概述

abc 过滤器介绍 HBase过滤器是一套为完成一些较高级的需求所提供的API接口。 过滤器也被称为下推判断器(push-down predicates),支持把数据过滤标准从客户端下推到服务器,带有 Filter 条件的 RPC 查询请求会把 Filter 分发到各个 Region...[2020/4/24]

HBase BucketAllocatorException 异常剖析

近日,观察到HBase集群出现如下WARN日志: 2020-04-18 16:17:03,081 WARN [regionserver/xxx-BucketCacheWriter-1] bucket.BucketCache:Failed allocation for 604acc8...[2020/4/23]

hadoop全分布安装和搭建

            全分布模式安装 1、准备工作 (*)关闭防火墙 systemctl stop firewalld.service systemctl disable firewalld.service (*)安装JDK (*)配置主机名 v...[2020/4/18]

hive之大数据仓库

                                                                              hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转换、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规...[2020/4/18]

Hadoop伪分布安装搭建

  Hadoop伪分布安装搭建 搭建Hadoop的环境======================================一、准备工作 1、安装Linux、JDK、关闭防火墙、配置主机名 解压:tar -zxvf hadoop-2.7.3.tar.gz -C ~/traning/...[2020/4/18]

全方位认识HBase:一个值得拥有的NoSQL数据库(一)

前言:说起HBase这门技术,在认知上对于稍微接触或使用过它的人来讲,可能只是百千数据库中一个很普通的库,大概就像我对Redis的认知一样:缓存嘛!可对于HBase,我确实是带着某些感情在的。今日突然萌生了一个生趣的想法,想抛开技术的视角,从情感的角度,像写小说一样,写写这位老朋友,这...[2020/4/18]

大数据预处理综述

大数据预处理综述

数据预处理背景 大数据项目开发流程 数据质量 准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。 数据不准确的原因 数据收集设备故障。 数据输入错误。 数据传输过程出错。 命名约定、数据输入、输入字段格式不一致。 相关性:指数据与特定的应用和领域有...[2020/4/17]

HBase Shell 十大花式玩儿法

前言:工欲善其事必先利其器,今天给大家介绍一下HBase Shell十大花式利器,在日常运维工作中,可以试着用起来。 1. 交互模式 也就是我们最常用到的Shell命令行的方式。 $ hbase shell hbase(main):001:0> list 2. 非交互模...[2020/4/17]

HBase协处理器加载的三种方式

本文主要给大家罗列了HBase协处理器加载的三种方式:Shell加载(动态)、Api加载(动态)、配置文件加载(静态)。其中静态加载方式需要重启HBase。 我们假设我们已经有一个现成的需要加载的协处理器Jar包:HelloCoproce or-0.0.1.jar。 协处理器加载的...[2020/4/17]

读者来信 | 如何判断HBase Major Compact是否执行完毕?(已解决)

前言:之前有朋友加好友与我探讨一些问题,我觉得这些问题倒挺有价值的;于是就想在本公众号开设一个问答专栏,方便技术交流与分享,专栏名就定为:《读者来信》。欢迎关注本人微信公众号《HBase工作笔记》,扫描文末二维码解锁更多姿势! 来信人:罗*铭 小猿提问 如何判断HBase Maj...[2020/4/10]

HBase 监控 | HBase Metrics 初探(一)

前言:对于任意一个系统而言,做好监控都是非常重要的,HBase也不例外。经常,我们会从JMX中获取相关指标来做展示、对HBase进行监控,那这些指标是怎么生成的呢?如果你想自定义自己的监控指标又该怎么做呢?基于好奇之心和学习的目的,最近打算学习一下HBase监控相关原理及实现,今天先简...[2020/4/8]

【赵强老师】搭建Hadoop环境

说明:这里我们以本地模式和伪分布模式伪列,为大家介绍如何搭建Hadoop环境。有了这个基础,大家可以自行搭建Hadoop的全分布模式。 需要使用的安装介质: hadoop-2.7.3.tar.gz jdk-8u181-linux-x64.tar.gz rhel-server-7.4-...[2020/4/8]

Hadoop入门之hdfs

                                        &nbs...[2020/4/8]

【赵强老师】大数据分析引擎:Presto

一、什么是Presto? 背景知识:Hive的缺点和Presto的背景 Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Presto是一个分布式SQL查询引...[2020/4/7]

HBase Shell Get 操作常用小技巧

在工作中,有时候只是想简单看下HBase表某些关键指标的值,这个时候总不能现写Java代码去查看,以下几个小技巧你可能会经常用到。 1. 某行有许多列,只想获取指定2~3列的数据 hbase> get ''t1'', ''r1'', [''f:c1'', ''f:c2'', ''...[2020/4/7]

读者来信 | 如果你家HBase集群Region太多请点进来看看,这个问题你可能会遇到

前言:《读者来信》是HBase老店开设的一个问答专栏,旨在能为更多的小伙伴解决工作中常遇到的HBase相关的问题。老店会尽力帮大家解决这些问题或帮你发出求救贴,老店希望这会是一个互帮互助的小平台。有问题请直接在老店后台留言,有好的解决方案也请不要吝啬,诚挚欢迎大家能在留言区积极探讨解决...[2020/4/7]

读者来信 | 刚搭完HBase集群,Phoenix一启动,HBase就全崩了,是什么原因?(已解决)

前言:之前有朋友加好友与我探讨一些问题,我觉得这些问题倒挺有价值的;于是就想在本公众号开设一个问答专栏,方便技术交流与分享,专栏名就定为:《读者来信》。如遇到本人能力有限难以解决的问题,我将转发该文至我的资源圈尽力寻求大佬们出手帮助,并附上提问者微信二维码,希望给大家提供这样一个互帮互...[2020/4/7]

读者来信 | 设置HBase TTL必须先disable表吗?(已解决)

今日有朋友加好友与我探讨一些问题,我觉得这些问题倒挺有价值的;于是就想在本公众号开设一个问答专栏,方便技术交流与分享,专栏名就定为:《读者来信》。如遇到本人能力有限难以解决的问题,该贴将会被转发至我的资源圈寻求大佬们出手帮助,并附上提问者微信二维码。也欢迎大家在留言区积极探讨解决方案~...[2020/4/7]

hadoop 多次格式化format namenode 导致节点不能启动解决

链接:https: blog.csdn.net/qq_41059374/article/detail 80695581?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_rel...[2020/4/2]

你不会成为数据科学家的9个原因:数据科学是一个艰难的领域,请做好准备

免责声明:这个故事并不是要劝阻您。 相反,它是一面可以长时间检视自己的镜子。 所以你对数据科学很有热情,你已经读了几十篇博客文章,完成了一些在线课程。现在你梦想着把它作为你的事业。毕竟,据《哈佛商业评论》称,这是21世纪最性感的工作。 但是,尽管你很有热情,数据科学可能并不适合你。在...[2020/3/19]

HDFS HA误删namenode后报错Nameservice testCluster has no SecondaryNameNode or High-Availability partner的恢复

删除hdfs ha namenode的正常方式是先禁用高可用,今天想试试直接删除其中一个namenode,于是开始操作,结果剩下的NN无法启动。 cm页面报错:“Nameservice testCluster has no SecondaryNameNode or &nbs...[2020/3/3]

Hadoop的读写操作、元数据及SecondaryNameNode、Checkpoint原理

一、写操作    二、读操作    1.请求namenode 因为namenode元数据里面记录了DataNode的地址    2.把我们的信息返回给客户端    3.客户端收到信息之后 就到相应客户端去请求数据即可    4.重点是请求那个DataNode上的哪个块...[2020/3/2]

在centos7上安装hadoop

在centos7上安装hadoop

1.使用hadoop是需要jdk环境的,因为hadoop里面有java程序,而运行java程序需要jdk。 2.从宿主机上传文件到虚拟机有很多方法,我选择的是在虚拟机安装lrzsz,安装lrzsz命令行:yum install -y lrzsz 3.确定好软件安装路径 /opt ...[2020/2/26]

HDFS基本命令fs的使用操作

HDFS基本命令fs的使用操作

HDFS(Hadoop Distributed File System)就是hadoop分布式文件系统,fs是操作HDFS文件的一个常用命令。 1.hadoop fs -help 查看fs使用帮助 2.hadoop fs -mkdir 在HDFS文件系统下的根路径下创建一个文件 这个根目录...[2020/2/26]

hadoop之HDFS核心类Filesystem的使用

1.导入jar包,要使用hadoop的HDFS就要导入hadoop-2.7.7\share\hadoop\common下的3个jar包和lib下的依赖包、hadoop-2.7.7\share\hadoop\hdfs下的3个jar包和lib下的依赖包 2.-ls 查看目录下的所有文件和文件夹...[2020/2/26]

hadoop完全分布式部署

1.我们先看看一台节点的hdfs的信息:(已经安装了hadoop的虚拟机:安装hadoophttps: www.cnblogs.com/lyx666/p/12335360.html) start-dfs 打开hdfs需要启动的服务 然后再浏览器输入http: 虚拟机ip地址:50070...[2020/2/26]

hadoop3自学入门笔记(1)——虚拟机安装和网络配置

hadoop3自学入门笔记(1)——虚拟机安装和网络配置

前言 年过30惶惶不安,又逢疫情,还是不断学习,强化自己的能力。hadoop的视频和书籍在15年的时候就看过,但是一直没动手实践过,要知道技术不经过实战,一点提升也没有。因此下定决心边学边做,希望能有所收获。 软件版本介绍 virtualbox 6.1 centos7? hadoop-...[2020/2/24]

Hadoop架构及集群

Hadoop架构及集群

Hadoop是一个由Apache基金会所开发的分布式基础架构,Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算,特点是:高可靠性,高扩展性,高效性,高容错性。 Hadoop与Google三篇论文...[2020/2/24]

Hadoop-HDFS(HDFS-HA)

HDFS(Hadoop Distributed File System) 分布式文件系统,HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.由NameNode,若干DataNode,以及Secondary NameNo...[2020/2/24]

HDFS架构

HDFS架构(Master-Slave) 几个进程的角色 nameNode(master):用于保存、管理、持久化文件的元数据(文件名、文件副本数、文件块大小、文件块列表),同时还要接收客户端的文件读写请求。 secondaryNameNode:用于实时同步文件元数据,给nameNod...[2020/2/24]

大数据引擎分代

大致可以将大数据的计算引擎分成了 4 代。 1、第一代的计算引擎,无疑就是Hadoop承载的MapReduce。它将每个JobApp都被设计为两个阶段,分别为Map和Reduce。对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在上层应用实现多个App的串联,才能完成一个完整...[2020/2/24]

hadoop

------------恢复内容开始------------ 1、Hadoop是什么? Hadoop是一个Apache基金会所开发的分布式系统基础框架(Hive、Hbase、spark都是基于hadoop架构进行数据存储)。 主要解决:海量数据存储和海量数据分析计算问题。 广义上来说...[2020/2/24]

hadoop3自学入门笔记(2)—— HDFS分布式搭建

一些介绍 Hadoop 2和Hadoop 3的端口区别 Hadoop 3 HDFS集群架构 我的集群规划 name ip role 61 192.168.3.61 namenode,datanode 62 192.168.3.62 datanode ...[2020/2/24]

472
2
记录数:341 页数:1/71234567下一页尾页
加载更多
 友情链接: NPS