基于Hive的大数据分析系统
1.概述 在构建大数据分析系统的过程中,我们面对着海量、多源的数据挑战,如何有效地解决这些零散数据的分析问题一直是大数据领域研究的核心关注点。大数据分析处理平台作为应对这一挑战的利器,致力于整合当前主流的各种大数据处理分析框架和工具,以实现对数据的全面挖掘和深入分析。本篇博客笔者将为大家介绍如何...[2024/7/29]
HBase 在统一内容平台业务的优化实践
作者:来自 vivo 互联网服务器团队-Leng Jianyu、Huang Haitao HBase是一款开源高可靠性、扩展性、高性能和灵活性的分布式非关系型数据库,本文围绕数据库选型以及使用HBase的痛点展开,从四个方面对HBase的使用进行优化,取得了一些不错效果。 一、业务简介 ...[2024/7/11]
踩坑指南:入门OpenTenBase之部署篇
引言 OpenTenBase 企业级分布式HTAP开源数据库,具备高扩展性、商业数据库语法兼容、分布式HTAP引擎、多级容灾和多维度资源隔离等能力,成功应用在金融、医疗、航天等行业的核心业务系统。 这是我第一次参与开源项目,所以感到有些摸不着头脑。我看了一下源代码,发现它是用C语言开发的,...[2024/4/10]
hive窗口分析函数使用详解系列一
1.综述 Hive的聚合函数衍生的窗口函数在我们进行数据处理和数据分析过程中起到了很大的作用 在Hive中,窗口函数允许你在结果集的行上进行计算,这些计算不会影响你查询的结果集的行数。 Hive提供的窗口和分析函数可以分为聚合函数类窗口函数,分组排序类窗口函数,偏移量计算类窗口函数。 本节...[2024/4/8]
虚拟机运行Hadoop | 各种问题解决的心路历程
ps:完成大数据技术实验报告的过程,出项各种稀奇古怪的问题。(知道这叫什么吗?经济基础决定上层建筑,我当时配置可能留下了一堆隐患,总之如果有同样的问题,希望可以帮到你) 一、虚拟机网络连接不通的各种情况 我这里遇到的是,三台虚拟机,两台piing百度不同 原因:改了下内存,重启就又未知的网络名...[2023/12/8]
两台实体机器4个虚拟机节点的Hadoop集群搭建(Ubuntu版)
安装Ubuntu Linux元信息 两台机器,每台机器两台Ubuntu Ubuntu版本:ubuntu-22.04.3-desktop-amd64.iso 处理器数量2,每个处理器的核心数量2,总处理器核心数量4 单个虚拟机内存8192MB(8G),最大磁盘大小30G 参考链接 清华大学...[2023/10/23]
在阿里云和腾讯云的轻量应用服务器上搭建Hadoop集群
引入 本文在两台2核2g的云服务器上搭建了Hadoop集群,两台云服务器分别是阿里云(hjm)和腾讯云(gyt),集群部署规划如下: hjm gyt HDFS NameNode\SecondaryNameNode\DataNode DataNode YARN Resource...[2023/9/20]
Haproxy搭建 Web 群集实现负载均衡
Haproxy搭建 Web 群集实现负载均衡 1 Haproxy HAProxy是可提供高可用性、负载均衡以及基于TCP和HTTP应用的代理,是免费、快速并且可靠的一种解决方案。HAProxy非常适用于并发大(并发达1w以上)web站点,这些站点通常又需要会话保持或七层处理。HAProxy的运行...[2023/9/19]
HBase Compaction 原理与线上调优实践
作者:vivo 互联网存储技术团队- Hang Zhengbo 本文对 HBase Compaction 的原理、流程以及限流的策略进行了详细的介绍,列举了几个线上进行调优的案例,最后对 Compaction 的相关参数进行了总结。 一、Compaction 介绍 HBase 是基于一种...[2023/7/28]
Hive执行计划之hive依赖及权限查询和常见使用场景
目录概述1.explain dependency的查询与使用2.借助explain dependency解决一些常见问题2.1.识别看似等价的SQL代码实际上是不等价的:2.2 通过explain dependency验证将过滤条件在不同位置的查询区别3.查看SQL操作涉及到的相关权限信息 概...[2023/6/8]
工良出品:包教会,Hadoop、Hive 搭建部署简易教程
目录导读Hadoop、Hive 是什么运行环境Java 环境Mysql下载 Hadoop、Hive 和 驱动安装 Hadoopcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlhadoop-env.cmd启动 Hadoop安装 Hive配...[2023/3/20]
Centos7系统编译Hadoop3.3.4
1、背景 最近在学习hadoop,此篇文章简单记录一下通过源码来编译hadoop。为什么要重新编译hadoop源码,是因为为了匹配不同操作系统的本地库环境。 2、编译源码 2.1 下载并解压源码 [root@hadoop01 ~]# mkdir /opt/hadoop [root@hado...[2023/2/20]
1.4 Apache Hadoop完全分布式集群搭建-hadoop-最全最完整的保姆级的java大数据学习资料
目录1.4 Apache Hadoop 完全分布式集群搭建1.4.1 虚拟机环境准备1.4.2 集群规划1.4.3 安装Hadoop1.4.3.1 集群配置1.4.3.1.1 HDFS集群配置1.4.3.1.2 MapReduce集群配置1.4.3.1.3 Yarn集群配置1.4.3.2 分发配...[2022/12/5]
详解HBase表的数据模型
目录表(Table)1. rowkey行键2. Column Family列族3. Column列4. cell单元格5. Timestamp时间戳理解数据模型各概念的图 HBase是运行在Hadoop集群上的一个数据库,与传统的数据库有严格的ACID(原子性、一致性、隔离性、持久性)要求不一样,H...[2022/5/18]
Hbase列式存储入门教程
目录1、逻辑结构2、物理结构3、增删改查4、应用场景5、参考资料 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。分布式是因为HBase底层使用HDFS存储数据,可扩展也是基于HDFS的横向扩展能力,作为大数据的存储当然支持海量数据的存储,NoSQL非关系型数据库表结构和关系型数...[2021/7/12]
大数据学习记录_02_hadoop基础以及集群安装
第一部分 大数据简介 第一节 大数据的定义 ? 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 第二节 大数据的特点 大数据的特点可以用IBM曾经提出的“5V”来描述...[2021/6/21]
Hadoop运行时遇到java.io.FileNotFoundException错误的解决方法
报错信息: java.lang.Exception: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in localfetcher#1 at org.apache.h...[2021/6/21]
3、环境搭建-Linux上hadoop的全分布配置
安装配置hadoop和jdk 配置/usr/local rc/hadoop/etc/hadoop/下的四个文件 hdfs-site.xml <configuration> <property> <!-- DFS的名称节点在本地文件系统位置 --> &l...[2021/5/31]
1、大数据 Hadoop配置和单机Hadoop系统配置
#查看服务器ip ip add #设置主机名称 hostnamectl set-hostname master bash #查看 hostname #绑定ip vi /etc/hosts 添加 服务器IP地址 master #查看 h状态 systemctl status hd...[2021/5/31]
Hadoop节点规模为什么不如Laxcus?
还是昨天,另一个头条网友提问,Hadoop节点规模为什么不如Laxcus?和昨天那篇《Laxcus管理几十万台服务器,是怎么做到的?》的提问有点异曲同工,现在顺着上篇的思路再回应一下,建议没看过昨天那篇的先去看看,这样容易理解。 还是从这三个角度来解释: 1. 多域并行集群 ...[2021/5/6]
启动hadoop之后,主节点启动了,而从节点的datanode并没有启动的问题
记录以下遇到的这个问题2021.4.29 问题的起因还是在于hadoop安全模式的问题,我的安全模式之前出了问题,丢失了数据, 导致我每次启动hadoop集群,都需要自己手动关闭hadoop的安全模式, 于是在网上搜索,找到说可以先关闭集群,然后格式化namenode, 按照这样的方式做了...[2021/5/6]
大数据 - 框架 - Hadoop
Hadoop技术生态的组成部分: Hadoop Common:支持Hadoop其他模块的通用工具 HDFS:分布式文件系统,提供了高吞吐量的数据访问(最初始模块之一) YARN:作业调度和资源管理的框架 MapReduce:基于YARN的大数据分布式计算框架(最初始模块之一) ...[2021/3/8]
Hadoop 学习笔记 生态
概论 Hadoop是Apache下的开源项目 数据存储: HDFS 分布式文件系统,负责存储数据,数据分散存储 NameNode 管理节点,存储元数据(文件对应的数据块位置、文件大小、文件权限等信息) 同时负责读写调度和存储分配 DataNo...[2021/1/25]
【Hadoop】:手动实现WordCount案例
一.实现案例 实现WorldCount的流程如下: 备注:其中输入的数据是一个txt文件,里面有各种单词,每一行中用空格进行空行 一.Mapper的编写 我们在IDEA是使用“ctrl+alt+鼠标左键点击”的方式来查看源码,我们首先查看mapper 类...[2021/1/18]
大数据专栏 - 基础1 Hadoop安装配置 - 能力工场-小马哥
Hadoop安装配置 环境 1, JDK8 --> 位置: /opt/jdk8 2, Hadoop2.10: --> 位置: /opt/bigdata/hadoop210 3, CentOS 7虚拟机试验集群规划 一,安装步骤 1, 解压缩 cd /opt/b...[2021/1/11]
【Hadoop】:Windows下使用IDEA搭建Hadoop开发环境
笔者鼓弄了两个星期,终于把所有有关hadoop的环境配置好了,一是虚拟机上的完全分布式集群,但是为了平时写代码的方便,则在windows上也配置了hadoop的伪分布式集群,同时在IDEA上就可以编写代码,同时在windows环境下进行运行。(如果不配置windows下的伪分布式集群,则...[2021/1/4]
【Hadoop】:配置出错error出现:Stop it first
出现的错误如下: hadoop@mike-VirtualBox:/usr/local/hadoop/hadoop$ . bin tart-dfs.sh 20/12/14 20:15:06 WARN util.NativeCodeLoader: Unable to load nativ...[2020/12/14]
【Hadoop】:Hadoop的启动与停止
1.启动NameNode: hadoop-daemon.sh start namenode 2.启动DataNode: hadoop-daemon.sh start datanode 3.启动Secondary DataNode: h...[2020/12/14]
Hadoop框架:Yarn基本结构和运行原理
本文源码:GitHub·点这里 || GitEE·点这里 一、Yarn基本结构 Hadoop三大核心组件:分布式文件系统HDFS、分布式计算框架MapReduce,分布式集群资源调度框架Yarn。Yarn并不是在Hadoop初期就有的,是在Hadoop升级发展才诞生的,典型的Mast...[2020/12/14]
hadoop 无法访问50070端口问题解决
解决方法针对:centos6版本 解决方法一: vi /etc elinux/config : 进入编辑 改为: 解决办法2: 查看你的$HADOOP_HOME/etc/hadoop下的core-site...[2020/12/8]
idea项目运行时报错提示Could not locate executable null\bin\winutils.exe in the Hadoop binaries
出现这个错误,从网上下载一个名为winutils.exe 的小插件放到 hadoop/bin目录后,在window中配置hadoop环境,然后重启idea 否则还是会报错 下载地址:https: github.com/amihalik/hadoop-c...[2020/12/8]
Hive数据仓库你了解了吗
在工作中我们经常使用的数据库,数据库一般存放的我们系统中常用的数据,一般为百万级别。如果数据量庞大,达到千万级、亿级又需要对他们进行关联运算,该怎么办呢? 前面我们已经介绍了HDFS和MapReduce了,它俩结合起来能够进行各种运算,可是MapReduce的学习成本太高了,如果有一种...[2019/11/12]
centos6.8下hadoop3.1.1完全分布式安装指南
前述:这篇文档是建立在三台虚拟机相互ping通,防火墙关闭,hosts文件修改,SSH 免密码登录,主机名修改等的基础上开始的。 一.传入文件 1.创建安装目录 mkdir /usr/local oft 2.打开xftp,找到对应目录,将所需安装包传入进...[2019/11/4]
HDFS常用API操作 和 HDFS的I/O流操作
前置操作 创建maven工程,修改pom.xml文件: <project xmlns="http: maven.apache.org/POM/4.0.0" xmlns:xsi="http: www.w3.org/2001/XMLSchema-instance" xsi:s...[2019/10/31]
xshell5运行hadoop集群
---恢复内容开始--- 1.CentOS主机配置 在配置Hadoop过程中,防火墙必须优先关闭SELinux,否则将影响后续Hadoop配置与使用,命令如下: # 查看 “系统防火墙” 状态命令 systemctl status firewall...[2019/10/31]
数据存储检索之B+树和LSM-Tree
作为一名应用系统开发人员,为什么要关注数据内部的存储和检索呢?首先,你不太可能从头开始实现一套自己的存储引擎,往往需要从众多现有的存储引擎中选择一个适合自己应用的存储引擎。因此,为了针对你特定的工作负载而对数据库调优时,最好对存储引擎的底层机制有一个大概的了解。 今天我们就先来了解...[2019/10/21]
一文读懂大数据计算框架与平台 (转) - IT-Evan
1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式...[2019/10/17]
云计算的专业术语大整集
当今,各厂商对云计算的定义不一,云计算的标准更是各行其道。在这云计算的混战时代,产生的有关云计算的术语更是目不暇接,整个IT界似乎正在迎来一个云计算术语爆炸的时代,其中有关于云计算概念本身,也有关于厂商的云策略和云产品的。小编通过对现有的云计算资料进行梳理,列出了60多条云计算相关的术语...[2019/10/12]
大数据集群环境搭建之一 hadoop-ha高可用安装
1、如果你使用root用户进行安装。 vi /etc/profile 即可 系统变量 2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量 export HADOOP_HOME=/export erver hadoop-2.8.5 export PATH=...[2019/10/11]
知识图谱在大数据中的应用
随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。在一项任务中,只要有关系分析的需求,...[2019/10/11]
Hbase入门(四)——表结构设计-RowKey
Hbase的表结构设计与关系型数据库有很多不同,主要是Hbase有Rowkey和列族、timestamp这几个全新的概念,如何设计表结构就非常的重要。 创建 Hbase就是通过 表 Rowkey 列族 timestamp确定一行数据。 这与关系型数据库完全不同: 属性 ...[2019/10/8]
【hadoop】hadoop3.2.0应用环境搭建与使用指南
下面列出我搭建hadoop应用环境的文章整理在一起,不定期更新,供大家参考,互相学习!!! 杂谈篇: 【英语学习】 Re-pick up English for learning big data (not updated regularly) 【转】大数据工程师需要学习哪...[2019/10/8]
Hbase入门(三)——数据模型
Hbase最核心但也是最难理解的就是数据模型,由于与传统的关系型数据库不同,虽然Hbase也有表(Table),也有行(Row)和列(Column),但是与关系型数据库不同的是Hbase有一个列族(Column Family)的概念,它将一列或者多列组织在一起,HBase必须属于某一...[2019/9/30]
Hbase入门(二)——安装与配置
本文讲述如何安装,部署,启停HBase集群,如何通过命令行对Hbase进行基本操作。 并介绍Hbase的配置文件。 在安装前需要将所有先决条件安装完成。 一、先决条件 1、JDK 和Hadoop一样,Hbase需要JDK1.6或者更高的版本,所以请安装好JDK并配置环境变量...[2019/9/30]
MapReduce之Job提交流程源码和切片源码分析
hadoop2.7.2 MapReduce Job提交源码及切片源码分析 首先从waitForCompletion函数进入 boolean result = job.waitForCompletion(true); /** * Submit t...[2019/9/30]
HDFS笔记
HDFS 基于流数据模式访问和处理超大文件的需求而开发的。 HDFS不适合的应用类型 低延时的数据访问 HDFS是为高吞吐数据传输设计的,因此可能牺牲延时HBase更适合低延时的数据访问。 大量小文件 文件的元数据保存在Name...[2019/9/29]
浅谈HDFS(二)之NameNode与SecondaryNameNode
NN与2NN工作机制 思考:NameNode中的元数据是存储在哪里的? 假设存储在NameNode节点的硬盘中,因为经常需要随机访问和响应客户请求,必然效率太低,所以是存储在内存中的 但是,如果存储在内存中,一旦断电,元数据丢失,整个集群便无法工作,因此会在硬盘中产生备份元数据的F...[2019/9/29]
浅谈HDFS(三)之DataNote
DataNode工作机制 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 Da...[2019/9/29]
Hive sampling 语法之TABLESAMPLE用法理解
官网关于LanguageManual Sampling的教程,部分截图如下,这里主要分享对TABLESAMPLE(BUCKET 3 OUT OF 16 ON id)子句的理解 ? 官网中假设创建表时设置了 CLUSTERED BY(id) INTO 32 BUCKETS 即分成了...[2019/9/27]
Hbase入门(一)——初识Hbase
本文将介绍大数据的知识和Hbase的基本概念,作为大数据体系中重要的一员,Hbase弥补了Hadoop只能离线批处理的不足,支持存储小文件,随机检索。而这种特性使得Hbase对于实时计算体系的事件存储有天然的较好的支持。这使得Hbase在实时流式计算中也扮演者重要的角色。 1、大...[2019/9/24]