经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
 Hadoop
HBase表的基本结构和常用命令行操作

HBase表的基本结构和常用命令行操作

一、HBase表的基本结构   1.概述:    平时常见的MySQL、Oracle数据库都是传统型关系数据库,它们都是按行查询、按行存储;而HBase为非关系型数据库,它是按列存储的的。    在HBase插入数据时,先输入数据的格式为rowkey => info => ...[2019/3/11]

HBase的概述和安装部署

一、HBase概述   1.HBase是Hadoop数据库,是一个分布式、可扩展的大数据存储。   HBase是用于对大数据进行随机、实时读写访问的非关系型数据库,它的目标托管非常大的表——数十亿行N百万列。   正如Bigtable利用Google文件系统提供...[2019/3/7]

hive基础总结(面试常用)

hive基础总结(面试常用)

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Metastore (hive元数据) Hive将元数据存储在数据库中,比如mysql ,derby.Hive中的元数据包括表...[2019/2/12]

MapReduce基础

1. WordCount程序 1.1 WordCount源程序 import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import or...[2019/2/12]

HDFS基础

1. HDFS Shell基础 [root@master hadoop]# hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-...[2019/2/11]

Cannot obtain block length for LocatedBlock故障分析和解决

来源:CSDN 作者:Syn良子  原文:https: blog.csdn.net/c dongl/article/detail 77750495  一.问题背景 问题产生的原因可能是由于前几日Hadoop集群维护的时候,基础运维组操作不当,先关闭的Hadoop集群,然...[2019/1/30]

Hadoop源码学习笔记之NameNode启动流程分析一:源码环境搭建和项目模块及NameNode结构简单介绍

最近在跟着一个大佬学习Hadoop底层源码及架构等知识点,觉得有必要记录下来这个学习过程。想到了这个废弃已久的blog账号,决定重新开始更新。 主要分以下几步来进行源码学习: 一、搭建源码阅读环境 二、源码项目结构概览及hdfs源码包结构简介 三、NameNode介绍   第一步...[2019/1/25]

Hadoop系列009-NameNode工作机制

Hadoop系列009-NameNode工作机制

本人微信公众号,欢迎扫码关注! NameNode工作机制 1 NameNode & SecondaryNameNode工作机制 1.1 第一阶段:namenode启动 1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑...[2019/1/25]

hadoop环境搭建-伪分布模式

hadoop环境搭建-伪分布模式

Appache hadoop 版本:2.77   jdk:1.8  系统:centos7 注意不要在root下解压,要单独建一个用户安装hadoop及其组件。 一、先查看系统是否有自带j   #dk: rpm -qa|grep java   通常是如下4个包...[2019/1/22]

hbase-列存储动态数据库

1)   HBase是什么? HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目,是横向扩展的。 HBase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。 ...[2019/1/22]

hive--数据仓库

1.1.1     hive是什么? Hive是基于 Hadoop 的一个数据仓库工具: 1.       hive本身不提供数据存储功能,使用HDFS做数据存储; 2.  &...[2019/1/22]

hadoop体系架构

 1.1          Hadoop 概念:hadoop是一个由Apache基金会所开发的分布式系统基础架构。是根据google发表的GFS(Google File System)论文产生过来的...[2019/1/14]

hadoop wordcout测试

hadoop wordcout测试 安装好hadoop 环境后,启动HDFS等服务;输密码 1004 start-all.sh 查看启动情况 1006 jps 1007 cd ~ 切换到用户默认目录  创建数据文件data.txt,输送值 hello beijing he...[2019/1/14]

2019年最炙手可热的大数据行业学习路线指导

2019年最炙手可热的大数据行业学习路线指导

随着国家对大数据政策的倾向越来越多的人听说过这个名词,但对它都可能也是一知半解,今天小编精心为大家整理了大数据相关的所有知识,以及大数据学习的一些资料,希望对大家有所帮助。 什么是大数据 麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范...[2019/1/11]

Hadoop系列008-HDFS的数据流

Hadoop系列008-HDFS的数据流

本人微信公众号,欢迎扫码关注! HDFS的数据流 1 HDFS写数据流程 1.1 剖析文件写入 1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。 2)namenode返回是否可以上传。 3)客户端请求第一个 block上传到哪几个...[2019/1/11]

应用AI芯片加速 Hadoop 3.0 纠删码的计算性能

应用AI芯片加速 Hadoop 3.0 纠删码的计算性能

本文由云+社区发表 做为大数据生态系统中最重要的底层存储文件系统HDFS,为了保证系统的可靠性,HDFS通过多副本的冗余来防止数据的丢失。通常,HDFS中每一份数据都设置两个副本,这也使得存储利用率仅为1/3,每TB数据都需要占用3TB的存储空间。随着数据量的增长,复制的代价也变得越来越明显...[2019/1/9]

关系数据库数据与hadoop数据进行转换的工具 - Sqoop

关系数据库数据与hadoop数据进行转换的工具 - Sqoop

Sqoop 本文所使用的Sqoop版本为1.4.6 1.官网   http: qoop.apache.org 2.作用   A:可以把hadoop数据导入到关系数据库里面(e.g. Hive -> Mysql)   B:可以把关系数据库数据导入到hadoop里面(e.g. ...[2019/1/7]

Hive与Hbase整合

Hive与Hbase整合

Hive与Hbase整合 1.文档   Hive HBase Integration   2.拷贝jar文件 2.1.把Hbase的lib目录下面的jar文件全部拷贝到Hive的lib目录下面 cd /home/hbase/lib cp ./* /home/hive...[2019/1/7]

HDFS深度历险 之 从客户端逻辑看HDFS写入机制

HDFS深度历险 之 从客户端逻辑看HDFS写入机制

说明 除了标注之外,本文纯属原创,转载请注明出处:https: www.jianshu.com/p/ea6ef5f5b868, https: www.cnblogs.com/monkeyteng/p/10220395.html HDFS架构简介 Hadoop的框架最核心的设计就是:HDFS和Ma...[2019/1/7]

ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目

ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目 思路同我之前的博客的思路 https: www.cnblogs.com ymkmk123/p/10197467.html 但是数据是从web访问的数据 avro第一次过滤 观察数据的格式,我...[2019/1/2]

CDH 5.16.1 离线部署 &amp; 通过 CDH 部署 Hadoop 服务

CDH 5.16.1 离线部署 &amp; 通过 CDH 部署 Hadoop 服务

参考 Cloudera Enterprise 5.16.x Installing Cloudera Manager, CDH, and Managed Services Installation Path B - Manual Installation Using Cloudera Manager...[2018/12/28]

Elasticsearch与Hadoop集成大数据处理介绍

传统大数据处理 现代数据架构 Hadoop在20业务场景的应用 DataLake A data lake is a system or repository of data stored in its natural format, usually object bl...[2018/12/24]

Ubuntu 12.04上安装Hadoop并运行

Ubuntu 12.04上安装Hadoop并运行 作者:凯鲁嘎吉 - 博客园 http: www.cnblogs.com/kailugaji/ 在官网上下载好四个文件 在Ubuntu的/home/wrr/下创建一个文件夹java,将这四个文件拷到Ubuntu的/home/wrr/j...[2018/12/21]

hadoop集群搭建

准备工作 先说明我用的是centos7, 并且准备了四台虚拟机 ip分别是 192.168.36.140 192.168.36.141 192.168.36.142 192.168.36.143     一、java环境安装 1.下载jdk 去jdk下载地址下载或者...[2018/12/19]

记一次Apache Carbondata PR的经历

 前言         前段时间有幸接触到Apache Carbondata,试用过程中发现了一个小小的问题,并且又很快的定位到了问题。然后在社区群里反映了下,负责人问愿不愿意提个JIRA,PR,然后我在没有任何开源项目PR过的情况下竟然欣然答应...[2018/12/17]

hadoop在CentOS下的安装配置

  版本:CentOS-6.8-x86_64-minimal,hadoop2.6.4,jdk1.7.0 首先把jdk、hadoop压缩包下载发送到CentOS下并解压 下载发送不多赘述,解压命令tar -zxvf 压缩包 mv 原文件名 新文件名 (注意空格) 先配置jdk ...[2018/12/13]

大数据-Hadoop生态(18)-MapReduce框架原理-WritableComparable排序和GroupingComparator分组

1.排序概述 2.排序分类   3.WritableComparable案例 这个文件,是大数据-Hadoop生态(12)-Hadoop序列化和源码追踪的输出文件,可以看到,文件根据key,也就是手机号进行了字典排序 13470253144 180 1...[2018/12/13]

大数据-Hadoop生态(16)-MapReduce框架原理-自定义FileInputFormat

  1. 需求 将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value 三个小文...[2018/12/12]

Hadoop系列006-HDFS概念及命令行操作

本人微信公众号,欢迎扫码关注! HDFS概念及命令行操作 一、HDFS概念 1.1 概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的设计适合一次写入,多次读出的场景,且不支...[2018/12/11]

Hadoop系列007-HDFS客户端操作

Hadoop系列007-HDFS客户端操作

title: Hadoop系列007-HDFS客户端操作 date: 2018-12-6 15:52:55 updated: 2018-12-6 15:52:55 categories: Hadoop tags: [Hadoop,HDFS,HDFS客户端] 本人微信公众号,欢迎扫码...[2018/12/11]

学习笔记—MapReduce

学习笔记—MapReduce

MapReduce是什么 MapReduce是一种分布式计算编程框架,是Hadoop主要组成部分之一,可以让用户专注于编写核心逻辑代码,最后以高可靠、高容错的方式在大型集群上并行处理大量数据。 MapReduce的存储 MapReduce的数据是存储在HDFS上的,HDFS也是Hadoop的主要...[2018/12/10]

零基础学习大数据需要掌握的基础

大数据已经成为时代发展的趋势,很多人纷纷选择学习大数据,想要进入大数据行业。大数据技术体系庞大,包括的知识较多,系统的学习大数据可以让你全面掌握大数据技能。学习大数据需要掌握哪些知识? 我还是要推荐下我自己创建的大数据资料分享群142973723,这是大数据学习交流的地方,不管你是小白还是大牛,小编...[2018/12/7]

怎么理解LAXCUS大操作系统系统在云计算体系中的定位

  最近一直在做laxcus大数据操作系统的分布式应用开发,因为做得多了,感触也多了。按照云计算三层定义,即iaas(基础设施即服务)、paas(平台即服务)、saas(软件即服务),laxcus属于paas层,它提供了paas层的各种功能,如果做个对标,它实际是OpenStack、Hadoop、...[2018/12/7]

小白学习大数据掌握这几个方法轻松入门

有很多学习大数据的朋友,在初期学习时,通常会对如何学习而感到迷茫。我经常在知乎上收到朋友关于如何入门、如何规划学习大数据、大数据的学习流程是什么的一些问题。今天我就粗浅的总结几点学习大数据方法。 一、兴趣建立 兴趣是可以让一个人持续关注一个事物的核心动力,那么兴趣的培养就非常重要了。如果你把写程...[2018/12/3]

Hadoop系列001-大数据概论

Hadoop系列001-大数据概论

本人微信公众号,欢迎扫码关注! 大数据概论 1、大数据概念 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 最小的基本单位是bit,按顺序...[2018/12/3]

Hadoop系列002-从Hadoop框架讨论大数据生态

本人微信公众号,欢迎扫码关注! 从Hadoop框架讨论大数据生态 1、Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP...[2018/12/3]

如何成为一个大数据开发工程师?

大数据大数据,个个都在喊 但究竟什么是大数据开发,如何成为一个大数据开发工程师? 我还是要推荐下我自己创建的大数据资料分享群142973723,这是大数据学习交流的地方,不管你是小白还是大牛,小编都欢迎,不定期分享干货,包括我整理的一份适合零基础学习大数据资料和入门教程。 大数据通用处理平台 ...[2018/12/3]

大数据-Hadoop生态(1)-CentOS6.8的安装,配置和克隆

准备工作 150G及以上的硬盘空间(因为要搭建3个系统组成的集群),cpu尽量i7-7xxx标压以上,内存16G及以上 自行搜索,下载,安装VMWare 准备CentOS6.8的镜像文件 注意:安装虚拟机前必须开启BIOS虚拟化支持   安装CentOS ...[2018/12/3]

spark-2.4.0-hadoop2.7-安装部署

  1. 主机规划 主机名称 IP地址 操作系统 部署软件 运行进程 备注 mini01 172.16.1.11【内网】 10.0.0.11  【外网】 CentOS 7.5 Jdk-8、zookeeper-...[2018/12/3]

spark-2.4.0-hadoop2.7-简单操作

  1. 说明 本文基于:spark-2.4.0-hadoop2.7-高可用(HA)安装部署     2. 启动Spark Shell   在任意一台有spark的机器上执行 1 # --master spark: mini02:7077 连接spar...[2018/12/3]

canvas探照灯效果的示例代码

canvas中的clip()方法用于从原始画布中剪切任意形状和尺寸。一旦剪切了某个区域,则所有之后的绘图都会被限制在被剪切的区域内(不能访问画布上的其他区域) 也可以在使用clip()方法前通过使用save()方法对当前画布区域进行保存,并在以后的任意时间通过restore()方法对其进行恢复...[2018/12/3]

hive函数篇一

hive函数篇一

hive 查看函数: show  functions; desc functions 函数名 1. 时间函数 1.1 时间戳函数 --日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数 select unix_timestamp(); --获得当前时区...[2018/11/30]

大数据入门怎么学习好

数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。 但从狭义上来看,我认为数据科学就是解决三个问题: 1. data pre-proce ing;(数据预处理) 2. data interpretation;(数据解读) 3...[2018/11/27]

分享《Hadoop权威指南(第四版)》中文PDF+英文PDF+源代码 [美]Tom White 王海 华东 刘喻 吕粤海

下载:https: pan.baidu.com 1-p38GRoYpgDrGlq1MPayaA 更多资料:https: www.cnblogs.com/aitf/  [美]Tom White 王海 华东 刘喻 吕粤海 《Hadoop权威指南(第四版)》中文PDF,734页,...[2018/11/25]

HBase基础概念

定义 非关系型分布式列式数据库,支持大数据量查询(百万,上亿行) 概要 数据存储:HDFS 数据计算:MapReduce/Spark 服务协调:Zookeeper 特征 列式存储(列只有一种类型byte[]) 分布式 大数据存储(百万,上亿行; 上万列) 伸缩性,扩展性(列根据业务随意添...[2018/11/25]

HDFS源码文件过大,IDEA打开失败解决方法

问题现象:hadoop 3.1.0源码文件ClientNamenodeProtocolProtos大小4M+,IDEA打开时加载失败,ClientNamenodeProtocolPB报错找不到类。 --------------------------------------------------...[2018/11/25]

学习大数据要从哪些知识点开始入手

比如学hadoop,从哪儿开始学首先要根据你的基本情况而定,如果你就一小白,没有任何开发基础,也没有学过任何开发语言,那就必须先从基础java开始学起(大数据支持很多开发语言,但企业用的最多的还是JAVA),接下来学习数据结构、关系型数据库、linux系统操作,夯实基础之后,再进入大数据的学习...[2018/11/25]

大数据入门:Hadoop安装、环境配置及检测

目录 1.导包Hadoop包 2.配置环境变量 3.把winutil包拷贝到Hadoop bin目录下 4.把Hadoop.dll放到system32下 5.检测Hadoop是否正常安装 5.1在maven项目中检测,将配置文件放入resource包下 5.2然后通过一个简单的wordcount...[2018/11/25]

大数据调错系列之:自己总结的myeclipse连接hadoop会出现的问题

在我们学习或者工作中开始hadoop程序的时候,往往会遇到一个问题,我们写好的程序需要打成包放在集群中运行,这无形中在浪费我们的时间,因为程序可以需要不断的调试,然后把最终程序放在集群中即可。为了解决这个问题,现在我们配置远程连接hadoop,远程调试的方法。 一段程序如下:获取更多大数据视频资...[2018/11/23]

专业的系统学习大数据

学习方式,有很多种,有的人会选择提前去预习,提前去学习,将很多知识都自己去提前学习一步,他将时间用在将来要学的知识上。而有些人则是循序渐进,一步一个脚印的学习,虽然节奏慢,但很稳,大学留给每个人的学习时间都是足够的,只要你能够坚持,也必定能够站在和他人一样的高度。 我还是要推荐下我自己创建的大数据...[2018/11/23]

472
6
记录数:306 页数:5/7首页上一页1234567下一页尾页
 友情链接:直通硅谷  直通硅谷 怎么样 mac软件下载
加载更多