经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
 Hadoop

Hadoop_简介_01

1. Apache Hadoop   1.1 Hadoop介绍     Hadoop是Apache旗下的一个用java语言实现的开源软件框架, 是一个开发和运行处理大规模数据的软件平台. 允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理. Hadoop不会跟某种具体...[2019/12/2]

hadoop搭建的前期准备

    这个hadoop的搭建是以比赛前的练习为目的的,所以我直接以root用户来搭建hadoop,主要也是方便我自己以后复习用的   需要的软件:vmware15.5,xshell6,xftp6,jdk  Linux:centos7.4 1,创建主机      在虚拟机中...[2019/11/25]

Hive表的几种存储格式

Hive表的几种存储格式

Hive的文件存储格式: textFile     textFile为默认格式     存储方式:行存储         缺点:磁盘开销大;数据解析开销大;压缩的text文件,hive无法进行合并和拆分 sequencefile     二进制文件,以...[2019/11/21]

分享一份关于Hadoop2.2.0集群环境搭建文档

目录 一,准备环境 三,克隆VM 四,搭建集群 五,Hadoop启动与测试 六,安装过程中遇到的问题及其解决方案 一,准备环境 PC基本配...[2019/11/15]

Hive数据仓库你了解了吗

在工作中我们经常使用的数据库,数据库一般存放的我们系统中常用的数据,一般为百万级别。如果数据量庞大,达到千万级、亿级又需要对他们进行关联运算,该怎么办呢? 前面我们已经介绍了HDFS和MapReduce了,它俩结合起来能够进行各种运算,可是MapReduce的学习成本太高了,如果有一种...[2019/11/12]

centos6.8下hadoop3.1.1完全分布式安装指南

前述:这篇文档是建立在三台虚拟机相互ping通,防火墙关闭,hosts文件修改,SSH 免密码登录,主机名修改等的基础上开始的。 一.传入文件 1.创建安装目录 mkdir /usr/local oft   2.打开xftp,找到对应目录,将所需安装包传入进...[2019/11/4]

HDFS常用API操作 和 HDFS的I/O流操作

HDFS常用API操作 和 HDFS的I/O流操作

前置操作 创建maven工程,修改pom.xml文件: <project xmlns="http: maven.apache.org/POM/4.0.0" xmlns:xsi="http: www.w3.org/2001/XMLSchema-instance" xsi:s...[2019/10/31]

xshell5运行hadoop集群

---恢复内容开始--- 1.CentOS主机配置 在配置Hadoop过程中,防火墙必须优先关闭SELinux,否则将影响后续Hadoop配置与使用,命令如下: # 查看 “系统防火墙” 状态命令 systemctl status firewall...[2019/10/31]

数据存储检索之B+树和LSM-Tree

作为一名应用系统开发人员,为什么要关注数据内部的存储和检索呢?首先,你不太可能从头开始实现一套自己的存储引擎,往往需要从众多现有的存储引擎中选择一个适合自己应用的存储引擎。因此,为了针对你特定的工作负载而对数据库调优时,最好对存储引擎的底层机制有一个大概的了解。 今天我们就先来了解...[2019/10/21]

一文读懂大数据计算框架与平台 (转) - IT-Evan

一文读懂大数据计算框架与平台 (转) - IT-Evan

1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式...[2019/10/17]

云计算的专业术语大整集

当今,各厂商对云计算的定义不一,云计算的标准更是各行其道。在这云计算的混战时代,产生的有关云计算的术语更是目不暇接,整个IT界似乎正在迎来一个云计算术语爆炸的时代,其中有关于云计算概念本身,也有关于厂商的云策略和云产品的。小编通过对现有的云计算资料进行梳理,列出了60多条云计算相关的术语...[2019/10/12]

大数据集群环境搭建之一 hadoop-ha高可用安装

大数据集群环境搭建之一 hadoop-ha高可用安装

1、如果你使用root用户进行安装。 vi /etc/profile 即可 系统变量 2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量 export HADOOP_HOME=/export erver hadoop-2.8.5 export PATH=...[2019/10/11]

知识图谱在大数据中的应用

随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。在一项任务中,只要有关系分析的需求,...[2019/10/11]

Hbase入门(四)——表结构设计-RowKey

Hbase的表结构设计与关系型数据库有很多不同,主要是Hbase有Rowkey和列族、timestamp这几个全新的概念,如何设计表结构就非常的重要。 创建 Hbase就是通过 表 Rowkey 列族 timestamp确定一行数据。 这与关系型数据库完全不同: 属性 ...[2019/10/8]

【hadoop】hadoop3.2.0应用环境搭建与使用指南

【hadoop】hadoop3.2.0应用环境搭建与使用指南

下面列出我搭建hadoop应用环境的文章整理在一起,不定期更新,供大家参考,互相学习!!! 杂谈篇: 【英语学习】 Re-pick up English for learning big data (not updated regularly) 【转】大数据工程师需要学习哪...[2019/10/8]

Hbase入门(三)——数据模型

Hbase入门(三)——数据模型

Hbase最核心但也是最难理解的就是数据模型,由于与传统的关系型数据库不同,虽然Hbase也有表(Table),也有行(Row)和列(Column),但是与关系型数据库不同的是Hbase有一个列族(Column Family)的概念,它将一列或者多列组织在一起,HBase必须属于某一...[2019/9/30]

Hbase入门(二)——安装与配置

Hbase入门(二)——安装与配置

本文讲述如何安装,部署,启停HBase集群,如何通过命令行对Hbase进行基本操作。 并介绍Hbase的配置文件。 在安装前需要将所有先决条件安装完成。 一、先决条件 1、JDK 和Hadoop一样,Hbase需要JDK1.6或者更高的版本,所以请安装好JDK并配置环境变量...[2019/9/30]

MapReduce之Job提交流程源码和切片源码分析

MapReduce之Job提交流程源码和切片源码分析

hadoop2.7.2 MapReduce Job提交源码及切片源码分析 首先从waitForCompletion函数进入 boolean result = job.waitForCompletion(true); /** * Submit t...[2019/9/30]

HDFS笔记

HDFS 基于流数据模式访问和处理超大文件的需求而开发的。 HDFS不适合的应用类型 低延时的数据访问  HDFS是为高吞吐数据传输设计的,因此可能牺牲延时HBase更适合低延时的数据访问。 大量小文件  文件的元数据保存在Name...[2019/9/29]

浅谈HDFS(二)之NameNode与SecondaryNameNode

NN与2NN工作机制 思考:NameNode中的元数据是存储在哪里的? 假设存储在NameNode节点的硬盘中,因为经常需要随机访问和响应客户请求,必然效率太低,所以是存储在内存中的 但是,如果存储在内存中,一旦断电,元数据丢失,整个集群便无法工作,因此会在硬盘中产生备份元数据的F...[2019/9/29]

浅谈HDFS(三)之DataNote

DataNode工作机制 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 Da...[2019/9/29]

Hive sampling 语法之TABLESAMPLE用法理解

官网关于LanguageManual Sampling的教程,部分截图如下,这里主要分享对TABLESAMPLE(BUCKET 3 OUT OF 16 ON id)子句的理解 ? 官网中假设创建表时设置了 CLUSTERED BY(id) INTO 32 BUCKETS 即分成了...[2019/9/27]

Hbase入门(一)——初识Hbase

本文将介绍大数据的知识和Hbase的基本概念,作为大数据体系中重要的一员,Hbase弥补了Hadoop只能离线批处理的不足,支持存储小文件,随机检索。而这种特性使得Hbase对于实时计算体系的事件存储有天然的较好的支持。这使得Hbase在实时流式计算中也扮演者重要的角色。 1、大...[2019/9/24]

理解大数据

一.什么是大数据   大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据...[2019/9/23]

大数据技术原理与运用知识

一·大数据概述 随着信息技术发展的巨大变革,企业和学术机构纷纷加大技术、资金和人员投入,加强对大数据关键技术的研发与运用。 大数据的发展历程总体上划分为三个重要阶段:萌芽期、成熟期和大规模应用期。   二.大数据概念 大数据的4个特点:数据量大...[2019/9/18]

SQOOP的使用方法

Sqoop是个命令行工具,用来在Hadoop和rdbms之间传输数据。 以Hadoop的角度看待数据流向,从rdbms往Hadoop是导入用sqoop import命令,反之从hadoop往rdbms下发数据用sqoop export命令 以oracle hive为例子,命令举例: s...[2019/9/12]

hadoop 完全分布式搭建总结

hadoop 完全分布式搭建总结

完全分布式--------------- 1.配置文件 [core-site.xml]    hdfs 地址 fs.defaultFS=hdfs: 129:8020/ [hdfs-site.xml] 副本   replication=1 伪分布   replicat...[2019/9/11]

大数据之路【第十二篇】:数据挖掘--NLP文本相似度

一、词频----TF • 假设:如果一个词很重要,应该会在文章中多次出现 • 词频——TF(Term Frequency):一个词在文章中出现的次数 • 也不是绝对的!出现次数最多的是“的”&ldqu...[2019/9/10]

hadoop 伪分布启动-fs格式化

1.独立模式(standalone|local)   nothing!   本地文件系统。   不需要启用单独进程。 2.pesudo(伪分布模式)   等同于完全分布式,只有一个节点。   SSH: (Socket),    public + private   ...[2019/9/10]

Hadoop 完全分布式搭建

搭建环境 https: www.cnblogs.com/YuanWeiBlogger/p/11456623.html 修改主机名------------------- 1./etc/hostname   s129 2./etc/hosts   127.0.0.1 localh...[2019/9/10]

大数据之路【第十三篇】:数据挖掘---中文分词

一、数据挖掘---中文分词 • 一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。• 例如:    – 阿三炒饭店:    – 阿三 / 炒饭 / 店     阿三 /...[2019/9/10]

大数据应用常用打包方式

一、简介 在提交大数据作业到集群上运行时,通常需要先将项目打成 JAR 包。这里以 Maven 为例,常用打包方式如下: 不加任何插件,直接使用 mvn package 打包; 使用 maven-a embly-plugin 插件; 使用 maven-shade-plugin 插件; ...[2019/9/10]

腾讯云+阿里云 搭建hadoop + hbase

腾讯云+阿里云 搭建hadoop + hbase

目录 服务器配置 hadoop hbase JAVA测试 历时两天,踩了无数坑最后搭建成功。。。 准备 两台服务器都安装jdk1.8(最好装在相同路...[2019/9/10]

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)

数据挖掘---推荐算法(Mahout工具) 一、简介 Apache顶级项目(2010.4) Hadoop上的开源机器学习库 可伸缩扩展的 Java库 推荐引擎(协同过滤)、聚类和分类   二、机器学习介绍 通常...[2019/9/10]

hadoop--Unable to load native-hadoop library for your platform解决方法

笔者实验环境:centos 7.4.1708,hadoop-2.6.0-cdh5.14.2. 执行hadoop命令时出现以下告警,不能加载相关库: WARN util.NativeCodeLoader: Unable to load native-hadoop library...[2019/9/2]

hadoop WordCount例子详解。

[学习笔记] 下载hadoop-2.7.4-src.tar.gz,拷贝hadoop-2.7.4-src.tar.gz中hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\...[2019/9/2]

Hbase基本原理

一、hbase是什么  HBase 是一种类似于数据库的存储层,也就是说 HBase 适用于结构化的存储。并且 HBase 是一种列式的分布式数据库,是由当年的 Google 公布的 BigTable 的论文而生。HBase 底层依旧依赖 HDFS 来作为其物理存储。 &...[2019/9/2]

hadoop 安装

hadoop 安装

hadoop 开源软件,可靠的、分布式、可伸缩的框架。 分布在不同主机上的进程协同在一起构成的应用。 大数据解决了两个问题---------------------- 1T = 1024G1P = 1024T1E = 1024P1Z = 1024E1Y = 1024Z1N =...[2019/9/2]

Hadoop RPC机制详解

Hadoop RPC机制详解

     网络通信模块是分布式系统中最底层的模块,他直接支撑了上层分布式环境下复杂的进程间通信逻辑,是所有分布式系统的基础。远程过程调用(RPC)是一种常用的分布式网络通信协议,他允许运行于一台计算机的程序调用另一台计算机的子程序,同时将网络的通信细节隐藏起来,使得用户无需额外地为这个交...[2019/8/30]

Windows用Eclipse来开发hadoop的WordCount的helloworld

[学习笔记] 2.Win7用Eclipse来开发hadoop的WordCount的helloworld网上下载hadoop-eclipse-plugin-2.7.4.jar,将该jar包拷贝到Eclipse安装目录下的dropins文件夹下,我的目录是C:\Users\test\ec...[2019/8/30]

Hadoop的eclipse的插件是怎么安装的?

[学习笔记] 1)网上下载hadoop-eclipse-plugin-2.7.4.jar,将该jar包拷贝到Eclipse安装目录下的dropins文件夹下,我的目录是C:\Users\test\eclipse\jee-oxygen\eclipse\dropins,然后重启Eclip...[2019/8/30]

HDFS介绍~超详细

HDFS(Hadoop Distributed File System)   (1) HDFS--Hadoop分布式文件存储系统   源自于Google的GFS论文,HDFS是GFS的克隆版 HDFS是Hadoop中数据存储和管理的基础 他是一个高容错的...[2019/8/29]

hadoop基本文件配置

[学习笔记] 5)hadoop基本文件配置:hadoop配置文件位于:/etc/hadoop下(etc即:“etcetera”(附加物))core-site.xml:<configuration>     &...[2019/8/29]

hdfs常用命令

[学习笔记] hdfs常用命令:i)防盗版实名手机尾号:73203。 hdfs dfs -mkdir /user 会在hadoop的根目录下创建一个目录。可以通过hdfs dfs -ls / 来查。 ii)在bin目录下,继续:hdfs dfs -put README...[2019/8/29]

Hadoop简介

Hadoop : Hadoop是Apache基金会旗下的一个分布式系统基础架构.主要包括 : 分布式文件系统HDFS,分布式资源管理系统Yarn.可以使得用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的分布式能力进行运算和存储   Hadoop核心构成 &...[2019/8/29]

Hadoop配置环境变量Program~2的用法

Hadoop配置环境变量Program~2的用法

[学习笔记] 3)配置环境变量:(环境变量中的~1,~2,~3的用法)i)JAVA_HOME:注意C:\Program Files目录存在空格,变成C:\Progra~1\Java\jdk1.8.0_144。(注意:长于8个字符的文件名和文件夹名,都被简化成前面6个有效字符,后面~1...[2019/8/28]

HBase 系列(九)——HBase 容灾与备份

一、前言 本文主要介绍 Hbase 常用的三种简单的容灾备份方案,即CopyTable、Export/Import、Snapshot。分别介绍如下: 二、CopyTable 2.1 简介 CopyTable可以将现有表的数据复制到新表中,具有以下特点: 支持时间区间 、row 区间 ...[2019/8/27]

HBase 系列(十)—— HBase 的 SQL 中间层 Phoenix

一、Phoenix简介 Phoenix 是 HBase 的开源 SQL 中间层,它允许你使用标准 JDBC 的方式来操作 HBase 上的数据。在 Phoenix 之前,如果你要访问 HBase,只能调用它的 Java API,但相比于使用一行 SQL 就能实现数据查询,HBase 的 ...[2019/8/27]

HBase 系列(八)——HBase 协处理器

一、简述 在使用 HBase 时,如果你的数据量达到了数十亿行或数百万列,此时能否在查询中返回大量数据将受制于网络的带宽,即便网络状况允许,但是客户端的计算处理也未必能够满足要求。在这种情况下,协处理器(Coproce ors)应运而生。它允许你将业务计算代码放入在 RegionServ...[2019/8/27]

HBase 系列(七)——HBase 过滤器详解

一、HBase过滤器简介 Hbase 提供了种类丰富的过滤器(filter)来提高数据处理的效率,用户可以通过内置或自定义的过滤器来对数据进行过滤,所有的过滤器都在服务端生效,即谓词下推(predicate push down)。这样可以保证过滤掉的数据不会被传送到客户端,从而减轻网络传...[2019/8/26]

472
2
记录数:280 页数:1/6123456下一页尾页
加载更多