经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
 Spark
RDD和DataFrame和DataSet三者间的区别

RDD和DataFrame和DataSet三者间的区别

在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(S...[2020/5/13]

Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345","4567"),2) rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x +...[2020/5/11]

Spark中Broadcast的理解

广播变量 应用场景:在提交作业后,task在执行的过程中, 有一个或多个值需要在计算的过程中多次从Driver端拿取时,此时会必然会发生大量的网络IO, 这时,最好用广播变量的方式,将Driver端的变量的值事先广播到每一个Worker端, 以后再计算过程中只需要从本地拿取该值即可...[2020/5/11]

Spark读取Mysql,Redis,Hbase数据(一)

Spark读取Mysql,Redis,Hbase数据(一)

1、读取Mysql数据 object JdbcRddDemo { def getConn() = { Cla .forName("com.mysql.jdbc.Driver").newInstance() DriverManager.getConnection(...[2020/5/11]

spark通过kafka-appender指定日志输出到kafka引发的死锁问题

在采用log4j的kafka-appender收集spark任务运行日志时,发现提交到yarn上的任务始终ACCEPTED状态,无法进入RUNNING状态,并且会重试两次后超时。期初认为是yarn资源不足导致,但在确认yarn资源充裕的时候问题依旧,而且基本上能稳定复现。 起初是这么配置spa...[2020/5/8]

apache spark

apache spark

基本介绍 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 。现在形成一个高速发展应用广泛的生态系统。 特点 Spark 主要有三个特点 : 首先,高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。...[2020/4/18]

Spark Streaming 编程入门指南

Spark Streaming 是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。可以从许多数据源(例如Kafka,Flume,Kinesis或TCP sockets)中提取数据,并且可以使用复杂的算法处理数据,这些算法用高级函数表示,如map、reduce...[2020/4/13]

【赵强老师】在Spark SQL中读取JSON文件

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写Ma...[2020/4/7]

Pyspark读取parquet数据过程解析

parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是: 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量;压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间;只读取需要的列,支持向量运算,能够获取更好的扫描性能。 那么...[2020/3/27]

spark计算模型RDD

RDD介绍 1.RDD概念以及特性 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用...[2020/3/23]

sparksql 概述

  什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。     我们已经学习了Hive,它是将Hive SQ...[2020/3/11]

什么是spark?

  什么是Spark?  Spark官网:http: park.apache.org Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014...[2020/3/9]

Spark 单机环境配置

概要 Spark 单机环境配置 JDK 环境配置 Spark 环境配置 python 环境配置 Spark 使用示例 示例代码 (order_stat.py) 测试用的 csv 文件内容 (orders.csv) 运行结果 概要 大数据和人工智能已经宣传了好多年, Hadoo...[2020/3/3]

一条Sql的Spark之旅

一条Sql的Spark之旅

背景 ? SQL作为一门标准的、通用的、简单的DSL,在大数据分析中有着越来越重要的地位;Spark在批处理引擎领域当前也是处于绝对的地位,而Spark2.0中的SparkSQL也支持ANSI-SQL 2003标准。因此SparkSQL在大数据分析中的地位不言而喻。 本文将通过分析一条S...[2020/2/26]

Ambari HDP 下 SPARK2 与 Phoenix 整合

Ambari HDP 下 SPARK2 与 Phoenix 整合

1、环境说明 操作系统 CentOS Linux release 7.4.1708 (Core) Ambari 2.6.x HDP 2.6.3.0 Spark 2.x Phoenix 4.10.0-HBase-1.2 2、条件 HBase 安装完成 P...[2020/2/24]

Spark内存管理

1、spark的一大特性就是基于内存计算,Driver只保存任务的宏观性的元数据,数据量较小,且在执行过程中基本不变,不做重点分析,而真正的计算任务Task分布在各个Executor中,其中的内存数据量大,且会随着计算的进行会发生实时变化,所以Executor的内存管理才分析的重点。 ...[2020/2/24]

Spark组件间通信

1、Spark组件之间使用RPC机制进行通信。RPC的客户端在本地编写并调用业务接口,接口在本地通过RPC框架的动态代理机制生成一个对应的实现类,在这个实现类中完成soket通信、远程调用等功能的逻辑包装,而在RPC的服务端既编写业务接口也编写了具体的业务实现类,通过RPC框架以接口的方...[2020/2/24]

SparkShuffle机制

在早期版本的Spark中,shuffle过程没有磁盘读写操作,是纯内存操作,后来发现效率较低,且极易引发OOME,较新版本的Shuffle操作都加入了磁盘读写进行了改进。 1、未经优化的HashShuffleManager:上一个stage中每一个task会对下一个stage的每一个t...[2020/2/24]

Spark基础和RDD

spark 1. Spark的四大特性 速度快 spark比mapreduce快的两个原因 基于内存 1. mapreduce任务后期在计算的是时候,每一个job的输出结果都会落地到磁盘,后续有其他的job要依赖于前面job的输出结果,这个时候就需要进行大量的磁盘io操作...[2020/2/12]

「Spark」Spark SQL Thrift Server运行方式

Spark SQL可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。这种模式,用户或者应用程序可以直接与Spark SQL交互,以运行SQL查询,无需编写任何代码。 Spark SQL提供两种方式来运行SQL:通过运行Thrift Server直接执行Spark SQL命令行运行...[2020/2/12]

Spark调优指南

Spark相关问题 Spark比MR快的原因? 1) Spark的计算结果可以放入内存,支持基于内存的迭代,MR不支持。 2) Spark有DAG有向无环图,可以实现pipeline的计算模式。 3) 资源调度模式:Spark粗粒度资源调度,MR是...[2020/1/3]

Spark Streaming vs. Structured Streaming

简介 Spark Streaming Spark Streaming是spark最初的流处理框架,使用了微批的形式来进行流处理。 提供了基于RDDs的Dstream API,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算 Structured Streaming...[2019/12/23]

spark-3.0 application 调度算法解析

spark-3.0 application 调度算法解析

spark 各个版本的application 调度算法还是有这明显的不同之处的。从spark1.3.0 到 spark 1.6.1、spark2.0 到 现在最新的spark 3.0 ,调度算法有了一定的修改。下面大家一起学习一下,最新的spark 版本spark-3.0的Applica...[2019/12/5]

spark-3.0 Application 调度算法解析

spark 各个版本的application 调度算法还是有这明显的不同之处的。从spark1.3.0 到 spark 1.6.1、spark2.x 到 现在最新的spark 3.x ,调度算法有了一定的修改。下面大家一起学习一下,最新的spark 版本spark-3.0的Applica...[2019/12/4]

理解Spark SQL(三)—— Spark SQL程序举例

理解Spark SQL(三)—— Spark SQL程序举例

上一篇说到,在Spark 2.x当中,实际上SQLContext和HiveContext是过时的,相反是采用SparkSe ion对象的sql函数来操作SQL语句的。使用这个函数执行SQL语句前需要先调用DataFrame的createOrReplaceTempView注册一个临时表,所...[2019/11/26]

spark利用yarn提交任务报:YARN application has exited unexpectedly with state UNDEFINED

spark利用yarn提交任务报:YARN application has exited unexpectedly with state UNDEFINED

spark用yarn提交任务会报ERROR cluster.YarnClientSchedulerBackend: YARN application has exited unexpectedly with state UNDEFINED! Check the YARN applicat...[2019/11/22]

理解Spark SQL(二)—— SQLContext和HiveContext

理解Spark SQL(二)—— SQLContext和HiveContext

使用Spark SQL,除了使用之前介绍的方法,实际上还可以使用SQLContext或者HiveContext通过编程的方式实现。前者支持SQL语法解析器(SQL-92语法),后者支持SQL语法解析器和HiveSQL语法解析器,默认为HiveSQL语法解析器,用户可以通过配置切换成SQL...[2019/11/22]

理解Spark SQL(一)—— CLI和ThriftServer

理解Spark SQL(一)—— CLI和ThriftServer

Spark SQL主要提供了两个工具来访问hive中的数据,即CLI和ThriftServer。前提是需要Spark支持Hive,即编译Spark时需要带上hive和hive-thriftserver选项,同时需要确保在$SPARK_HOME/conf目录下有hive-site.xml配...[2019/11/21]

理解Spark运行模式(三)(STANDALONE和Local)

前两篇介绍了Spark的yarn client和yarn cluster模式,本篇继续介绍Spark的STANDALONE模式和Local模式。 下面具体还是用计算PI的程序来说明,examples中该程序有三个版本,分别采用Scala、Python和Java语言编写。本次用Java程...[2019/11/20]

Apache Spark 3.0 预览版正式发布,多项重大功能发布

Apache Spark 3.0 预览版正式发布,多项重大功能发布

2019年11月08日 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0 预览版正式发布,这个版本主要是为了对即将发布的 Apache Spark 3.0 版本进行大规模社区测试。无论是从 API 还是从功能上来说,这个预览版都不是一个...[2019/11/19]

理解Spark运行模式(一)(Yarn Client)

Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种,其中最为常见的是YARN运行模式,它又可分为Client模式和Cluster模式。这里以Spark自带的SparkPi来说明这些运行模式。 本文作为第一篇,先结合SparkPi程序来...[2019/11/19]

理解Spark运行模式(二)(Yarn Cluster)

上一篇说到Spark的yarn client运行模式,它与yarn cluster模式的主要区别就是前者Driver是运行在客户端,后者Driver是运行在yarn集群中。yarn client模式一般用在交互式场景中,比如spark shell, spark sql等程序,但是该模式下...[2019/11/19]

Spark Streaming任务延迟监控及告警

概述 StreamingListener 是针对spark streaming的各个阶段的事件监听机制。 StreamingListener接口 需要监听spark streaming中各个阶段的事件只需实现这个特质中对应的事件函数即可 本身既有注释说明 trait Streami...[2019/11/4]

1-Spark-1-性能调优-数据倾斜1-特征/常见原因/后果/常见调优方案

数据倾斜特征:个别Task处理大部分数据 后果:1.OOM;2.速度变慢,甚至变得慢的不可接受 常见原因: 数据倾斜的定位: 1.WebUI(查看Task运行的数据量的大小)。 2.Log,查看log中哪一行出现OOM,查找具体哪个Stage,进而确定哪一个shuff...[2019/9/26]

Spark学习笔记3——RDD(下)

目录 Spark学习笔记3——RDD(下) 向Spark传递函数 通过匿名内部类 通过具名类传递 通过带参数的 Java 函数类传递 通过 lambda ...[2019/9/19]

Spark学习笔记0——简单了解和技术架构

目录 Spark学习笔记0——简单了解和技术架构 什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streami...[2019/9/11]

Spark Scala当中reduceByKey的用法

[学习笔记] /*reduceByKey(function)reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行function的reduce操作(如前所述),因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。 ...[2019/8/15]

Spark和Scala当中的collect方法的用法和例子

[学习笔记] collect: 收集一个弹性分布式数据集的所有元素到一个数组中,这样便于我们观察,毕竟分布式数据集比较抽象。Spark的collect方法,是Action类型的一个算子,会从远程集群拉取数据到driver端。最后,将大量数据 汇集到一个driver节点上,将数据用数组...[2019/8/14]

Spark Scala当中reduceByKey(_+_) reduceByKey((x,y) => x+y)的用法

[学习笔记] reduceByKey(_+_)是reduceByKey((x,y) => x+y)的一个 简洁的形式*/    val rdd08 = sc.parallelize(List((1, 1),  (1, 4),(1, 3), (3, ...[2019/8/14]

Win7 Eclipse 搭建spark java1.8(lambda)环境:WordCount helloworld例子

[学习笔记] Win7 Eclipse 搭建spark java1.8(lambda)环境:WordCount helloworld例子lambda表达式是java8给我们带来的一个重量的新特性,借用lambda表达式可以让我们的程序设计更加简洁。package com;import org....[2019/8/13]

spark学习(9)-spark的安装与简单使用

spark学习(9)-spark的安装与简单使用

spark和mapreduce差不多,都是一种计算引擎,spark相对于MapReduce来说,他的区别是,MapReduce会把计算结果放 在磁盘,spark把计算结果既放在磁盘中有放在内存中,mapreduce把可能会把一个大任务分成多个stage,瓶颈发生在IO,spark有一...[2019/8/12]

Win7 Eclipse 搭建spark java1.8编译环境,JavaRDD的helloworld例子

[学习笔记] Win7 Eclipse 搭建spark java1.8编译环境,JavaRDD的helloworld例子:在eclipse oxygen上创建一个普通的java项目,然后把spark-a embly-1.6.1-hadoop2.6.0.jar这个包导进工程就ok了。p...[2019/8/5]

Spark Scala当中reduceByKey的用法

Spark Scala当中reduceByKey的用法

[学习笔记] reduceByKey(function) reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行function的reduce操作(如前所述),因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。 文章转...[2019/7/30]

Spark的运行流程详解

一、Spark提交应用任务的四个阶段:   总共提交的任务分为四个阶段,提交+执行:   1、在分配完毕executor以后,解析代码生成DAG有向无环图;   2、将生成的DAG图提交给DAGScheduler,这个组件在driver内,DAG...[2019/7/30]

Spark Scala当中reduce的用法和例子

[学习笔记] reduce将RDD中元素前两个传给输入函数,产生一个新的return值,将新产生的return值与RDD中下一个元素(即第三个元素)组成两个元素,再被传给输入函数,这样递归运作,直到最后只有一个值为止。*/    val rdd07 = sc.pa...[2019/7/29]

SparkSql 整合 Hive

    SparkSql整合Hive 需要Hive的元数据,hive的元数据存储在Mysql里,sparkSql替换了yarn,不需要启动yarn,需要启动hdfs 首先你得有hive,然后你得有spark,如果是高可用hadoop还得有zookeeper,还得有dfs(hadoop中的) ...[2019/7/26]

Spark学习一:Spark概述

1.1 什么是Spark ? Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 ? 一站式管理大数据的所有场景(批处理,流处理,sql) ? spark不涉及到数据的存储,只做数据的计算 ? Spark是UC Berkeley AMP lab (加州大学伯克利分校的...[2019/7/25]

SparkStreaming 整合kafka Demo

  这里使用的是低级API,因为高级API非常不好用,需要繁琐的配置,也不够自动化,却和低级API的效果一样,所以这里以低级API做演示 你得有zookeeper和kafka 我这里是3台节点主机 架构图 与高级API的区别,简单并行(不需要创造多个输入流,它会...[2019/7/24]

SparkStreaming wordCountDemo基础案例

SparkStreaming wordCountDemo基础案例

  体现sparkStreaming的秒级准实时性,所以我们需要一个能够持续输入数据的东东 1.CentOS上下载nc 创建一个scala工程,导入相关pom依赖 <?xml version="1.0" encoding="UTF-8"?> <...[2019/7/23]

SparkStreaming整合flume

SparkStreaming整合flume 在实际开发中push会丢数据,因为push是由flume将数据发给程序,程序出错,丢失数据。所以不会使用不做讲解,这里讲解poll,拉去flume的数据,保证数据不丢失。 1.首先你得有flume 比如你有:【如果没有请走这篇:搭建flume集群...[2019/7/23]

390
2
记录数:112 页数:1/3123下一页尾页
加载更多
 友情链接: NPS