经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
 Spark

Spark学习笔记3——RDD(下)

目录 Spark学习笔记3——RDD(下) 向Spark传递函数 通过匿名内部类 通过具名类传递 通过带参数的 Java 函数类传递 通过 lambda ...[2019/9/19]

Spark学习笔记0——简单了解和技术架构

目录 Spark学习笔记0——简单了解和技术架构 什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streami...[2019/9/11]

Spark Scala当中reduceByKey的用法

[学习笔记] /*reduceByKey(function)reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行function的reduce操作(如前所述),因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。 ...[2019/8/15]

Spark和Scala当中的collect方法的用法和例子

[学习笔记] collect: 收集一个弹性分布式数据集的所有元素到一个数组中,这样便于我们观察,毕竟分布式数据集比较抽象。Spark的collect方法,是Action类型的一个算子,会从远程集群拉取数据到driver端。最后,将大量数据 汇集到一个driver节点上,将数据用数组...[2019/8/14]

Spark Scala当中reduceByKey(_+_) reduceByKey((x,y) => x+y)的用法

[学习笔记] reduceByKey(_+_)是reduceByKey((x,y) => x+y)的一个 简洁的形式*/    val rdd08 = sc.parallelize(List((1, 1),  (1, 4),(1, 3), (3, ...[2019/8/14]

Win7 Eclipse 搭建spark java1.8(lambda)环境:WordCount helloworld例子

[学习笔记] Win7 Eclipse 搭建spark java1.8(lambda)环境:WordCount helloworld例子lambda表达式是java8给我们带来的一个重量的新特性,借用lambda表达式可以让我们的程序设计更加简洁。package com;import org....[2019/8/13]

spark学习(9)-spark的安装与简单使用

spark和mapreduce差不多,都是一种计算引擎,spark相对于MapReduce来说,他的区别是,MapReduce会把计算结果放 在磁盘,spark把计算结果既放在磁盘中有放在内存中,mapreduce把可能会把一个大任务分成多个stage,瓶颈发生在IO,spark有一...[2019/8/12]

Win7 Eclipse 搭建spark java1.8编译环境,JavaRDD的helloworld例子

[学习笔记] Win7 Eclipse 搭建spark java1.8编译环境,JavaRDD的helloworld例子:在eclipse oxygen上创建一个普通的java项目,然后把spark-a embly-1.6.1-hadoop2.6.0.jar这个包导进工程就ok了。p...[2019/8/5]

Spark Scala当中reduceByKey的用法

[学习笔记] reduceByKey(function) reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行function的reduce操作(如前所述),因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。 文章转...[2019/7/30]

Spark的运行流程详解

一、Spark提交应用任务的四个阶段:   总共提交的任务分为四个阶段,提交+执行:   1、在分配完毕executor以后,解析代码生成DAG有向无环图;   2、将生成的DAG图提交给DAGScheduler,这个组件在driver内,DAG...[2019/7/30]

Spark Scala当中reduce的用法和例子

[学习笔记] reduce将RDD中元素前两个传给输入函数,产生一个新的return值,将新产生的return值与RDD中下一个元素(即第三个元素)组成两个元素,再被传给输入函数,这样递归运作,直到最后只有一个值为止。*/    val rdd07 = sc.pa...[2019/7/29]

SparkSql 整合 Hive

    SparkSql整合Hive 需要Hive的元数据,hive的元数据存储在Mysql里,sparkSql替换了yarn,不需要启动yarn,需要启动hdfs 首先你得有hive,然后你得有spark,如果是高可用hadoop还得有zookeeper,还得有dfs(hadoop中的) ...[2019/7/26]

Spark学习一:Spark概述

1.1 什么是Spark ? Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 ? 一站式管理大数据的所有场景(批处理,流处理,sql) ? spark不涉及到数据的存储,只做数据的计算 ? Spark是UC Berkeley AMP lab (加州大学伯克利分校的...[2019/7/25]

SparkStreaming 整合kafka Demo

  这里使用的是低级API,因为高级API非常不好用,需要繁琐的配置,也不够自动化,却和低级API的效果一样,所以这里以低级API做演示 你得有zookeeper和kafka 我这里是3台节点主机 架构图 与高级API的区别,简单并行(不需要创造多个输入流,它会...[2019/7/24]

SparkStreaming wordCountDemo基础案例

  体现sparkStreaming的秒级准实时性,所以我们需要一个能够持续输入数据的东东 1.CentOS上下载nc 创建一个scala工程,导入相关pom依赖 <?xml version="1.0" encoding="UTF-8"?> <...[2019/7/23]

SparkStreaming整合flume

SparkStreaming整合flume 在实际开发中push会丢数据,因为push是由flume将数据发给程序,程序出错,丢失数据。所以不会使用不做讲解,这里讲解poll,拉去flume的数据,保证数据不丢失。 1.首先你得有flume 比如你有:【如果没有请走这篇:搭建flume集群...[2019/7/23]

Spark的lazy特性有什么意义呢?

  [学习笔记] Spark通过lazy特性有什么意义呢? Spark通过lazy特性,可以进行底层的spark应用执行的优化。在生活中,就像三思而后行。谋定而后动。 文章转载自原文:https: blog.csdn.net/qq_44596980/article/detai...[2019/7/22]

centos 7 cloudera-manager5.16.2,CDH5.16.2安装升级spark2.4.0

1.在已经安装好系统的linux服务器上关闭selinux和iptables 2.在所有linux服务器上配置ntp服务并设置ntp时间同步 3.在所有linux服务器上安装好cm和cdh版本所需要对应的java版本 (1).下载java包到/usr/local目录解压 (2).添加jav...[2019/7/15]

java.lang.reflect.InvocationTargetException at shade.com.datastax.spark.connector.google.common.base.Throwables.propagate(Throwables.java160)

org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 29.1 failed 4 times, most recent failure: Lost task 1.3 in stage 2...[2019/7/12]

spark 机器学习 随机森林 实现(二)

通过天气,温度,风速3个特征,建立随机森林,判断特征的优先级结果 天气 温度 风速结果(0否,1是)天气(0晴天,1阴天,2下雨)温度(0热,1舒适,2冷)风速(0没风,1微风,2大风)1 1:0 2:1 3:0结果去打球 1字段:晴天 2字段:温度舒适 3字段:风速没风[hadoop@h201 ...[2019/6/20]

spark 机器学习 随机森林 原理(一)

1.什么是随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决 策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一 类被选择最多,就预测这个...[2019/6/18]

Spark 中的机器学习库及示例

MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道 API。具体来说,主要包括以下几方面的内容: 机器学习算法:常用的学习算法,如...[2019/6/17]

Spark学习笔记

Spark学习笔记

Spark Core 1.1 RDD 概念:The main abstraction Spark provides is a resilient distributed dataset (RDD), which is a collection of elements partitioned a...[2019/6/17]

spark 机器学习 决策树 原理(一)

1.什么是决策树  决策树(decision tree)是一个树结构(可以是二叉树或者非二叉树)。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。  其中每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放在一个类别。...[2019/6/14]

PyCharm搭建Spark开发环境实现第一个pyspark程序

PyCharm搭建Spark开发环境实现第一个pyspark程序

一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 ...[2019/6/14]

Spark在Windows下的环境搭建方法

本文主要是讲解Spark在Windows环境是如何搭建的 一、JDK的安装 1、1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略。JDK(全称是JavaTM Platform Standard Edition Development Kit)的安...[2019/6/14]

Spark 中 RDD的运行机制

1. RDD 的设计与运行原理 Spark 的核心是建立在统一的抽象 RDD 之上,基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成,从而在同一个应用程序中完成大数据计算任务。 在实际应用中,存在许多迭代式算法和交互式数据挖掘工具,这些应用场景的共同之处在于不同计算阶段...[2019/6/13]

Linux下搭建Spark 的 Python 编程环境的方法

Spark编程环境 Spark 可以独立安装使用,也可以和Hadoop 一起安装使用。在安装 Spark 之前,首先确保你的电脑上已经安装了 Java 8 或者更高的版本。 Spark 安装 访问 Spark 下载页面 ,并选择最新版本的 Spark 直接下载,当前的最新版本是...[2019/6/13]

spark 机器学习 朴素贝叶斯 实现(二)

已知10月份10-22日网球场地,会员打球情况通过朴素贝叶斯算法,预测23,24号是否适合打网球。结果,日期,天气 温度 风速结果(0否,1是)天气(0晴天,1阴天,2下雨)温度(0热,1舒适,2冷)风速(0没风,1微风,2大风)训练数据vi p1.txt1,20181010,0 1 00,201...[2019/6/12]

Spark 的 python 编程环境

Spark编程环境 Spark 可以独立安装使用,也可以和 Hadoop 一起安装使用。在安装 Spark 之前,首先确保你的电脑上已经安装了 Java 8 或者更高的版本。 Spark 安装 访问Spark 下载页面,并选择最新版本的 Spark 直接下载,当前的最新版本是 2.4.2 。下载...[2019/6/12]

详解如何使用Spark和Scala分析Apache访问日志

安装 首先需要安装好Java和Scala,然后下载Spark安装,确保PATH 和JAVA_HOME 已经设置,然后需要使用Scala的SBT 构建Spark如下: $ sbt bt a embly 构建时间比较长。构建完成后,通过运行下面命令确证安装成功: ...[2019/6/12]

spark 机器学习 朴素贝叶斯 原理(一)

朴素贝叶斯算法仍然是流行的挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假...[2019/6/10]

【大数据】SparkSql 连接查询中的谓词下推处理 (二)

【大数据】SparkSql 连接查询中的谓词下推处理 (二)

本文首发于 vivo互联网技术 微信公众号 https: mp.weixin.qq.com II48YxGfoursKVvdAXYbVg作者:李勇 目录:1.左表 join 后条件下推2.左表join中条件不下推3.右表join中条件下推4.右表join中条件不下推5.总结 在...[2019/6/4]

spark任务分配----TaskSchedulerImpl源码解析

TaskSchedulerImpl 上一篇讲到DAGScheduler根据shuffle依赖对作业的整个计算链划分成多个stage之后,就开始提交最后一个ResultStage,而由于stage之间的依赖关系,实际上最终是循着计算链从上到下依次提交stage的。每提交一个stage,就会将这个st...[2019/6/3]

spark 机器学习 knn 代码实现(二)

spark 机器学习 knn 代码实现(二)

通过knn 算法规则,计算出s2表中的员工所属的类别原始数据:某公司工资表 s1(训练数据)格式:员工ID,员工类别,工作年限,月薪(K为单位)       101       ...[2019/5/28]

【大数据】SparkSql 连接查询中的谓词下推处理 (一)

本文首发于 vivo互联网技术 微信公众号 https: mp.weixin.qq.com YPN85WBNcnhk8xKjTPTa2g 作者:李勇 目录: 1.SparkSql 2.连接查询和连接条件 3.谓词下推 4.内连接查询中的谓词下推规则 4...[2019/5/15]

在Ubuntu里搭建spark环境

注意:1.搭建环境:Ubuntu64位,Linux(也有Windows的,我还没空试)       2.一般的配置jdk、Scala等的路径环境是在/etc/profile里配置的,我自己搭建的时候发现我自己在profile配置环境会有问题,比如说:我配置了spa...[2019/5/9]

spark 机器学习 knn原理(一)

1.knnK最近邻(k-Nearest  Neighbor,KNN)分类算法,在给定一个已经做好分类的数据集之后,k近邻可以学习其中的分类信息,并可以自动地给未来没有分类的数据分好类。我们可以把用户分为两类:“高信誉用户”和“低信誉用户”,...[2019/5/7]

spark 机器学习 ALS原理(一)

1.线性回归模型线性回归是统计学中最常用的算法,当你想表示两个变量间的数学关系时,就可以用线性回归。当你使用它时,你首先假设输出变量(相应变量、因变量、标签)和预测变量(自变量、解释变量、特征)之间存在的线性关系。(自变量是指:研究者主动操纵,而引起因变量发生变化的因素或条件,因此自变量被看作是因...[2019/5/6]

spark 机器学习基础 数据类型

spark的机器学习库,包含常见的学习算法和工具如分类、回归、聚类、协同过滤、降维等使用算法时都需要指定相应的数据集,下面为大家介绍常用的spark ml 数据类型。1.本地向量(Local Vector)存储在单台机器上,索引采用0开始的整型表示,值采用Double类型的值表示。Spark ML...[2019/4/28]

数据源

数据源之json val jsonPath = "" spark.read.json(jsonPath) 方式一 spark.read.format("json").load(jsonPath) 方式二 数据源之parquet ...[2019/4/26]

spark2.4 分布式安装

一.Spark2.0的新特性Spark让我们引以为豪的一点就是所创建的API简单、直观、便于使用,Spark 2.0延续了这一传统,并在两个方面凸显了优势:  1、标准的SQL支持;  2、数据框(DataFrame)/Dataset (数据集)API的统一。  在SQL方面,我们已经对Spark...[2019/4/23]

spark-windows(含eclipse配置)下本地开发环境搭建

spark-windows(含eclipse配置)下本地开发环境搭建

spark-windows(含eclipse配置)下本地开发环境搭建   >>>>>>注意:这里忽略JDK的安装,JDK要求是1.8及以上版本,请通过 java  –version查看。 一、spark命令行环境搭建 ...[2019/4/17]

SparkSQL执行时参数优化

近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力. 发现根本原因在于sparkSQL配置有诸多问题,解决后总结出来就当抛砖引玉了. 具体现象 内存CPU比例失调 一个Spark任务消耗 120(executor)*4G = 48...[2019/4/1]

Spark初步 从wordcount开始

Spark初步 从wordcount开始

Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅。 准备工作 把README.md文件复制到当前的文件目录,启动jupyter,编写我们的代码。 README.md文件在Spa...[2019/4/1]

我的Spark SQL单元测试实践

最近加入一个Spark项目,作为临时的开发人员协助进行开发工作。该项目中不存在测试的概念,开发人员按需求进行编码工作后,直接向生产系统部署,再由需求的提出者在生产系统检验程序运行结果的正确性。在这种原始的工作方式下,产品经理和开发人员总是在生产系统验证自己的需求、代码。可以想见,各种直接交给用户的...[2019/3/22]

spark上的一些常用命令(一)

spark上的一些常用命令(一)

1. 加速跑 spark-sql --name uername --num-executors 21 --driver-memory 8G --executor-memory 8G 2. 上传数据 建表 create table xxx_yyy ( userid ...[2019/3/19]

使用Python的Mock库进行PySpark单元测试

测试是软件开发中的基础,它经常被数据开发者忽视,但是它很重要。在本文中会展示如何使用Python的uniittest.mock库,对一段PySpark代码进行测试。笔者会从数据科学家的视角来进行工作,这意味着本文将不会深入某些软件开发的细节。 本文链接:https: www.cnblogs.c...[2019/3/12]

Spark2.1.0——内置Web框架详解

Spark2.1.0——内置Web框架详解   任何系统都需要提供监控功能,否则在运行期间发生一些异常时,我们将会束手无策。也许有人说,可以增加日志来解决这个问题。日志只能解决你的程序逻辑在运行期的监控,进而发现Bug,以及提供对业务有帮助的调试信息。当你的JVM进程奔溃...[2019/3/1]

Spark Streaming简介及原理

简介: SparkStreaming是一套框架。 SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。 支持多种数据源获取数据: Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入...[2019/2/28]

390
2
记录数:78 页数:1/212下一页尾页
加载更多