经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
 Spark

【大数据】SparkSql 连接查询中的谓词下推处理 (一)

本文首发于 vivo互联网技术 微信公众号 https: mp.weixin.qq.com YPN85WBNcnhk8xKjTPTa2g 作者:李勇 目录: 1.SparkSql 2.连接查询和连接条件 3.谓词下推 4.内连接查询中的谓词下推规则 4...[2019/5/15]

在Ubuntu里搭建spark环境

注意:1.搭建环境:Ubuntu64位,Linux(也有Windows的,我还没空试)       2.一般的配置jdk、Scala等的路径环境是在/etc/profile里配置的,我自己搭建的时候发现我自己在profile配置环境会有问题,比如说:我配置了spa...[2019/5/9]

spark 机器学习 knn原理(一)

1.knnK最近邻(k-Nearest  Neighbor,KNN)分类算法,在给定一个已经做好分类的数据集之后,k近邻可以学习其中的分类信息,并可以自动地给未来没有分类的数据分好类。我们可以把用户分为两类:“高信誉用户”和“低信誉用户”,...[2019/5/7]

spark 机器学习 ALS原理(一)

1.线性回归模型线性回归是统计学中最常用的算法,当你想表示两个变量间的数学关系时,就可以用线性回归。当你使用它时,你首先假设输出变量(相应变量、因变量、标签)和预测变量(自变量、解释变量、特征)之间存在的线性关系。(自变量是指:研究者主动操纵,而引起因变量发生变化的因素或条件,因此自变量被看作是因...[2019/5/6]

spark 机器学习基础 数据类型

spark 机器学习基础 数据类型

spark的机器学习库,包含常见的学习算法和工具如分类、回归、聚类、协同过滤、降维等使用算法时都需要指定相应的数据集,下面为大家介绍常用的spark ml 数据类型。1.本地向量(Local Vector)存储在单台机器上,索引采用0开始的整型表示,值采用Double类型的值表示。Spark ML...[2019/4/28]

数据源

数据源之json val jsonPath = "" spark.read.json(jsonPath) 方式一 spark.read.format("json").load(jsonPath) 方式二 数据源之parquet ...[2019/4/26]

spark2.4 分布式安装

一.Spark2.0的新特性Spark让我们引以为豪的一点就是所创建的API简单、直观、便于使用,Spark 2.0延续了这一传统,并在两个方面凸显了优势:  1、标准的SQL支持;  2、数据框(DataFrame)/Dataset (数据集)API的统一。  在SQL方面,我们已经对Spark...[2019/4/23]

spark-windows(含eclipse配置)下本地开发环境搭建

spark-windows(含eclipse配置)下本地开发环境搭建   >>>>>>注意:这里忽略JDK的安装,JDK要求是1.8及以上版本,请通过 java  –version查看。 一、spark命令行环境搭建 ...[2019/4/17]

SparkSQL执行时参数优化

近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力. 发现根本原因在于sparkSQL配置有诸多问题,解决后总结出来就当抛砖引玉了. 具体现象 内存CPU比例失调 一个Spark任务消耗 120(executor)*4G = 48...[2019/4/1]

Spark初步 从wordcount开始

Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅。 准备工作 把README.md文件复制到当前的文件目录,启动jupyter,编写我们的代码。 README.md文件在Spa...[2019/4/1]

我的Spark SQL单元测试实践

最近加入一个Spark项目,作为临时的开发人员协助进行开发工作。该项目中不存在测试的概念,开发人员按需求进行编码工作后,直接向生产系统部署,再由需求的提出者在生产系统检验程序运行结果的正确性。在这种原始的工作方式下,产品经理和开发人员总是在生产系统验证自己的需求、代码。可以想见,各种直接交给用户的...[2019/3/22]

spark上的一些常用命令(一)

spark上的一些常用命令(一)

1. 加速跑 spark-sql --name uername --num-executors 21 --driver-memory 8G --executor-memory 8G 2. 上传数据 建表 create table xxx_yyy ( userid ...[2019/3/19]

使用Python的Mock库进行PySpark单元测试

测试是软件开发中的基础,它经常被数据开发者忽视,但是它很重要。在本文中会展示如何使用Python的uniittest.mock库,对一段PySpark代码进行测试。笔者会从数据科学家的视角来进行工作,这意味着本文将不会深入某些软件开发的细节。 本文链接:https: www.cnblogs.c...[2019/3/12]

Spark2.1.0——内置Web框架详解

Spark2.1.0——内置Web框架详解   任何系统都需要提供监控功能,否则在运行期间发生一些异常时,我们将会束手无策。也许有人说,可以增加日志来解决这个问题。日志只能解决你的程序逻辑在运行期的监控,进而发现Bug,以及提供对业务有帮助的调试信息。当你的JVM进程奔溃...[2019/3/1]

Spark Streaming简介及原理

Spark Streaming简介及原理

简介: SparkStreaming是一套框架。 SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。 支持多种数据源获取数据: Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入...[2019/2/28]

Spark基础

1 读取本地文件 . park-shell  scala> val textFile=sc.textFile("file: home/hadoop/wordfile1.txt")textFile: org.apache.spark.rdd.RDD[String] = fil...[2019/2/12]

SparkStreaming+Kafka整合

SparkStreaming+Kafka整合   1.需求 使用SparkStreaming,并且结合Kafka,获取实时道路交通拥堵情况信息。   2.目的 对监控点平均车速进行监控,可以实时获取交通拥堵情况信息。相关部门可以对交通拥堵情况采取措施。 e...[2019/1/28]

Spark SQL中列转行(UNPIVOT)的两种方法

行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处。而列转行要稍微麻烦点。本文整理了2种可行的列转行方法,供参考。   本文链接:https: www.cnblogs.com/hhelibeb/p/10310369.h...[2019/1/24]

Spark中的一些概念

最近工作用到Spark,这里记一些自己接触到的Spark基本概念和知识。 本文链接:https: www.cnblogs.com/hhelibeb/p/10288915.html 名词 RDD:在高层,每个Spark应用包含一个driver程序,它运行用户的主函数,在集群上执行不同的并行...[2019/1/21]

Spark-Unit1-spark概述与安装部署

Spark-Unit1-spark概述与安装部署

一、Spark概述   spark官网:spark.apache.org   Spark是用的大规模数据处理的统一计算引擎,它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校AMP实验室。   mapreduce(MR)与spark的对比:     1.MR在计...[2019/1/14]

深入浅出Spark的Checkpoint机制

1 Overview 当第一次碰到 Spark,尤其是 Checkpoint 的时候难免有点一脸懵逼,不禁要问,Checkpoint 到底是什么。所以,当我们在说 Checkpoint 的时候,我们到底是指什么? 网上找到一篇文章,说到 Checkpoint,大概意思是检查点创建一个已知的节点,SQ...[2019/1/11]

Spark WordCount的两种方式

Spark WordCount的两种方式

Spark WordCount的两种方式。 语言:Java 工具:Idea 项目:Java Maven pom.xml如下: <properties> <spark.version>1.2.0</spark.version> ...[2019/1/4]

Spark MemoryManager内存模型

[2018/12/21]

Spark 读取 Hbase 优化 --手动划分 region 提高并行数

一. Hbase 的 region 我们先简单介绍下 Hbase 的 架构和 region : 从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服...[2018/12/17]

Spark SQL,如何将 DataFrame 转为 json 格式

今天主要介绍一下如何将 Spark dataframe 的数据转成 json 数据。用到的是 scala 提供的 json 处理的 api。 用过 Spark SQL 应该知道,Spark dataframe 本身有提供一个 api 可以供我们将数据转成一个 JsonArray,我们可以在 sp...[2018/12/7]

Spark 用户自定义函数 Java 示例

Spark UDF Java 示例 在这篇文章中提到了用Spark做用户昵称文本聚类分析,聚类需要选定K个中心点,然后迭代计算其他样本点到中心点的距离。由于中文文字分词之后(n-gram)再加上昵称允许各个特殊字符(数字、字母、各种符号……),如果直接在原来的文本数据上进行聚类,由于文本的“多样性...[2018/12/3]

Spark Java API 计算 Levenshtein 距离

Spark Java API 计算 Levenshtein 距离 在上一篇文章中,完成了Spark开发环境的搭建,最终的目标是对用户昵称信息做聚类分析,找出违规的昵称。聚类分析需要一个距离,用来衡量两个昵称之间的相似度。这里采用levenshtein距离。现在就来开始第一个小目标,用Spark J...[2018/11/17]

spark 基础开发 Tips总结

spark 基础开发 Tips总结

本篇博客主要是 sparksql 从初始开发注意的一些基本点以及力所能及的可优化部分的介绍:   所使用spark版本:2.0.0       scala版本:2.11.8 1. SparkSe ion的初始化:   val spark...[2018/11/13]

sparksql 基础开发Tips总结

   本篇博客主要是 sparksql 从初始开发注意的一些基本点以及力所能及的可优化部分的介绍:  所使用spark版本:2.0.0     scala版本:2.11.8 1. SparkSe ion的初始化:    &...[2018/11/12]

Spark SQL join的三种实现方式

引言 join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。 对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(Spark...[2018/11/6]

Spark Java API 之 CountVectorizer

Spark Java API 之 CountVectorizer 由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据,而是数值型向量。因此,需要进行转换。而将文本数据转换成数值型的向量有很多种方法,CountVectorizer是其中之一。 A CountVectorize...[2018/11/5]

Spark DataFrame 的 groupBy vs groupByKey

在使用 Spark SQL 的过程中,经常会用到 groupBy 这个函数进行一些统计工作。但是会发现除了 groupBy 外,还有一个 groupByKey(注意RDD 也有一个 groupByKey,而这里的 groupByKey 是 DataFrame 的 ) 。这个 groupByKey ...[2018/11/5]

spark JAVA 开发环境搭建及远程调试

spark JAVA 开发环境搭建及远程调试 以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息。以前折腾过Hadoop,于是看了下Spark官网的文档以及 github 上 官方提供的examples,看完了之后决定动手跑一个文本聚类的demo,于是有了下文。 1....[2018/11/3]

spark RDD,reduceByKey vs groupByKey

Spark 中有两个类似的api,分别是 reduceByKey 和 groupByKey 。这两个的功能类似,但底层实现却有些不同,那么为什么要这样设计呢?我们来从源码的角度分析一下。 先看两者的调用顺序(都是使用默认的Partitioner,即defaultPartitioner) 所用 ...[2018/10/29]

SparkSQL &amp; Scala

Spark SQL重度依赖Scala的语言特性,让SQL编译程序变得简单直接,特别是Spark SQL其核心代码库Tree结构,作者用直接明了的展示了代码,如何完成语法树的操作和变化,包括基于规则的性能优化等,把Scala语言的特性发挥淋漓极致,是学习Spark SQL内核代码的必备教材。 ...[2018/10/18]

加州大学伯克利分校:MapReduce Spark

加州大学伯克利分校的教授,从历史发展的角度,讲述了在超级计算机中如何编程,从而引出风行几十年的MPI编程框架,然后这个框架编程过于复杂,进而演化出了MapReduce模型,这个模型的第一个开源实践版本是Hadoop,Hadoop风光了近10年以后,其中的计算引擎MapReduce被Apache S...[2018/10/18]

spark+phoenix

  phoenix作为查询引擎,为了提高查询效率,为phoenix表创建了二级索引,而数据是sparkstreaming通过hbase api直接向hbase插数据。那么问题来了,对于phoenix的二级索引,直接插入底层hbase的源表,不会引起二级索引的更新,从而导致phoenix索引...[2018/10/16]

Apache Spark开发介绍

Databricks的工程师,Apache Spark Committer介绍了Databricks和Spark的历史,包括了Spark 1.4中的重要特性和进展,涵盖了Spark早期版本的主要功能和使用方法,讲了大数据领域近些年的发展,也介绍了Spark从这些年其它理论或者技术中吸取的灵感,当然...[2018/10/11]

CarbonData 大数据交互式分析实践(spark summit)

CarbonData是一种高性能大数据存储方案,支持快速过滤查找和即席OLAP分析,已在20+企业生产环境上部署应用,其中最大的单一集群数据规模达到几万亿。针对当前大数据领域分析场景需求各异而导致的存储冗余问题,业务驱动下的数据分析灵活性要求越来越高,CarbonData提供了一种新的融合数据存储...[2018/9/26]

Spark Streaming核心概念与编程

1. 核心概念 StreamingContext import org.apache.spark._ import org.apache.spark.streaming._ val conf = new SparkConf().se...[2018/9/25]

Spark 整合ElasticSearch

Spark 整合ElasticSearch

Spark 整合ElasticSearch 因为做用户资料搜索用到了ElasticSearch,最近又了解一下 Spark ML,先来演示一个Spark 读取/写入 ElasticSearch 简单示例。(spark 读取ElasticSearch中数据) 环境:IDEA2016,JDK8,wi...[2018/9/25]

Spark RDD深度解析-RDD计算流程

Spark RDD深度解析-RDD计算流程 摘要  RDD(Resilient Distributed Datasets)是Spark的核心数据结构,所有数据计算操作均基于该结构进行,包括Spark sql 、Spark Streaming。理解RDD有助于了解分布式计算引擎的基本架构,...[2018/9/25]

Spark随机森林实战

1 package big.data.analyse.ml.randomforest 2 3 import org.apache.spark.ml.Pipeline 4 import org.apache.spark.ml.cla ification.{RandomForestCla ...[2018/9/25]

390
2
记录数:43 页数:1/11
加载更多