经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
大数据/云/AI:HadoopApache PigApache KafkaApache StormImpalaZookeeperSASTensorFlow人工智能基础Apache KylinopenstackFlinkMapReduce
 大数据/云/AI

EM算法

1、背景 2、理论 2.1、Jensen不等式 优化理论中,假设 \(f\) 是定义域为实数的函数,如果对于所有的实数 \(x\) ,且二阶导数\(f''(x)\geq 0\) ,则 \(f\) 是凸函数。当 \(x\) 是向量时,如果其He ian矩阵H是半正定的...[2020/1/16]

Neo4j集群容器化部署

集群基本配置(示例) core servers: 10.110.10.11, 10.110.10.12, 10.110.10.13read replicas: 10.110.10.14, 10.110.10.15, 10.110.10.16 Neo4j图数据库分布式架构图:(详细可参考...[2020/1/16]

hdfs/hbase 程序利用Kerberos认证超过ticket_lifetime期限后异常

问题描述 业务需要一个长期运行的程序,将上传的文件存放至HDFS,程序启动后,刚开始一切正常,执行一段时间(一般是一天,有的现场是三天),就会出现认证错误,用的JDK是1.8,hadoop-client,对应的版本是2.5.1,为什么强调这个版本号,因为错误的根本原因就在于版本问题 错误...[2020/1/14]

不只是安装,Kolla 让 OpenStack 运维变简单

使用 kolla 部署的 OpenStack 环境和传统直接安装的环境相比较,因为使用了全容器化部署,基本操作上有很大不同。对于初学者,操作变得更清晰和更简单了,但是如果你已经有了一定的经验,可能反而会不习惯。 本篇文章就以“创建实例”这个最简单的任务,带你掌握最基本最常用的操作。 ...[2020/1/13]

从头学pytorch(十六):VGG NET

VGG AlexNet在Lenet的基础上增加了几个卷积层,改变了卷积核大小,每一层输出通道数目等,并且取得了很好的效果.但是并没有提出一个简单有效的思路. VGG做到了这一点,提出了可以通过重复使?简单的基础块来构建深度学习模型的思路. 论文地址:https: arxiv.org/a...[2020/1/13]

Coursera-吴恩达机器学习课程笔记-Week1

参考资料: 吴恩达教授机器学习课程 机器学习课程中文笔记 Week 1 一. 引言 机器学习模型可分为监督学习Superviese learning(每个数据集给出了正确的值)和无监督学习Unsupervised learning(数据集只有特征,没有对应正确的值) 机器学习处理...[2020/1/13]

Coursera-吴恩达机器学习课程笔记-Week2

参考资料: 吴恩达教授机器学习课程 机器学习课程中文笔记 Week2 一. 多变量线性回归(Linear Regre ion with Multiple Variables) 多变量就时当一个example里有n个特征的情况,将n个特征统一到一个matrix里去看作整体。 多变量线...[2020/1/13]

《2018自然语言处理研究报告》整理(附报告)

2018自然语言处理研究报告整理 这篇文章是阅读AMiner《2018自然语言处理研究报告》前几篇内容整理所得。 一. 自然语言处理概述 自然语言处理就是要计算机理解自然语言,计算机要理解自然语言文本的意义,最后能以自然文本形式来表达意图。处理过程主要是理解、转化、生成。 自然语...[2020/1/13]

萌新深度学习与Pytorch入门记录(一):Win10下环境安装

萌新深度学习与Pytorch入门记录(一):Win10下环境安装

  深度学习从入门到入土,安装软件及配置环境踩了不少坑,过程中参考了多处博主给的解决方法,遂整合一下自己的采坑记录。   (若遇到不一样的错误,请参考其他博主答案解决)   笔者电脑系统为win10系统,在此环境下安装     Pycharm 5.0.3     Anaconda&...[2020/1/13]

《自然语言处理入门》笔记-第1章

自然语言处理又称计算语言学,其目标是让计算机处理或"理解"自然语言,以完成有意义的任务。 自然语言的难度 将自然语言与编程语言对比,直观的的体会自然语言的复杂程度。 自然语言词汇量大 自然语言是非结构化的,编程语言是结构化的 自然语言含有大量歧义 容错性 易变...[2020/1/13]

【tf.keras】使用手册

目录 0. 简介 1. 安装 1.1 安装 CUDA 和 cuDNN 2. 数据集 2.1 使用 tensorflow_datasets 导入公共数据集...[2020/1/13]

tensorflow的计算图总结

tensorflow的计算图总结

计算图 在 TensorFlow 中用计算图来表示计算任务。 计算图,是一种有向图,用来定义计算的结构,实际上就是一系列的函数的组合。 用图的方式,用户通过用一些简单的容易理解的数学函数组件,就可以建立一个复杂的运算 在 TensorFlow 使用图,分为两步:建立计算图 和 执行图 ...[2020/1/13]

从头学pytorch(十五):AlexNet

AlexNet AlexNet是2012年提出的一个模型,并且赢得了ImageNet图像识别挑战赛的冠军.首次证明了由计算机自动学习到的特征可以超越手工设计的特征,对计算机视觉的研究有着极其重要的意义. AlexNet的设计思路和LeNet是非常类似的.不同点主要有以下几点: 激活函...[2020/1/9]

机器学习(05)——主要概念理解

机器学习的专业术语非常多,不需要一开始理解所有的专业术语,这些术语会随着对机器学习的深入,会慢慢理解,水到渠成。 不过在学习的过程中,有一些概念必须要了解,有助于后续的学习与理解,需要了解的核心概念有:监督学习、无监督学习、模型、策略、算法等。 监督学习 监督学习,指的是学习的...[2020/1/9]

openstack自动化搭建脚本

openstack自动化搭建脚本

Openstack平台部署+节点扩容 1)搭建脚本 1 #!/bin/bash 2 #openstack私有云平台部署 3 #脚本使用前提:三台虚拟机openstack(ip地址:192.168.1.10,至少7G内存,50G硬盘),nova01(ip地址:192.168.1...[2020/1/8]

机器学习(03)——技术栈

机器学习(03)——技术栈

(这幅图来自https: github.com/apachecn/ai-roadmap/tree/master/ds-metromap) 从图中可以看到,想要成为一名资深的数据科学家,需要掌握的知识非常多,不过只是入门机器学习,并不需要所有东西都要会,都精通的话就是专家了。 ...[2020/1/8]

信息熵为什么要定义成-Σp*log(p)?

信息熵为什么要定义成-Σp*log(p)? 在解释信息熵之前,需要先来说说什么是信息量。 信息量是对信息的度量,单位一般用bit。 信息论之父克劳德·艾尔伍德·香农(Claude Elwood Shannon?)对信息量的定义如下: 在解释这个公式之前,先看看下面的例子。 ...[2020/1/8]

机器学习在高德用户反馈信息处理中的实践

1.背景作为国内领先的出行大数据公司,高德地图拥有众多的用户和合作厂商,这为高德带来了海量的出行数据,同时通过各个渠道,这些用户也在主动地为我们提供大量的反馈信息,这些信息是需要我们深入挖掘并作用于产品的,是高德地图不断进步和持续提升服务质量的重要手段。 本文将主要介绍针对用户反馈的文...[2020/1/8]

从头学pytorch(十四):lenet

卷积神经网络 在之前的文章里,对28 X 28的图像,我们是通过把它展开为长度为784的一维向量,然后送进全连接层,训练出一个分类模型.这样做主要有两个问题 图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。 对于大尺寸的输入图像,使用全连接层容易造成模...[2020/1/8]

机器学习(04)——常用专业术语

对于机器学习的常用专业术语,我们在开始学习之前,最好大概的看一两次,简单了解一些常识和术语,有了基本了解后,对于后续学习会有很大的帮助。 原文链接:https: developers.google.com/machine-learning/glo ary A A/B ...[2020/1/8]

Hive简介

1.1  Hive简介 1.1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.2 为什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目...[2020/1/8]

Flink入门(五)——DataSet Api编程指南

Apache Flink Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天,Flink正在飞速发展。由于性能的优势和兼顾批处理,流处理的特性,Flink可能正在颠覆整个大数据的生态。 DataSet API 首先要想运行Flink...[2020/1/7]

DL4J之CNN对今日头条文本分类

一、数据集介绍     数据来源:今日头条客户端     数据格式如下: 6551700932705387022_!_101_!_news_culture_!_京城最值得你来场文化之旅的博物馆_!_保利集团,马未都,中国科学技术馆,博物...[2020/1/6]

论文阅读|Focal loss

原文标题:Focal Lo for Dense Object Detection 概要 目标检测主要有两种主流框架,一级检测器(one-stage)和二级检测器(two-stage),一级检测器,结构简单,速度快,但是准确率却远远比不上二级检测器。作者发现主要原因在于前景和背景这两个...[2020/1/6]

Extreme Learning Machine

Extreme Learning Machine 作者:凯鲁嘎吉 - 博客园 http: www.cnblogs.com/kailugaji/     2004年南洋理工大学黄广斌提出了ELM算法。极限学习机(ELM Extreme Learning ...[2020/1/6]

机器学习(01)——机器学习简介

最近在研究机器学习,随手将学习的过程记录下来,方面自己的学习与回顾 1. 机器学习是什么? 机器学习(Machine Learning,ML)是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的一门科学技术。 ...[2020/1/6]

机器学习(02)——学习资料链接

机器学习(02)——学习资料链接

以下是我学习机器学习过程中的部分学习资料,当然除些之外还有更多的文章和视频,实际看了后觉得好多内容都太难,自己目前的数学基础很难理解里面讲解的内容。另外,资料太多反而影响学习效率,很多内容都是重复的,海量的书籍、视频与文章,最终只能作为收藏的一部分,永久的沉睡在云盘里,只能作为心理安慰而...[2020/1/6]

Kafka 集群在马蜂窝大数据平台的优化与应用扩展

马蜂窝技术原创文章,更多干货请订阅公众号:mfwtech   Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐、低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题。 Kafka 在马蜂窝也有非常广泛的应用,为...[2020/1/6]

大数据-HDFS 集群搭建的配置文件

1.HDFS简单版集群搭建相关配置文件   1.core-site.xml文件 1 <property> 2 <name>fs.defaultFS</name> 3 <value>hdfs: hadoop2:9000&...[2020/1/6]

HDFS的HA集群原理分析

1.简单hdfs集群中存在的问题 不能存在两个NameNode 单节点问题   单节点故障转移 2.解决单节点问题 找额外一个NameNode备份原有的数据 会出现脑裂 脑裂:一个集群中多个管理者数据不一致 这种情况称之为脑裂 3.如何解决启动多个NameNod...[2020/1/6]

tensorflow实现打印ckpt模型保存下的变量名称及变量值

有时候会需要通过从保存下来的ckpt文件来观察其保存下来的训练完成的变量值。 ckpt文件名列表:(一般是三个文件) xxxxx.ckpt.data-00000-of-00001 xxxxx.ckpt.index xxxxx.ckpt.meta import os f...[2020/1/6]

Tensorflow读取并输出已保存模型的权重数值方式

Tensorflow读取并输出已保存模型的权重数值方式

这篇文章是为了对网络模型的权重输出,可以用来转换成其他框架的模型。 import tensorflow as tf from tensorflow.python import pywrap_tensorflow #首先,使用tensorflow自带的python打包库读取模型 ...[2020/1/6]

Tensorflow的常用矩阵生成方式

我就废话不多说了,直接上代码吧! #全0和全1矩阵 v1 = tf.Variable(tf.zeros([3,3,3]), name="v1") v2 = tf.Variable(tf.ones([10,5]), name="v2") #填充单值矩阵 v3 ...[2020/1/6]

Tensorflow 实现分批量读取数据

之前的博客里使用tf读取数据都是每次fetch一条记录,实际上大部分时候需要fetch到一个batch的小批量数据,在tf中这一操作的明显变化就是tensor的rank发生了变化,我目前使用的人脸数据集是灰度图像,因此大小是92*112的,所以最开始fetch拿到的图像数据集经过reshape之后...[2020/1/6]

基于TensorFlow常量、序列以及随机值生成实例

TensorFlow 生成 常量、序列和随机值 生成常量 tf.constant()这种形式比较常见,除了这一种生成常量的方式之外,像Numpy一样,TensorFlow也提供了生成集中特殊的常量的函数: tf.zeros(shape, dtype=tf.float32, name...[2020/1/6]

关于tensorflow的几种参数初始化方法小结

在tensorflow中,经常会遇到参数初始化问题,比如在训练自己的词向量时,需要对原始的embeddigs矩阵进行初始化,更一般的,在全连接神经网络中,每层的权值w也需要进行初始化。 tensorlfow中应该有一下几种初始化方法 1. tf.constant_initializ...[2020/1/6]

机器学习系列(二)——分类及回归问题

目录 机器学习基础(二) 3 分类算法 3.1 常用分类算法的优缺点? 3.2 分类算法的评估方法 3.3 正确率能很好的评估分类算法吗 3.4 什么样的...[2020/1/3]

机器学习中的特征工程学习

1. 机器学习的定义 数据 自动分析获取数据 对未知数据仅需预测 2.特征工程意义 意义:会直接的影响机器学习的效果 作用:筛选、处理选择一些合格的特征 3.数据集的构成 平台 scikit-learn 方便学习,数据比较少 kaggle UCI 结构 特征值:事物的一些...[2020/1/2]

Keras的TimeDistributed层

Keras的TimeDistributed层主要用途是在时间维度上进行全连接. 比如Faster RCNN,1张图生成了16个ROI,需要对每一个ROI进行分类和回归,ROI的维度是7×7×512,长度和宽度都是7,512个通道,16个ROI的的维度...[2020/1/2]

Win10 在 CUDA 10.1 下跑 TensorFlow 2.x

深度学习最热的两个框架是 pytorch 和 tensorflow,pytorch 最新版本是 1.3,tensorflow 最新版本为 2.0,在 win10 下 pytorch 1.3 要求的 cuda 最高版本是 10.1...[2020/1/2]

概率统计13——二项分布与多项分布

原文 | https: mp.weixin.qq.com bOchsmHTINKKlyabCQKMSg 相关阅读 最大似然估计(概率10) 寻找“最好”(3)函数和泛函的拉格朗日乘数法 伯努利分布   如果随机试验仅有两个可能的结果,那...[2019/12/30]

自然语言处理(上交赵海老师)学习笔记之一:概要

一、自然语言处理的对象:文字(信息来源:图象、语音和文字)。 二、先修课程: 数学分析 概率论与数理统计 线向代数 解析几何 数据结构与算法基础 编程语言:C/C++、python 机器学习基础 三、自然语言概念 自然语言就是人类的语言,如英语、汉语等。 与计算机编程语言不同,...[2019/12/30]

机器学习 - Python 02

好了,咱们接着上一节的内容,继续学习机器学习中的Python语法部分。这一节算是Python语法的最后一节了。也就是说如果真的看懂了这两节的内容,理论上说就机器学习的领域或者方向,语言已经不是问题了。同时也意味着马上真正的进入机器学习的核心部分了。好了,那咱们接下来正式开始咱们的学习啦。...[2019/12/30]

Pandas 性能优化 学习笔记 - tac-kit

摘要 本文介绍了使用 Pandas 进行数据挖掘时常用的加速技巧。 实验环境 import numpy as np import pandas as pd print(np.__version__) print(pd.__version__) 1.16.5 0.25.2 性能分析工具...[2019/12/30]

Hadoop学习之路(7)MapReduce自定义排序

Hadoop学习之路(7)MapReduce自定义排序

本文测试文本: t...[2019/12/30]

ZooKeeper启动报错:My id 3 not in the peer list

错误描述: 解...[2019/12/30]

Hadoop学习之路(9)ZooKeeper安装

文章目录1、环境准备...[2019/12/30]

Hadoop学习之路(8)Yarn资源调度系统详解

文章目录1、Yarn...[2019/12/30]

贝叶斯决策理论(1)

  数据来自于一个不完全清楚的过程。以投掷硬币为例,严格意义上讲,我们无法预测任意一次投硬币的结果是正面还是反面,只能谈论正面或反面出现的概率。在投掷过程中有大量会影响结果的不可观测的变量,比如投掷的姿势、力度、方向,甚至风速和地面的材质都会影响结果。也许这些变量实际上是可以观测的,但我...[2019/12/27]

Deep Clustering Algorithms

Deep Clustering Algorithms 作者:凯鲁嘎吉 - 博客园 http: www.cnblogs.com/kailugaji/     本文研究路线:深度自编码器(Deep Autoencoder)->Deep Embedde...[2019/12/27]

462
2
记录数:1804 页数:1/3712345678910下一页尾页
加载更多