大数据/云/AI经验 - 技术经验

机器学习英雄访谈录之双料 Kaggle 大师：Dr. Jean-Francois Puget

目录机器学习英雄访谈录之双料 Kaggle 大师：Dr. Jean-Francois Puget 正文对我的启发机器学习英雄访谈录之双料 Kaggle 大师：Dr. Jean-Francois Puget Sanyam Bhutani 是 Medium 上一位专注 ML 和 CV ...[2019/1/10]

Group Convolution分组卷积，以及Depthwise Convolution和Global Depthwise Convolution - Mr-Lee

目录写在前面 Convolution VS Group Convolution Group Convolution的用途参考博客：blog.shinelee.me | 博客园 | CSDN 写在前面 Group Convolution分组卷积，最早见于AlexNet——2012年Im...[2019/1/10]

AI入门课程资源

企业　　kaggle 　　https: www.kaggle.com/learn/overview 　　Google 介绍　　https: developers.google.cn/machine-learning/crash-course/ 　　GFW内视频...[2019/1/10]

应用AI芯片加速 Hadoop 3.0 纠删码的计算性能

本文由云+社区发表做为大数据生态系统中最重要的底层存储文件系统HDFS，为了保证系统的可靠性，HDFS通过多副本的冗余来防止数据的丢失。通常，HDFS中每一份数据都设置两个副本，这也使得存储利用率仅为1/3，每TB数据都需要占用3TB的存储空间。随着数据量的增长，复制的代价也变得越来越明显...[2019/1/9]

如何使用kafka增加topic的备份数量，让业务更上一层楼

本文由云+社区发表一、困难点建立topic的时候，可以通过指定参数 --replication-factor 设置备份数量。但是，一旦完成建立topic，则无法通过kafka-topic.sh 或者命令修改replica数量。二、解决办法 ? 实际上，我们可以考虑一种 “另类” 的...[2019/1/9]

欧洲AI规范先行，值得肯定与借鉴 --- 我看欧盟发布AI道德规范

欧洲AI规范先行，值得肯定与借鉴 --- 我看欧盟发布AI道德规范【事件回放】近日，据外媒报道，欧盟委员会（EC）任命的人工智能高级专家小组发布了AI开发和使用的道德草案，内容长达37页，提出可信赖AI应具备两大要素，以及AI...[2019/1/9]

通俗易懂--岭回归(L2)、lasso回归(L1)、ElasticNet讲解(算法+案例)

1.L2正则化(岭回归) 1.1问题想要理解什么是正则化，首先我们先来了解上图的方程式。当训练的特征和数据很少时，往往会造成欠拟合的情况，对应的是左边的坐标；而我们想要达到的目的往往是中间的坐标，适当的特征和数据用来训练；但往往现实生活中影响结果的因素是很多的，也就是说会有很多个特征值，所以...[2019/1/9]

我对2019年人工智能行业发展的预测

我对2019年人工智能行业发展的预测笔者研习人工智能已经有一段时间了。对于人工智能各个子分支技术领域在2019年度的...[2019/1/8]

是时候给你的产品配一个AI问答助手了！

本文由云+社区发表 | 导语问答系统是信息检索的一种高级形式，能够更加准确地理解用户用自然语言提出的问题，并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎，问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用户的信息需求。问答系统是目前人工智能和自...[2019/1/8]

A股主要指数的市盈率(PE)估值高度

养老产业(SZ399812) - 2019-01-07日，当前值：17.1062，平均值：24.4，中位数：24.47，当前接近历史新低。养老产业(SZ399812)的历史市盈率PE走势图全指医药(SH000991) - 2019-01-07日，当前值：...[2019/1/8]

Kafka相关内容总结（存储和性能）

Kafka消息的存储 Kafka的设计基于一种非常简单的指导思想：不是要在内存中保存尽可能多的数据，在需要时将这些数据刷新（flush）到文件系统，而是要做完全相反的事情。所有数据都要立即写入文件系统中持久化的日志中，但不进行刷新数据的任何调用。实际中这样做意味着，数据被传输到OS内核的页面缓存...[2019/1/7]

关系数据库数据与hadoop数据进行转换的工具 - Sqoop

Sqoop 本文所使用的Sqoop版本为1.4.6 1.官网　　http: qoop.apache.org 2.作用　　A:可以把hadoop数据导入到关系数据库里面(e.g. Hive -> Mysql) 　　B:可以把关系数据库数据导入到hadoop里面(e.g. ...[2019/1/7]

Hive与Hbase整合

Hive与Hbase整合 1.文档　　Hive HBase Integration 2.拷贝jar文件 2.1.把Hbase的lib目录下面的jar文件全部拷贝到Hive的lib目录下面 cd /home/hbase/lib cp ./* /home/hive...[2019/1/7]

HDFS深度历险之从客户端逻辑看HDFS写入机制

说明除了标注之外，本文纯属原创，转载请注明出处：https: www.jianshu.com/p/ea6ef5f5b868， https: www.cnblogs.com/monkeyteng/p/10220395.html HDFS架构简介 Hadoop的框架最核心的设计就是：HDFS和Ma...[2019/1/7]

数据分析入门-01-数据科学的世界观：科学方法论与贝叶斯过程

1.复习一下,如何亲手从0到1 建立一个学科体系昨天给大家介绍了如何亲手从0到1 建立一个学科体系,我们先做一个简单回顾. 现在开始着手构建数据分析的学科体系啦哎,等等,有没有这种感觉,哈哈.前一秒还在吃瓜,下一秒直接就要改变宇宙了? 为了让大家更好的理解数据科学的意...[2019/1/7]

深度学习入门实战（一）：像Prisma一样算法生成梵高风格画像

本文由云+社区发表作者：董超导语：现在人工智能是个大热点，而人工智能离不开机器学习，机器学习中深度学习又是比较热门的方向，本系列文章就从实战出发，介绍下如何使用MXnet进行深度学习~ 既然是实战而且本文是入门级别的我们就不讲那么多大家都听不懂的数学公式啦～ 0x00 深度学习简介...[2019/1/7]

CS224n学习笔记1——深度自然语言处理

一、什么是自然语言处理呢？自然语言处理是计算机科学家提出的名字，本质上与计算机语言学是同义的，它跨越了计算机学、语言学以及人工智能学科。自然语言处理是人工智能的一个分支，在计算机研究领域中，也有其他的分支，例如计算机视觉、机器人技术、知识表达和推理等。目标：让计算机能够...[2019/1/7]

物联网服务端架构

物联网服务端架构整体架构物接入：物接入是全托管的云服务，可以在智能设备与云端之间建立安全的双向连接，并通过主流的物联网协议（如MQTT）通讯，实现从设备端到云端以及从云端到设备端的安全稳定的消息传输。物接入（设备型）：主要用于对接入云端的设备进行管理和操作。物管理需要与云的物接入服务配合使...[2019/1/7]

基于C#的机器学习--目录

转载请注明出处：https: www.cnblogs.com/wangzhenyao1994/p/10223666.html 文章发表的另一个地址：https: blog.csdn.net/wyz19940328/article/detail 85700819...[2019/1/7]

电影评论的情感极性分析

这一节我们将使用Keras构建一个用于分析情感极性的神经网络模型，我们使用的是IMDB数据集，其中包含了50000条严重两极分化的评论。我们将从数据的准备开始，一步一步地讨论深度学习的实践方法论。数据准备 Keras内置了下载IMDB数据的接口，但由于网络权限的原因，我们采用浏览器事先从网络上...[2019/1/7]

机器学习之线性回归

目录预测数值型数据：回归用线性回归找到最佳拟合直线程序8-1 标准回归函数和数据导入函数程序8-2 基于程序8-1绘图图片8-1 ex0的数据集和它的最佳拟合直线局部加权线性回归图片8-2 参数k与权重的关系程序8-3 局部加权线性回归函数图片8-3 局部加权线性回归结果 ...[2019/1/7]

机器学习之线性回归和局部加权线性回归

线性回归和局部加权线性回归 ? 由于看完《机器学习实战》第八章中的局部加权线性回归后，敲完代码之后只是知道它是这样的，但不是很清楚内在的原因。书中并没有对其做过多解释，百度也找不到一篇很好的文章来解释线性回归和局部加权线性回归两者之间的区别。索性写一写自己对线性回归和局部加权线性回归的看法...[2019/1/7]

Hbase王国游记之：Hbase客户端API初体验

§历史回顾 2018年岁末，李大胖朦胧中上了开往Hbase王国的车，伴着一声长鸣，列出缓缓驶出站台，奔向无垠的广袤。 (图片来自于网络) 如不熟悉剧情的，可观看文章：五分钟轻松了解Hbase列式存储 Hbase给初学者的“下...[2019/1/4]

ZooInspector 连接不到 Zookeeper 的解决方法

Zookeeper正常启动后，在使用 ZooInspector 连接 Zookeeper 时出现了连接不上的问题。 [root@localhost bin]# zkServer.sh start ZooKeeper JMX enabled by default Using config: /us...[2019/1/4]

机器学习实战教程（二）：决策树基础篇之让我们从相亲说起

原文链接：https: cuijiahua.com/blog/2017/11/ml_2_decision_tree_1.html 一、前言有读者反映，说我上篇文章机器学习实战教程（一）：k-近邻算法(史诗级干货长文)，太长了。一看那么长，读的欲望都降低了。既然如此，决策树的内容，我就分开讲...[2019/1/4]

TF.VARIABLE、TF.GET_VARIABLE、TF.VARIABLE_SCOPE以及TF.NAME_SCOPE关系

1. tf.Variable与tf.get_variable tensorflow提供了通过变量名称来创建或者获取一个变量的机制。通过这个机制，在不同的函数中可以直接通过变量的名字来使用变量，而不需要将变量通过参数的形式到处传递。 TensorFlow中通过变量名获取变量的机制主要是通...[2019/1/4]

GBDT 算法：原理篇

本文由云+社区发表 GBDT 是常用的机器学习算法之一，因其出色的特征自动组合能力和高效的运算大受欢迎。这里简单介绍一下 GBDT 算法的原理，后续再写一个实战篇。 1、决策树的分类决策树分为两大类，分类树和回归树。分类树用于分类标签值，如晴天/阴天/雾/雨、用户性别、网页是否是垃...[2019/1/4]

我用MATLAB撸了一个2D LiDAR SLAM

0 引言刚刚入门学了近一个月的SLAM，但对理论推导一知半解，因此在matlab上捣鼓了个简单的2D LiDAR SLAM的demo来体会体会SLAM的完整流程。 (1)数据来源：德意志博物馆Deutsches Museum)的2D激光SLAM数据，链接如下： Public Data - C...[2019/1/4]

CNN 模型压缩与加速算法综述

本文由云+社区发表导语：卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战，CNN模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。前言自从AlexNet一举夺得ILSVRC 2012 ImageNet图像分类竞赛的冠军后，卷积神经网络（CNN）的...[2019/1/3]

《数据结构c语言版》严蔚敏学习之路

大学物联网工程专业，没有计组、计网、微原和通原的我，不知道怎么在这个交叉学科中活下去（学校优秀，认为随着政策的利好，学生都有工作课程随意点）。所以，认认真真写下《数据结构c语言版》严蔚敏学习之路，记录从入门到出不去的过程。先学离散数学，...[2019/1/3]

python机器学习实战（三）

原文链接：www.cnblogs.com/fydeblog/p/7277205.html 前言这篇博客是关于机器学习中基于概率论的分类方法--朴素贝叶斯，内容包括朴素贝叶斯分类器，垃圾邮件的分类，解析RSS源数据以及用朴素贝叶斯来分析不同地区的态度. 操作系统：ubuntu14.04 运行环...[2019/1/3]

漫谈“采样”（sampling）

??越学越懵了，计算机中是怎么进行采样的，用了这么久的 rand() 函数，到现在才知道是怎么做的。从均匀分布中采样 ??计算机中通过线性同余发生器（linear congruential generator，LCG）很容易从一个 $ x \sim Uniform[0, 1)$ 的均匀分布中...[2019/1/3]

机器学习笔记多项式回归

上一篇机器学习笔记里,我们讲了线性回归.线性回归有一个前提：即我们假设数据是存在线性关系的. 然而,理想很丰满,现实很骨感,现实世界里的真实数据往往是非线性的. 比如你的数据分布,是符合y=0.5$x^2$ + x + 2的. 那你用y=ax+b去拟合,无论如何都没法取的很好的效果. 这...[2019/1/3]

ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目

ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目思路同我之前的博客的思路 https: www.cnblogs.com ymkmk123/p/10197467.html 但是数据是从web访问的数据 avro第一次过滤观察数据的格式,我...[2019/1/2]

论文笔记-巧妙的验证码攻击

论文题目：Yet Another Text Captcha Solver A Generative Adversarial Network Based Approach 论文原作者：GuixinYe,ZhanyongTang?,DingyiFang,ZhanxingZhu,YansongFeng...[2019/1/2]

Torch功能点记录

1. Numpy矩阵转换Tensor： tensor_num = torch.from_numpy(numpy_arr)[2019/1/2]

师兄带你轻松入门GitHub

小白：师兄，师兄，我最近总是听到Github，看起来好高大上那，可是不懂是做什么得那？师兄：你知道微博吧，Github就是程序员的微博，你可以在这里看到全世界最优秀的程序员在做什么。小白：师兄就是师兄，什么都知道，可是我还是一脸懵逼那，能具体说说吗？师兄：小白你看这张图，2014到20...[2019/1/2]

机器学习之 Logistic 回归(逻辑回归)

目录 Logistic回归博客园地址：https: www.cnblogs.com/chenyoude/ git 地址：https: github.com/nickcyd/machine_learning 微信：a1171958281 Logistic 回归本章内容回归算法 Logisti...[2019/1/2]

Keras/Tensorflow选择GPU/CPU运行

首先，导入os，再按照PCI_BUS_ID顺序，从0开始排列GPU， import os os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID" 然后就可以选择用哪一个或者那几个GPU运行： os.environ[”z...[2019/1/2]

通俗易懂--模型集成(多模型)讲解(算法+案例)

1.信用卡欺诈预测案例这是一道kaggle上的题目。我们都知道信用卡，能够透支一大笔钱来供自己消费，正因为这一点，不法分子就利用信用卡进一特性来实施欺诈行为。银行为了能够检测出这一欺诈行为，通过机器学习模型进行智能识别，提前冻结该账户，避免造成银行的损失。那么我们应该通过什么方式来提高这种识...[2019/1/2]

ML.NET教程之客户细分(聚类问题)

理解问题客户细分需要解决的问题是按照客户之间的相似特征区分不同客户群体。这个问题的先决条件中没有可供使用的客户分类列表，只有客户的人物画像。数据集已有的数据是公司的历史商业活动记录以及客户的购买记录。 offer.csv： Offer #,Campaign,Varietal,Minim...[2019/1/2]

openstack 主机无法ping通instance，无法ssh到instance

https: docs.openstack.org/zh_CN/user-guide/cli-nova-configure-acce -security-for-instances.html 好不容易安装好了OpenStack，发现无法ping通instance，无法 h到insta...[2018/12/29]

超像素、语义分割、实例分割、全景分割傻傻分不清？

在计算机视觉中，图像分割是个非常重要且基础的研究方向。简单来说，图像分割（image segmentation）就是根据某些规则把图片中的像素分成不同的部分（加不同的标签）。图像分割中的一些常见的术语有：superpixels（超像素）、Semantic Segmentation（语义分割）、...[2018/12/29]

Pytorch之认识Variable

Tensor是Pytorch的一个完美组件(可以生成高维数组)，但是要构建神经网络还是远远不够的，我们需要能够计算图的Tensor，那就是Variable。Variable是对Tensor的一个封装，操作和Tensor是一样的，但是每个Variable都有三个属性，Varibale的Tensor本...[2018/12/29]

Pytorch之Variable求导机制

自动求导机制是pytorch中非常重要的性质，免去了手动计算导数，为构建模型节省了时间。下面介绍自动求导机制的基本用法。 #自动求导机制 import torch from torch.autograd import Variable # 1、简单的求导(求导对象是标量) x = Vari...[2018/12/29]

支持向量机（Support Vector Machine，SVM）——　线性SVM

??支持向量机（Support Vector Machine，简称 SVM）于 1995 年正式发表，由于其在文本分类任务中的卓越性能，很快就成为机器学习的主流技术。尽管现在 Deep Learning 很流行，SVM 仍然是一种很有的机器学习算法，在数据集小的情况下能比 Deep Learnin...[2018/12/29]

从零开始一起学习SLAM | 点云平滑法线估计

点击公众号“计算机视觉life”关注，置顶星标更快接收消息！本文编程练习框架及数据获取方法见文末获取方式菜单栏点击“知识星球”查看「从零开始学习SLAM」一起学习交流点云滤波后为什么还需要平滑？小白：师兄，师兄，上次你说的点云滤波我学会啦，下一步怎么把点云变成网格啊？师兄：滤...[2018/12/29]

机器学习英雄访谈录之 Kaggle Kernels 专家：Aakash Nain

目录机器学习英雄访谈录之 Kaggle Kernels 专家：Aakash Nain 正文对我的启发机器学习英雄访谈录之 Kaggle Kernels 专家：Aakash Nain Sanyam Bhutani 是 Medium 上一位专注 ML 和 CV 的博主，本系列翻译自他进...[2018/12/28]

CDH 5.16.1 离线部署 & 通过 CDH 部署 Hadoop 服务

参考 Cloudera Enterprise 5.16.x Installing Cloudera Manager, CDH, and Managed Services Installation Path B - Manual Installation Using Cloudera Manager...[2018/12/28]