链家广州二手房的数据与分析——爬取数据

来源：cnblogs　　作者：yukiwu　　时间：2019/6/10 13:44:51　　对本文有异议

之前在博客分享了利用 R 和 rvest 包爬虫的基础方法。现在就来实战一下：爬取链家网广州 40,000+ 套二手房的数据。
lianjia homepage

之前在 Web Scraping with R 说过的爬虫方法在这篇中就不在赘述了。这里就分享怎么样爬取网站中翻页的数据。

>> Web Scraping across Multiple Pages

首先观察翻页页面的 url 规律，比如广州链家二手房数据：

第一页：https://gz.lianjia.com/ershoufang/

第二页：https://gz.lianjia.com/ershoufang/pg2/

第三页：https://gz.lianjia.com/ershoufang/pg3/

......

由此可推断，url 为 "https://gz.lianjia.com/ershoufang/pg" + 页码

1) 假设我们需要爬去第 1 页到第 100 页的房屋总价。那么我们可以先尝试爬取第一页的数据，并封装成一个函数.

getHouseInfo <- function(pageNum, urlWithoutPageNum) {
  url <- paste0(urlWithoutPageNum, pageNum)
  webpage <- read_html(url,encoding="UTF-8")
  total_price_data_html <- html_nodes(webpage,'.totalPrice span')
  total_price_data <- html_text(total_price_data_html)
  data.frame(totalprice = total_price_data)
}

2) 然后利用上述的函数循环爬取第 1 页到第 100 页的数据，并将多页的数据合并成一个 data frame

url <- "https://gz.lianjia.com/ershoufang/pg"
houseInfo <- data.frame()
for (ii in 1:1553){
  houseInfo <- rbind(houseInfo, getHouseInfo(ii, url))
}

>> Sample Code

知道如何爬取翻页的数据后我们就可以尝试完整的爬取广州链家网上 4w+ 套二手房的详细信息（包括区域，小区，几室几厅，有无电梯等等）了。

download here

数据量比较大，爬取数据需要一些时间。爬取完毕如果要保存数据需要注意选择适合的编码，不然容易乱码。提供一个可在 Mac Excel 打开的 cvs 格式。

data

原文链接：http://www.cnblogs.com/yukiwu/p/10975337.html

友情链接：直通硅谷　点职佳　北美留学生论坛

R语言热门文章

R语言初学者的一些常见报错指南

Installation failed: Timeout was reached: Operation timed out after 10000 milliseconds with 0 out of 0 bytes received

R语言数据重塑知识点总结

R语言dataframe的常用操作总结

在 R 中估计 GARCH 参数存在的问题（基于 rugarch 包）

《R语言实战（第2版）》高清中文版PDF+高清英文版PDF+源代码

PCA

R语言科学计数法介绍:digits和scipen设置方式

R语言绘制带误差线的条形图

通过R语言统计考研英语（二）单词出现频率

R语言推荐文章

随机森林R语言预测工具

地理探测器R语言实现：geodetector

R语言初学者的一些常见报错指南

R语言学习之线图的绘制详解

R语言学习笔记缺失数据的Bootstrap与Jackknife方法

面试题7 指定一个m*n的整数矩阵如果(r, c)位置元素的元素是0 则将行 r 和列 c 整个变成0 - 雄霸天下-无人能挡