经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python » 查看文章
我用 Python 写了一个统计博客园文章信息的小工具
来源:cnblogs  作者:KoiC  时间:2023/2/15 9:23:25  对本文有异议

前言

博客园在个人首页有一个简单的博客数据统计,以博客园官方的首页为例:

image

但是这些数据不足以分析更为细节的东西

起初我是想把博客园作为个人学习的云笔记,但在一点点的记录中,我逐渐把博客园视为知识创作知识分享的平台

所以从年后开始,就想着做一个类似 CSDN 里统计文章数据的工具

这样的统计功能可以更好的去分析读者对于内容的需求,了解文章内容的价值,以及从侧面认识自己在知识创作方面的能力

程序

这个程序是我昨天晚上一时兴起,看到了一位博主的文章 Python爬虫实战-统计博客园阅读量问题 ,正好检验自己对python的掌握,于是补充和修改了他的代码。因为想着要更为直观的展示文章数据,所以分了几个模块去写,以方便后续增加和修改功能

程序目前只有三个 .py 文件,爬取数据后解析并写入到 txt 中(后续会使用更规范的方法做持久化处理)

主程序 main.py

  1. from spider import spider
  2. from store import write_data
  3. # 设置博客名,例如我的博客地址为:https://www.cnblogs.com/KoiC,此处则填入KoiC
  4. blog_name = 'KoiC'
  5. if __name__ == '__main__':
  6. post_info = spider(blog_name)
  7. # print(post_info)
  8. write_data(post_info, blog_name)
  9. print('执行完毕!')

爬虫模块 spider.py

  1. import time
  2. import requests
  3. import re
  4. from lxml import etree
  5. def spider(blog_name):
  6. """
  7. 爬取相关数据
  8. """
  9. # 设置UA和目标博客url
  10. headers = {
  11. "User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.41"
  12. }
  13. url = "https://www.cnblogs.com/" + blog_name + "/default.html?page=%d"
  14. # 测试访问
  15. req = requests.get(url, headers)
  16. print('测试访问状态:%d'%req.status_code)
  17. print('开始爬取数据...')
  18. post_info = [] # 全部博文信息
  19. #分页爬取数据
  20. for page_num in range(1, 999):
  21. # 指向目标url
  22. new_url = format(url%page_num)
  23. # 获取页面
  24. req = requests.get(url=new_url, headers=headers)
  25. # print(req.status_code)
  26. tree = etree.HTML(req.text)
  27. # 获取目标数据(各博文名称和阅读量)
  28. count_list = tree.xpath('//div[@class="forFlow"]/div/div[@class="postDesc"]/span[1]/text()')
  29. title_list = tree.xpath('//div[@class="postTitle"]/a/span/text()')
  30. # 获取该页博文数量
  31. post_count = len(count_list)
  32. # 如果该页没有博文,跳出循环
  33. if post_count == 0:
  34. break
  35. # 解析目标数据
  36. for i in range(post_count):
  37. # 对数据进行处理
  38. post_title = title_list[i].strip() # 处理前后多余的空格、换行等
  39. post_view_count = re.findall('\d+', count_list[i]) # 正则表达式获取阅读量数据
  40. single_post_info = [post_title, post_view_count[0]] # 单篇博文数据
  41. post_info.append(single_post_info)
  42. time.sleep(0.8)
  43. return post_info

持久化模块 store.py

  1. import os
  2. import time
  3. def write_data(post_info, blog_name):
  4. """
  5. 对数据进行持久化
  6. """
  7. print('开始写入数据...')
  8. # 获取时间
  9. now_time = time.localtime(time.time())
  10. select_date = time.strftime('%Y-%m-%d', now_time)
  11. select_time = time.strftime('%Y-%m-%d %H:%M:%S ', now_time)
  12. # 按日期创建文件路径
  13. file_path = './{:s}/{:s}'.format(str(now_time.tm_year), str(now_time.tm_mon))
  14. try:
  15. os.makedirs(file_path) # 该方法创建路径时,若路径存在会报异常,使用 try catch 跳过异常
  16. except OSError:
  17. pass
  18. # 写入数据
  19. try:
  20. fp = open('{:s}/{:s}.txt'.format(file_path, select_date), 'a+', encoding = 'utf-8')
  21. fp.write('阅读量\t\t 博文题目\n')
  22. view_count = 0 # 总阅读量
  23. for single_post_info in post_info:
  24. view_count += int(single_post_info[1])
  25. fp.write('{:<12s}{:s}\n'.format(single_post_info[1], single_post_info[0]))
  26. fp.write('------博客名:{:s} 博文数量:{:d} 总阅读量:{:d} 统计时间:{:s}\n\n'.format(blog_name, len(post_info), view_count, select_time))
  27. # 关闭资源
  28. fp.close()
  29. except FileNotFoundError:
  30. print('无法打开指定的文件')
  31. except LookupError:
  32. print('指定编码错误')
  33. except UnicodeDecodeError:
  34. print('读取文件时解码错误')

执行结果

程序会在目录下按日期创建文件夹

image

进入后可找到以日期命名的 txt 文件,以我自己的博客为例,得到以下统计信息:

image

可以将程序挂在服务器上,定时统计数据,观察阅读量的涨幅。

后续我会逐渐完善功能,形成一个自动化的小工具,感兴趣的可以点个关注,谢谢阅读!

参考

Python爬虫实战-统计博客园阅读量问题

XPath 教程

Python 正则表达式

python正则表达式从字符串中提取数字

Python os.makedirs() 方法

Python File(文件) 方法

Python异常捕获与处理

原文链接:https://www.cnblogs.com/KoiC/p/17119236.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号