经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python » 查看文章
python pdfkit 中文乱码问题的解决方案
来源:jb51  时间:2021/3/8 12:40:29  对本文有异议

使用python pdfkit生成pdf文件中遇到中文乱码问题

1.生成的文件名不能带有中文字符

2.生成的pdf内容中文为乱码

生成的文件名不能带有中文字符

解决方法:

我暂时想到的处理方式是先生成英文文件名,再将这个文件重命名为中文的文件名

  1. #coding=utf8
  2. import os
  3. import pdfkit
  4. from uuid import uuid1
  5. ret = '<html><head><meta charset="UTF-8"></head><body><h1>测试pdf内容部分</h1></body></html>'.decode('utf8')
  6. file_name = str(uuid1())
  7. pdfkit.from_string(ret, file_name) # file_name不能带有中文 如果有会报错
  8. file_name_new = '测试.pdf'
  9. os.rename(file_name, file_name_new)

生成的pdf内容中文为乱码

原因1:

因为pdfkit生成pdf功能其实调用的是webkit的子模块wkhtmltopdf(通过命令行方式),所以pdfkit生成中文乱码其实是wkhtmltopdf中文乱码导致的;而wkhtmltopdf中文乱码是因为系统中不存在中文字体导致的

解决方法:

在系统中添加中文字体

我的本地电脑是ubuntu14.04的字体文件保存在/usr/share/fonts下(包含了中文字体文件具体哪一个我也不知道汗。),我的服务器是redhat系统(没有中文字体),所以在我的电脑上操作如下:

  1. cd /usr/share/fonts
  2. zip -r fonts.zip ./*
  3. scp fonts.zip 服务器用户名@服务器ip:/usr/share/fonts

在服务器上操作如下:

  1. cd /usr/share/fonts
  2. unzip fonts.zip
  3. fc-cache -fv
  4. fc-list # 查看新添加的字体

你需要找一台有安装了中文字体的电脑复制一份字体文件(就是/usr/share/fonts下的文件),然后如我以上操作就可以了。

原因2:

需要在html的字符集设置为utf8

<head><meta charset="UTF-8"></head>

补充:python写入html文件中文乱码-解决办法

使用open函数将爬虫爬取的html写入文件,有时候在控制台不会乱码,但是写入文件的html中的中文是乱码的

案例分析

看下面一段代码:

  1. # 爬虫未使用cookie
  2. from urllib import request
  3. if __name__ == '__main__':
  4. url = "http://www.renren.com/967487029/profile"
  5. rsp = request.urlopen(url)
  6. html = rsp.read().decode()
  7. with open("rsp.html","w")as f:
  8. # 将爬取的页面
  9. print(html)
  10. f.write(html)

看似没有问题,并且在控制台输出的html也不会出现中文乱码,但是创建的html文件中

解决方案

使用open方法的一个参数,名为encoding=” “,加入encoding=”utf-8”即可

  1. # 爬虫未使用cookie
  2. from urllib import request
  3. if __name__ == '__main__':
  4. url = "http://www.renren.com/967487029/profile"
  5. rsp = request.urlopen(url)
  6. html = rsp.read().decode()
  7. with open("rsp.html","w",encoding="utf-8")as f:
  8. # 将爬取的页面
  9. print(html)
  10. f.write(html)

运行结果

以上为个人经验,希望能给大家一个参考,也希望大家多多支持w3xue。如有错误或未考虑完全的地方,望不吝赐教。

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号