ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr - 技术经验 - W3xue

技术经验

手册 / 书籍

经验首页前端设计程序设计 Java相关移动开发数据库/运维软件/图像大数据/云计算其他经验

当前位置：技术经验 » 其他 » 职业生涯 » 查看文章

ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr

来源：cnblogs　　作者：惹是非　　时间：2018/9/25 19:22:56　　对本文有异议

lxml 的安装（xpath）

pip3 install lxml

可能会缺少以下依赖：

sudo apt-get install -y python3-dev build-e ssential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

基本用法：

from lxml import etree

import requests

html = requests.get(finalURL).content.decode('utf-8')

dom_tree = etree.HTML(html)

links = dom_tree.xpath("//div/span[@class='info-col']/a")

Beautiful Soup的安装

pip3 install beautifulsoup4

pyquery的安装

p1p3 install pyquery

tesserocr的安装

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

接下来再安装tesserocr和pillow 即可，这里直接使用pip 安装：
pip3 install tesserocr pillow

如果想要安装多国语言，还需要安装语言包，官方叫作tessdata

（其下载链接为：https://github.com/tesseract-ocr/tessdata ）。

利用G it 命令将其下载下来并迁移到相关目录即可，不同版本的迁移命令如下所示。
在Ubuntu 、Debian 和Deepin 系统下的迁移命令如下： ”
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata

友情链接：直通硅谷　点职佳　北美留学生论坛

职业生涯热门文章

读哪些书可以提高思维逻辑和语言表达能力？

一篇为你解读商业模式的文章

2019 上半年软件设计师真题及参考答案

我在华为OD的275天

Unity 基于 WebRTC 的云功能

那些自律到极致的人，都拥有了开挂的人生

那些拼命加班的程序员们，后来都怎么样了？

ssm整合各配置文件

如何提升你在职场中的洞察力？

堪比慢性自杀的习惯它排第一你中招了吗？

职业生涯推荐文章

好的职场关系，都是有条件的

如何有效管理高敏感的员工？

记录兼职运维的一天

老弟想自己做个微信，被我一个问题劝退了。。

数据库与我：一段关于学习与成长的深情回顾

激活员工，别讲大道理

我可以写代码写到退休吗？记录我的10年前端技术之旅

裸辞后，我成为全职占星师

如何做笔记？

我的自白书之简历

本站QQ群：前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试，对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们 | 意见建议 | 捐助我们 | 报错有奖 | 广告合作、友情链接（目前9元/月）请联系QQ：27243702 沸活量
皖ICP备17017327号-2　

皖公网安备34020702000426号