爬虫解析库

简介

  • XPath:是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。lxml 是 Python 语言中处理 XML 和 HTML 的功能最丰富、最易于使用的库。lxml 库对 XPath 提供了完美支持。

  • Pyquery:允许您对 xml 文档进行 jquery 查询。API 尽可能类似于 jquery。pyquery 使用 lxml 进行快速 xml 和 html 操作。

  • Parsel:是一个 BSD 授权的 Python 库,可以使用 XPath 和 CSS 选择器(可选地与正则表达式结合)从 HTML 和 XML 中提取和删除数据。

  • Beautiful Soup:是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。

使用总结

效率对比

Last updated