easy-spider-tool-document

PyPI - Python Version PyPI - Version PyPI - License PyPI - Format GitHub watchers GitHub forks GitHub Repo stars

简介

easy-spider-tool 可选xpath/jsonpath聚合解析扩展包,可以同时支持提取html(xpath语法)和json(jsonpath语法)格式数据

链接


在线文档:
https://blog.hanxinkong.top/wiki/python-tool-library/easy-spider-tool-document

PyPi地址:
https://pypi.org/project/easy-spider-tool-document

GitHub地址:
https://github.com/hanxinkong/easy-spider-tool-document


安装

1
pip install easy-spider-tool[document]

主要功能

  • data_extractor 表达式数据解析(支持jsonpath,xpath)
  • xpath xpath语法解析数据(支持首选项,设置默认值)

简单使用

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
from easy_spider_tool_document import data_extractor

data = '<p>这是一个easy_spider_tool的document扩展的示例</p>'
print(data_extractor(data, ['//p//text()'], first=True, default=''))
# 这是一个easy_spider_tool的document扩展的示例

data = {
"code": 200,
"data": [
{
"id": 1,
"username": "admin",
"level": "boss"
},
{
"id": 2,
"username": "user",
"level": "staff"
}
]
}

print(data_extractor(data, ['$.data[*].username'], first=False, default=''))
# ['admin', 'user']

注明