8.22
This commit is contained in:
parent
09989897c2
commit
ef682cc5a5
14
README.md
14
README.md
@ -1,11 +1,17 @@
|
|||||||
如何运行?
|
## 如何运行?
|
||||||
|
|
||||||
cd到项目根目录
|
cd到项目根目录
|
||||||
pip install -r requirements.txt
|
pip install -r requirements.txt
|
||||||
安装所需依赖。
|
安装所需依赖。
|
||||||
|
|
||||||
然后先运行scrape.py,再运行main_extraction是一个完整的流程。
|
然后先运行scrape.py,再运行main_extraction是一个完整的流程。
|
||||||
|
|
||||||
scrape.py脚本负责抓取(处罚信息公开表)网址,保存至txt文件中
|
### 主要脚本
|
||||||
main_extraction.py负责读取txt文件中的url抓取网页内容,处理失败的url将保存至error_urls.txt中,成功的会添加到output_data*.xlsx中
|
|
||||||
|
|
||||||
标题网址提取.py 负责抓取决定书以及处罚信息公开表,保存至excel文件中
|
- scrape.py脚本负责抓取(处罚信息公开表)网址,保存至txt文件中
|
||||||
|
- main_extraction.py负责读取txt文件中的url抓取网页内容,处理失败的url将保存至error_urls.txt中,成功的会添加到output_data*.xlsx中
|
||||||
|
- 标题网址提取.py 负责抓取决定书以及处罚信息公开表,保存至excel文件中
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
联系方式:qq 646228430
|
Loading…
x
Reference in New Issue
Block a user