reptile

zy123/reptile

Go to file

zhangsan ef682cc5a5 8.22

2024-08-22 19:24:47 +08:00

.gitignore

first

2024-07-26 23:44:36 +08:00

docker-compose.yaml

2024.8.2

2024-08-03 09:46:49 +08:00

Dockerfile

2024.8.2

2024-08-03 09:31:32 +08:00

error_urls.txt

8.4改进版

2024-08-04 14:46:36 +08:00

main_extraction.py

8.22

2024-08-22 19:21:03 +08:00

README.md

8.22

2024-08-22 19:24:47 +08:00

requirements.txt

2024.8.2

2024-08-02 14:20:40 +08:00

scrape.py

8.22

2024-08-22 19:21:03 +08:00

标题网址提取.py

8.22

2024-08-22 19:21:03 +08:00

如何运行？

cd到项目根目录 pip install -r requirements.txt
安装所需依赖。

然后先运行scrape.py，再运行main_extraction是一个完整的流程。

scrape.py脚本负责抓取（处罚信息公开表）网址，保存至txt文件中
main_extraction.py负责读取txt文件中的url抓取网页内容,处理失败的url将保存至error_urls.txt中，成功的会添加到output_data*.xlsx中
标题网址提取.py 负责抓取决定书以及处罚信息公开表，保存至excel文件中

联系方式：qq 646228430