This commit is contained in:
zhangsan 2024-08-22 19:24:47 +08:00
parent 09989897c2
commit ef682cc5a5
2 changed files with 10 additions and 5 deletions

View File

@ -1,11 +1,17 @@
如何运行?
## 如何运行?
cd到项目根目录
pip install -r requirements.txt
安装所需依赖。
然后先运行scrape.py再运行main_extraction是一个完整的流程。
scrape.py脚本负责抓取处罚信息公开表网址保存至txt文件中
main_extraction.py负责读取txt文件中的url抓取网页内容,处理失败的url将保存至error_urls.txt中成功的会添加到output_data*.xlsx中
### 主要脚本
标题网址提取.py 负责抓取决定书以及处罚信息公开表保存至excel文件中
- scrape.py脚本负责抓取处罚信息公开表网址保存至txt文件中
- main_extraction.py负责读取txt文件中的url抓取网页内容,处理失败的url将保存至error_urls.txt中成功的会添加到output_data*.xlsx中
- 标题网址提取.py 负责抓取决定书以及处罚信息公开表保存至excel文件中
联系方式qq 646228430

File diff suppressed because one or more lines are too long