8.22

2024-08-22 19:24:47 +08:00 · 2024-08-22 19:24:47 +08:00 · ef682cc5a5
commit ef682cc5a5
parent 09989897c2
2 changed files with 10 additions and 5 deletions
--- a/README.md
+++ b/README.md
@ -1,11 +1,17 @@
-如何运行？
+## 如何运行？
 cd到项目根目录
 pip install -r requirements.txt  
 安装所需依赖。
 然后先运行scrape.py，再运行main_extraction是一个完整的流程。
-scrape.py脚本负责抓取（处罚信息公开表）网址，保存至txt文件中
+### 主要脚本
 main_extraction.py负责读取txt文件中的url抓取网页内容,处理失败的url将保存至error_urls.txt中，成功的会添加到output_data*.xlsx中
-标题网址提取.py 负责抓取决定书以及处罚信息公开表，保存至excel文件中
+- scrape.py脚本负责抓取（处罚信息公开表）网址，保存至txt文件中
 - main_extraction.py负责读取txt文件中的url抓取网页内容,处理失败的url将保存至error_urls.txt中，成功的会添加到output_data*.xlsx中
 - 标题网址提取.py 负责抓取决定书以及处罚信息公开表，保存至excel文件中
 联系方式：qq 646228430
--- a/data.html
+++ b/data.html