reptile/README.md

## 如何运行？

cd到项目根目录
pip install -r requirements.txt  
安装所需依赖。

然后先运行scrape.py，再运行main_extraction是一个完整的流程。

### 主要脚本

- scrape.py脚本负责抓取（处罚信息公开表）网址，保存至txt文件中
- main_extraction.py负责读取txt文件中的url抓取网页内容,处理失败的url将保存至error_urls.txt中，成功的会添加到output_data*.xlsx中
- 标题网址提取.py 负责抓取决定书以及处罚信息公开表，保存至excel文件中


联系方式：qq 646228430
-.22

											
										
										
											2024-08-22 19:24:47 +08:00
+								## 如何运行？
-.22

											
										
										
											2024-08-22 19:21:03 +08:00
+								cd到项目根目录
 								pip install -r requirements.txt
 								安装所需依赖。
 								然后先运行scrape.py，再运行main_extraction是一个完整的流程。
-.22

											
										
										
											2024-08-22 19:24:47 +08:00
+								### 主要脚本
 								- scrape.py脚本负责抓取（处罚信息公开表）网址，保存至txt文件中
 								- main_extraction.py负责读取txt文件中的url抓取网页内容,处理失败的url将保存至error_urls.txt中，成功的会添加到output_data*.xlsx中
 								- 标题网址提取.py 负责抓取决定书以及处罚信息公开表，保存至excel文件中
-.22

											
										
										
											2024-08-22 19:21:03 +08:00
-.22

											
										
										
											2024-08-22 19:24:47 +08:00
+								联系方式：qq 646228430