## 如何运行? cd到项目根目录 pip install -r requirements.txt 安装所需依赖。 然后先运行scrape.py,再运行main_extraction是一个完整的流程。 ### 主要脚本 - scrape.py脚本负责抓取(处罚信息公开表)网址,保存至txt文件中 - main_extraction.py负责读取txt文件中的url抓取网页内容,处理失败的url将保存至error_urls.txt中,成功的会添加到output_data*.xlsx中 - 标题网址提取.py 负责抓取决定书以及处罚信息公开表,保存至excel文件中 联系方式:qq 646228430