From 8aa7875a528143eaed6223a56b011bd7e7c734ed Mon Sep 17 00:00:00 2001 From: zy123 <646228430@qq.com> Date: Thu, 9 Jan 2025 17:24:02 +0800 Subject: [PATCH] =?UTF-8?q?=E6=88=AA=E5=8F=96pdf=E5=B7=A5=E7=A8=8B/?= =?UTF-8?q?=E8=B4=A7=E7=89=A9=E5=B0=9D=E8=AF=95=E5=90=88=E5=B9=B6?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- flask_app/general/判断是否是招标文件.py | 2 +- flask_app/general/截取pdf通用函数.py | 8 ++-- flask_app/static/提示词/基本信息工程标.txt | 5 ++- flask_app/static/提示词/基本信息货物标.txt | 5 ++- .../static/提示词/小解析基本信息工程标.txt | 5 ++- .../static/提示词/小解析基本信息货物标.txt | 5 ++- flask_app/test_case/test_正则表达式2.py | 37 ++++++++++--------- flask_app/工程标/截取pdf工程标版.py | 14 +++---- flask_app/货物标/截取pdf货物标版.py | 4 +- 9 files changed, 49 insertions(+), 36 deletions(-) diff --git a/flask_app/general/判断是否是招标文件.py b/flask_app/general/判断是否是招标文件.py index c1b90d1..5184faf 100644 --- a/flask_app/general/判断是否是招标文件.py +++ b/flask_app/general/判断是否是招标文件.py @@ -18,7 +18,7 @@ def judge_zbfile(file_path): 若有未涵盖的类型,但其内容明确表达了项目需求、采购或招标信息,且包含指导投标人参与的关键要素,则可视为招标文件。 请基于上述内容判断文件是否属于招标文件。 """ - file_id = upload_file(pdf_path) + file_id = upload_file(file_path) model_res = qianwen_long(file_id, user_query) print(f"判断是否属于招标文件:{model_res}") if '否' in model_res: diff --git a/flask_app/general/截取pdf通用函数.py b/flask_app/general/截取pdf通用函数.py index 29ec264..4e4aa5b 100644 --- a/flask_app/general/截取pdf通用函数.py +++ b/flask_app/general/截取pdf通用函数.py @@ -373,7 +373,7 @@ def extract_pages_tobidders_notice(pdf_path, begin_pattern, begin_page, common_h # 定义基础的 mid_pattern base_mid_pattern = r'^\s*(?:[((]\s*[一二12]?\s*[))]\s*[、..]*|' \ r'[一二12][、..]+|[、..]+)\s*(说\s*明|总\s*则|名\s*词\s*解\s*释)' \ - r'|(?