408 lines
19 KiB
Python
408 lines
19 KiB
Python
import json
|
||
import logging
|
||
import re
|
||
import string
|
||
import time
|
||
|
||
from flask_app.general.doubao import doubao_model
|
||
from flask_app.general.format_change import pdf2docx, docx2pdf
|
||
from flask_app.general.json_utils import clean_json_string
|
||
from flask_app.general.通义千问long import upload_file
|
||
from flask_app.货物标.截取pdf货物标版 import truncate_pdf_specific_goods
|
||
from flask_app.货物标.提取采购需求main import fetch_procurement_reqs
|
||
from flask_app.货物标.技术参数要求提取后处理函数 import extract_matching_keys
|
||
from flask_app.货物标.资格审查main import combine_qualification_review
|
||
import concurrent.futures
|
||
|
||
def get_global_logger(unique_id):
|
||
if unique_id is None:
|
||
return logging.getLogger() # 获取默认的日志器
|
||
logger = logging.getLogger(unique_id)
|
||
return logger
|
||
|
||
|
||
logger = None
|
||
def get_nested(dic, keys, default=None):
|
||
for key in keys:
|
||
if isinstance(dic, dict):
|
||
dic = dic.get(key, default)
|
||
else:
|
||
return default
|
||
return dic
|
||
|
||
def prepare_for_zige_info(zige_review):
|
||
try:
|
||
zige_info = ""
|
||
fuhe_info = ""
|
||
zigefuhe_info = ""
|
||
# 检查是否存在"资格性和符合性审查"
|
||
if "资格性和符合性审查" in zige_review:
|
||
# 情况3:只有"申请人资格要求"和"资格性和符合性审查"
|
||
if zige_review.get("申请人资格要求", {}) or zige_review.get("资格性和符合性审查", {}):
|
||
zigefuhe_info = json.dumps({
|
||
"申请人资格要求": zige_review.get("申请人资格要求", {}),
|
||
"符合性审查": zige_review.get("资格性和符合性审查", {})
|
||
}, ensure_ascii=False, indent=4)
|
||
else:
|
||
# 情况1和2:存在分开的资格审查和符合性审查
|
||
if zige_review.get("申请人资格要求", {}) or zige_review.get("资格性审查", {}):
|
||
zige_info = json.dumps({
|
||
"申请人资格要求": zige_review.get("申请人资格要求", {}),
|
||
"资格性审查": zige_review.get("资格性审查", {})
|
||
}, ensure_ascii=False, indent=4)
|
||
|
||
# 检查符合性审查的键值是否为空
|
||
fuhe_key = "符合性审查" if "符合性审查" in zige_review else "符合性审查(以下情况不得出现)"
|
||
if zige_review.get(fuhe_key, {}):
|
||
fuhe_info = json.dumps({
|
||
"符合性审查": zige_review.get(fuhe_key, {})
|
||
}, ensure_ascii=False, indent=4)
|
||
|
||
return zige_info, fuhe_info, zigefuhe_info
|
||
except KeyError as e:
|
||
print(f"缺少关键字: {e}")
|
||
# 异常时直接返回空字符串
|
||
return "", "", ""
|
||
def extract_zige_deviation_table(zige_info, fuhe_info, zigefuhe_info):
|
||
prompt_template1 = """
|
||
任务:给出一份文本,根据文本提取资格性检查的具体评审标准。
|
||
输出要求:
|
||
1.以json格式返回结果,不要输出其他内容。
|
||
2.键名为"资格性检查",键值为字符串列表,每个字符串为一条评审标准,评审标准不分先后,不要有序号标注。
|
||
要求与指南:
|
||
1. 评审标准是具体的内容,不要返回诸如'本项目的特定资格要求:'这种标题性质且不能体现具体评审标准的内容。
|
||
2. 若文本中存在相同或相似的表述,仅需取其中一个作为键值中的一条即可。
|
||
|
||
文本内容:{full_text}
|
||
"""
|
||
|
||
prompt_template2 = """
|
||
任务:给出一份文本,根据文本提取符合性检查的具体评审标准。
|
||
输出要求:
|
||
1.以json格式返回结果,不要输出其他内容。
|
||
2.键名为"符合性检查",键值为字符串列表,每个字符串为一条评审标准,评审标准不分先后,不要有序号标注。
|
||
3.仔细检查你所选取的标准,若发现这些标准实际上是在描述不允许出现的符合性审查情况,则将外键替换为'符合性检查(以下情况不得出现)',并将这些标准写入其中。
|
||
要求与指南:
|
||
1. 评审标准应该是具体的内容,不要返回诸如'本项目的特定符合性要求:'这种标题性质且不能体现具体评审标准的内容。
|
||
2. 若文本中存在相同或相似的表述,仅需取其中一个作为键值中的一条即可。
|
||
输出示例1:
|
||
{{
|
||
"符合性检查": [
|
||
"因素1",
|
||
"因素2",
|
||
...
|
||
]
|
||
}}
|
||
输出示例2:
|
||
{{
|
||
"符合性检查(以下情况不得出现)": [
|
||
"因素1",
|
||
"因素2",
|
||
...
|
||
]
|
||
}}
|
||
|
||
文本内容:{full_text}
|
||
"""
|
||
prompt_template3 = """
|
||
任务:给出一份文本,根据文本提取资格性检查和符合性检查的具体评审标准。
|
||
输出要求:
|
||
1.以json格式返回结果,不要输出其他内容。
|
||
2.键名为"资格性和符合性检查",键值为字符串列表,每个字符串为一条评审标准,评审标准不分先后,不要有序号标注。
|
||
要求与指南:
|
||
1. 评审标准应该是具体的内容,不要返回诸如'本项目的特定符合性要求:'这种标题性质且不能体现具体评审标准的内容。
|
||
2. 若文本中存在相同或相似的表述,仅需取其中一个作为键值中的一条即可。
|
||
|
||
文本内容:{full_text}
|
||
"""
|
||
|
||
def get_model_response(query):
|
||
return doubao_model(query)
|
||
|
||
result = {"资格审查": {}}
|
||
|
||
if zigefuhe_info:
|
||
# 如果zigefuhe_info非空,使用prompt_template3
|
||
user_query3 = prompt_template3.format(full_text=zigefuhe_info)
|
||
model_res3 = get_model_response(user_query3)
|
||
zigefuhe_deviation = clean_json_string(model_res3)
|
||
result["资格审查"] = zigefuhe_deviation
|
||
else:
|
||
zige_deviation = {}
|
||
fuhe_deviation = {}
|
||
# 提交 zige_info 和 fuhe_info 的模型调用
|
||
with concurrent.futures.ThreadPoolExecutor() as executor:
|
||
futures = {}
|
||
if zige_info != "":
|
||
user_query1 = prompt_template1.format(full_text=zige_info)
|
||
futures["zige"] = executor.submit(get_model_response, user_query1)
|
||
if fuhe_info != "":
|
||
user_query2 = prompt_template2.format(full_text=fuhe_info)
|
||
futures["fuhe"] = executor.submit(get_model_response, user_query2)
|
||
# 获取结果
|
||
for key, future in futures.items():
|
||
try:
|
||
model_res = future.result()
|
||
if key == "zige":
|
||
zige_deviation = clean_json_string(model_res)
|
||
elif key == "fuhe":
|
||
fuhe_deviation = clean_json_string(model_res)
|
||
except Exception as e:
|
||
print(f"Error processing {key}: {e}")
|
||
# 合并结果
|
||
result["资格审查"] = {
|
||
"资格性检查": zige_deviation.get("资格性检查", zige_deviation),
|
||
"符合性检查": fuhe_deviation.get("符合性检查", fuhe_deviation),
|
||
}
|
||
return result
|
||
def extract_business_deviation(procurement):
|
||
new_data = {}
|
||
counter = 1
|
||
if "服务要求" in procurement:
|
||
new_data[f"招标要求{counter}"] = procurement["服务要求"]
|
||
counter += 1
|
||
|
||
# Extract "商务要求"
|
||
if "商务要求" in procurement:
|
||
new_data[f"招标要求{counter}"] = procurement["商务要求"]
|
||
counter += 1
|
||
|
||
# Extract "其他要求"
|
||
if "其他要求" in procurement:
|
||
new_data[f"招标要求{counter}"] = procurement["其他要求"]
|
||
counter += 1
|
||
|
||
business_requirements_string = json.dumps(new_data, ensure_ascii=False, indent=4)
|
||
# print(business_requirements_string)
|
||
prompt_template1 = """请帮我从以下文本中摘取商务要求部分,并将信息重新组织,外键名为'商务要求',键值为字符串列表,其中每个字符串为一条商务要求,去除开头的序号(若有)。
|
||
#角色
|
||
你是一个专业的招投标业务专家,擅长从招标文件中总结商务要求的部分,并逐条列出,作为编写商务要求偏离表的前置准备。
|
||
|
||
#要求与指南:
|
||
1. 每条内容需要有实际的含义、要求,不能光有标题性质的表述如'售后服务期限(质保期)及要求'。
|
||
2. 你的回答内容需从所给文本中整理,尽量不改变原文的表达,对于嵌套键值对,若键值本身符合'商务要求',可直接将其返回;若键值本身语义表达不完整,可将键值对拼接之后作为一条商务要求,拼接符号可以是冒号,即':'。
|
||
3. 若无商务要求,键值为空列表,即[]
|
||
|
||
### 示例输入如下:
|
||
{{
|
||
"招标要求1": "整个平台运行运维服务,须安排人员驻场对平台进行运行维护,采用 4人轮流值班,依照 7×12小时对可视化督察巡控平台进行操作,确保平台稳定运行,并对线上发现违规操作进行记录,通过督察平台推送督办单给线下监督员小程序进行检查。"
|
||
"招标要求2": {{
|
||
"合同履行期限": "交货期(工期):合同签订之日起 15个日历天内完成,并通过项目验收。",
|
||
"交货地点": "采购人指定地点",
|
||
"报价方式": "本项目报价须为固定总价,包含但不限于:采购、实施、调试、试运行、验收、运维等所有完成本项目相关的一切费用。",
|
||
"其他要求": "无。"
|
||
}},
|
||
"招标要求3": "路口必须在各方向埋设双管。"
|
||
}}
|
||
### 对应的参考输出如下:
|
||
{{
|
||
"商务要求":[
|
||
"整个平台运行运维服务,须安排人员驻场对平台进行运行维护,采用 4人轮流值班,依照 7×12小时对可视化督察巡控平台进行操作,确保平台稳定运行,并对线上发现违规操作进行记录,通过督察平台推送督办单给线下监督员小程序进行检查。",
|
||
"交货期(工期):合同签订之日起 15个日历天内完成,并通过项目验收。",
|
||
"交货地点:采购人指定地点",
|
||
"本项目报价须为固定总价,包含但不限于:采购、实施、调试、试运行、验收、运维等所有完成本项目相关的一切费用。"
|
||
]
|
||
}}
|
||
|
||
文本内容:{full_text}
|
||
"""
|
||
user_query1 = prompt_template1.format(full_text=business_requirements_string)
|
||
model_res1 = doubao_model(user_query1)
|
||
# print(model_res)
|
||
business_req_deviation = clean_json_string(model_res1)
|
||
prompt_template2 = """以下文本是项目采购需求的商务要求部分,请你帮我从键值列表中各字符串中提取带星★或带三角▲的要求项,你的返回格式同输入文本格式,外键名为'商务要求带星',键值为字符串列表,其中每个字符串为带星★或带三角▲的要求项。
|
||
要求与指南:
|
||
1. 每个星★或三角▲要求占据一个字符串。
|
||
2. 若没有带星★或带三角▲的要求项,键值为空列表,即[]
|
||
|
||
特殊情况处理:
|
||
对于输入类似于'技术要求中带★条款项不满足的视为无效投标'这种描述带星★或带三角▲的响应情况的,它本身不是带星或带三角的要求,因此不需要添加进字符串列表中;仅需把本身是带★或带三角▲的要求添加进来。
|
||
|
||
### 示例输入如下:
|
||
{{
|
||
"商务要求": [
|
||
"考虑设备兼容性、项目实施、交付及售后服务",
|
||
"★交货期(工期):合同签订之日起 15个日历天内完成,并通过项目验收。",
|
||
"▲本项目报价须为固定总价,包含但不限于:采购、实施、调试、试运行、验收、运维等所有完成本项目相关的一切费用。"
|
||
]
|
||
}}
|
||
### 对应的输出如下:
|
||
{{
|
||
"商务要求带星": [
|
||
"★交货期(工期):合同签订之日起 15个日历天内完成,并通过项目验收。",
|
||
"▲本项目报价须为固定总价,包含但不限于:采购、实施、调试、试运行、验收、运维等所有完成本项目相关的一切费用。"
|
||
]
|
||
}}
|
||
|
||
文本内容:{full_text}
|
||
"""
|
||
user_query2 = prompt_template2.format(full_text=model_res1)
|
||
model_res2 = doubao_model(user_query2)
|
||
business_star_req_deviation = clean_json_string(model_res2)
|
||
|
||
return business_req_deviation, business_star_req_deviation
|
||
|
||
def get_tech_star_deviation(tech_string):
|
||
prompt_template = """以下输入文本包含采购货物的技术参数要求或采购要求。请从每个键对应的字符串列表中提取带有星★或三角▲的要求项。返回格式应与输入文本格式相同,为JSON格式,每个键名保持不变,键值为包含对应货物、系统或功能模块的带星或带三角要求项的字符串列表。
|
||
要求与指南:
|
||
1. 如果某个货物、系统或功能模块下没有带星★或带三角▲的要求项,则不返回该键值对。
|
||
2. 每个带星★或带三角▲的要求项应作为单独的字符串。
|
||
3. 如果所有设备、系统或功能模块中都没有带星★或带三角▲的要求项,则直接返回空字典 {{}}。
|
||
|
||
### 示例输入1如下:
|
||
{{
|
||
"控制键盘": [
|
||
"普通要求xx",
|
||
"★带星要求xx"
|
||
]
|
||
"摄像机"[
|
||
"★带星要求xx",
|
||
"▲带三角要求xx",
|
||
"普通要求xx"
|
||
]
|
||
"交换机":[
|
||
"普通要求xx",
|
||
"普通要求xxx"
|
||
]
|
||
}}
|
||
### 对应的输出如下:
|
||
{{
|
||
"摄像机控制键盘": [
|
||
"★带星要求xx"
|
||
]
|
||
"摄像机"[
|
||
"★带星要求xx",
|
||
"▲带三角要求xx"
|
||
]
|
||
}}
|
||
|
||
### 示例输入2如下:
|
||
{{
|
||
"控制键盘": [
|
||
"普通要求xx",
|
||
"普通要求xxx"
|
||
]
|
||
"摄像机"[
|
||
"普通要求xx"
|
||
]
|
||
}}
|
||
### 对应的输出如下:
|
||
{{}}
|
||
|
||
输入文本内容:{full_text}
|
||
"""
|
||
user_query = prompt_template.format(full_text=tech_string)
|
||
model_res = doubao_model(user_query)
|
||
# print(model_res)
|
||
tech_star_deviation = clean_json_string(model_res)
|
||
filtered_dict = {key: value for key, value in tech_star_deviation.items() if value} #过滤键值为空列表,二重保险。
|
||
return filtered_dict
|
||
|
||
def process_functions_in_parallel(tech_deviation_info, procurement_reqs, zige_info, fuhe_info, zigefuhe_info):
|
||
# 准备输入参数
|
||
# 定义任务和对应参数
|
||
tasks = [
|
||
("tech_star_deviation", get_tech_star_deviation, (tech_deviation_info,)),
|
||
("business_deviation_and_star", extract_business_deviation, (procurement_reqs,)),
|
||
("zigefuhe_deviation", extract_zige_deviation_table, (zige_info, fuhe_info, zigefuhe_info)),
|
||
]
|
||
|
||
results = {}
|
||
|
||
# 执行多线程任务
|
||
with concurrent.futures.ThreadPoolExecutor() as executor:
|
||
future_to_task = {executor.submit(func, *args): name for name, func, args in tasks}
|
||
time.sleep(0.5)
|
||
for future in concurrent.futures.as_completed(future_to_task):
|
||
name = future_to_task[future]
|
||
try:
|
||
result = future.result()
|
||
# 处理返回值(如果任务返回多个值,需要解包)
|
||
if name == "business_deviation_and_star":
|
||
results["business_deviation"], results["business_star_deviation"] = result
|
||
else:
|
||
results[name] = result
|
||
except Exception as e:
|
||
print(f"Task {name} failed with exception: {e}")
|
||
results[name] = None
|
||
|
||
# 返回结果
|
||
return (
|
||
results.get("tech_star_deviation"),
|
||
results.get("business_deviation"),
|
||
results.get("business_star_deviation"),
|
||
results.get("zigefuhe_deviation")
|
||
)
|
||
def get_tech_and_business_deviation(file_path,file_type,unique_id,output_folder):
|
||
global logger
|
||
logger = get_global_logger(unique_id)
|
||
if file_type == 1: # docx
|
||
pdf_path = docx2pdf(file_path) # 将docx转换为pdf以供后续处理
|
||
elif file_type == 2: # pdf
|
||
pdf_path = file_path
|
||
elif file_type == 3: # doc
|
||
pdf_path = docx2pdf(file_path)
|
||
else:
|
||
logger.error("Unsupported file type provided. Preprocessing halted.")
|
||
return None
|
||
selections=[1,3,5]
|
||
files=truncate_pdf_specific_goods(pdf_path,output_folder,selections,unique_id)
|
||
notice_path=files[0]
|
||
qualification_file=files[1]
|
||
procurement_file=files[2]
|
||
if not procurement_file:
|
||
procurement_file=pdf_path #直接传整份文件
|
||
tech_deviation={}
|
||
with concurrent.futures.ThreadPoolExecutor() as executor:
|
||
# 提交任务到线程池
|
||
future_procurement = executor.submit(fetch_procurement_reqs, procurement_file, pdf_path)
|
||
time.sleep(1)
|
||
future_review = executor.submit(combine_qualification_review, pdf_path, qualification_file, notice_path)
|
||
|
||
try:
|
||
# 获取函数执行结果
|
||
procurement_reqs = future_procurement.result()
|
||
except Exception as e:
|
||
logger.error(f'fetch_procurement_reqs 出现异常: {e}')
|
||
procurement_reqs = {} # 或根据需要进行处理
|
||
|
||
try:
|
||
review_standards_res = future_review.result()
|
||
except Exception as e:
|
||
logger.error(f'combine_qualification_review 出现异常: {e}')
|
||
review_standards_res = {} # 或根据需要进行处理
|
||
tech_requirements = get_nested(procurement_reqs, ["采购需求"], {})
|
||
if tech_requirements:
|
||
good_list = tech_requirements.pop('货物列表', []) # 如果 '货物列表' 不存在,返回 []
|
||
logger.info("Collected good_list from the processing function: %s", good_list)
|
||
tech_deviation = extract_matching_keys(tech_requirements, good_list)
|
||
tech_deviation_info = json.dumps(tech_deviation, ensure_ascii=False, indent=4)
|
||
else:
|
||
tech_deviation_info=""
|
||
zige_info, fuhe_info, zigefuhe_info = prepare_for_zige_info(review_standards_res.get("资格审查", {}))
|
||
|
||
tech_star_deviation, business_deviation, business_star_deviation, zigefuhe_deviation = process_functions_in_parallel(
|
||
tech_deviation_info=tech_deviation_info,
|
||
procurement_reqs=procurement_reqs,
|
||
zige_info=zige_info,
|
||
fuhe_info=fuhe_info,
|
||
zigefuhe_info=zigefuhe_info
|
||
)
|
||
return tech_deviation,tech_star_deviation,business_deviation,business_star_deviation,zigefuhe_deviation
|
||
|
||
if __name__ == "__main__":
|
||
file_path=r"C:\Users\Administrator\Desktop\fsdownload\5950ad84-30c8-4643-b6de-b13ef5be7a5c\ztbfile.pdf"
|
||
file_type=2
|
||
output_folder = r"C:\Users\Administrator\Desktop\fsdownload\5950ad84-30c8-4643-b6de-b13ef5be7a5c\tmp"
|
||
tech_deviation,tech_star_deviation,business_deviation,business_star_deviation,zigefuhe_deviation=get_tech_and_business_deviation(file_path,file_type,"123",output_folder)
|
||
print("技术偏离表")
|
||
print(json.dumps(tech_deviation,ensure_ascii=False,indent=4))
|
||
print("技术带星")
|
||
print(json.dumps(tech_star_deviation,ensure_ascii=False,indent=4))
|
||
print("商务偏离表")
|
||
print(json.dumps(business_deviation, ensure_ascii=False, indent=4))
|
||
print("商务带星")
|
||
print(json.dumps(business_star_deviation, ensure_ascii=False, indent=4))
|
||
print("资格审查")
|
||
print(json.dumps(zigefuhe_deviation, ensure_ascii=False, indent=4))
|