zbparse/flask_app/general/商务技术评分提取.py

570 lines
28 KiB
Python
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

import json
import os
import re
import time
from typing import Any, Dict
from flask_app.general.llm.大模型通用函数 import read_txt_to_string
from flask_app.general.file2markdown import convert_file_to_markdown
from flask_app.general.format_change import get_pdf_page_count, pdf2docx
from flask_app.general.json_utils import extract_content_from_json
from flask_app.general.llm.model_continue_query import process_continue_answers
from flask_app.general.llm.通义千问long import upload_file, qianwen_long, qianwen_long_stream
from flask_app.general.llm.qianwen_plus import qianwen_plus
def remove_unknown_scores(data):
if isinstance(data, dict):
return {
k: remove_unknown_scores(v)
for k, v in data.items()
if not (k == "评分" and v in ["未知", "/", ""])
}
elif isinstance(data, list):
return [remove_unknown_scores(item) for item in data]
else:
return data
def combine_technical_and_business(data):
'''
后处理,区分技术评分和商务评分,给外键添加总的评分
'''
data = remove_unknown_scores(data)
extracted_data = {
'技术评分': {},
'商务评分': {}
}
# 用于累加 '其他评分' 的总分
other_total_score = 0
other_items = {}
def process_data(data: Dict[str, Any]) -> Dict[str, Any]:
"""
处理给定的数据字典,如果存在外键 '技术评分' 且其子键符合 '技术评分-<数字>' 格式,
则删除外键 '技术评分' 并将其子键提升到更高层级。即'技术评分-1' '技术评分-2'作为外键
Args:
data (Dict[str, Any]): 输入的数据字典。
Returns:
Dict[str, Any]: 处理后的数据字典。
"""
# 定义匹配 '技术评分-数字' 的正则表达式
pattern = re.compile(r'^技术评分-\d+$')
# 创建一个新的字典以避免在遍历时修改原字典
new_data = {}
for key, value in data.items():
if key == "技术评分" and isinstance(value, dict):
# 检查所有子键是否符合 '技术评分-<数字>' 格式
if all(pattern.match(child_key) for child_key in value.keys()):
# 如果符合,提升子键到更高层级
new_data.update(value)
else:
# 如果不符合,保留原键值
new_data[key] = process_data(value) if isinstance(value, dict) else value
elif isinstance(value, dict):
# 递归处理子字典
new_data[key] = process_data(value)
else:
# 对于非字典类型的值,直接保留
new_data[key] = value
return new_data
def extract_nested(data):
nonlocal other_total_score, other_items
if isinstance(data, dict):
for key, value in data.items():
# 区分 '技术评分'
if key.startswith('技术评分'):
total_score = compute_total_score({key: value})
if 0 < total_score <= 100:
new_key = f'{key}({total_score}分)'
else:
new_key = f'{key}'
extracted_data['技术评分'][new_key] = value
# 匹配到后,不再递归处理其子项
continue
# 区分 '商务评分'
elif key == '商务评分':
total_score = compute_total_score({key: value})
if 0 < total_score <= 100:
new_key = f'商务评分({total_score}分)'
else:
new_key = '商务评分'
extracted_data['商务评分'][new_key] = value
# 匹配到后,不再递归处理其子项
continue
# 区分 '投标报价评分'
elif key == '投标报价评分':
total_score = compute_total_score({key: value})
if 0 < total_score <= 100:
new_key = f'投标报价评分({total_score}分)'
else:
new_key = '投标报价评分'
extracted_data['商务评分'][new_key] = value
# 匹配到后,不再递归处理其子项
continue
# 其他键名归为 '其他评分'
else:
# 计算当前项的总分
current_score = compute_total_score({key: value})
other_total_score += current_score
# 保持原键名,不添加(分数)
other_items[key] = value
processed_data=process_data(data)
extract_nested(processed_data)
# 如果有 '其他评分',替换为包含总分的键名
if other_items:
if other_total_score > 0:
new_key = f'其他评分({other_total_score}分)'
else:
new_key = '其他评分'
extracted_data['商务评分'][new_key] = other_items
return extracted_data
# 防止外键只有一个'一包'的情况
def process_data_based_on_key(data):
exclude_word = ["", "未知", "评分因素"]
# 获取字典的键列表
keys = list(data.keys())
# 检查键的数量是否为1并且 exclude_word 中的任何词包含在 keys[0] 中
if len(keys) == 1 and any(word in keys[0] for word in exclude_word):
# 返回内层的字典
return data[keys[0]]
# 如果条件不满足,则返回原始字典
return data
def compute_total_score(data):
"""
计算传入字典的总分。
规则:
- 输入字典只有一个外层键。
- 遍历该外层键的所有子键:
- 如果子键名中包含 '(XX分)''XX分',提取 XX 并累加到总分中,不再处理其子项。
- 如果子键名中不包含这样的分数,遍历其子项,查找键名为 '评分' 的键,提取分数并累加。
- '评分' 的值可以是 'XX分' 或整数。
- 如果没有找到 '评分' 键,则该项分数为 0。
"""
total = 0
# 确保输入数据为字典且只有一个外层键
if not isinstance(data, dict) or len(data) != 1:
raise ValueError("输入数据必须是一个只有一个外层键的字典。")
# 获取唯一的外层键和值
outer_key, outer_value = next(iter(data.items()))
# 更新后的正则表达式,匹配中英文括号中的分数,如 '(24分)' 或 '24分' #考虑了空格的影响
score_pattern = re.compile(r'[(]\s*(\d+)\s*分\s*[)]')
def process_node(node):
nonlocal total
if isinstance(node, dict):
for key, value in node.items():
# 检查键名中是否包含 '(XX分)' 或 'XX分'
match = score_pattern.search(key)
if match:
score = int(match.group(1))
total += score
# 匹配到后,不再递归处理其子项
continue
elif key == '评分':
if isinstance(value, str):
# 提取 '评分' 键的值中的数字,如 '20分'
match_score = re.match(r'\s*(\d+)\s*分\s*', value)
if match_score:
score = int(match_score.group(1))
total += score
else:
# 如果 '评分' 值不符合格式,默认加 0
total += 0
elif isinstance(value, int):
# 如果 '评分' 键的值是整数,直接累加
total += value
else:
# 如果 '评分' 键的值既不是字符串也不是整数,默认加 0
total += 0
else:
# 如果键名不包含分数,递归处理其子项
process_node(value)
elif isinstance(node, list):
for item in node:
process_node(item)
else:
# 如果是其他类型的数据,忽略
pass
# 开始递归处理外层键的值
process_node(outer_value)
return total
def reorganize_data(input_dict, include=None):
"""
重组输入字典,将“技术评分”和“商务评分”提升为最外层键,
并将包含在 include 列表中的包名的数据嵌套在相应的评分类别下。
如果 input_dict 的顶层键不包含任何 include 列表中的项,则返回原始字典。
:param input_dict: 原始输入字典
:param include: 包名列表,例如 ['一包', '二包', '三包']
:return: 重组后的字典
"""
if include is None:
include = []
# 检查是否有任何顶层键包含在 include 列表中
has_include = any(key in include for key in input_dict.keys())
if not has_include:
# 没有包含任何指定的包名,直接返回原始字典
return input_dict
# 初始化新的字典结构
reorganized = {
"技术评分": {},
"商务评分": {}
}
# 遍历每一个包(如 "一包", "二包"
for package, categories in input_dict.items():
# 处理技术评分
if "技术评分" in categories:
reorganized["技术评分"][package] = categories["技术评分"]
# 处理商务评分
if "商务评分" in categories:
reorganized["商务评分"][package] = categories["商务评分"]
return reorganized
def combine_evaluation_standards(evaluation_method_path,invalid_path,zb_type):
'''
传入截取后的评分章节,输出评分细则
'''
# 定义默认的评审结果字典
DEFAULT_EVALUATION_REVIEW = {
"技术评分": "未解析到'技术评分'项!",
"商务评分": "未解析到'商务评分'项!"
}
# 如果 truncate_file 是空字符串,直接返回包含空字符串的字典
if not evaluation_method_path:
return DEFAULT_EVALUATION_REVIEW.copy()
def generate_prompt(zb_type):
common_prompt="""你是一个对招投标业务非常熟悉的专家。根据该文档中的评标办法表格请你列出该文件的技术评分商务评分投标报价评分以及它们对应的具体评分要求请以JSON格式返回结果。
**格式要求**
1.总体结构:
-JSON 的最外层包含三个键:'技术评分''商务评分''投标报价评分'
-每个大项(如技术评分、商务评分)下包含具体的评分项,评分项按以下规则表示。
2.评分项表示规则:
-每个评分项由评分因素和评分标准组成。
-评分因素:
若评分因素(内容、项)存在嵌套关系(通过表格结构判断):主评分因素需附加括号,括号中注明该主评分因素的总分,若无具体评分,则无需添加该括号,例如:产品技术响应(8分);子评分因素作为嵌套键名,列在主评分因素之下,无需再附加括号表示评分。
-注意:禁止通过归纳、推测或自行总结来生成子评分因素,尤其不可根据'评分标准'中的打分要求来反向总结'子评分因素'
若评分因素(内容、项)不存在嵌套关系:键名直接为评分因素,无需附加括号表示总分。
-评分标准:
-评分因素的键值为评分标准,它是列表形式,列表中包含描述分值及评分细则的字典。
-字典个数:
默认为1个字典若某评分因素包括多个评分细则通过表格结构判断一个单元格视为一个评分细则字典个数等于评分细则数。
-字典结构如下:
评分:一个打分点的分值即最高分(如'8分'字符串类型不能是一个范围数字如0-8分若为定性指标如“合格制”可标明相应的定性指标无评分时可删去'评分'键值对。
要求:一个打分点的评分细则,即一个表格单元格内的所有内容,禁止拆分。
例:"拥有一级证书得3分拥有二级证书得1分其他不得分。"
示例输出:{
"评分": "3分",
"要求": "拥有一级证书得3分拥有二级证书得1分其他不得分。"
}
禁止拆分出三个字典:
{
"评分": "3分",
"要求": "拥有一级证书得3分"
},
{
"评分": "1分",
"要求": "拥有二级证书得1分"
},
{
"评分": "0分",
"要求": "其他不得分。"
}
-禁止情况:
禁止将同个单元格内的内容拆分至多个字典中;禁止遗漏单元格内任何信息,包括注释的内容。
3.备注信息:
-若评分部分包含附加信息(如大项评分的整体要求,未直接归属于具体评分项),需添加一个 备注 键,值为该附加信息。
**要求与指南**
1. 请首先定位评分表,请不要遗漏任何一个评分表的信息,不要回答有关资格审查、符合审查的内容,也不要从评标办法正文中提取回答。
2. 若表中的评分大项不是这三个,或者有额外的评分大项:
-请你根据语义及你对招投标业务的熟悉,分别映射到'技术评分''商务评分''投标报价评分',而不必按照表格中大项名称。
-映射关系可以是“一对一”或“多对一”,例如两个评分大项可以同时归类到“技术评分”。关键是不遗漏表中的评分大项,确保每个大项都被映射。
若表中只有评分因素而无评分大项:
-请将评分因素正确地归类到'技术评分''商务评分''投标报价评分',不要遗漏任何一个评分因素。
3. 若表格中商务和技术评分混合一起,或者有部分评分因素无法通过表格结构明确归类:
-请根据你对招投标业务的熟悉,对表格中的评分因素进行准确分类。关键是确保每个评分因素都能被归类到'技术评分''商务评分''投标报价评分',不要遗漏任何一个评分因素。
**特殊情况**
1. 缺失评分项:若大项的'xx评分'要求未在文中说明,则键名'xx评分'的键值设为字符串'本项目无xx评分项',例如"技术评分":"本项目无技术评分项",而非默认的字典格式,请基于提供的实际招标文件内容,禁止捏造回答。
2. 其他评分:默认情况大项评分仅有'技术评分''商务评分''投标报价评分',若在充分归类之后,表格中仍有评分因素未被归类,才添加大项评分'其他评分'保存该内容。
3. 多包评分:默认只有一包,最外层键名为各大评分项,而不是'一包';但是如果该招标、采购活动有多个分包且每个分包有独自的评分表,则最外层键名为对应的包名,如'一包''二包',内部才是各大评分项。
4. 多张技术评分表:若同一包下有多张技术评分表,请不要遗漏任何一个评分表的信息,此时最外层键名'技术评分'替换为'技术评分-d'd为自然数从1开始分别保存每张技术评分表的信息。
-例如有'技术评分标准1其他项目''技术评分标准2施工类',算作两个技术评分表,最外层的键名分别为'技术评分-1''技术评分-2',替换默认的'技术评分'
**禁止内容**
1. 确保所有输出内容均基于提供的实际招标文件内容(除了最外层的三个评分大项名称),不使用任何预设的示例作为回答,也禁止捏造评分标准。
2. 不得擅自添加不属于评审因素的键名以及 `'备注'` 之外的其他键名。
3. 不得遗漏评分表中的任何评分因素,确保每个评分因素都被正确归类到评分大项下。
"""
if zb_type == 1:
example_output="""
以下为示例输出,仅供格式参考:
{
"技术评分": {
"实施方案(16分)":{
"总体实施方案":[
{
"评分":8,
"要求":"根据投标人总体实施方案进行评分"
}
],
"项目实施要点":[
{
"评分":8,
"要求":"根据投标人对项目实施要点、难点进行评分。"
}
]
},
"设计创意": [
{
"评分": "10分",
"要求": "主题突出形式多样内容与形式完美统一得10分其他酌情打分。"
}
],
"备注": "技术标采用暗标形式,暗标不得出现投标人名称、人员姓名。"
},
"商务评分": {
"主要监理岗位的职责": [
{
"评分": "4分",
"要求": "1、总监理工程师的职责全面、清晰、合理得 2 分;一般的 1 分。2、其他主要监理人员及岗位的职责全面、清晰、合理得 2 分;一般的 1 分。"
}
],
"制造商实力": [
{
"评分": "3分",
"要求": "一级证书得3分二级证书得1分其他不得分。"
},
{
"评分": "2分",
"要求": "行业销量排名连续前 2 名,得 2 分,第 3-6 名得 0.5 分,其他不得分。"
}
]
},
"投标报价评分": {
"投标报价是否出现违反计价规范": [
{
"评分": "合格制",
"要求": "A:投标报价未违反计价规范的评审意见为“合格”B投标报价违反计价规范的评审意见为“不合格”"
}
]
}
}
"""
elif zb_type == 2:
example_output="""
以下为示例输出,仅供格式参考:
{
"技术评分": {
"产品技术响应(8分)":{
"常规参数符合":[
{
"评分":"4分",
"要求":"未标★项为常规参数每条负偏离扣1分本项满分4分。"
}
],
"控制系统":[
{
"评分":"4分",
"要求":"所投电梯控制系统技术先进、市场美誉度高与整梯同品牌得4分所投电梯控制系统的技术基本先进、市场美誉度较高与整梯不同品牌得2分。"
}
]
},
"实施方案": [
{
"评分": "10分",
"要求": "实施方案清晰、完整、合理、可行的得 10 分。实施方案一般的得5分"
}
],
"备注": "注:若不满足“与公安部、省公安厅、随州市公安局高清视频会议系统无缝对接互联互通”的要求,则本项技术部分不得分。"
},
"商务评分": {
"主要监理岗位的职责": [
{
"评分": "4分",
"要求": "1、总监理工程师的职责全面、清晰、合理得 2 分;一般的 1 分。2、其他主要监理人员及岗位的职责全面、清晰、合理得 2 分;一般的 1 分。"
}
],
"制造商实力": [
{
"评分": "3分",
"要求": "一级证书得3分二级证书得1分其他不得分"
},
{
"评分": "2分",
"要求": "行业销量排名连续前 2 名,得 2 分,第 3-6 名得 0.5 分,其他不得分"
}
]
},
"投标报价评分": {
"投标报价是否出现违反计价规范": [
{
"评分": "合格制",
"要求": "A:投标报价未违反计价规范的评审意见为“合格”B投标报价违反计价规范的评审意见为“不合格”"
}
]
}
}
"""
else:
raise ValueError("Invalid zb_type. 请输入 1 或 2。")
# 拼接最终的提示内容
final_prompt = common_prompt + example_output
return final_prompt
def run_first_query(file_path):
print("判断有无评分")
# 上传文件并获取文件ID
file_id = upload_file(file_path)
# 定义用户查询
query = (
"""请根据以下指南判断该文档是否包含关于技术评分、商务评分或投标报价的具体评分要求和标准:
1. 若文档中以表格形式展示了评分要求,且包含评分因素(如“技术评分”或“商务评分”或更细的评分因素)及相应的评分标准;即使评分方式为定性(无具体分值),也应视为满足要求。
2. 如果文档中仅描述了评标流程,但未提供具体的评分标准,则应视为不满足条件。
3. 虽然竞争性磋商文件通常不包含评分要求但若文档满足第1条的内容也应视为符合要求。
请仅返回“是”或“否”,不附加其他解释或内容。
"""
) # 应对竞争性谈判这种无评分要求的情况
# 执行查询
return qianwen_long(file_id, query),file_id
def run_second_qeury(file_id,processed_filepath,model_type):
print("获取评分项...")
# 执行 user_query 相关的逻辑
user_query=generate_prompt(zb_type)
if model_type==4:
full_text = read_txt_to_string(processed_filepath)
user_query = f"文本内容:\n{full_text}\n" + user_query
questions_to_continue = []
temp_final={}
if model_type==4:
# evaluation_res=doubao_model(user_query,True)
evaluation_res = qianwen_plus(user_query, True)
else:
evaluation_res = qianwen_long_stream(file_id, user_query,2,1,True) # 有些重复的键名只有qianwen_long_text能保留
message = evaluation_res[0]
# print(message)
total_tokens = evaluation_res[1]
# 清理和处理响应
cleaned_evaluation_res = extract_content_from_json(message,True) # 带上True处理重复键名的情况-》生成列表
# print(json.dumps(cleaned_evaluation_res,ensure_ascii=False,indent=4))
max_tokens = 7900 if model_type == 4 else 5900
if not cleaned_evaluation_res and total_tokens > max_tokens:
print(f"total_tokens: {total_tokens}")
questions_to_continue.append((user_query, message))
else:
temp_final.update(cleaned_evaluation_res)
if questions_to_continue:
continued_results = process_continue_answers(questions_to_continue, model_type, file_id)
temp_final.update(continued_results)
result_data = process_data_based_on_key(temp_final) # 处理不知名外键的情况
include = ['一包', '二包', '三包', '四包', '五包']
updated_jsons = {}
# 检查是否有外层键匹配 include 列表
if any(key for key in result_data if
any(included in key for included in include)): # 检查result_data中的任何键是否包含include列表中的任意一个项。
# 有匹配的项,处理这些项
for key in result_data:
if any(item in key for item in include):
inner_dict = result_data[key]
updated_jsons[key] = combine_technical_and_business(inner_dict) # 对于分包,单独对分包内的'技术评分''商务评分'作处理
else:
# 没有匹配的项,对整个字典运行
updated_jsons = combine_technical_and_business(result_data)
final_res = reorganize_data(updated_jsons, include) # 重新组织字典,尤其是分包的情况
return final_res
try:
judge_res, file_id = run_first_query(evaluation_method_path)
print(judge_res)
eval_path = os.path.abspath(evaluation_method_path)
invalid_eval_path = os.path.abspath(invalid_path)
# 获取 evaluation_method_path 所在的目录
eval_dir = os.path.dirname(eval_path)
# extract3.txt是invalid_path->markdown不一定存在
extract3_path = os.path.join(eval_dir, "extract3.txt")
if '' in judge_res:
if get_pdf_page_count(evaluation_method_path) <= 20:
model_type = 4 # qianwen-plus
processed_filepath = convert_file_to_markdown(evaluation_method_path, "extract2.txt")
else:
if eval_path == invalid_eval_path:
if os.path.exists(extract3_path):
print("qianwen-plus1:extract3.txt")
processed_filepath = extract3_path
model_type = 4 # 使用 qianwen-plus
else:
processed_filepath = ""
file_id = upload_file(invalid_eval_path)
model_type = 3 # 默认 qianwen-long-stream
else:
evaluation_method_docxpath = pdf2docx(evaluation_method_path)
file_id = upload_file(evaluation_method_docxpath)
processed_filepath = ""
model_type = 3 # qianwen-long_stream
return run_second_qeury(file_id, processed_filepath, model_type)
# 如果 judge_res 不包含 '是' 并且路径不同,处理 invalid_path
if eval_path != invalid_eval_path:
judge_res_invalid, file_id_invalid = run_first_query(invalid_path)
if '' in judge_res_invalid:
if os.path.exists(extract3_path):
print("qianwen-plus2:extract3.txt")
processed_filepath = extract3_path
model_type = 4 # qianwen-plus
else:
processed_filepath = ""
model_type = 3 # 默认 qianwen-long_stream
return run_second_qeury(file_id_invalid, processed_filepath, model_type)
# 如果路径相同或未找到 '是',返回默认结果
return DEFAULT_EVALUATION_REVIEW.copy()
except Exception as e:
print(f"Error in combine_evaluation_standards: {e}")
# 出错时返回默认结果
return DEFAULT_EVALUATION_REVIEW.copy()
if __name__ == "__main__":
start_time=time.time()
# truncate_file=r"C:\Users\Administrator\Desktop\招标文件-采购类\tmp2\2024-新疆-塔城地区公安局食药环分局快检实验室项目_evaluation_method.pdf"
evaluation_method_path = r'C:\Users\Administrator\Downloads\2022-广东-鹏华基金管理有限公司深圳深业上城办公室装修项目.pdf'
invalid_path=r'C:\Users\Administrator\Downloads\2022-广东-鹏华基金管理有限公司深圳深业上城办公室装修项目.pdf'
# truncate_file = "C:\\Users\\Administrator\\Desktop\\货物标\\output2\\2-招标文件统计局智能终端二次招标_evaluation_method.pdf"
# truncate_file="C:\\Users\\Administrator\\Desktop\\货物标\\output2\\广水市妇幼招标文件最新W改_evaluation_method.pdf"
# truncate_file = "C:\\Users\\Administrator\\Desktop\\fsdownload\\2d481945-1f82-45a5-8e56-7fafea4a7793\\ztbfile_evaluation_method.pdf"
# truncate_file="C:\\Users\\Administrator\\Desktop\\fsdownload\\ztbfile_evaluation_method.pdf"
res = combine_evaluation_standards(evaluation_method_path,invalid_path,2)
print("------------------------------")
print(json.dumps(res, ensure_ascii=False, indent=4))
end_time=time.time()
print("elapsed time:"+str(end_time-start_time))