import PyPDF2 import requests from flask_app.general.clean_pdf import extract_common_header, clean_page_content def extract_text_by_page(file_path): common_header = extract_common_header(file_path) # print(f"公共抬头:{common_header}") # print("--------------------正文开始-------------------") result = "" with open(file_path, 'rb') as file: reader = PyPDF2.PdfReader(file) num_pages = len(reader.pages) # print(f"Total pages: {num_pages}") for page_num in range(num_pages): page = reader.pages[page_num] text = page.extract_text() if text: # print(f"--------第{page_num}页-----------") cleaned_text = clean_page_content(text,common_header) # print(cleaned_text) result += cleaned_text # print(f"Page {page_num + 1} Content:\n{cleaned_text}") else: print(f"Page {page_num + 1} is empty or text could not be extracted.") return result def db_call_with_title(file_path): # 相关参数 url = "https://ark.cn-beijing.volces.com/api/v3/chat/completions" api_key = "ad0c363f-1f23-4b13-aba3-698a4f8c3eb8" model_name = "ep-20241115114052-2clpd" # 豆包Pro 32k模型 # 取txt内容提问 # with open(txt_path, 'r', encoding='utf-8') as f: # full_text = f.read() # print(len(full_text)) # 取pdf内容提问 full_text_json = extract_text_json_by_page(file_path) # 大模型提取目录 # query = f""" # 任务:根据所提供的投标文件格式文件,将其中商务部分的目录准确提出。 # 要求:1.尽可能保证与原文内容一致,不要进行总结归纳。 # 2.如果文件中包含目录,其可能是虚假的目录,一切以正文内容为准。 # 3.所提供文件可能包含技术标或其他内容,要求仅提取商务标内容。 # 4.按所给出的格式输出,不要输出任何其他内容,目录保留正确的层级关系。 # 输出格式:{{ # "一级目录": {{ # "二级目录": {{ # "最内层目录": {{}} # }} # }} # }} # 文件内容:{full_text} # """ # 大模型提取页码 query = f""" 任务:根据所提供的投标文件json格式文件,将其中商务部分的页码准确提出。 要求:1.所提供的json文件键为页码,值为当前页码的文本,充分理解后提取商务部分的内容页码。 2.如果文件中包含目录,其可能是虚假的目录,一切以正文内容为准。 3.所提供文件可能包含技术标或其他内容,要求仅提取商务标相关的页码。并且在最后将子目录的页码范围整合到"页码范围"中。 4.按所给出的格式输出,不要输出任何其他内容,目录保留正确的层级关系。 5.如果商务部分穿插如技术标的相关内容,在"商务部分"中的page_range中需要将这段跳过。 举例:假如12到15页为技术标部分,其他都是商务标时,按列表包含二元组的样式展示出来,如[(1,11),(16,33)]。 如果这种情况没有发生,则输出完整的页码范围,如[(4,20)] 输出格式:{{ "商务部分": {{ "一级目录": {{ start_page: 开始页码 end_page: 结束页码 children: {{ "二级目录": {{ start_page: 开始页码 end_page: 结束页码 children: {{ "最内层目录": {{ start_page: 开始页码 end_page: 结束页码 }} }} }} }} }} }} "页码范围": [(4,33)] }} 文件内容:{full_text_json} """ headers = { "Content-Type": "application/json", "Authorization": "Bearer " + api_key } data = { "model": model_name, "messages": [ { "role": "system", "content": "你是一个专业的标书制作人,现在需要你对传入的数据进行充分理解后,回答我的问题。" }, { "role": "user", "content": query } ] } response = requests.post(url, headers=headers, json=data) if response.status_code == 200: print(response.json()["choices"][0]["message"]["content"]) else: print(f"请求失败,状态码:{response.status_code},错误信息:{response.text}") if __name__ == "__main__": txt_path = "D:/files/bid1/bid_format.txt" pdf_path_1 = "D:/bid_generator/task_folder/9a447eb0-24b8-4f51-8164-d91a62edea25/tmp/bid_format.pdf" pdf_path_2 = "D:/files/page_test/技术标穿插测试文件.pdf" db_call_with_title(pdf_path_2)