zbparse/flask_app/general/读取文件/按页读取pdf.py

import PyPDF2
from flask_app.general.clean_pdf import extract_common_header, clean_page_content

def extract_text_by_page(file_path):
    common_header = extract_common_header(file_path)
    print(f"公共抬头：{common_header}")
    print("--------------------正文开始-------------------")
    result = ""
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        num_pages = len(reader.pages)
        # print(f"Total pages: {num_pages}")
        for page_num in range(num_pages):
            page = reader.pages[page_num]
            text = page.extract_text()
            if text:
                print("-------------------")
                cleaned_text = clean_page_content(text,common_header)
                print(cleaned_text)
                result += cleaned_text
                # print(f"Page {page_num + 1} Content:\n{cleaned_text}")
            else:
                print(f"Page {page_num + 1} is empty or text could not be extracted.")
        return result

# import fitz  # PyMuPDF
# import re
#
#
# def clean_page_content(text, common_header):
#     if common_header:
#         for header_line in common_header.split('\n'):
#             if header_line.strip():
#                 text = re.sub(r'^' + re.escape(header_line.strip()) + r'\n?', '', text, count=1)
#
#     text = re.sub(r'^\s*\d+\s*(?=\D)', '', text)
#     text = re.sub(r'\s+\d+\s*$', '', text)
#     text = re.sub(r'\s*\/\s*\d+\s*', '', text)
#
#     return text
#
#
# def extract_common_header(pdf_path):
#     doc = fitz.open(pdf_path)
#     headers = []
#     total_pages = len(doc)
#
#     if total_pages == 2:
#         pages_to_read = 2
#         start_page = 0
#     else:
#         pages_to_read = 3
#         middle_page = total_pages // 2
#         start_page = max(0, middle_page - 1)
#
#     for i in range(start_page, min(start_page + pages_to_read, total_pages)):
#         page = doc[i]
#         text = page.get_text()
#         if text:
#             first_lines = text.strip().split('\n')[:3]
#             headers.append(first_lines)
#
#     doc.close()
#
#     if len(headers) < 2:
#         return ""
#
#     common_headers = []
#     for lines in zip(*headers):
#         common_line = set(lines[0].split()).intersection(*[set(line.split()) for line in lines[1:]])
#         if common_line:
#             common_headers.append(' '.join(common_line))
#
#     return '\n'.join(common_headers)
#
#
# def extract_text_by_page(file_path):
#     common_header = extract_common_header(file_path)
#     result = ""
#     doc = fitz.open(file_path)
#     num_pages = len(doc)
#
#     for page_num in range(num_pages):
#         page = doc[page_num]
#         text = page.get_text()
#         if text:
#             cleaned_text = clean_page_content(text, common_header)
#             print(cleaned_text)
#             result += cleaned_text
#         else:
#             print(f"Page {page_num + 1} is empty or text could not be extracted.")
#
#     doc.close()
#     return result


if __name__ == '__main__':
    # file_path='D:\\flask_project\\flask_app\\static\\output\\output1\\648e094b-e677-47ce-9073-09e0c82af210\\ztbfile_tobidders_notice_part2.pdf'
    file_path = 'C:\\Users\\Administrator\\Desktop\\fsdownload\\a110ed59-00e8-47ec-873a-bd4579a6e628\\ztbfile_tobidders_notice_part2.pdf'
    # file_path = 'C:\\Users\\Administrator\\Desktop\\货物标\\output4\\磋商文件_tobidders_notice_part2.pdf'
    # file_path = 'C:\\Users\\Administrator\\Desktop\\货物标\\截取test\\交警支队机动车查验监管系统项目采购_tobidders_notice_part1.pdf'
    # file_path = "C:\\Users\\Administrator\\Desktop\\招标文件\\招标test文件夹\\zbtest8.pdf"
    # file_path="C:\\Users\\Administrator\\Desktop\\fsdownload\\45f650ce-e519-457b-9ad6-5840e2ede539\\ztbfile_procurement.pdf"
    # ress = extract_common_header(file_path)
    # print(ress)
    res=extract_text_by_page(file_path)
    # print(res)磋商文件_tobidders_notice_part2.pdf
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`import PyPDF2`
11.1适配货物标 2024-11-01 14:28:10 +08:00			`from flask_app.general.clean_pdf import extract_common_header, clean_page_content`
10.18小解析 2024-10-18 15:44:18 +08:00
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`def extract_text_by_page(file_path):`
			`common_header = extract_common_header(file_path)`
11.1适配货物标 2024-11-01 14:28:10 +08:00			`print(f"公共抬头：{common_header}")`
			`print("--------------------正文开始-------------------")`
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`result = ""`
			`with open(file_path, 'rb') as file:`
			`reader = PyPDF2.PdfReader(file)`
			`num_pages = len(reader.pages)`
			`# print(f"Total pages: {num_pages}")`
			`for page_num in range(num_pages):`
			`page = reader.pages[page_num]`
			`text = page.extract_text()`
			`if text:`
10.31 2024-10-31 20:12:08 +08:00			`print("-------------------")`
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`cleaned_text = clean_page_content(text,common_header)`
			`print(cleaned_text)`
			`result += cleaned_text`
			`# print(f"Page {page_num + 1} Content:\n{cleaned_text}")`
			`else:`
			`print(f"Page {page_num + 1} is empty or text could not be extracted.")`
			`return result`
10.9 2024-10-09 13:50:28 +08:00
			`# import fitz # PyMuPDF`
			`# import re`
			`#`
			`#`
			`# def clean_page_content(text, common_header):`
			`# if common_header:`
			`# for header_line in common_header.split('\n'):`
			`# if header_line.strip():`
			`# text = re.sub(r'^' + re.escape(header_line.strip()) + r'\n?', '', text, count=1)`
			`#`
			`# text = re.sub(r'^\s\d+\s(?=\D)', '', text)`
			`# text = re.sub(r'\s+\d+\s*$', '', text)`
			`# text = re.sub(r'\s\/\s\d+\s*', '', text)`
			`#`
			`# return text`
			`#`
			`#`
			`# def extract_common_header(pdf_path):`
			`# doc = fitz.open(pdf_path)`
			`# headers = []`
			`# total_pages = len(doc)`
			`#`
			`# if total_pages == 2:`
			`# pages_to_read = 2`
			`# start_page = 0`
			`# else:`
			`# pages_to_read = 3`
			`# middle_page = total_pages // 2`
			`# start_page = max(0, middle_page - 1)`
			`#`
			`# for i in range(start_page, min(start_page + pages_to_read, total_pages)):`
			`# page = doc[i]`
			`# text = page.get_text()`
			`# if text:`
			`# first_lines = text.strip().split('\n')[:3]`
			`# headers.append(first_lines)`
			`#`
			`# doc.close()`
			`#`
			`# if len(headers) < 2:`
			`# return ""`
			`#`
			`# common_headers = []`
			`# for lines in zip(*headers):`
			`# common_line = set(lines[0].split()).intersection(*[set(line.split()) for line in lines[1:]])`
			`# if common_line:`
			`# common_headers.append(' '.join(common_line))`
			`#`
			`# return '\n'.join(common_headers)`
			`#`
			`#`
			`# def extract_text_by_page(file_path):`
			`# common_header = extract_common_header(file_path)`
			`# result = ""`
			`# doc = fitz.open(file_path)`
			`# num_pages = len(doc)`
			`#`
			`# for page_num in range(num_pages):`
			`# page = doc[page_num]`
			`# text = page.get_text()`
			`# if text:`
			`# cleaned_text = clean_page_content(text, common_header)`
			`# print(cleaned_text)`
			`# result += cleaned_text`
			`# else:`
			`# print(f"Page {page_num + 1} is empty or text could not be extracted.")`
			`#`
			`# doc.close()`
			`# return result`


9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`if __name__ == '__main__':`
11.6修复bug 2024-11-06 17:29:45 +08:00			`# file_path='D:\\flask_project\\flask_app\\static\\output\\output1\\648e094b-e677-47ce-9073-09e0c82af210\\ztbfile_tobidders_notice_part2.pdf'`
11.7 资格审查货物标修改 2024-11-07 15:46:24 +08:00			`file_path = 'C:\\Users\\Administrator\\Desktop\\fsdownload\\a110ed59-00e8-47ec-873a-bd4579a6e628\\ztbfile_tobidders_notice_part2.pdf'`
10.9子空间调用问题/货物标提取json文件更加健壮 2024-10-09 20:51:33 +08:00			`# file_path = 'C:\\Users\\Administrator\\Desktop\\货物标\\output4\\磋商文件_tobidders_notice_part2.pdf'`
10.18小解析 2024-10-18 15:44:18 +08:00			`# file_path = 'C:\\Users\\Administrator\\Desktop\\货物标\\截取test\\交警支队机动车查验监管系统项目采购_tobidders_notice_part1.pdf'`
10.29截取工程标新逻辑 2024-10-29 20:40:14 +08:00			`# file_path = "C:\\Users\\Administrator\\Desktop\\招标文件\\招标test文件夹\\zbtest8.pdf"`
10.31 2024-10-31 15:03:32 +08:00			`# file_path="C:\\Users\\Administrator\\Desktop\\fsdownload\\45f650ce-e519-457b-9ad6-5840e2ede539\\ztbfile_procurement.pdf"`
10.18小解析 2024-10-18 15:44:18 +08:00			`# ress = extract_common_header(file_path)`
			`# print(ress)`
11.4 2024-11-04 17:13:06 +08:00			`res=extract_text_by_page(file_path)`
10.9 2024-10-09 13:50:28 +08:00			`# print(res)磋商文件_tobidders_notice_part2.pdf`