zbparse/flask_app/general/clean_pdf.py
2025-01-02 15:35:38 +08:00

127 lines
4.7 KiB
Python
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

import re
from PyPDF2 import PdfReader
def extract_common_header(pdf_path):
def get_headers(pdf_document, start_page, pages_to_read):
headers = []
for i in range(start_page, min(start_page + pages_to_read, len(pdf_document.pages))):
page = pdf_document.pages[i]
text = page.extract_text() or ""
if text:
# 只取每页的前三行,去除前后的空白字符
first_lines = [line.strip() for line in text.strip().split('\n')[:3]]
headers.append(first_lines)
return headers
def longest_common_prefix(strs):
if not strs:
return ""
# 找到最短的字符串长度
min_len = min(len(s) for s in strs)
if min_len == 0:
return ""
# 从第一个字符开始逐个比较
for i in range(min_len):
char = strs[0][i]
for s in strs[1:]:
if s[i] != char:
return strs[0][:i]
return strs[0][:min_len]
def find_common_headers(headers):
if not headers:
return []
# 使用 zip 对齐所有页的对应行
common_headers = []
for lines in zip(*headers):
# 找到所有行的最长公共前缀
common_prefix = longest_common_prefix(lines)
if len(common_prefix) >= 5: # 可以根据实际情况调整最小长度
common_headers.append(common_prefix)
return common_headers
pdf_document = PdfReader(pdf_path)
total_pages = len(pdf_document.pages)
# 定义两个提取策略
strategies = []
if total_pages >= 3:
# 策略1中间的3页
middle_page = total_pages // 2
start_page = max(0, middle_page - 1)
strategies.append((start_page, 3))
elif total_pages == 2:
# 策略12页
strategies.append((0, 2))
else:
# 策略11页
strategies.append((0, 1))
# 策略2前三页
if total_pages >= 3:
strategies.append((0, 3))
elif total_pages == 2:
strategies.append((0, 2))
elif total_pages == 1:
strategies.append((0, 1))
common_headers = []
for idx, (start, count) in enumerate(strategies):
headers = get_headers(pdf_document, start, count)
if len(headers) < 2:
continue # 需要至少2页来比较
current_common = find_common_headers(headers)
if current_common:
common_headers = current_common
break # 找到共同部分后退出
# 如果没有找到,继续下一个策略
return '\n'.join(common_headers)
def clean_page_content(text, common_header):
# 首先删除抬头公共部分
if common_header: # 确保有公共抬头才进行替换
for header_line in common_header.split('\n'):
if header_line.strip(): # 只处理非空行
# 替换首次出现的完整行
text = re.sub(r'^' + re.escape(header_line.strip()) + r'\n?', '', text, count=1)
# 删除文本开头的“第x页”格式的页码
text = re.sub(r'^第\d+页\s*', '', text)
# 删除页码 eg:89/129 这个代码分三步走可以把89/129完全删除
text = re.sub(r'^\s*\d+\s*(?=\D)', '', text) # 删除开头的页码,仅当紧跟非数字字符时 投标人须知这块, 页码和顶部序号混在一起的时候也会把序号给去除了。'2018.' 20为页码 18.为序号
text = re.sub(r'^\s*\/?\s*(共\s*)?\d+\s*(页)?\s*', '', text) #删除/123 /共123 /共123页 /123页
text = re.sub(r'^\s*[—-]\s*(第\s*)?\d{1,3}\s*(页)?\s*[—-]\s*', '', text) # 删除形如 '—2—', '-2-', 或 '-第2页-' 的页码
return text
def is_scanned_pdf(file_path, max_pages=15):
"""
检查 PDF 是否为扫描件(即前 15 页无文本)。
参数:
- file_path: PDF 文件路径。
- max_pages: 最大检查页数,默认为 15 页。
返回:
- True: 如果前 15 页都没有文本,认为是扫描件。
- False: 如果有任何页有文本,认为不是扫描件。
"""
with open(file_path, 'rb') as file:
reader = PdfReader(file)
for i, page in enumerate(reader.pages):
if i >= max_pages: # 超过最大检查页数,停止检查
break
if page.extract_text().strip(): # 如果有文本
return False # 不是扫描型
return True # 前 max_pages 页都没有文本
if __name__ == '__main__':
file_path = r"C:\Users\Administrator\Documents\WeChat Files\wxid_d11awe5rp1y722\FileStorage\File\2024-12\2020-安徽-安徽省生态环境厅电梯采购.pdf"
res=is_scanned_pdf(file_path)
if res:
print("扫描型")
else:
print("普通型")