zbparse/flask_app/货物标/test.py

import re

def get_patterns_for_qualification():
    # begin_pattern 匹配以'资格审查'或'资格性检查'开始的标题，同时允许前面有章节编号和标题
    begin_pattern = re.compile(
        r'^第[一二三四五六七八九十百千]+(?:章|部分).*?(资格审查|资格性检查).*', re.MULTILINE)

    # end_pattern 匹配下一个章节的开始或以'附件'加数字开头的页
    end_pattern = re.compile(
        r'^第[一二三四五六七八九十百千]+(?:章|部分)\s*[\u4e00-\u9fff]+|附件\s*\d+', re.MULTILINE)

    return begin_pattern, end_pattern

# 获取编译后的正则表达式
begin_pattern, end_pattern = get_patterns_for_qualification()

# 示例字符串，用于测试正则表达式是否工作
test_string = """
第一章 资格审查
资格性检查
第二章 实施规范
附件 4 使用说明
"""

# 测试 begin_pattern
begin_matches = begin_pattern.findall(test_string)
print("Begin Matches:", begin_matches)

# 测试 end_pattern
end_matches = end_pattern.findall(test_string)
print("End Matches:", end_matches)
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`import re`
9.13 2024-09-13 16:05:16 +08:00
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`def get_patterns_for_qualification():`
			`# begin_pattern 匹配以'资格审查'或'资格性检查'开始的标题，同时允许前面有章节编号和标题`
			`begin_pattern = re.compile(`
			`r'^第[一二三四五六七八九十百千]+(?:章\|部分).?(资格审查\|资格性检查).', re.MULTILINE)`
9.18 2024-09-18 11:57:17 +08:00
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`# end_pattern 匹配下一个章节的开始或以'附件'加数字开头的页`
			`end_pattern = re.compile(`
			`r'^第[一二三四五六七八九十百千]+(?:章\|部分)\s[\u4e00-\u9fff]+\|附件\s\d+', re.MULTILINE)`
9.19 投标人须知提取指定内容优化，更加健壮 2024-09-19 11:33:17 +08:00
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`return begin_pattern, end_pattern`
9.19 投标人须知提取指定内容优化，更加健壮 2024-09-19 11:33:17 +08:00
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`# 获取编译后的正则表达式`
			`begin_pattern, end_pattern = get_patterns_for_qualification()`
9.19 投标人须知提取指定内容优化，更加健壮 2024-09-19 11:33:17 +08:00
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`# 示例字符串，用于测试正则表达式是否工作`
			`test_string = """`
			`第一章资格审查`
			`资格性检查`
			`第二章实施规范`
			`附件 4 使用说明`
			`"""`
9.19 投标人须知提取指定内容优化，更加健壮 2024-09-19 11:33:17 +08:00
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`# 测试 begin_pattern`
			`begin_matches = begin_pattern.findall(test_string)`
			`print("Begin Matches:", begin_matches)`
9.19 投标人须知提取指定内容优化，更加健壮 2024-09-19 11:33:17 +08:00
9.19 货物标提取资格审查 2024-09-19 18:00:24 +08:00			`# 测试 end_pattern`
			`end_matches = end_pattern.findall(test_string)`
			`print("End Matches:", end_matches)`