Chat with Wiki - pdf转结构化文档

Answer

将 PDF 转换为结构化文档具有一定的复杂性。从计算机的角度看，文档分为有标记文档（如 Microsoft Word 和 HTML 文档）和无标记文档（如 PDF 文档）。PDF 文档未存储结构信息，机器难以读取，将 PDF 表格复制到 Word 时原表格结构常丢失。为使大语言模型能处理无标记文档，需要解析器将散乱字符组织成有结构的连贯文本，理想的 PDF 解析器应具备文档结构识别和在复杂文档布局中保持鲁棒性等关键特征。

此外，Fireworks AI 发布的 Document Inlining 功能可处理非结构化文档，能将 PDF、截图、表格等转换为 LLMs 可理解的结构化文本，具有高质量解析、在复杂文档中精准提取内容、结果清晰专业以及与 OpenAI API 完全兼容且仅需一行代码即可启用等特点。

详细介绍：

Fireworks AI：https://xiaohu.ai/p/16106
在线演示：https://huggingface.co/spaces/Qwen/QVQ-72B-preview
官方介绍：https://fireworks.ai/blog/document-inlining-launch#quality-evaluation

Content generated by AI large model, please carefully verify (powered by aily)

References

通过增强PDF结构识别，革新检索增强生成技术(RAG)

对于人类来说，浏览任何文档页面的认知过程都是相似的。当我们阅读一个页面时，我们的视网膜会捕捉到字符。接着在我们的大脑中，这些字符被组织成段落、表格和图表，然后被理解或记忆。但计算机是以二进制码感知信息，所从计算机的角度看，文档可以分为两类，如图3所示：图3计算机视角下的两种类型的文档有标记文档（Tagged Documents）：例如Microsoft Word和HTML文档，它们包含像<p>和<table>这样的特殊标记，用来将文本组织成段落、单元格和表格。无标记文档（Untagged Documents）：例如PDF文档，它存储了每个文档页面上字符、线条和其他内容元素放置位置的指令。PDF文档以人类可读的方式“绘制”这些基本内容元素，但它并没有存储文档的任何结构信息，如表格或段落。因此，无标记文档仅供人类阅读，但机器无法读取。当尝试将PDF表格复制到Word中时，这一点会很明显，因为在Word中原表格的结构通常会完全丢失。然而，大语言模型擅长处理序列化的文本。因此，为了使大语言模型能够有效处理无标记文档，需要一个解析器将散乱的字符组织成具有其结构的连贯文本。理想情况下，PDF解析器应具备以下关键特征：文档结构识别：能够灵活地将页面划分为不同类型的内容块，如段落、表格和图表。这确保了划分的文本块是完整和独立的语义单元。在复杂文档布局中保持鲁棒性（Robustness）：即使是在文档页面布局复杂的情况下也能保证解析效果，如多列页面、无边框表格甚至合并单元格的表格。

XiaoHu.AI日报

视觉与语言结合：在多步推理（如数学、物理问题）中表现优异，可通过文字和图像推导因果关系。专业领域能力：精准提取技术报告和图表关键信息，高效解析物体的空间关系和细节。数学能力提升：显著减少数学推理任务（代数、微积分）中的错误率。?详细介绍：[https://xiaohu.ai/p/16126](https://xiaohu.ai/p/16126)?在线演示：[https://huggingface.co/spaces/Qwen/QVQ-72B-preview](https://huggingface.co/spaces/Qwen/QVQ-72B-preview)3⃣️?Fireworks AI发布Document Inlining功能非结构化文档处理：将PDF、截图、表格等转换为LLMs可理解的结构化文本。高质量解析：在复杂文档中（含表格、图表等）实现精准的内容提取，结果清晰且专业。兼容性强：与OpenAI API完全兼容，仅需一行代码即可启用。?详细介绍：[https://xiaohu.ai/p/16106](https://xiaohu.ai/p/16106)?官方介绍：[https://fireworks.ai/blog/document-inlining-launch#quality-evaluation](https://fireworks.ai/blog/document-inlining-launch#quality-evaluation)

XiaoHu.AI日报