Chat with Wiki - 用哪个大模型，在PDF和图片识别上精度高

Answer

在 PDF 和图片识别方面，对于图片，ChatGPT 依靠视觉模型解析，复杂图片建议使用最新模型（如 GPT-4.5）。对于 PDF，ChatGPT 仅能识别文本，无法读取图表、图片，复杂布局可能导致误读。一些初步实验表明，一些开源的 PDF 解析方法可能无法达到高质量要求，而当辅以可以有效提取文档中的结构化信息并将其整合为提示词（Prompt）的 PDF 解析器时，大语言模型能够作出更准确的响应。

Content generated by AI large model, please carefully verify (powered by aily)

References

宝玉日报

图片：ChatGPT依靠视觉模型解析，复杂图片建议使用最新模型（如GPT-4.5）。PDF：仅能识别文本，无法读取图表、图片，复杂布局可能导致误读。Excel：Python处理数据结构良好，但对文本分析效果较差，建议手动复制文本输入。音视频：目前ChatGPT处理能力有限，推荐使用Gemini处理。🔗[https://x.com/dotey/status/1898213778354782520](https://x.com/dotey/status/1898213778354782520)📖详细分析：[https://www.linkedin.com/posts/peter-gostev_when-you-upload-attachments-to-chatgpt-you-activity-7303469122942631936-1NY6](https://www.linkedin.com/posts/peter-gostev_when-you-upload-attachments-to-chatgpt-you-activity-7303469122942631936-1NY6)4⃣️💸AI初创公司→NVIDIA→政府：资金流动的“真实现状”100万美元投资→最终到AI初创公司手里仅4.3万美元！资金链：初创公司融资→购买NVIDIA GPU→42.4%交税→剩余资金再流转。讽刺现实：投资的钱最终大部分进了NVIDIA和政府口袋，初创公司拿到的资金寥寥无几。

3月9日社区动态速览

通过增强PDF结构识别，革新检索增强生成技术(RAG)

一些初步实验表明，一些开源的PDF解析方法可能无法达到高质量RAG的要求。通过上述分析，我们能够发现：当辅以可以有效提取文档中的结构化信息并将其整合为提示词（Prompt）的PDF解析器时，大语言模型能够作出更准确的响应。这个过程提高了提供给模型的数据质量和相关性，从而提高了模型输出的质量。未来，我们将研究分享更多基于深度学习的文档解析方法，以便更全面地理解RAG质量和文档解析质量之间的关系。