为什么LLM不能很好读取pdf文档 -WayToAGI

回答

LLM 不能很好读取 PDF 文档的原因较为复杂，主要包括以下几点：

正确处理 PDF 文档并从中获取信息比想象中复杂。
Embedding 并不是直接输入 LLM，只是用于召回相关文本，且纯向量化召回在多项 BEIR benchmark 上甚至不如 BM25。
向量数据库无法让模型突破自身的 context limit。
目前 LLM 产品套路还不够清晰，低代码 LLM 平台解决的问题较少，反而限制发挥。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

•对开发者来说低代码LLM平台解决的问题很少，反⽽限制发挥；•在未来LLM产品套路更清晰后可能低代码会有⽤，但现在还早。向量数据库不是Long-term Memory•向量数据库⽆法让模型突破⾃身的context limit；• Embedding并不是直接输⼊ LLM，⽽只是⽤于召回相关⽂本；•纯向量化召回在多项BEIR benchmark上甚⾄不如BM25；•在⽂本场景下没有不可替代性，但多模态是个机会。Embedding模型和⽂档模型被低估• Embedding模型是GPT之外的⼀个单独的encoder模型；•开源的embedding模型较OpenAI和Cohere的专有模型差距较⼤；•正确地处理PDF ⽂档并从中获取信息⽐想象中的复杂；• Embedding与⽂档模型的应⽤场景远不⽌ LLM。懂AI的产品经理是稀缺资源• ⽣成式AI产品从不确定性、响应速度、服务成本等⻆度都与此前⼤不相同；•产品经理在构建数据⻜轮中起到重要作⽤；• To B ⽅向的产品经理缺⼝更⼤；•任何产品都必须考虑如何应对AI的冲击。不要⽤技术热点指导创投，尤其是现在•顺着技术发展的脉络做产品很容易跑到⼤公司的航道上然后被卷死；•此刻接收到的信息和看到的热点很多是妥协后的结果；• Prompt is all you need ❌ Prompt is all you have ✅；

皇子：LLM经典论文速读版，看完感觉自己通透了

对于渴望深入理解AI的爱好者和研究者来说，阅读经典论文不仅是获取知识的途径，更能让我们产生新的思维方式。历史文章分享过一次《Attention is All You Need》论文的精读，我也不是算法和机器学习的从业者，有很多不解，但是不影响我在后面学习大语言模型（LLM）相关技术时提供了理论基础。《Attention is All You Need》这篇论文堪称经典一点不为过，早期的GPT、BERT、T5大语言模型都是在此论文提供的Transformers框架上进行后续的模型设计和优化的。所以今天，为大家推荐31篇LLM的经典论文之作速读版，看完感觉自己通透了，包含：大语言模型架构、RAG、预训练、微调、提示词等。在此之前，先分享一个想看中文翻译版原文的高效办法：为了方便中文阅读：安装浏览器插件“沉浸式翻译（https://immersivetranslate.com）”，支持多种浏览器，多个翻译服务。PDF翻译后样式不方便阅读，调整为HTM版本：将arxiv PDF论文原地址域名中的x更换成5即变成可访问的HTML版本链接，然后就可以愉快的使用“沉浸式翻译”进行原文阅读了。

生成式人工智能领域的 4 个突破点

LLMs的真正威力在于使自然语言成为行动的媒介。LLMs对常见且有详细文档的系统具有复杂的理解能力，但它们无法执行从这些系统中提取的任何信息。例如，OpenAI的ChatGPT、Anthropic的Claude和Character AI的Lily可以详细描述如何预订航班，但它们本身无法原生地预订航班（尽管像ChatGPT的插件等技术进展正在推动这一边界）。Amodei表示：“这个大脑在理论上拥有所有这些知识，只是缺少从名称到按钮的映射。”他说：“连接这些电缆并不需要太多的训练。你有一个没有实体的大脑，它知道如何移动，但它还没有连接上手臂和腿部。”