LLM 不能很好读取 PDF 文档的原因较为复杂,主要包括以下几点:
•对开发者来说低代码LLM平台解决的问题很少,反⽽限制发挥;•在未来LLM产品套路更清晰后可能低代码会有⽤,但现在还早。向量数据库不是Long-term Memory•向量数据库⽆法让模型突破⾃身的context limit;• Embedding并不是直接输⼊ LLM,⽽只是⽤于召回相关⽂本;•纯向量化召回在多项BEIR benchmark上甚⾄不如BM25;•在⽂本场景下没有不可替代性,但多模态是个机会。Embedding模型和⽂档模型被低估• Embedding模型是GPT之外的⼀个单独的encoder模型;•开源的embedding模型较OpenAI和Cohere的专有模型差距较⼤;•正确地处理PDF ⽂档并从中获取信息⽐想象中的复杂;• Embedding与⽂档模型的应⽤场景远不⽌ LLM。懂AI的产品经理是稀缺资源• ⽣成式AI产品从不确定性、响应速度、服务成本等⻆度都与此前⼤不相同;•产品经理在构建数据⻜轮中起到重要作⽤;• To B ⽅向的产品经理缺⼝更⼤;•任何产品都必须考虑如何应对AI的冲击。不要⽤技术热点指导创投,尤其是现在•顺着技术发展的脉络做产品很容易跑到⼤公司的航道上然后被卷死;•此刻接收到的信息和看到的热点很多是妥协后的结果;• Prompt is all you need ❌ Prompt is all you have ✅;
对于渴望深入理解AI的爱好者和研究者来说,阅读经典论文不仅是获取知识的途径,更能让我们产生新的思维方式。历史文章分享过一次《Attention is All You Need》论文的精读,我也不是算法和机器学习的从业者,有很多不解,但是不影响我在后面学习大语言模型(LLM)相关技术时提供了理论基础。《Attention is All You Need》这篇论文堪称经典一点不为过,早期的GPT、BERT、T5大语言模型都是在此论文提供的Transformers框架上进行后续的模型设计和优化的。所以今天,为大家推荐31篇LLM的经典论文之作速读版,看完感觉自己通透了,包含:大语言模型架构、RAG、预训练、微调、提示词等。在此之前,先分享一个想看中文翻译版原文的高效办法:为了方便中文阅读:安装浏览器插件“沉浸式翻译(https://immersivetranslate.com)”,支持多种浏览器,多个翻译服务。PDF翻译后样式不方便阅读,调整为HTM版本:将arxiv PDF论文原地址域名中的x更换成5即变成可访问的HTML版本链接,然后就可以愉快的使用“沉浸式翻译”进行原文阅读了。
LLMs的真正威力在于使自然语言成为行动的媒介。LLMs对常见且有详细文档的系统具有复杂的理解能力,但它们无法执行从这些系统中提取的任何信息。例如,OpenAI的ChatGPT、Anthropic的Claude和Character AI的Lily可以详细描述如何预订航班,但它们本身无法原生地预订航班(尽管像ChatGPT的插件等技术进展正在推动这一边界)。Amodei表示:“这个大脑在理论上拥有所有这些知识,只是缺少从名称到按钮的映射。”他说:“连接这些电缆并不需要太多的训练。你有一个没有实体的大脑,它知道如何移动,但它还没有连接上手臂和腿部。”