以下是为您推荐的入门 LLM 的相关资源:
对于渴望深入理解AI的爱好者和研究者来说,阅读经典论文不仅是获取知识的途径,更能让我们产生新的思维方式。历史文章分享过一次《Attention is All You Need》论文的精读,我也不是算法和机器学习的从业者,有很多不解,但是不影响我在后面学习大语言模型(LLM)相关技术时提供了理论基础。《Attention is All You Need》这篇论文堪称经典一点不为过,早期的GPT、BERT、T5大语言模型都是在此论文提供的Transformers框架上进行后续的模型设计和优化的。所以今天,为大家推荐31篇LLM的经典论文之作速读版,看完感觉自己通透了,包含:大语言模型架构、RAG、预训练、微调、提示词等。在此之前,先分享一个想看中文翻译版原文的高效办法:为了方便中文阅读:安装浏览器插件“沉浸式翻译(https://immersivetranslate.com)”,支持多种浏览器,多个翻译服务。PDF翻译后样式不方便阅读,调整为HTM版本:将arxiv PDF论文原地址域名中的x更换成5即变成可访问的HTML版本链接,然后就可以愉快的使用“沉浸式翻译”进行原文阅读了。论文中看不懂的公式/概念,对于不是搞算法的可以不用专研,毕竟没有算法功底和更详细的上下文有些很难读懂,google或者AI一下知道是干嘛的就够了(个人阅读习惯,大佬跳过~)。31篇LLM的经典论文速读版清单[节选来源:劉智皓](https://tomohiroliu22.medium.com/66%E5%80%8B%E5%A4%A7%E5%9E%8B%E8%AA%9E%E8%A8%80%E6%A8%A1%E5%9E%8Bllm%E7%B6%93%E5%85%B8%E8%AB%96%E6%96%87-0fcdab74e822)|
首先,建议学习大语言模型(LLM)入门者的课程,这是了解LLM的基础。在此基础上,可以进一步学习面向开发者的课程,帮助您更好地应用LLM于实际项目中。1.大语言模型(LLM)入门者的课程2.然后,进一步看看面向开发者的课程
卧槽,来了朋友们,Karpathy三个半小时LLM入门课程,如果想入门了解LLM的话必看这个视频。详细介绍LLM训练的全部过程,包括预训练、有监督微调和强化学习。1.预训练:数据、分词、Transformer神经网络的输入输出和内部结构、推理、GPT-2训练示例、Llama 3.1基础推理示例2.有监督微调:对话数据、"LLM心理学":幻觉、工具使用、知识/工作记忆、自我认知、模型需要token来思考、拼写、参差不齐的智能3.强化学习:熟能生巧、DeepSeek-R1、AlphaGo、RLHF。视频是23年十月那个视频的强化版本,讲的更加详细,即使没有技术背景也可以看懂。将提供对ChatGPT等LLM完整训练流程的直观理解,包含许多示例,并可能帮助你思考当前的能力、我们所处的位置以及未来的发展方向。下面是Gemini的详细总结,而且包含了时间轴,我也翻译了完整的视频,下载地址回复【Karpathy】获取字幕和原始视频,可以自己压制,压制完的太大了。[heading3]大型语言模型(LLM)和ChatGPT简介[content]视频目的(00:00-00:27):本视频旨在为普通受众提供一个关于大型语言模型(LLM),特别是像ChatGPT这样的模型的全面但易于理解的介绍。目标是建立思维模型,帮助理解LLM工具的本质、优势和局限性。文本框的奥秘(00:27-00:41):探讨用户与ChatGPT等LLM交互的核心界面——文本框。提出用户输入内容、模型返回文本的机制问题,以及背后对话的本质。