以下是关于入门 AI 的一些建议:
此外,对于深度学习的入门,您可以:
对于大模型的入门,通俗来讲,大模型输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。其训练和使用过程可以类比为上学参加工作:找学校(训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练)、确定教材(数据量特别多)、找老师(用算法讲述内容,让大模型理解 Token 之间的关系)、就业指导(为让大模型更好胜任某一行业,需要进行微调)、搬砖(进行推导,如翻译、问答等)。在 LLM 中,Token 被视为模型处理和生成的文本单位,会被分割和数字化,形成词汇表。
当然,还有很多其它的重要成果。我认为正是以上所列举的研究给我们带来了重要的理论和算法上的突破,并改变了世界,推动了深度学习的革命。如何入门深度学习?深度学习的入门并不容易,但我会尽我所能指导你完成这一阶段。参考以下学习资源,但记住,你需要的不仅仅是观看视频和阅读论文,还需要不断地理解、编程、写代码、经历失败,然后成功。-1.请先学习Python和R语言:)0.学习吴恩达的深度学习课程Siraj Raval的视频:Siraj Raval非常amazing,他可以用风趣易懂的方式来解释复杂的概念。你可以在YouTube上关注他的个人频道,其中这两个视频非常棒:François Chollet的两本书:Deep Learning with PythonDeep Learning with R分布式深度学习深度学习是数据科学家应该学习的最重要的工具和理论之一。我们很幸运,有那么多深度学习方向的研究、软件、工具和硬件被开发出来。深度学习的计算成本很昂贵,即使在理论、软件和硬件有所进展的情况下,我们也需要大数据和分布式机器学习的发展来提升深度学习的性能和效率。为此,人们开发出了分布式框架(Spark)和深度学习库(TensorFlow、PyTorch和Keras)。参考阅读:
了解AI基本概念:首先,建议阅读「[从这里启程](https://waytoagi.feishu.cn/wiki/PFXnwBTsEiGwGGk2QQFcdTWrnlb?table=blkjooAlLFNtvKJ2)」部分,熟悉AI的术语和基础概念。了解什么是人工智能,它的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。浏览入门文章,这些文章通常会介绍AI的历史、当前的应用和未来的发展趋势。开始AI学习之旅:在「[入门:AI学习路径](https://waytoagi.feishu.cn/wiki/ZYtkwJQSJiLa5rkMF5scEN4Onhd?table=tblWqPFOvA24Jv6X&view=veweFm2l9w)」中,你将找到一系列为初学者设计的课程。这些课程将引导你了解生成式AI等基础知识,特别推荐李宏毅老师的课程。通过在线教育平台(如Coursera、edX、Udacity)上的课程,你可以按照自己的节奏学习,并有机会获得证书。选择感兴趣的模块深入学习:AI领域广泛(比如图像、音乐、视频等),你可以根据自己的兴趣选择特定的模块进行深入学习。我建议你一定要掌握提示词的技巧,它上手容易且很有用。实践和尝试:理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出你的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎你实践后的分享。体验AI产品:与现有的AI产品进行互动是学习AI的另一种有效方式。尝试使用如ChatGPT、Kimi Chat、智谱、文心一言等AI聊天机器人,了解它们的工作原理和交互方式。通过与这些AI产品的对话,你可以获得对AI在实际应用中表现的第一手体验,并激发你对AI潜力的认识。
通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习,那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程:1.找学校::训练LLM需要大量的计算,因此GPU更合适,因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导5.搬砖::就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)在LLM中,Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary),比如:The cat sat on the mat,会被分割成“The”、“cat”、“sat”等的同时,会生成下面的词汇表:|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|