以下是为您从最基本的原理开始讲解的相关内容:
强化学习: 从最开始的 K 臂抽奖机器入手讲解了强化学习的基本原理,然后切入到 Q-learning 中学习如何使用 Q 表来进行强化学习,最后再借助神经网络将 Q 表替换成用函数来拟合计算 Q 值。 参考文章: https://lilianweng.github.io/posts/2018-01-23-multi-armed-bandit/ https://yaoyaowd.medium.com/%E4%BB%8Ethompson-sampling%E5%88%B0%E5%A2%9E%E5%BC%BA%E5%AD%A6%E4%B9%A0-%E5%86%8D%E8%B0%88%E5%A4%9A%E8%87%82%E8%80%81%E8%99%8E%E6%9C%BA%E9%97%AE%E9%A2%98-23a48953bd30 https://zh.wikipedia.org/wiki/%E8%92%99%E5%9C%B0%E5%8D%A1%E7%BE%85%E6%96%B9%E6%B3%95 https://rl.qiwihui.com/zh_CN/latest/partI/index.html https://github.com/ty4z2008/Qix/blob/master/dl.md https://hrl.boyuai.com/ http://zh.d2l.ai/
苏格拉底辩证法及其第一性原理: 这里所说的“辩证法”,是一种通过提问和回答,深入挖掘、质疑和明确观念的艺术,是始于苏格拉底的、源头上的“辩证法”。这门艺术可通过一系列问题,不断挑战人们对世界的既定认知,揭示其中的矛盾和不足,从而引领人们学会自我反思并走向真理。把 AI 作为方法,就是要用辩证法以对话方式引导出 AI 被预训练的世界级的知识和推理能力,然后使其变成我们可以重复调用的“专家级团队”。既然先进的大语言模型是预训练的、以自然语言对话为交互的,又因为人们创造“概念”是为了对事物达成共识,并能更好地交流,所以我们就选择从对话开始,追本溯源,探索如何对话、如何训练对话能力及如何操纵概念——直达认知事物的第一性原理,然后再回到应用上来。
Stable Diffusion: 从艺术和美学的角度来看,扩散模型可以被理解为一种创作和表达过程,其中的元素通过互动和影响,形成一种动态的、有机的整体结构。 前向扩散过程是一个不断加噪声的过程。例如,在猫的图片中多次增加高斯噪声直至图片变成随机噪音矩阵。对于初始数据,设置 K 步的扩散步数,每一步增加一定的噪声,如果设置的 K 足够大,就能够将初始数据转化成随机噪音矩阵。扩散过程是固定的,由 Schedule 算法进行统筹控制。同时扩散过程也有一个重要的性质:可以基于初始数据 X0 和任意的扩散步数 Ki,采样得到对应的数据 Xi 。 反向扩散过程和前向扩散过程正好相反,是一个不断去噪的过程。将随机高斯噪声矩阵通过扩散模型的 Inference 过程,预测噪声并逐步去噪,最后生成一个小别墅的有效图片。其中每一步预测并去除的噪声分布,都需要扩散模型在训练中学习。
总结这一篇文章我们从最开始的K臂抽奖机器入手讲解了强化学习的基本原理,然后切入到Q-learning中学习如何使用Q表来进行强化学习,最后再借助神经网络将Q表替换成用函数来拟合计算Q值。参考文章:https://lilianweng.github.io/posts/2018-01-23-multi-armed-bandit/https://yaoyaowd.medium.com/%E4%BB%8Ethompson-sampling%E5%88%B0%E5%A2%9E%E5%BC%BA%E5%AD%A6%E4%B9%A0-%E5%86%8D%E8%B0%88%E5%A4%9A%E8%87%82%E8%80%81%E8%99%8E%E6%9C%BA%E9%97%AE%E9%A2%98-23a48953bd30https://zh.wikipedia.org/wiki/%E8%92%99%E5%9C%B0%E5%8D%A1%E7%BE%85%E6%96%B9%E6%B3%95https://rl.qiwihui.com/zh_CN/latest/partI/index.htmlhttps://github.com/ty4z2008/Qix/blob/master/dl.mdhttps://hrl.boyuai.com/http://zh.d2l.ai/
在第1章中,我们给出了ChatGPT直观的中文名称——为对话而生的预训练大语言模型。使用这一类的AI,要从研究对话本身入手——从预训练的智能体内引导出具体的知识,并由此找到更科学的理念与方法,并且从LLM、GPT、ChatGPT这三个基础概念出发,探讨它们和苏格拉底的“助产术”和“辩证法”在抽象层面上奇妙的一致性。需要说明的是,我们这里所说的“辩证法”,是一种通过提问和回答,深入挖掘、质疑和明确观念的艺术,是始于苏格拉底的、源头上的“辩证法”。这门艺术可通过一系列问题,不断挑战人们对世界的既定认知,揭示其中的矛盾和不足,从而引领人们学会自我反思并走向真理。一言以蔽之,把AI作为方法,就是要用辩证法以对话方式引导出AI被预训练的世界级的知识和推理能力。然后其变成我们可以重复调用的“专家级团队”。既然先进的大语言模型是预训练的、以自然语言对话为交互的,又因为人们创造“概念”是为了对事物达成共识,并能更好地交流,所以我们就选择从对话开始,追本溯源,探索如何对话、如何训练对话能力及如何操纵概念——直达认知事物的第一性原理,然后再回到应用上来。
总的来说,从艺术和美学的角度来看,扩散模型可以被理解为一种创作和表达过程,其中的元素通过互动和影响,形成一种动态的、有机的整体结构。”【2】前向扩散过程详解接下来,我们再详细分析一下前向扩散过程,其是一个不断加噪声的过程。我们举个例子,如下图所示,我们在猫的图片中多次增加高斯噪声直至图片变成随机噪音矩阵。可以看到,对于初始数据,我们设置K步的扩散步数,每一步增加一定的噪声,如果我们设置的K足够大,那么我们就能够将初始数据转化成随机噪音矩阵。扩散模型的前向扩散过程一般来说,扩散过程是固定的,由上节中提到的Schedule算法进行统筹控制。同时扩散过程也有一个重要的性质:我们可以基于初始数据X0 X_{0}和任意的扩散步数Ki K_{i},采样得到对应的数据Xi X_{i}。【3】反向扩散过程详解反向扩散过程和前向扩散过程正好相反,是一个不断去噪的过程。下面是一个直观的例子,将随机高斯噪声矩阵通过扩散模型的Inference过程,预测噪声并逐步去噪,最后生成一个小别墅的有效图片。扩散模型的反向生成过程其中每一步预测并去除的噪声分布,都需要扩散模型在训练中学习。