目前在 AI 领域,不同的技术和模型发展阶段有所不同。
以 GPT 为例,其发展大致经历了四个主要阶段:预训练、有监督微调、奖励建模、强化学习,每个阶段都有相应的数据集、算法和生成的模型。
对于 RAG 技术,其发展经历了初始阶段后的相对沉寂期,随后 ChatGPT 的出现使社区重点转向利用大语言模型的能力,随着大语言模型能力的不断提高,如 GPT-4 的推出,RAG 技术的格局发生重大变化,重点转向了 RAG 和微调优势相结合的混合方法。但该领域仍缺乏系统的整合和抽象。
在科技与生物科技结合方面,目前仍处于安装阶段,尽管处于初期,但已有一些初步迹象显示未来潜在巨头公司的可能形态。
首先,让我们来看看训练这些助手的新兴配方。请记住,这一切都是非常新的,因此在快速发展。但到目前为止,这个配方大致如下:现在这是一个比较复杂的幻灯片,所以我会逐步解释它。大体而言,我们有四个主要阶段:预训练、有监督微调、奖励建模、强化学习。它们是按顺序依次执行的。现在,在每个阶段中,我们都有一个数据集来支持该阶段。我们有一个算法,这对于我们来说是一个训练神经网络的目标。然后我们得到了一个模型。底部还有一些注释。
开发:产品视角的大模型RAG应用[heading1]一文看懂RAG:大语言模型落地应用的未来[heading2]RAG发展的四个阶段在这个初始阶段之后,出现了相对沉寂的时期,与RAG相关的研究进展较少。随后chatGPT()的出现标志着LLMs领域的重要时刻,社区的重点转向利用LLMs的能力来实现更高的可控性和解决不断变化的需求。因此,大部分RAG工作集中在推断上,只有少数工作致力于微调过程。随着LLMs能力的不断提高,特别是GPT-4的推出,RAG技术的格局发生了重大变化。重点转向了RAG和微调的优势相结合的混合方法,同时也有少数人继续关注优化预训练方法。尽管RAG研究迅速增长,但该领域缺乏系统的整合和抽象,这使得理解RAG进展的全面情况变得困难。本论文旨在概述整个RAG过程,并包括当前和未来的RAG研究方向,通过详细考察LLMs中的检索增强来实现这一目标。因此,本文的目标是全面总结和组织技术原理、发展历史、内容以及尤其是出现LLMs后的相关方法和应用,以及RAG的评估方法、应用场景和未来的发展方向。
我预计科技与生物科技(tech x bio)将走一条类似的道路。现在,我们正处于一个关键时刻,意识到我们需要具备工程化生物的能力,以及更完善的工程化它的能力(也就是说,我们仍然处于安装阶段)。在科技行业,互联网的类似阶段催生了像亚马逊和谷歌这样的大型公司。考虑到这两大趋势的组合效应——以及健康医疗市场的巨大规模和挑战——我们应该预期看到几家潜在的万亿美元规模的公司崛起:终于出现了一个与GAFA(Google、Amazon、Facebook、Apple)相当的生物科技版GAFA。对于科技与生物科技的创始人来说,这意味着他们的抱负可以比以往任何时候都更大、更容易实现,只要他们能够执行。对于整个行业来说,这意味着解决医疗保健的系统性和结构性问题的途径,这些问题目前被错误地碎片化或整合(更不用说技术可以绕过根深蒂固的孤岛和结构)。最重要的是,对于我们所有人来说,工业生物复合体的成果应该通过大大改善的护理和更便宜的成本,带来更健康、更长寿和更富裕的生活。尽管仍然处于初期阶段,但已经有一些初步的迹象表明,未来正在崛起的生物科技GAFA(类似谷歌、亚马逊、Facebook和苹果那样的巨头)公司可能会是什么样子: