Chat with Wiki - chatpgt的总体介绍、核心技术

Answer

ChatGPT 总体介绍及核心技术如下：

ChatGPT 有三个基本阶段。首先，获取与迄今为止的文本相对应的 token 序列，并找到表示它们的嵌入（即一组数字的数组）。然后在这个嵌入上进行操作，以“标准神经网络方式”，值“逐层流动”到网络的连续层中，以生成一个新的嵌入（即一个新的数字数组）。最后，从这个数组的最后一部分生成一个大约有 50,000 个值的数组，这些值将变成不同可能的下一个 token 的概率。

关键是，这个流程的每个部分都是由神经网络实现的，其权重由端到端的网络训练确定。除了整体架构外，一切都是从训练数据中“学习”的，而不是“显式设计”。

在设置体系结构方面有许多细节，首先是嵌入模块。transformers 的想法是对组成文本的 token 序列执行类似的操作，不仅定义了序列中可以存在连接的固定区域，而且引入了“注意力”的概念，以及更关注序列中的某些部分而不是其他部分的想法。ChatGPT 的总体目标是根据它所看到的训练内容（包括查看网络等数十亿页的文本），“合理地”继续文本。在任何给定的时刻，它都有一定数量的文本，目标是为下一个 token 添加一个适当的选择。

Content generated by AI large model, please carefully verify (powered by aily)

References

ChatGPT 是在做什么，为什么它有效？

它有三个基本阶段。首先，它获取与迄今为止的文本相对应的token序列，并找到表示它们的嵌入（即一组数字的数组）。然后它在这个嵌入上进行操作——以“标准神经网络方式”，值“逐层流动”到网络的连续层中——以生成一个新的嵌入（即一个新的数字数组）。然后，它从这个数组的最后一部分中生成一个大约有50,000个值的数组，这些值将变成不同可能的下一个token的概率。（是的，碰巧有大约与英语常用单词相同数量的token被使用，但只有大约3000个token是整个单词，其余的是片段。)关键是，这个流程的每个部分都是由神经网络实现的，其权重由端到端的网络训练确定。换句话说，实际上除了整体架构外，一切都是从训练数据中“学习”的，而不是“显式设计”。然而，在设置体系结构方面有许多细节，这些细节反映了各种经验和神经网络知识。即使这绝对涉及到细节，但我认为谈论其中一些细节仍然很有用，这至少可以让我们了解到构建ChatGPT这样的系统需要多少工作量。首先是嵌入模块。这是GPT-2的草图Wolfram语言表示：

LLM开源中文大语言模型及数据集集合

FindTheChatGPTer：地址：[https://github.com/chenking2020/FindTheChatGPTer](https://github.com/chenking2020/FindTheChatGPTer)简介：ChatGPT爆火，开启了通往AGI的关键一步，本项目旨在汇总那些ChatGPT的开源平替们，包括文本大模型、多模态大模型等，为大家提供一些便利。LLM_reviewer：地址：[https://github.com/SpartanBin/LLM_reviewer](https://github.com/SpartanBin/LLM_reviewer)简介：总结归纳近期井喷式发展的大语言模型，以开源、规模较小、可私有化部署、训练成本较低的‘小羊驼类’模型为主。Awesome-AITools：地址：[https://github.com/ikaijua/Awesome-AITools](https://github.com/ikaijua/Awesome-AITools)简介：收藏整理了AI相关的实用工具、评测和相关文章。open source ChatGPT and beyond：地址：[https://github.com/SunLemuria/open_source_chatgpt_list](https://github.com/SunLemuria/open_source_chatgpt_list)简介：This repo aims at recording open source ChatGPT,and providing an overview of how to get involved,including:base models,technologies,data,domain models,training pipelines,speed up techniques,multi-language,multi-modal,and more to go.Awesome Totally Open Chatgpt：地址：[https://github.com/nichtdax/awesome-totally-open-chatgpt](https://github.com/nichtdax/awesome-totally-open-chatgpt)简介：This repo record a list of totally open alternatives to ChatGPT.Awesome-LLM：

ChatGPT 是在做什么，为什么它有效？

transformers的想法是对组成文本的token序列执行类似的操作。但是，transformers不仅定义了序列中可以存在连接的固定区域，而且引入了“注意力”的概念，以及更关注序列中的某些部分而不是其他部分的想法。也许有一天，从一个通用的神经网络开始，并通过训练进行所有定制将是有意义的。但是，至少目前，在实践中将事物“模块化”似乎是至关重要的——就像transformers一样，也可能是我们的大脑所做的。那么，ChatGPT（或者说基于它的GPT-3网络）实际上是做什么的呢？请记住，它的总体目标是根据它所看到的训练内容（包括查看网络等数十亿页的文本），“合理地”继续文本。因此，在任何给定的时刻，它都有一定数量的文本——它的目标是为下一个token添加一个适当的选择。