Chat with Wiki - 如何打造智能家电行业大模型，需要几步，分别具体怎么实施？

Answer

打造智能家电行业大模型一般需要以下步骤及具体实施方法：

准备计算资源：训练大模型需要大量的计算能力，特别是 GPU 等硬件，类似于找一所具备资本和资源的“贵族学校”。
确定数据：大模型需要海量的数据，数据量通常以千亿序列（Token）为标配，这就像为学习确定丰富的“教材”。
选择算法：选择合适的算法来处理和讲解数据，让大模型能更好地理解 Token 之间的关系，如同为学习找一位好“老师”。
微调指导：为了让大模型更好地适应智能家电行业，需要进行微调指导，类似于就业指导。
实际应用：完成上述步骤后，大模型就可以进行实际的任务，如翻译、问答等，这被称为推导。

在构建大模型的过程中，还包括以下具体环节：

收集海量数据：如同教孩子成为博学多才的人需要让其阅读大量书籍、观看纪录片、与人交谈，对于大模型，要收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。
预处理数据：就像为孩子整理学习资料，要对收集到的数据进行清理和组织，包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段。
设计模型架构：为大模型设计“大脑”结构，通常是复杂的神经网络，例如使用 Transformer 架构这种擅长处理序列数据的结构。
训练模型：让大模型“阅读”提供的数据，通过反复预测句子中的下一个词等方式，逐渐学会理解和生成人类语言。

行业最佳实践方面，以 Baichuan 为例，针对用户复杂的问题，借鉴了 Meta 的 CoVe 技术，将复杂 Prompt 拆分为多个独立且可并行检索的搜索友好型查询，还利用自研的 TSF 技术挖掘用户输入背后更深层的问题。在检索步骤中，自研了 Baichuan-Text-Embedding 向量模型，对大量数据进行预训练，并通过自研损失函数解决问题，同时引入混合检索方式提升目标文档的召回率。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID| |-|-| |The|345| |cat|1256| |sat|1726| |…|…|

胎教级教程：万字长文带你理解 RAG 全流程

旁白当你发现大模型的效果并没有你预期想的那么好时，你打算放弃但是你也听到了另一种声音：如果大模型没有你想的那么好，可能是你没有了解他的能力边界。你不想就这么放弃，为了更好的理解大模型，你首先了解了他的创建过程[heading2]1.收集海量数据[content]想象一下，我们要教一个孩子成为一个博学多才的人。我们会怎么做？我们会让他阅读大量的书籍，观看各种纪录片，与不同背景的人交谈等。对于AI模型来说，这个过程就是收集海量的文本数据。例子：研究人员会收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。[heading2]2.预处理数据[content]在孩子开始学习之前，我们可能会先整理这些资料，确保内容适合他的年龄和学习能力。同样，AI研究人员也需要清理和组织收集到的数据。例子：删除垃圾信息，纠正拼写错误，将文本分割成易于处理的片段。[heading2]3.设计模型架构[content]就像我们要为孩子设计一个学习计划一样，研究人员需要设计AI模型的"大脑"结构。这通常是一个复杂的神经网络。这里我们就不展开了，我们只需要了解，为了让AI能够很好的学习知识，科学家们设计了一种特定的架构。例子：研究人员可能会使用Transformer架构，这是一种特别擅长处理序列数据（如文本）的神经网络结构。[heading2]4.训练模型[content]就像孩子开始阅读和学习一样，AI模型开始"阅读"我们提供的所有数据。这个过程被称为"训练"。例子：模型会反复阅读数据，尝试预测句子中的下一个词。比如给出"太阳从东方__"，模型学会预测"升起"。通过不断重复这个过程，模型逐渐学会理解和生成人类语言。

大模型RAG问答行业最佳案例及微调、推理双阶段实现模式：基于模块化(Modular)RAG自定义RAG Flow

基于百川的宣传资料整理（[查看原文](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650901201&idx=1&sn=3a9bd61403fb4b024ec5d8c128990495&scene=21#wechat_redirect)），由于资料有限，对于部分细节笔者进行了适当猜测和补充。针对用户日益复杂的问题，Baichuan借鉴了Meta的CoVe技术，将复杂Prompt拆分为多个独立且可并行检索的搜索友好型查询，使大模型能够对每个子查询进行定向知识库搜索。此外，他们还利用自研的TSF（Think-Step Further)技术来推断和挖掘用户输入背后更深层的问题，以更精准、全面地理解用户意图。TSF的技术细节并没有披露，猜测其本质应该是对Step-back prompting方法的改良。在检索步骤中，百川智能自研了Baichuan-Text-Embedding向量模型，对超过1.5T tokens的高质量中文数据进行预训练，并通过自研损失函数解决了对比学习方式依赖batchsize的问题。该向量模型登顶了C-MTEB。同时引入稀疏检索和rerank模型（未披露），形成向量检索与稀疏检索并行的混合检索方式，大幅提升了目标文档的召回率，达到了95%。