Chat with Wiki - 科普性质的介绍下目前大模型的优秀应用案例和实施经验

Answer

以下为目前大模型的一些优秀应用案例和实施经验：

在问答行业：

Baichuan 借鉴了 Meta 的 CoVe 技术，将复杂 Prompt 拆分为多个独立且可并行检索的搜索友好型查询，使大模型能够对每个子查询进行定向知识库搜索。
利用自研的 TSF（Think-Step Further)技术来推断和挖掘用户输入背后更深层的问题，以更精准、全面地理解用户意图。
自研 Baichuan-Text-Embedding 向量模型，对超过 1.5T tokens 的高质量中文数据进行预训练，并通过自研损失函数解决了对比学习方式依赖 batchsize 的问题。同时引入稀疏检索和 rerank 模型，形成向量检索与稀疏检索并行的混合检索方式，大幅提升了目标文档的召回率，达到 95%。

在医疗行业：

涵盖疾病的诊断与预测、药物研发以及个性化医疗等方向。
例如，麻省理工学院利用 AI 发现了新型广谱抗生素 Halicin。研究者先构建由两千个性能已知的分子组成的训练集，用它们训练 AI 学习分子特点，总结规律，再对美国 FDA 已通过的六万多个分子进行分析，最终成功识别出有效分子，且实验证明效果良好。

在模型架构方面：

包括 encoder-only、encoder-decoder 和 decoder-only 等类型。
如 BERT 是 encoder-only 模型的代表，google 的 T5 是 encoder-decoder 模型的代表，众多熟知的 AI 助手包括 ChatGPT 基本属于 decoder-only 架构。
大模型的特点在于预训练数据量大，往往来自互联网上的多种来源，且参数众多，如 Open 在 2020 年发布的 GPT-3 就已达到 170B 的参数。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型RAG问答行业最佳案例及微调、推理双阶段实现模式：基于模块化(Modular)RAG自定义RAG Flow

基于百川的宣传资料整理（[查看原文](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650901201&idx=1&sn=3a9bd61403fb4b024ec5d8c128990495&scene=21#wechat_redirect)），由于资料有限，对于部分细节笔者进行了适当猜测和补充。针对用户日益复杂的问题，Baichuan借鉴了Meta的CoVe技术，将复杂Prompt拆分为多个独立且可并行检索的搜索友好型查询，使大模型能够对每个子查询进行定向知识库搜索。此外，他们还利用自研的TSF（Think-Step Further)技术来推断和挖掘用户输入背后更深层的问题，以更精准、全面地理解用户意图。TSF的技术细节并没有披露，猜测其本质应该是对Step-back prompting方法的改良。在检索步骤中，百川智能自研了Baichuan-Text-Embedding向量模型，对超过1.5T tokens的高质量中文数据进行预训练，并通过自研损失函数解决了对比学习方式依赖batchsize的问题。该向量模型登顶了C-MTEB。同时引入稀疏检索和rerank模型（未披露），形成向量检索与稀疏检索并行的混合检索方式，大幅提升了目标文档的召回率，达到了95%。

开发：AI应用大模型商业化落地现状与思考

首先来看医疗行业，这是关乎每个人生命健康的重要领域。大模型在医疗行业的应用主要涵盖三个方向：疾病的诊断与预测、药物研发以及个性化医疗。从医疗前期的图像诊断，基因组学和精准医疗到药物研发阶段再到最后病人的个性化医疗，人工智能都有其适合的应用场景。例如，在2020年，麻省理工学院利用AI发现了一种名为Halicin的新型广谱抗生素，它不仅能有效杀灭对现有抗生素产生耐药性的细菌，而且不会使细菌产生新的耐药性。这一突破性发现源于AI的助力。研究者先搞了一个由两千个性能已知的分子组成的训练集，这些分子都被标记好了是不是可以抑制细菌生长，用它们去训练AI。AI自己学习这些分子都有什么特点，总结了一套“什么样的分子能抗菌”的规律。之后又对美国FDA已通过的六万多个分子中进行分析，最终成功识别出了一个符合所有要求的分子，这就是Halicin。之后研究者开始做实验证明，它真的非常好使，大概很快就会用于临床，造福人类。这个例子充分展示了AI大模型在医疗领域的巨大潜力，目前很多医疗研究机构都进行医疗大模型的开发研究，大模型在医疗领域大有可为！

从 0 到 1 了解大模型安全，看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数