以下为目前大模型的一些优秀应用案例和实施经验:
在问答行业:
在医疗行业:
在模型架构方面:
基于百川的宣传资料整理([查看原文](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650901201&idx=1&sn=3a9bd61403fb4b024ec5d8c128990495&scene=21#wechat_redirect)),由于资料有限,对于部分细节笔者进行了适当猜测和补充。针对用户日益复杂的问题,Baichuan借鉴了Meta的CoVe技术,将复杂Prompt拆分为多个独立且可并行检索的搜索友好型查询,使大模型能够对每个子查询进行定向知识库搜索。此外,他们还利用自研的TSF(Think-Step Further)技术来推断和挖掘用户输入背后更深层的问题,以更精准、全面地理解用户意图。TSF的技术细节并没有披露,猜测其本质应该是对Step-back prompting方法的改良。在检索步骤中,百川智能自研了Baichuan-Text-Embedding向量模型,对超过1.5T tokens的高质量中文数据进行预训练,并通过自研损失函数解决了对比学习方式依赖batchsize的问题。该向量模型登顶了C-MTEB。同时引入稀疏检索和rerank模型(未披露),形成向量检索与稀疏检索并行的混合检索方式,大幅提升了目标文档的召回率,达到了95%。
首先来看医疗行业,这是关乎每个人生命健康的重要领域。大模型在医疗行业的应用主要涵盖三个方向:疾病的诊断与预测、药物研发以及个性化医疗。从医疗前期的图像诊断,基因组学和精准医疗到药物研发阶段再到最后病人的个性化医疗,人工智能都有其适合的应用场景。例如,在2020年,麻省理工学院利用AI发现了一种名为Halicin的新型广谱抗生素,它不仅能有效杀灭对现有抗生素产生耐药性的细菌,而且不会使细菌产生新的耐药性。这一突破性发现源于AI的助力。研究者先搞了一个由两千个性能已知的分子组成的训练集,这些分子都被标记好了是不是可以抑制细菌生长,用它们去训练AI。AI自己学习这些分子都有什么特点,总结了一套“什么样的分子能抗菌”的规律。之后又对美国FDA已通过的六万多个分子中进行分析,最终成功识别出了一个符合所有要求的分子,这就是Halicin。之后研究者开始做实验证明,它真的非常好使,大概很快就会用于临床,造福人类。这个例子充分展示了AI大模型在医疗领域的巨大潜力,目前很多医疗研究机构都进行医疗大模型的开发研究,大模型在医疗领域大有可为!
encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数