大模型的数字资产管理系统涉及以下方面:
大模型的整体架构:
大模型的通俗理解: 大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练、使用过程:
企业大模型的误区:
首先为方便大家对大模型有一个整体的认知,我们先从大模型的整体架构着手,来看看大模型的组成是怎么样的。下面是我大致分的个层。从整体分层的角度来看,目前大模型整体架构可以分为以下几层:[heading3]1.基础层:为大模型提供硬件支撑,数据支持等[content]例如A100、数据服务器等等。[heading3]2.数据层[content]这里的数据层指的不是用于基层模型训练的数据基集,而是企业根据自己的特性,维护的垂域数据。分为静态的知识库,和动态的三方数据集[heading3]3.模型层:LLm或多模态模型[content]LLm这个大家应该都知道,large-language-model,也就是大语言模型,例如GPT,一般使用transformer算法来实现。多模态模型即市面上的文生图、图生图等的模型,训练所用的数据与llm不同,用的是图文或声音等多模态的数据集[heading3]4.平台层:模型与应用间的平台部分[content]比如大模型的评测体系,或者langchain平台等,提供模型与应用间的组成部分[heading3]5.表现层:也就是应用层,用户实际看到的地方[content]这个就很好理解了,就不用我多作解释了吧
[title]大模型入门指南[heading1]什么是大模型通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习,那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程:1.找学校::训练LLM需要大量的计算,因此GPU更合适,因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导5.搬砖::就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)在LLM中,Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary),比如:The cat sat on the mat,会被分割成“The”、“cat”、“sat”等的同时,会生成下面的词汇表:|Token|ID|<br>|-|-|<br>|The|345|<br>|cat|1256|<br>|sat|1726|<br>|…|…|
我们总结了企业做大模型的4个误区:[heading3]1、总想搞一个宏大的产业大模型[content]宣传可以这么说,但实际上目前掌握的大模型能力,是不足以支持一个产业大模型的,比如建筑大模型、钢铁大模型,太大而化之了。大模型现在非常适合的是找到一个场景,在场景里解决一个专业问题。[heading3]2、总想用一个万能大模型解决所有企业问题[content]这个也不现实,企业将来在不同的场景,比如HR、财务内部可能都会有一个大模型。比如面试有面试大模型,机器人自动面试,员工评估也有一个大模型。[heading3]3、还有认为有了大模型,原来的IT系统就淘汰了[content]这个观点最要不得。事实上,大模型仅仅是解决了一些过去软件不具备的推理和知识理解的能力,它缺很多手和脚,需要通过跟你原来的业务系统连接在一起,协同工作,才能让大模型在企业内发挥作用。所以原来的数字化搞得越好,IT系统越发达,大模型效果越好。而且大模型在企业落地,绝不是一个聊天机器人的形式,那是大模型发展早期的一个探索。[heading3]4、大模型就不用做数字化了,直接一步到位弯道超车[content]这个观点也是不对的。因为如果你的企业没有基本的IT系统、数字化系统,老板也不用网络,不用邮件,也没有内部的文档管理、办公OA系统,你就没有数据的积累,没有知识的沉淀,大模型就是巧妇难无米之炊,你想做大模型是不可能的。