目前全球范围内,在通用 AI 大模型方面,OpenAI 研发的 ChatGPT 具有显著的影响力和优势。
ChatGPT 的出现标志着通用 AI 的起点和强 AI 的拐点,是 AI 领域科技创新和成果应用的重大突破。它引发了全球范围内的广泛关注,众多科技大厂、创业公司和机构纷纷参与到 AI 大模型的竞争中。
不过,国内的通义千问系列模型,如 Qwen 也表现出色。Qwen 是国内唯一出现在 OpenAI 视野里、可以参与国际竞争的国产大模型,在一些榜单中多次上榜,其开源模型的累计下载量突破了 1600 万,受到国内外开发者的欢迎。
需要注意的是,对于“全球最好的通用 AI 大模型”的评判标准并非绝对,还会受到不同应用场景和需求的影响。
[title]七大行业的商业化应用[heading5]▎“过去几个月内国内AI大模型都大同小异,现状则是,全球只有OpenAI能够达到通用AI的商作者|林志佳编辑|李小年本文首发于钛媒体APP2022年11月30日,美国OpenAI公司研发的一款ChatGPT的人工智能(AI)聊天机器人产品破土而出。OpenAI可能也没想到,原本ChatGPT只是向消费者展现GPT能力的产品,却能在过去200天里引发从投资人到创业者、从独角兽到大厂、从业界到学术界、从经济学家到科技部部长的广泛关注。与此同时,谷歌、微软、阿里等超30家科技大厂、创业公司、机构相继下场,一时间讨论四起,全球展开了一场AI大模型“军备赛”。《中国人工智能大模型地图研究报告》显示,截至今年5月28日,中国10亿参数规模以上的大模型已发布79个。而美国、中国占全球已发布大模型总量的80%以上。当下行业内达成的一个基本共识是,ChatGPT的出现标志着通用AI的起点和强AI的拐点,是AI领域科技创新和成果应用的一次重大突破,也是新时代数字化的“发电厂”。利用ChatGPT,以SaaS(软件即服务)服务的方式接入到干行百业,所有数字化系统和各个行业都值得用ChatGPT重做一遍。更多人未来期望ChatGPT使企业数字化业务流程更快、更高效、更智能。不过,相比OpenAI和微软公布包括摩根士丹利、Stripe等公司使用ChatGPT的商业案例,国内“百模大战”中却出现了一个怪现象:技术和产品能力似乎都很强,但一到客户手里却出现各种bug,公布对话大模型的公司都在谈自身的技术能力强、场景化方案,部分还公布合作信息,但都极少在公开场合谈商业落地案过程。
[title]Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型[heading1]相关参考信息可以说,Qwen是国内唯一出现在OpenAI视野里,可以参与国际竞争的国产大模型。不久前,OpenAI创始人奥特曼在X上转发了一条OpenAI研究员公布的消息,GPT-4o在测试阶段登上了Chatbot Arena(LMSys Arena)榜首位置,这个榜单是OpenAI唯一认可证明其地位的榜单,而Qwen是其中唯一上榜的国内模型。早些时候,有人做了个LMSys榜单一年动态变化视频。过去一年内,国产大模型只有Qwen多次冲进这份榜单,最早出现的是通义千问14B开源视频Qwen-14B,后来是Qwen系列的72B、110B以及通义千问闭源模型Qwen-Max,得分一个比一次高,LMSys也曾官方发推认证通义千问开源模型的实力。在顶尖模型公司的竞争中,目前为止中国模型只有通义千问真正入局,能与头部厂商一较高下。开发者用脚投票的结果,显示了Qwen系列的受欢迎程度。目前为止,Qwen系列开源模型的累计下载量突破了1600万,国内外有海量开发者都基于Qwen开发了自己的模型和应用,尤其是企业级的模型和应用。Qwen的很多忠实拥趸是海外开发者,他们时常在社交平台发表“我们为什么没有这种模型”的溢美之词(配图详见附件)。可以说,通义大模型用行动证明了开源开放的力量。七、为什么大模型的生态建设如此重要?AI大模型是全球数字技术体系的竞争,这个体系包括芯片、云计算、闭源模型、开源模型、开源生态等等。中国信息化百人会执委、阿里云副总裁安筱鹏指出,全球AI大模型竞争的制高点是AI基础大模型,因为基础大模型决定了产业智能化的天花板,商业闭环的可能性,应用生态的繁荣以及产业竞争的格局。与此同时,开源生态在整个技术体系的竞争中也有着至关重要的作用。
[title]从0到1了解大模型安全,看这篇就够了encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中,模型可以根据用户输入的任务描述,或给出详细的例子,完成任务但这与我们熟知的ChatGPT仍然有着很大的差距,使用ChatGPT只需要像和人类一样对话,就可以完成任务。除了形式上的不同之外,还有一个更加重要的差距,那就是安全性上的差别。