科大讯飞星火大模型是科大讯飞发布的大模型。在 2023 年的大模型发展中,科大讯飞发布了星火 1.0,并在后续进行了升级,如升级到星火 3.0。在众多大模型中,星火模型目前的体验效果较好,感觉最接近 GPT3.5(0301 版本)的 80%-90%。在大模型的测试中,通常从基础能力、职场能力、探索对话等方面评估,而星火模型在基础能力方面表现不错,如语言生成和语言理解等。
[title]中文大模型基准测评2023年度报告[heading1]2023大模型关键进展•百度发布文心一言1.02022.122月6月8月10月2023.124月• OpenAI发布GPT4•复旦开源MOSS•元语开源ChatYuan•清华开源ChatGLM • 360发布360智脑1.0•科大讯飞发布星火1.0 •阿里云发布通义千问1.0• Meta开源Llama2•百川智能开源Baichuan-7B • OpenAI发布多模态GPT-4V • GPT-4 Turbo发布•百度升级文心一言4.0•商汤科技发布商量1.0•阿里云开源Qwen-7B•华为发布盘古3.0 •字节跳动公测大模型产品豆包•百川智能开源Baichuan2• vivo发布BlueLM•清华开源ChatGLM3 •清华&智谱AI开源ChatGLM2•小米发布大模型MiLM•西湖心辰发布西湖大模型•零一万物开源Yi-34B •文心一言升级V3.5•科大讯飞升级星火3.0•元象科技开源XVERSE-13B•昆仑万维发布天工1.0•云从科技发布从容大模型•出门问问发布序列猴子•上海人工智能实验室开源InternLM-20B• OPPO发布AndesGPT•商汤科技升级商量2.0•商汤科技升级商量3.0•理想汽车发布MindGPT • Google发布多模态大模型Gemini•腾讯发布混元助手• 360升级智脑4.0
[title]中文大模型基准测评2023年度报告[heading1]测评模型列表9.Qwen-72B-Chat阿里巴巴开源的72B的Chat版本22.讯飞星火V3.0科大讯飞官方发布的V3.0版本的API10.序列猴子出门问问官方发布的API版本23.Minimax(应事)稀宇科技官方网页版产品【应事】11.Yi-34B-Chat零一万物开源的34B的Chat版本24.ChatGLM3-6B清华&智谱AI开源的第三代6B版本12.PCI-TransGPT佳都科技小范围内测API版本25.Chinese-Alpaca2-13B yiming cui(个人开发者)个人开源的基于Llama2的汉化版中文模型13.360GPT_Pro 360 360智脑的API升级版本Pro26.Llama_2_13B_Chat Meta官方开源的2代13B的Chat版本本次测评数据选取了SuperCLUE-12月测评结果,模型选取了国内外有代表性的26个大模型在12月份的版本。SuperCLUE模型象限
[title]观点:如何深入的用好ChatGPT,以及一些思考[heading1]如何理解语言模型另一种理解是AI构成网络,摒弃人类语言进行沟通,最终超越人类。N3(Neural Network Network)神经网络的相互链接,AI之间采用更为底层的向量数据交流,跨越人类语言的低效率阻碍。图灵机,自递归,简单的规则涌现出复杂的现象。4、群雄逐鹿大模型国外开源百花齐放,国内百模大战,目前已有68个。深圳就4个。下面的图是公众号“走向未来”的大神整理。github地址:https://github.com/wgwang/LLMs-In-China有一点浪费资源,有特色的不多,模型不大的也没啥大智力。目前体验效果比较好的有科大星火模型,清华ChatGLM。百度文心也可。星火目前感觉最接近gpt3.5(0301版本)的8 0%-90%。不过最近GPT3.5进化到6月版本,效果要强于0301版本了。5、大模型的测试怎样评估这些大模型,怎样看出模型的能力(比如GPT4和3.5到底差距在哪里)。这里会用GPT4、3.5、讯飞星火、百度一言做一些对比。一般对我们普通人来说,主要判断大模型是否可以真正帮助你,三个方面:基础能力、职场能力、探索对话。首先是基础能力,主要指语言模型应有的能力(即语言(文本)生成和语言理解。如果基础能力效果不达标,则判断为不可用。目前这四个应该都没大问题,都属于基础能力不错的模型。1级别(常识类问题):这些问题旨在测试模型的基本语言理解能力,例如:什么是人类?2级别(分词类问题):这些问题旨在测试模型的基本语言处理能力,例如:“我爱北京天安门”这句话的分词结果是什么?