目前国内在做语言生成式 AI 的有不少,例如百度的文心一言、阿里的通义千问、讯飞的讯飞星火、智谱华章的智谱清言、字节跳动的豆包、腾讯的元宝、昆仑万维的天工 AI 等。
此外,还有一些在特定时间上线的大模型,如 8 月正式上线的包括北京的百度(文心一言)、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、百川智能(百川大模型),上海的商汤(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模型)。
需要注意的是,不同的大模型具有各自的特点和功能,在使用和应用场景上可能存在差异。
在引入AIGC的概念之前,本报告将先解释另一相关的热门词条“GenAI”,全称Generative AI,即生成式AI。GenAI是一种基于深度学习技术(deep learning algorithm),利用机器学习(machine learning)算法从已有数据中学习并生成新的数据或内容的AI应用。其工作原理是通过大规模的数据集训练深度神经网络模型,学习各种数据的规律和特征,实现对输入数据的分析、理解和生成。GenAI为游戏、娱乐和产品设计等应用提供了新颖且有创意的解决方案,如自动写作、虚拟现实、音乐创作等,甚至协助科学研究开辟了新的可能性。目前典型的GenAI包括OpenAI推出的语言模型ChatGPT、GPT-4、图像模型DALL-E以及百度推出的文心一言、阿里云推出的通义千问等。虽然生成式AI是一种非常强大的技术,能够应用于诸多专业领域;但其在数据处理过程中存在多重潜在合规风险,如未经授权收集信息、提供虚假信息、侵害个人隐私等。AIGC(全称AI-Generated Content)指利用GenAI创建的内容,如图像、视频、音频、文本和三维模型。具体来讲,AIGC工具使用机器学习算法,通常以自然语言处理为基础,分析大型文本数据集,并学习如何生成风格和语气相似的新内容。
大语言模型的选择:主要看训练该语言用的语料集最开始,Google发布的Transformer结构算法,是⽤来语⾔翻译的。为了实现更好的翻译,特别是像同声传译这样⾼要求的任务,模型需要理解⼤量的术语和概念。通过预训练,模型可以在⼴泛的语料库中学习到这些知识,从⽽提⾼翻译的准确性和流畅度。2023年⼤语⾔模型参数⼤⼩对⽐AI领头羊们,你追我赶截⽌ 2024年6⽉ 20⽇确实,参数量⼤,回答知识性问题更好,但这道题,国产看起来也不错大模型母公司插件案例/封装提示词多模态上传文档搜索特色文心一言百度√ √指令中心√√√知识问答,古诗词通义千问阿里× √百宝袋×√√翻译、电商、法律、推理、数学讯飞星火科大讯飞√ √指令集√√×中小学教育学习、翻译智谱清言智谱华章√ √智能体√√×推理、编程、智能体、对话豆包字节跳动× √智能体√×√语音对话、知识问答、智能体元宝腾讯× √智能体√√√中文语境理解、深度阅读、游戏天工AI昆仑万维× √AI对话××√音乐生成、搜索总结Kimi月之暗面×x×√√
5⃣️五家北京企业机构:百度(文心一言)https://wenxin.baidu.com抖音(云雀大模型)https://www.doubao.com智谱AI(GLM大模型)https://chatglm.cn中科院(紫东太初大模型)https://xihe.mindspore.cn百川智能(百川大模型)https://www.baichuan-ai.com/3⃣️三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/MiniMax(ABAB大模型)https://api.minimax.chat上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn今天这8个大模型,在聊天状态下——能生成Markdown格式的:智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的:昇思(可以对文本进行是否由AI生成的检测,类似论文查重,准确度不错)、书生受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有15元的预充值额度进行体验,完成企业认证后可以进行充值)特色功能:昇思——生图,MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中,广东省2家和其他省市1家也将陆续开放据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品