直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

最好的开源LLM是什么

回答

目前开源的 LLM 有很多优秀的选择,以下为您列举一些:

  • OPT 是表现最优秀的全开源 LLM 之一。这个拥有 1750 亿参数的模型的发布附带了代码,并在公开可用的数据集上进行了训练。
  • ChatGLM 是中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。
  • VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。依靠来自于 CogView 数据集的 30M 高质量中文图文对,与 300M 经过筛选的英文图文对进行预训练。
  • Chinese-LLaMA-Alpaca 是在原版 LLaMA 的基础上扩充了中文词表并使用了中文数据进行二次预训练,支持本地 CPU/GPU 部署。

需要注意的是,对于“最好的开源 LLM”的评判标准因人而异,取决于具体的应用场景和需求。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

红杉 AI Ascent 2024 会议

[title]红杉AI Ascent 2024会议[heading2]《[Andrej Karpathy美国红杉资本最新对谈,达到AGI或需全新架构](https:还有一些上限,完全开源的LLM会更好一些,他们完全公开了编译操作系统所需的全部Infra,从数据中训练模型、收集数据等等。当你只是得到一个二进制文件时,当然会更好,因为你可以finetune模型,这是有用的,但这有点微妙,但你不能完全finetune模型,因为你finetune模型越多,它就越可能在其他方面退化。实际上,如果你想增加功能,你不想减弱其他功能,你可能会想在以前的数据集分布和新的数据集分布之间进行某种混合训练,因为你不想减弱以前的分布,你应该增加知识。如果你只给出权重,你就做不到这一点,你需要训练循环,你需要数据集等等。你实际上在如何使用这些模型方面受到了限制。再次,它肯定是有帮助的,但我们需要稍微更好的语言来描述它。有开放权重模型、开源模型,然后是专有模型,我想这可能是生态系统。可能它看起来会与我们今天拥有的非常相似。另一个我想谈的是规模。简单地说,规模似乎是唯一重要的,数据规模,计算规模。因此,大型研究实验室、大型科技巨头如今拥有巨大的优势。你对此持什么看法?这难道就是全部吗?如果不是,还有什么其他因素?我会说规模绝对是第一位的。我确实认为在那里有细节需要处理。很多也涉及到数据集的准备等等,使其非常好和干净,等等,那非常重要,这些都是你可以获得的计算效率提升。有数据、算法,然后当然,模型的训练,使其变得非常庞大。规模将是主要的决定因素,确实是第一个原则性组成部分,但还有许多其他你需要做对的事情,这就像规模设置了某种速度限制,但你确实需要一些其他的东西,但如果你没有规模,那么你基本上就无法训练一些庞大的模型。如果你只是进行finetune等训练模型,那么也许规模要求就不那么高,但是,我们还没有真正看到这种情况完全实现。

进阶:a16z推荐进阶经典

[title]进阶:a16z推荐进阶经典[heading1]里程碑式的研究成果[heading3]大型语言模型[LaMDA:language models for dialog applications](https://arxiv.org/abs/2201.08239)(2022年):这是Google专门设计的模型,用于人类和聊天机器人在各种主题上的自由对话。([博客文章](https://blog.google/technology/ai/lamda/))[PaLM:Scaling language modeling with pathways](https://arxiv.org/abs/2204.02311)(2022年):Google的PaLM利用了一种新系统,可以在数千个芯片上训练LLM,并且随着模型规模的增大,在某些任务上展示出了超预期的改进。([博客文章](https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html))。另请参阅[PaLM-2技术报告](https://arxiv.org/abs/2305.10403)。[OPT:Open Pre-trained Transformer language models](https://arxiv.org/abs/2205.01068)(2022):OPT是表现最优秀的全开源LLM之一。这个拥有1750亿参数的模型的发布附带了代码,并在公开可用的数据集上进行了训练。([博客文章](https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/))[Training compute-optimal large language models](https://arxiv.org/abs/2203.15556)(2022):Chinchilla论文。它提出大多数模型受到数据限制,而不是计算限制,并改变了对LLM规模的共识。([博客文章](https://www.deepmind.com/blog/an-empirical-analysis-of-compute-optimal-large-language-model-training))

LLM开源中文大语言模型及数据集集合

[title]LLM开源中文大语言模型及数据集集合[heading4]1.ModelChatGLM:地址:[https://github.com/THUDM/ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持VisualGLM-6B地址:[https://github.com/THUDM/VisualGLM-6B](https://github.com/THUDM/VisualGLM-6B)简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于CogView数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练。Chinese-LLaMA-Alpaca:地址:[https://github.com/ymcui/Chinese-LLaMA-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca)简介:中文LLaMA&Alpaca大语言模型+本地CPU/GPU部署,在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练

其他人在问
LLM解决方案报告
以下是关于 LLM 解决方案的相关内容: 对抗性提示的防御策略:可利用 LLM 检测对抗提示并过滤,如 Armstrong 和 Gorman(2022)提出的方案,需先定义提示评估器,已准备相关笔记本供尝试。 Apple Intelligence 中智能应用的提示词:包括帮助回复邮件的提示词和总结邮件的提示词,其中 Apple 解决 LLM 幻觉问题的方式是在提示词中加“Do not hallucinate”,其效果存疑。 LLM 应用程序的新兴架构:原文地址为 https://a16z.com/2023/06/20/emergingarchitecturesforllmapplications/,发表于 2023 年 6 月 20 日。文中分享了新兴 LLM 应用程序堆栈的参考架构,此工作基于与相关人员的对话。
2024-10-21
coze 是否可以通过LLM生成python代码运行查询excel表格信息?
在 Coze 中,可以通过以下步骤实现相关操作: 1. 进入 Coze,点击「个人空间 工作流 创建工作流」,打开创建工作流的弹窗。 2. 根据弹窗要求,自定义工作流信息,点击确认完成工作流的新建。 3. 新建后的编辑视图与功能中,左侧「选择节点」模块根据子任务需要,实际用到的有: 插件:提供一系列能力工具,拓展 Agent 的能力边界。如本案例中的思维导图、英文音频,无法通过 LLM 生成,需依赖插件实现。 大模型:调用 LLM,实现各项文本内容的生成。如本案例中的中文翻译、英文大纲、单词注释等依赖大模型节点。 代码:支持编写简单的 Python、JS 脚本,对数据进行处理。 4. 编辑面板中的开始节点、结束节点,分别对应分解子任务流程图中的原文输入和结果输出环节。 5. 按照流程图,在编辑面板中拖入对应的 LLM 大模型、插件、代码节点,即可完成工作流框架的搭建。 需要注意的是,因为前面需要对多维表格操作,所以要先在 http://open.feishu.cn 上建一个飞书机器人,并添加知识库或多维表格编辑权限,具体可参考飞书文档。
2024-10-16
我是一个大学生,LLM帮我能做什么
对于大学生来说,LLM 可以提供以下帮助: 1. 像开卷考试一样,LLM 可以帮助您获取参考资料和相关信息,例如在进行知识学习和研究时,为您提供所需的事实性知识。 2. 可以用于检测对抗提示并将其过滤掉,避免不良输出。 3. 能够为您提供写作方面的帮助,比如写论文,但需要注意这并非是道德的使用方式。同时,了解这种可能性以及其在学生中的使用情况很重要。对于接收方来说,也需要为组织可能接收到的 AI 生成内容做好准备。
2024-10-11
你知道vllm吗
vLLM 是由加州大学伯克利分校开发的。其核心技术是 PageAttention,吞吐量比 HuggingFace Transformers 高出 24 倍。相较于 FasterTrainsformer,vLLM 更加简单易用,不需要额外进行模型的转换,支持 fp16 推理。详细的推理文档见: 。同时,随着大模型参数规模的不断增长,在有限的算力资源下,提升模型的推理速度逐渐变为一个重要的研究方向,常用的推理加速框架包含 lmdeploy、TensorRTLLM、vLLM 和 JittorLLMs 等。
2024-10-04
一个用llm分析微信聊天记录的智能体案例
以下为一个用 LLM 分析微信聊天记录的智能体案例相关内容: 在当今大多数现代人工智能应用程序中,检索增强生成(RAG)是标准架构。以 Sana 的企业搜索用例为例,其过程始于应用程序加载和转换无结构文件(如 PDF、幻灯片、文本文件),跨越企业数据孤岛(如 Google Drive 和 Notion),并通过数据预处理引擎(如 Unstructured)转换为 LLM 可查询格式。这些文件被“分块”成更小的文本块,作为向量嵌入并存储在数据库(如 Pinecone)中。 当用户提出问题时,系统会检索语义上最相关的上下文块,并将其折叠到“元提示”中,与检索到的信息一起馈送给 LLM,然后 LLM 合成答复返回给用户。在生产中,AI 应用程序具有更复杂的流程,包含多个检索步骤和“提示链”,不同类型的任务并行执行,最终综合结果生成输出。 “智能体”(Agent)在人工智能和计算机科学领域是指能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并辅以规划、子目标分解、反思完善、记忆(包括短期记忆和长期记忆)、工具使用等关键组成部分。 在开发场景中,有上传客服聊天记录,充当智能客服的案例。此外,还有使用 GPT 的视觉功能和 TTS API 处理和讲述视频、GLM 等大模型外接数据库、开发微信小程序、开发知识库/聊天机器人搭建安全提示词 prompt 等相关案例。
2024-09-30
如何构建用于LLM训练的特定领域的数据集,比如林草领域。
构建用于 LLM 训练的林草领域特定数据集可以参考以下方法: 1. 微调现有模型:采用在通用数据集上预训练的模型,以学习到的权重为起点,在新的特定领域数据集上重新训练模型。但 LLM 规模较大,更新每个权重可能需要很长时间的训练工作,且计算成本较高,可能不是最佳选择。 2. 生成 QA 数据集:对于简单需求,以 QA 数据集和 dialogue 数据集为主。先对文件中的文本进行切割,例如将每一大部分放进一个约 200 字的 txt 文件里,然后设定提示词模板。如对于公司产品手册,可设置类似“你是一个聪明的 xxx 公司的 xxx 产品的产品经理。给你一段 xxxxx 有限公司 xx 产品相关的文本,你必须依据文本想出十个不同的问题和这十个问题对应的答案……”的模板。 3. 针对金融服务领域的经验借鉴: 使用特定数据微调模型:新进入者可先使用公开的金融数据优化模型,再用自身收集的数据;现有参与者可利用现有专有数据,但可能过于保守,给新进入者带来竞争优势。 保证模型输出准确性:考虑到金融问题的重要性,新的 AI 模型需要尽可能准确,一开始人类常作为最终验证环节。 总之,构建特定领域数据集需要根据实际情况选择合适的方法,并注重数据的质量和准确性。
2024-09-06
开源音频质量检测模型有哪些?
以下为一些开源音频质量检测模型: 此外,还有: VALLEX:一个开源的多语言文本到语音合成与语音克隆模型。它支持多种语言(英语、中文和日语)和零样本语音克隆,具有语音情感控制和口音控制等高级功能。 智谱·AI 自 2019 年成立以来推出并开源的多款模型,具体可参考。但请注意,Token 数代表了模型支持的总 Token 数量,包括了输入+输出的所有 token,且一个 token 约等于 1.8 个汉字。
2024-10-16
开源音乐生成模型
以下为您介绍一些开源音乐生成模型: ElevenLabs 推出了自己的音乐生成模型 ElevenLabs Music,并展示了早期预览版生成的歌曲。该模型可直接通过文本提示生成完整带歌词音乐,且声称这些歌曲都是根据单个文本提示生成的,没有任何编辑。各首歌曲风格涵盖流行摇滚、乡村、爵士、当代 R&B 和独立摇滚等多样化类型。详细内容及更多试听:https://xiaohu.ai/p/7687 Deepmind 与 YouTube 的 Lyria 音乐生成模型,只要哼唱或者吹口哨就能帮您自动生成交响乐,还能进行歌词创作和风格控制,模仿艺术家风格。其特色是生成音频带 AI 水印。详情链接:https://deepmind.google/discover/blog/transformingthefutureofmusiccreation/ 🔗
2024-10-14
有哪些完全开源免费的AIgc知识库,可以随意复制
以下是一些完全开源免费且可随意复制的 AIGC 知识库: :可将任何文档、资源或内容转换为大语言模型(LLM)知识库,便于在对话中引用。 :包含获取 GPTs 的 Prompt、Knowledge 以及防护教程,还对破解官方 GPTs 的 Prompt 进行了分类。 :收集了众多被破解的 GPTs Prompt。 :精心收集整理的优秀 AI 助手列表。 :仅需一张角色图片,就能生成动作可控的生动视频。 :可安装在电脑和安卓手机上的用户界面,能与文本生成的人工智能互动并进行角色扮演。 :微软开源的 AI 工具,用于简化大模型应用开发周期,打通从构思到生产部署的全流程。 :开源的计算机视觉 AI 工具箱,安装简便,能提升开发效率。
2024-10-07
有哪个完全开源免费的AI知识库
以下为您推荐一个完全开源免费的 AI 知识库:WayToAGI(通往 AGI 之路)。它是由一群热爱 AI 的专家和爱好者共同建设的开源 AI 知识库,大家贡献并整合各种 AI 资源,使得大家都可以轻松学习各种 AI 知识,应用各类 AI 工具和实战案例等。 WayToAGI 提供了一系列开箱即用的工具,文生图、文生视频、文生语音等详尽的教程,将您的文字化为视觉与听觉的现实。它还会追踪 AI 领域最新的进展,时刻更新,让您紧跟 AI 领域的步伐,每次访问都能有新的收获。 无论您是 AI 初学者还是行业专家,都可以在这里发掘有价值的内容,让更多的人因 AI 而强大。 相关链接: 🔗:https://waytoagi.com/(通往 AGI 之路) 🚀即刻体验:https://waytoagi.com/
2024-10-07
怎么加载开源模型?
加载开源模型的步骤如下: 1. 下载相关模型节省时间: Base Model DreamShaper XL Turbo: https://civitai.com/models/112902/dreamshaperxl LoRA:Envy Anime Watercolor XL 03:https://civitai.com/models/382684/envyanimewatercolorxl03 Alphonse Mucha Style:https://civitai.com/models/63072/alphonsemuchastyle 2. 打开以下链接放在后台: Ollama: https://ollama.com/ https://github.com/stavsap/comfyuiollama IPAdapter:https://github.com/cubiq/ComfyUI_IPAdapter_plus InstantID: https://github.com/cubiq/ComfyUI_InstantID PuLID:https://github.com/cubiq/PuLID_ComfyUI 3. 安装缺失节点: 下载过程中若发现 layer style 下不了,可重启重新下载,尝试修复。若仍不行,从官网重新下载到./custom_nodes 的文件夹下。 4. 从官网下载两个文件,点击左上角部分将加载器展开并选择官网下载好的两个模型。 5. 对于 GDino 加载器部分,在链接:处下载相关文件,然后检查文件是否齐全。对于 groundingdino 和 sams 配置是否齐全可以使用“抠头发.json”来检验。 6. Ollama 大模型部分: 首先,下载 ollama,网站: 其次,在网站中,复制代码。然后,打开 ComfyUi 根目录下的 custom_nodes\\ComfyUiOllamaYN 的文件路径,在上方的路径下输入 cmd,进入到命令行,右键粘贴刚才的代码,等待下载。
2024-10-01
手机怎么加开源ai模型吗?
以下是为您整理的在手机上添加开源 AI 模型的相关信息: 对于 Phi3mini 模型: 主要用到开源工具 Ollama,从官网下载安装包后一路点下一步进行安装。 打开终端,运行“ollama run phi3”命令,系统会自动下载并安装 Phi3。 该模型体积约 2.3GB,安装完成后终端会出现交互界面,可直接交流。 若想格式化终端给出答案的 markdown 内容,可通过开源社区的 Open WebUI 解决,根据 Github 上的说明安装(需预先安装 Docker,之后执行一条命令),即可通过浏览器访问本地的 Web 聊天界面。 相关链接:Ollama(https://ollama.com )、Open WebUI(https://github.com/openwebui/openwebui) 对于配置微信助手相关: 首先配置 OneAPI,在阿里的接口创建 ApiKey 并复制。 在 OneAPI 的页面,点击【渠道】添加新渠道,类型选择阿里通义千问,名称自定,将复制的 ApiKey 粘贴到秘钥里。 智谱·AI 开源模型列表中的 Chat 模型: ChatGLM26B32k:第二代 ChatGLM 长上下文对话模型,在 ChatGLM26B 的基础上强化了长文本理解能力,能处理最多 32K 长度的上下文。代码链接:,模型权重下载链接:魔搭社区、始智社区、启智社区。 ChatGLM26B32kint4:ChatGLM26B32K 的 int4 版本。代码链接:,模型权重下载链接:魔搭社区、始智社区、启智社区。 ChatGLM6B:第一代 ChatGLM 对话模型,支持中英双语,基于 General Language Model、魔搭社区、始智社区、启智社区。
2024-10-01
做PPT目前最好的ai工具是什么
目前市场上有以下一些好用的做 PPT 的 AI 工具: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 2. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出。用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素,可根据需求选择不同风格和主题的模板,适用于多种场合。网址:https://www.xdesign.com/ppt/ 3. Mindshow:一款 AI 驱动的 PPT 辅助工具,提供一系列智能设计功能,如自动布局、图像选择和文本优化等,还可能包括互动元素和动画效果。网址:https://www.mindshow.fun/ 4. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用科大讯飞在语音识别和自然语言处理领域的技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 此外,还有以下工具: 1. 爱设计 2. 闪击 3. Process ON 4. WPS AI 目前市面上大多数 AI 生成 PPT 按照如下思路完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 请注意,内容由 AI 大模型生成,请仔细甄别。
2024-10-22
请问现在最好的用AI写公众号的AI是什么
目前没有明确的“最好”用 AI 写公众号的工具,不过可以通过以下方式利用 AI 来创作公众号文章: 1. 设计明确且具有指导性的提示词:例如“请根据我们收集的关于 OpenAI 回应马斯克言论的资讯,创作一篇既深入又易于理解的科技资讯文章。文章应该有一个吸引人的标题,开头部分要概述事件的背景和重要性,主体部分详细分析 OpenAI 的回应内容及其可能产生的影响,结尾处提出一些引人深思的问题或观点。”这样的提示词能为 AI 提供明确指导,并设定文章基本结构和内容要求,AI 会据此生成结构完整、内容丰富、观点鲜明的文章,但最终产出的内容可能需要进行微调,以符合预期和公众号风格。 2. 校对文章:虽然 AI 生成文本已相当精确,但人工校对仍不可或缺。在校对过程中,需注意内容准确性,核实信息和数据是否准确无误,引用来源是否可靠;确保表达清晰,检查文章是否流畅易读,语言是否清晰,专业术语和概念对目标读者群体是否易于理解;保证逻辑连贯,确保文章结构合理,论点和论据逻辑关系清晰,避免逻辑跳跃或混乱。 3. 利用 AI 找配图:让 AI 分析文章内容,给出配图建议和关键词,然后利用这些信息在免费图库中快速找到合适的无版权图片,提高配图效率,避免版权风险。
2024-10-22
哪个软件做出来的数字人最好
以下是一些制作数字人效果较好的软件及相关介绍: 剪映: 优势:作为字节跳动旗下产品,在抖音平台广泛应用,海外版 CapCut 成绩斐然。具有声音克隆、公模数字人等 AI 功能,能在编辑器内完成脚本生成、语音克隆、数字人口播等环节。 制作流程:打开剪映,添加文本到文字轨道并修改文字,点击朗读进行声音克隆,选择数字人形象并换上克隆音色,一键智能生成字幕并调整文字样式。 生成数字人:在右侧窗口顶部打开“数字人”选项,选取免费合适的形象,软件会播放声音供判断,添加后可预览效果。还可增加背景图片等进行美化。 下载地址: Heygen: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文人声选择较少。 使用方法:点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片,上传后效果在 My Avatar 处显示,点开大图后,点击 Create with AI Studio 进入制作,写上视频文案并选择配音音色,也可自行上传音频,最后点击 Submit 得到数字人视频。 DID: 优点:制作简单,人物灵活。 缺点:免费版下载后有水印。 使用方法:点击网址,点击右上角的 Create vedio,选择人物形象,可添加自己照片或使用给出的形象,配音时可选择提供文字选择音色或直接上传音频,最后点击 Generate vedio 生成视频,打开可下载或分享。 KreadoAI: 优点:免费,功能齐全。 缺点:音色较 AI。 使用方法:点击网址注册后获得 120 免费 k 币,选择“照片数字人口播”功能,点击开始创作,选择自定义照片,配音时可选择提供文字选择音色或直接上传音频,打开绿幕按钮,点击背景添加背景图,最后点击生成视频。
2024-10-20
目前最好用的机关公文写作大模型或智能体
目前在机关公文写作方面表现较好的大模型或智能体有: 智谱清言:由智谱 AI 和清华大学推出,基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。更擅长专业能力,但在代码能力上还有优化空间,知识百科方面稍显不足。可应用场景广泛,在 AI 智能体方面相关的应用,包括任务规划、工具使用及长文本记忆相关场景表现出色,在较复杂推理应用上效果不错,也适用于广告文案、文学写作等。 此外,在大模型中,智能体是大模型的一个重要发展方向。智能体可以理解为在大模型(如 LLM)基础上增加了工具、记忆、行动、规划等能力。目前行业里主要用到的如 langchain 框架,能通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。
2024-10-18
我想找一些具有「图片理解」能力的模型,最好是国内的
以下是一些具有“图片理解”能力的国内模型: 1. Gemini 模型:在各种图像理解基准测试中表现出色,如在表 7 中的各项测试中是最先进的,在回答自然图像和扫描文档的问题,以及理解信息图表、图表和科学图解等任务中性能强大。在 zeroshot 评估中表现优于其他模型,在多学科的 MMMU 评估基准测试中也取得了最好的分数。 2. 国内大模型: 北京企业机构:百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ 上海企业机构:商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 3. 智谱·AI 开源模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,具备 GUI 图像的 Agent 能力。 CogVLM17B:强大的开源视觉语言模型,在多模态权威学术榜单上综合成绩第一,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。 RDM:Relay Diffusion Model,级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。
2024-10-16
国内可直接编辑或创建图像文件的最好用AI有哪些?
以下是一些国内可直接编辑或创建图像文件且好用的 AI 工具: 1. 无界 AI:可用于快速制作海报底图,并完成主题海报排版。操作流程包括确定主题与文案、选择风格与布局、生成与筛选、配文与排版。 2. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 3. Retrato:将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 4. Stable Diffusion Reimagine:通过稳定扩散算法生成精细、具有细节的全新视觉作品。 5. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,可将上传的照片转换为芭比风格。 6. 可灵:由快手团队开发,用于生成高质量的图像和视频,但价格相对较高。 7. 通义万相:在中文理解和处理方面表现出色,用户可选择多种艺术和图像风格,生成图像质量较高,操作界面简洁直观,用户友好度高,且目前免费,每天签到获取灵感值即可。但存在一定局限性,如某些类型的图像因国内监管要求无法生成,处理非中文语言或国际化内容可能不够出色,处理多元文化内容时可能存在偏差。
2024-10-15