直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

给出一份目前开源大模型的算力、存储要求和部署方案的报告,可以附带优化方案,字数10000字左右。

回答

由于篇幅限制,我无法直接给出一份 10000 字左右的报告,但我可以为你提供一个简要的大纲: 开源大模型的算力、存储要求和部署方案报告 一、引言 (一)背景介绍 (二)目的和意义 二、大模型的算力要求 (一)训练算力需求

  1. 数据预处理
  2. 模型训练
  3. 超参数调整 (二)推理算力需求
  4. 数据加载
  5. 模型推理
  6. 结果输出 三、大模型的存储要求 (一)训练数据存储
  7. 数据集大小
  8. 数据格式
  9. 数据存储方式 (二)模型参数存储
  10. 模型大小
  11. 模型格式
  12. 模型存储方式 (三)推理结果存储
  13. 结果大小
  14. 结果格式
  15. 结果存储方式 四、大模型的部署方案 (一)云平台部署
  16. 云计算服务提供商
  17. 云计算资源配置
  18. 云计算成本估算 (二)本地部署
  19. 硬件设备需求
  20. 软件环境配置
  21. 网络连接要求 五、大模型的优化方案 (一)数据预处理优化
  22. 数据清洗
  23. 数据增强
  24. 数据压缩 (二)模型架构优化
  25. 模型压缩
  26. 模型剪枝
  27. 模型量化 (三)训练算法优化
  28. 优化器选择
  29. 学习率调整
  30. 训练轮数控制 (四)推理加速优化
  31. 硬件加速
  32. 软件优化
  33. 模型编译优化 六、结论与展望 (一)总结大模型的算力、存储要求和部署方案 (二)提出未来研究和发展方向的建议 请注意,以上只是一个简要的大纲,具体内容需要根据实际情况进行详细调研和分析。如果你需要更详细的报告,请提供更多相关信息,我将尽力为你提供帮助。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

其他人在问
在waytoagi买的算力包从哪里查看和使用?
在 waytoagi 购买的算力包可以通过以下方式查看和使用: 测试平台:Tensor.Art 网址:https://tensor.art/ 专属邀请码:waytoagi 。登录并使用专属邀请码注册,普通用户每天免费有 100 个算力,使用邀请码的用户可以获得 200 算力。 Tensor.Art 使用指南: TensorArt 教学视频内容及其对应链接:
2024-09-07
H100 8卡机算力
H100 8 卡机算力相关信息如下: 在 GPT3(1750 亿参数)大模型基准测试中,GB200 的性能是 H100 的 7 倍,训练速度是 H100 的 4 倍。 今年英伟达总的 H100 出货量将有 15 万张,Meta 将会投入超过 90 亿美元向英伟达采购超过 34000 张 H100 显卡,到 24 年底 Meta 的 GPU 算力将达到 60 万个 H100。 与 H100 相比,对于大模型推理工作负载,GB200 超级芯片提供高达 30 倍的性能提升。一个 GB200 NVL72 机柜可以训练 27 万亿参数的模型,此前传言称,GPT4 的参数规模达 1.8 万亿,相当于能训练近 15 个这样的模型。由 8 个系统组合在一起的就是 DGX GB200,总共有 288 个 Grace CPU、576 个 Blackwell GPU、240 TB 内存和 11.5 exaflop FP4 计算。
2024-08-12
算力是什么?
算力指的是计算能力(Computing Power)。可以简单粗暴地理解为 GPU 就是算力,电脑里的显卡就是 GPU,哪怕购买云服务,也是服务商买显卡“租”给用户用。一张显卡除了 GPU 外,还有一个重要参数是显存,显存用来存储显卡芯片处理过或者即将提取的渲染数据,如同计算机的内存一样,是存储要处理的图形信息的部件。 GPU 的诞生源自对 CPU 的减负,使显卡减少了对 CPU 的依赖,并进行部分原本 CPU 的工作,尤其是在 3D 图形处理时,GPU 所采用的核心技术有硬件 T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素 256 位渲染引擎等,而硬件 T&L 技术可以说是 GPU 的标志。GPU 的生产商主要有 NVIDIA 和 ATI。 算力对于 AI 的价值更加直接,NVIDIA 的股价可能就是最直接的例子。算力的提升目前还在性能上(而不是硅片栅漏极间隔的物理尺寸上)继续延续着摩尔定律,但量子隧穿效应普朗克长度的理论限制是 AGI 也无法突破的,因此需要除了工艺尺寸缩小的其他方案。从分析上能看到的几条路可能会有: 1. 继续在硅基上发展:3D 堆叠形态等(需要更好散热)。 2. 材料创新:硅基掺杂、石墨烯片等。 3. 如果再跳脱一些到计算原理的层次,就是量子计算。量子计算目前距离商用可能比可控核聚变还更远,目前的应用方向主要还在量子加密传输上,在“计算”上需要突破的理论和技术都还有不少。 4. 除了计算速度之外,另一个阻碍算力进展的是传输速度:可以想见高速网络会进一步进化、片间链接、片上内存等技术都会有明显的进展。 5. 最后,是能耗和散热问题。这里的明珠是高温超导技术。去年已经有好几篇半造假的“高温超导突破”,今年加上了 AI 或许就会有真的突破。广义机器人也与算力相关。
2024-08-09
有哪些卖agi资源、算力、ai产品的平台或网站?
以下是一些售卖 AGI 资源、算力、AI 产品的平台或网站: 在 WaytoAGI 图像工具中,您可以购买“AI 算力”点用于进行人工智能任务和应用,包括图像生成、编辑、下载以及参与社区等操作。 对于希望自行部署 AIGC 服务的用户,以下云服务平台可供选择: AWS(亚马逊云服务):提供多种 AI 服务,如 SageMaker、Rekognition、Polly 等。资源丰富,灵活性强,但费用相对较高,适合需求复杂、要求高可用的企业用户。 Google Cloud Platform:推出 Vertex AI 和多款预训练模型供使用,支持多种编程语言和框架,具有领先的计算机视觉和语音识别能力。 Microsoft Azure:Azure 机器学习服务涵盖多种 AI 工作负载,与微软其他产品融合度高,提供硬件加速等优化方案。 Huawei Cloud:提供 ModelArts 等 AI 开发和推理平台,融合 Ascend AI 处理器实现硬件加速,针对本地化部署和行业应用进行了优化。 阿里云:提供 PAI 和机器学习平台等 AI 产品,支持主流深度学习框架部署,与阿里云其他产品生态集成度高。 部署 AIGC 服务通常需要大量算力和存储资源,利用云平台是便捷的选择。建议先评估实际业务场景和需求,再对比不同供应商的产品特性和价格,以选择最合适的部署方案。
2024-08-07
算力租赁
算力租赁是一种将计算机硬件资源出租给他人使用的服务。在算力租赁中,出租方提供计算设备,如服务器、GPU 等,而承租方则可以在一定时间内使用这些设备进行计算任务。这种服务通常用于需要大量计算资源的场景,如科学计算、机器学习、深度学习等。 算力的字面意思就是计算能力,它是随着区块链、AI 等概念被反复提及的。在计算机中,GPU 是一种专门用于图像和图形相关运算的微处理器,而显存则是用来存储显卡芯片处理过或者即将提取的渲染数据的部件。此外,CPU 作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。 总的来说,算力租赁是一种方便、高效的计算资源共享方式,可以帮助承租方节省成本,提高计算效率。
2024-05-10
如何计算一个企业需要的推理算力。
计算一个企业需要的推理算力是一个比较复杂的过程,需要考虑多个因素。以下是一些关键步骤: 1. 确定应用场景和需求 首先需要明确企业想要使用推理算力来解决哪些具体的应用场景和任务,比如计算机视觉、自然语言处理、推荐系统等。不同场景对算力的需求是不同的。 2. 评估计算复杂度 对于每个应用场景,评估完成相关任务所需的计算复杂度,比如输入数据的规模、模型大小、推理需要的算力FLOPS等。这通常需要对任务进行分析和建模。 3. 确定响应时间需求 一些场景可能需要实时或近实时的响应,如自动驾驶,这对算力需求更高;而一些离线计算的场景对延迟要求不高。 4. 预估推理请求流量 根据企业的业务规模和并发用户数估算每秒/分钟需要处理的推理请求量,这直接影响所需的总算力规模。 5. 选择硬件平台和框架 不同硬件平台和深度学习框架在推理效率上有很大差异,如CPU、GPU、TPU、其他加速器等,需要评估它们的性能和成本。 6. 计算整体算力需求 结合以上因素,计算整个系统所需的总算力规模,有可能需要数百到数万个TFLOPS的推理算力。 7. 考虑冗余和弹性 为应对突发流量和硬件故障,还需要预留一定的冗余算力,保证系统的高可用性和弹性。 总的来说,准确评估企业推理算力需求是一个需要多方数据和深入分析的过程,通常需要AI系统架构师和算力规划专家的参与。随着业务发展,算力需求也需要持续评估和扩展。
2024-04-30
开源的数字人方案
以下是开源的数字人方案: 1. 第一步:先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 2. 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址为 https://github.com/Rudrabha/Wav2Lip 。这就是目前的本地跑数字人的方案,效果都差不多,都是用的 wav2lip 。产品为 https://synclabs.so/ 。 3. 构建数字人躯壳:笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。
2024-09-14
企业内部知识库和 AI 问答结合,有哪些成熟的解决方案,或者产品推荐?
以下是企业内部知识库和 AI 问答结合的一些成熟解决方案和产品推荐: Contextual Answers:这是一个端到端的 API 解决方案,其答案完全基于组织知识,能避免“幻觉”。全球信息服务提供商 Clarivate 与其合作,将其应用于图书馆解决方案套件,为学生、教师和研究人员提供基于策划和可信学术内容的问题答案。 职业规划类产品:结合用户个人情况和市场需求制定详细职业发展计划,包括短、中、长期目标,帮助用户在 AI 时代找到职业定位。其核心构思在于利用企业已有知识积累结合大模型能力,为用户提供准确简洁答案。具体通过创建企业私有知识库收录问答记录和资料,利用大模型处理用户咨询问题,确保回答准确一致,必要时提供原回答完整版,还能对接人工客服,在智能助手无法解决问题时快速转接,提升服务质量和客户满意度。
2024-09-14
有哪些数字人方案
以下是一些常见的数字人方案: 1. 算法驱动的数字人: 开源代码: ASR 语音识别:openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenete2e/wenet)、speech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口:https://github.com/Uberi/speech_recognition) AI Agent 大模型:ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件(https://www.langchain.com/) TTS:微软的 edgetts(https://github.com/rany2/edgetts),只能使用里面预设的人物声音,目前接口免费;VITS(https://github.com/jaywalnut310/vits),还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声;sovitssvc(https://github.com/svcdevelopteam/sovitssvc),专注到唱歌上面,前段时间很火的 AI 孙燕姿。 核心算法: ASR(Automatic Speech Recognition,语音识别):能将用户的音频数据转化为文字,便于数字人理解和生成回应。 AI Agent(人工智能体):充当数字人的大脑,可以直接接入大语言模型,强调 Agent 的概念是为了让数字人拥有记忆模块等更加真实。 TTS(Text to Speech,文字转语音):将数字人依靠 LLM 生成的输出文字转换为语音,保持语音交互一致性。 2. 剪映数字人“个性化“—无限免费私模数字人:Heygen 的访问限制太强,正好剪映已经有了声音克隆和公模数字人两项能力,搭配 facefusion 的换脸技术,能轻松实现零成本的口播数字人。
2024-09-12
视频生成有什么方案
以下是一些常见的视频生成方案: 1. Pika 方案: 生成视频需要进入 generate 频道,目前有 10 个 generate 频道,可任选一个进入。 工作流程包括:直接生成视频,在输入“/create”,然后输入 prompt,得到视频;图片生成视频,使用 MJ/SD 生成图像(可选)+在 PIKA 平台添加 prompt 得到视频。 2. Phenaki 方案(来自 GoogleBrain): 可以通过文字描述生成可变长度的视频。 主要依赖视频像素生成能力和隐空间 token 预测能力。 视频像素生成能力依赖 VQVAE,主要借鉴了 CViViT 方法。隐空间 token 预测能力依赖 encoderonly 的双向 transformer 的完形填空能力,主要借鉴了 MaskGIT 方法。 CViViT 训练第一个阶段参考了 ViViT 的做法,主要用 VQVAE 方法训练得到 encoder、码本和 decoder 三个部件。attention 的方式是先做 spatial 的 attention,然后做 temporal 的 attention。CViViT 做 patch partition 的时候,先把帧堆叠在一起形成的输入,做没有 overlap 的时间和空间切分。每个 patch 在时间维度上,除了第一帧只有一帧,其余每个 stride 是包含连续的帧。因此第一帧的 patch 小方块大小为,其余 patch 的小方块大小为。经过线性映射层后统一变成了长度为的 feature。一共可以得到的 token 数为个,注意 video 视觉任务比 LLM 的 sequence 要长,因为每一帧都包含大量 patch(例如 256,512)。CViViT 把 spatial 和 temporal 的 CLS token 都去掉了,并且增加了 causal transform 的 decoderonly 的 mask,这样可以在计算复杂度不爆表的情况下产生任意长度的。CViViT decoder 设计跟 encoder 反过来,先过 temporal 的 attention,然后再是 spatial 的 attention。训练使用 VQVAE 方式重建训练,训练结束得到离散的 codebook,这样输入的 video 经过 encoder 转化为离散的 codebook 向量,然后再经过 decoder 得到 pixel 视频。 3. Sora 方案: 数据准备:使用包括内部数据集和公开数据集在内的多种数据源,对图像和视频进行尺寸调整,包括空间上的抗锯齿双线性缩放和时间上的跳帧处理。 模型训练:基础训练阶段使用正方形图像比例进行训练。在特定数据子集上对基础模型进行微调,以生成 9:16 比例的视频。采用了位置嵌入的插值和窗口尺寸的缩放。 视频生成:首先使用图像 LDM 生成单帧图像。然后运行预测模型,以生成的单帧为条件,生成关键帧序列。在视频扩展时,再次调用预测模型,但以两帧(捕捉方向信息)为条件来生成连贯的运动。 微调与优化:对于长时间视频生成,模型在帧预测任务上进行联合训练。在推断阶段,优化目标是加快小批量图像生成的速度。 模型初始化:由于视频数据集规模相对较小,从预训练的图像模型(如 ViT)初始化视频模型,以促进更有效的训练。
2024-08-29
视频生成有什么方案
以下是一些常见的视频生成方案: 1. Pika 方案: 生成视频需要进入 generate 频道,目前有 10 个 generate 频道,可任选一个进入。 工作流程包括:直接生成视频,在输入“/create”,然后输入 prompt,得到视频;图片生成视频,使用 MJ/SD 生成图像(可选)+在 PIKA 平台添加 prompt 得到视频。 2. Phenaki 方案(来自 GoogleBrain): 可以通过文字描述生成可变长度的视频。 主要依赖视频像素生成能力和隐空间 token 预测能力。 视频像素生成能力依赖 VQVAE,主要借鉴了 CViViT 方法。隐空间 token 预测能力依赖 encoderonly 的双向 transformer 的完形填空能力,主要借鉴了 MaskGIT 方法。 CViViT 训练第一个阶段参考了 ViViT 的做法,主要用 VQVAE 方法训练得到 encoder、码本和 decoder 三个部件。attention 的方式是先做 spatial 的 attention,然后做 temporal 的 attention。CViViT 做 patch partition 的时候,先把帧堆叠在一起形成的输入,做没有 overlap 的时间和空间切分。每个 patch 在时间维度上,除了第一帧只有一帧,其余每个 stride 是包含连续的帧。因此第一帧的 patch 小方块大小为,其余 patch 的小方块大小为。经过线性映射层后统一变成了长度为的 feature。一共可以得到的 token 数为个,注意 video 视觉任务比 LLM 的 sequence 要长,因为每一帧都包含大量 patch(例如 256,512)。CViViT 把 spatial 和 temporal 的 CLS token 都去掉了,并且增加了 causal transform 的 decoderonly 的 mask,这样可以在计算复杂度不爆表的情况下产生任意长度的。CViViT decoder 设计跟 encoder 反过来,先过 temporal 的 attention,然后再是 spatial 的 attention。训练使用 VQVAE 方式重建训练,训练结束得到离散的 codebook,这样输入的 video 经过 encoder 转化为离散的 codebook 向量,然后再经过 decoder 得到 pixel 视频。 3. Sora 方案: 数据准备:使用包括内部数据集和公开数据集在内的多种数据源,对图像和视频进行尺寸调整,包括空间上的抗锯齿双线性缩放和时间上的跳帧处理。 模型训练:基础训练阶段使用正方形图像比例进行训练。在特定数据子集上对基础模型进行微调,以生成 9:16 比例的视频。采用了位置嵌入的插值和窗口尺寸的缩放。 视频生成:首先使用图像 LDM 生成单帧图像。然后运行预测模型,以生成的单帧为条件,生成关键帧序列。在视频扩展时,再次调用预测模型,但以两帧(捕捉方向信息)为条件来生成连贯的运动。 微调与优化:对于长时间视频生成,模型在帧预测任务上进行联合训练。在推断阶段,优化目标是加快小批量图像生成的速度。 模型初始化:由于视频数据集规模相对较小,从预训练的图像模型(如 ViT)初始化视频模型,以促进更有效的训练。
2024-08-29
哪个AI可以做改革方案
以下是一些可以为您提供改革方案的 AI: 1. Character.ai:其愿景是“让地球上的每个人都能获得自己的深度个性化超级智能,帮助他们过上最美好的生活”。每个人都可以拥有像钢铁侠中的 Javis 一样的人工智能助手,能够帮助完成各种任务,重构一切服务。链接: 2. Scite.ai:是为研究人员、学者和行业专业人员打造的创新平台,提供引用声明搜索、自定义仪表板和参考检查等工具,能简化学术工作。链接: 3. Scholarcy:一款科研神器,主要为做科研、学术、写论文的人准备。可以从文档中提取结构化数据,并通过知识归纳引擎生成文章概要,包含关键概念、摘要、学术亮点、学术总结、比较分析、局限等板块的内容。链接: 4. ChatGPT:强大的自然语言处理模型,可以提供有关医学课题的修改意见。链接:
2024-08-27
MinusX开源的 AI 数据分析助手
关于 Excel 的 AI 功能,目前有以下几种不同的工具和插件可以增强其数据处理和分析能力: 1. Excel Labs:这是一个 Excel 插件,新增了基于 OpenAI 技术的生成式 AI 功能,允许用户在 Excel 中直接利用 AI 进行数据分析和决策支持。 2. Microsoft 365 Copilot:由微软推出,整合了 Word、Excel、PowerPoint、Outlook、Teams 等办公软件。用户通过聊天形式告知需求,如数据分析或格式创建,Copilot 会自动完成任务。 3. Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,用户能通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,除公式生成外,还可根据提示生成相关文本内容、执行情感分析、语言翻译等任务。 这些工具通过 AI 技术提升了 Excel 的数据处理能力,使用户能更高效地进行数据分析和决策。随着技术不断发展,未来可能会有更多 AI 功能集成到 Excel 中,进一步提高工作效率和数据处理的智能化水平。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-09-13
使用开源大模型本地化部署使用电脑配置,推荐几款笔记本电脑
以下是关于使用开源大模型本地化部署所需电脑配置及笔记本电脑推荐的相关信息: 运行大模型需要较高的机器配置,个人玩家大多负担不起。以下是不同类型大模型的配置要求: 生成文字大模型: 最低配置:8G RAM + 4G VRAM 建议配置:16G RAM + 8G VRAM 理想配置:32G RAM + 24G VRAM(跑 GPT3.5 差不多性能的大模型) 生成图片大模型(比如跑 SD): 最低配置:16G RAM + 4G VRAM 建议配置:32G RAM + 12G VRAM 生成音频大模型: 最低配置:8G VRAM 建议配置:24G VRAM 对于本地化部署,不建议使用最低配置,因为速度会非常慢。例如,用 8G 的 Mac 电脑尝试过,效果不佳。 由于本地化部署对电脑配置要求较高,不太推荐本地化安装实现。如果想使用开源大模型,可选择利用云厂商已提供好的大模型运行环境和计算能力,比如阿里云的 PAI 和 AutoDL。 在笔记本电脑选择方面,建议选择具备以下配置的机型: 1. 内存:16GB 及以上的 RAM。 2. 显卡:具有 8GB 及以上 VRAM 的独立显卡。 但具体的笔记本电脑型号还需根据您的预算和其他需求来确定。
2024-09-12
国内哪个ai网站开源
国内像阿里、小川的百川等都在进行 AI 网站的开源。开源对于 AI 的发展具有重要意义,它能够集中力量办大事,促进不同公司、学校等在开源社区中共享知识和成果。例如,人工智能发展迅速就与开源密切相关。OpenAI 自身也是开源的受惠者,其用到的很多技术都源自 Google 的开源。我们国内应借鉴国外开源成果,积极加入大开源社区,在超级通用大模型问题上坚持开源,避免闭门造车、重复发明轮子。
2024-09-08
对于大语言模型使用的未来趋势,是闭源云端还是开源本地部署,作为普通用户是否有必要了解本地部署知识,并且是否有必要自己搭建agent以及rag?
大语言模型的未来趋势在闭源云端和开源本地部署方面存在多种可能性。 对于开源本地部署,以下是一些相关信息: Ollama 是一个方便用户在本地运行和管理大型语言模型的框架,具有以下特点: 支持多种大型语言模型,如通义千问、Llama 2、Mistral 和 Gemma 等,适用于不同应用场景。 易于使用,适用于 macOS、Windows 和 Linux 系统,同时支持 CPU 和 GPU。 提供模型库,用户可从中下载不同模型,以满足不同需求和硬件条件,模型库可通过 https://ollama.com/library 查找。 支持用户自定义模型,例如修改温度参数调整创造性和连贯性,或设置特定系统消息。 提供 REST API 用于运行和管理模型,以及与其他应用程序的集成选项。 社区贡献丰富,包括多种集成插件和界面,如 Web 和桌面应用、Telegram 机器人、Obsidian 插件等。 安装可访问 https://ollama.com/download/ 。 可以通过一些教程学习如何本地部署大模型以及搭建个人知识库,例如了解如何使用 Ollama 一键部署本地大模型、通过搭建本地聊天工具了解 ChatGPT 信息流转、RAG 的概念及核心技术、通过 AnythingLLM 搭建完全本地化的数据库等。 同时,采用开源或国内企业提供的 13B 级模型本地部署在内部系统中,虽需投入算力,但有其价值。智能客服的大量优质大客户可能会选择自己搭建智能客服平台,并结合大模型企业提供的技术服务,基于大模型搭建 LangChain、RAG 框架,实现 RPA 自动流程。 对于普通用户是否有必要了解本地部署知识以及是否有必要自己搭建 agent 以及 rag,这取决于个人需求和兴趣。如果您希望更深入了解大模型的工作原理和运行机制,或者有特定的个性化需求,那么了解和尝试本地部署可能是有意义的。但如果只是一般的使用需求,可能无需深入了解和自行搭建。
2024-09-03
有哪些视频、音频、图片理解的大模型?开源的有没有
以下是一些视频、音频、图片理解的大模型: 视频生成音效模型已开源。 Sheet Music Transformer:超越单音转录的端到端光学音乐识别。 AnyGPT:具有离散序列建模的统一多模态大型语言模型。 腾讯与新加坡国立大学发布 M2UGen。 此外,在多模态成为大模型标配的趋势下,以下大模型在视频和图片理解方面表现出色: OpenAI 的产品在从语言处理到图片、视频、声音的理解方面有不断发展,如 Sora 工具,其背后体现了 OpenAI 对视频的阅读、解读和分析能力的提升。 Meta 发布的 VJEPA 是基于世界模型打造的多模态模型。 Google 的 Gemini 号称具有强大的对视频和图片的深入解读能力。 Stable Diffusion 发布的最新版本也具有强大的对视频和图片的理解能力。
2024-08-30