Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

混元大模型

Answer

腾讯混元大模型(Hunyuan-Large)是全球最大的 MoE 开源模型,具有以下特点:

  • 拥有 3890 亿参数,其中活跃参数为 520 亿。
  • 具备强大的长文本处理和常识推理能力,支持 256K 上下文窗口。
  • 通过数据增强,使用合成数据提升对未见内容的理解。

详细介绍:https://xiaohu.ai/p/15254 模型下载:https://huggingface.co/tencent/Tencent-Hunyuan-Large 技术报告:https://arxiv.org/pdf/2411.02265

Content generated by AI large model, please carefully verify (powered by aily)

References

XiaoHu.AI日报

🔔Xiaohu.AI日报「11月6日」✨✨✨✨✨✨✨✨1⃣️ 🎙️Fish Agent V0.1 3B语音处理模型:多语言TTS支持:英语、中文、德语、日语、法语、西班牙语、韩语、阿拉伯语等。端到端架构:支持即时语音克隆与文本到语音转换。超快响应:200毫秒内完成文本到音频转换。🔗详细介绍:[https://xiaohu.ai/p/15247](https://xiaohu.ai/p/15247)🔗演示地址:[http://fish.audio/demo/live](http://fish.audio/demo/live)2⃣️ 🧠腾讯混元大模型(Hunyuan-Large):全球最大MoE开源模型:3890亿参数,活跃参数520亿。强长文本处理和常识推理能力,支持256K上下文窗口。数据增强:使用合成数据提升对未见内容的理解。🔗详细介绍:[https://xiaohu.ai/p/15254](https://xiaohu.ai/p/15254)🔗模型下载:[https://huggingface.co/tencent/Tencent-Hunyuan-Large](https://huggingface.co/tencent/Tencent-Hunyuan-Large)🔗技术报告:[https://arxiv.org/pdf/2411.02265](https://arxiv.org/pdf/2411.02265)3⃣️ 🤔人类为何害怕AI:

XiaoHu.AI日报

🔔Xiaohu.AI日报「11月6日」✨✨✨✨✨✨✨✨1⃣️ 🎙️Fish Agent V0.1 3B语音处理模型:多语言TTS支持:英语、中文、德语、日语、法语、西班牙语、韩语、阿拉伯语等。端到端架构:支持即时语音克隆与文本到语音转换。超快响应:200毫秒内完成文本到音频转换。🔗详细介绍:[https://xiaohu.ai/p/15247](https://xiaohu.ai/p/15247)🔗演示地址:[http://fish.audio/demo/live](http://fish.audio/demo/live)2⃣️ 🧠腾讯混元大模型(Hunyuan-Large):全球最大MoE开源模型:3890亿参数,活跃参数520亿。强长文本处理和常识推理能力,支持256K上下文窗口。数据增强:使用合成数据提升对未见内容的理解。🔗详细介绍:[https://xiaohu.ai/p/15254](https://xiaohu.ai/p/15254)🔗模型下载:[https://huggingface.co/tencent/Tencent-Hunyuan-Large](https://huggingface.co/tencent/Tencent-Hunyuan-Large)🔗技术报告:[https://arxiv.org/pdf/2411.02265](https://arxiv.org/pdf/2411.02265)3⃣️ 🤔人类为何害怕AI:

谷歌Gemini多模态提示词培训课——Part1

本系列课程是Deeplearning联合谷歌Gemini团队开发的免费在线课程,课程中使用了Gemini模型作为教学模型,教授大家如何使用多模态提示词与模型交互。由于课程内容中有很多在国内无法应用的部分,在其之中也缺乏了某些概念。有鉴于此,我截取了部分教程内容,并适当混合了一些入门概念。将其进行重新整理和刊发,以增强其普世价值。(如有需要,请访问[原版在线课程](https://learn.deeplearning.ai/))在这个系列中你可以学到:1.了解什么是多模态大模型2.了解Gemini系列模型3.使用Gemini API进行多模态提示词最佳实践(其提示词理念也同样也适用于完整AI产品的交互,0代码读者不必过多担心)[heading1]一、什么是多模态大模型(MLLM)[content]多模态大模型(MLLM)是一种在统一的框架下,集成了多种不同类型数据处理能力的深度学习模型,这些数据可以包括文本、图像、音频和视频等,通过整合这些多样化的数据,MLLM能够更全面地理解和解释现实世界中的复杂信息。这种多元化的数据处理能力使得MLLM在面对复杂任务时表现出更高的准确性和鲁棒性。通过综合分析不同类型的信息,这些模型能够得出更加全面和准确的结论,从而在各种应用场景中发挥重要作用。下方是一个典型MLLM架构的示意图。它包括一个编码器、一个连接器和一个LLM。可以选择性地在LLM上附加一个生成器,以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征,这些特征经由连接器处理,使LLM能更好地理解。连接器大致可分为三类:基于投影的、基于查询的和基于融合的连接器。前两种类型采用词元级融合,将特征处理成词元,与文本词元一起发送,而最后一种类型则在LLM内部实现特征级融合。注:词元=Token

Others are asking
腾讯混元大模型网址
腾讯混元大模型的开源地址为:https://github.com/Tencent/HunyuanVideo 。普通用户也可以去腾讯元宝 APP,进入 AI 应用查看该模型,可能需要申请资格,但腾讯处理速度较快。此外,模型下载地址为:https://huggingface.co/tencent/TencentHunyuanLarge ,详细介绍可参考:https://xiaohu.ai/p/15254 ,技术报告:https://arxiv.org/pdf/2411.02265 。
2024-12-09
智能体(AI Agent)对比大模型在应用中的优势是什么
智能体(AI Agent)对比大模型在应用中的优势主要包括以下方面: 1. 能够回答私有领域问题,例如公司制度、人员信息等,而大模型存在无法回答此类问题的局限性。 2. 可以及时获取最新信息,如实时天气、比赛结果等,大模型在这方面有所不足。 3. 能准确回答专业问题,如复杂数学计算、图像生成等,大模型在这些方面表现欠佳。 4. 适用于多种客户场景,如有企业官网、钉钉、微信等渠道,期望为客户提供产品咨询服务的场景,以及缺少技术人员开发大模型问答应用的情况。 5. 基于大模型,通过集成特定的外部能力,弥补大模型的不足。例如集成实时信息获取、回答私有领域问题等外部能力。 6. 典型场景丰富,包括私有领域知识问答、个性化聊天机器人、智能助手等。如私有领域知识问答,只需准备好相关知识库文件,就可在百炼控制台快速创建应用;个性化聊天机器人可通过长期记忆保存关键历史对话信息,并集成夸克搜索和图像生成等插件扩展功能;智能助手可引入 RAG 能力、长期记忆和自定义插件等功能提升工作效率。 在基准测评方面,AI Agent 智能体正在最大程度释放 LLM 潜能,逐渐成为通向 AGI 的技术共识。现有关于 Agent 能力的测评,主要在英文场景或任务,目前还没有一个在中文任务和场景上针对中文大模型的全面测评。通过测评结果发现,在 Agent 核心基础能力上,国内模型已经较为接近或部分超过 GPT3.5 水平。 从原理上看,智能体中间的“智能体”就是 LLM 或大模型,通过为其增加工具、记忆、行动、规划四个能力来实现。行业里主要用到的是 langchain 框架,它把 LLM 之间以及 LLM 和工具之间通过代码或 prompt 的形式进行串接,在 prompt 层和工具层完成主要的设计逻辑。
2025-01-13
什么是多模态模型?
多模态模型是指能够处理和融合多种不同模态信息(如视觉、语言、音频等)的模型。 以下为一些常见的多模态模型示例: 智谱·AI 推出的具有视觉和语言双模态的模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能的基础上,具备 GUI 图像的 Agent 能力。代码链接:。 CogVLM17B:强大的开源视觉语言模型(VLM),基于对视觉和语言信息之间融合的理解,在多模态权威学术榜单上综合成绩优异。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。代码链接:。 RDM:Relay Diffusion Model,级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。代码链接:。 Google 的人工智能多模态大模型叫 Gemini,它是 Google DeepMind 团队开发的,不仅支持文本、图片等提示,还支持视频、音频和代码提示。能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出。被称为 Google 迄今为止最强大、最全面的模型,被描述为一种“原生多模态大模型”,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。但请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-13
生成 3D 模型
以下是关于生成 3D 模型的相关信息: Rodin Gen 1: 输入文本后会文生图,不满意可重复生成图片。 图片满意后点击 GENERATING 生成 3D,很快获得一个快速生成的粗模。 右上可选择是否对称、是锋利边缘还是光滑边缘,是否简单几何模式。 选择后查看模型是否满意,不满意可 redo,满意后选择 confirm 进行下一步,这里可以先选择产出的面数(开始扣积分)。 下一步生成材质,可选材质的复杂度以及参考图片的影响。 生成后在左边查看,满意点击 confirm。 左侧预览区可以选择多种形式查看。 模型基本完成后,可以选择对应的格式规格下载,压缩包里会有 obj 格式和 PBR 材质,也可以发布到 sketchfab。 Tripo AI: 文生 3D 模型:在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好后点击右侧「Create」生成 3D 模型,每次生成 4 个基础模型,不满意可点击「Retry」重新生成,有满意的模型点击单个模型下方黄色的「Refine」精修,在「My Models」中查看精修进度,一般 5 分钟左右完成。 图生 3D 模型:点击输入框右侧的图标上传图片生成 3D 模型,一次生成一个基础模型,支持Retry 重生成和 Refine 精修。 工具汇总: xiaohu.ai 相关 3D 信息: MakeACharacter:一键生成 3D 数字人,可自定义面部特征,基于真实人类扫描数据,使用 Unreal Engine 渲染,支持中英文提示,兼容多个行业应用。 Rodin Gen1:拥有 1.5B 参数,可实现 3Dto3D 生成,生成 3D 模型及物理基础渲染材质,支持 3D LoRA 技术。 Skybox AI 0.9 版本更新:可以从文本提示或草图生成 360 度 3D 世界,使用 NeRF 技术,增强图像的空间深度和真实感,提供不同分辨率的 3D 网格下载。 扫描物体生成 3D 模型:使用 APP 扫描物体,完成 3D 全貌捕获,创建 AR QR 码,展示物体于任何地点,苹果新品官网展示中应用此技术。
2025-01-13
什么是AI大模型
AI 大模型是一个复杂的体系,具有以下特点和组成部分: 1. 整体架构: 基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。 数据层:包括静态的知识库和动态的三方数据集,是企业根据自身特性维护的垂域数据。 模型层:包含 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)或多模态模型(如文生图、图生图等模型,训练数据为图文或声音等多模态数据集)。 平台层:如大模型的评测体系或 langchain 平台等,是模型与应用之间的组成部分。 表现层:即应用层,是用户实际看到的地方。 2. 运作原理:以 LLm 为例,大模型在回复时是一个字一个字地推理生成内容,类似于输入法的输入联想逻辑。但存在计算量和干扰信息的问题,词向量机制和 transformer 模型中的 attention 自注意力机制解决了这些难题。 3. 带来的变革:大模型与当下智能语音技能的 NLU 存在本质差别。NLU 是通过规则、分词策略等训练而成,运作逻辑可观测,具有 ifelse 式逻辑性;大模型凭借海量数据在向量空间中学习知识的关联性,运作逻辑难以观测,脱离了 ifelse 层面。此次 AI 变革量级可能与移动互联网同级,甚至可能达到蒸汽机出现的级别。
2025-01-13
我想利用国产的语言大模型,根据会议内容生成会议纪要。1-请给我推荐能够实现以上内容的国产大模型;2-我应该提供哪些信息给大模型,才能实现我的想法。
以下是为您推荐的能够根据会议内容生成会议纪要的国产大模型:文心一言、讯飞星火等。 为了实现您的想法,您应该提供给大模型以下信息: 1. 详细的会议内容,包括与会人员的发言、讨论的主题和重点等。 2. 明确您对会议纪要的格式和重点的要求,例如是否需要按照特定的结构进行整理,是否需要突出某些关键信息等。 3. 如有相关的背景资料或补充说明,也应一并提供,以便大模型更全面地理解会议内容。
2025-01-13
给大模型喂养的知识库哪里有
以下是一些获取给大模型喂养的知识库的途径和相关信息: 1. 在 Coze 中,大模型存在不准确和数据限制的问题,因此知识库的出现是为解决数据准确性。典型应用如客服系统,公司可将用户问题及答案记录在文档中作为知识库投喂给大模型,以实现更准确的回答。 2. 在阿里云百炼中,为 AI 助手增加私有知识的步骤包括:上传文件,在百炼控制台的中设置,打开知识检索增强开关、选择目标知识库并发布。 3. 在探讨大模型的 Brain 模块时,知识分为两大类,其中内置知识又可细分为常识知识、专业知识和语言知识。常识知识涵盖日常生活的事实和逻辑规则,专业知识涉及特定领域的详细信息,语言知识包括语法规则、句型结构、语境含义等。
2025-01-12