Chat with Wiki - 混元大模型

Answer

腾讯混元大模型（Hunyuan-Large）是全球最大的 MoE 开源模型，具有以下特点：

拥有 3890 亿参数，其中活跃参数为 520 亿。
具备强大的长文本处理和常识推理能力，支持 256K 上下文窗口。
通过数据增强，使用合成数据提升对未见内容的理解。

详细介绍：https://xiaohu.ai/p/15254 模型下载：https://huggingface.co/tencent/Tencent-Hunyuan-Large 技术报告：https://arxiv.org/pdf/2411.02265

Content generated by AI large model, please carefully verify (powered by aily)

References

XiaoHu.AI日报

🔔Xiaohu.AI日报「11月6日」✨✨✨✨✨✨✨✨1⃣️ 🎙️Fish Agent V0.1 3B语音处理模型：多语言TTS支持：英语、中文、德语、日语、法语、西班牙语、韩语、阿拉伯语等。端到端架构：支持即时语音克隆与文本到语音转换。超快响应：200毫秒内完成文本到音频转换。🔗详细介绍：[https://xiaohu.ai/p/15247](https://xiaohu.ai/p/15247)🔗演示地址：[http://fish.audio/demo/live](http://fish.audio/demo/live)2⃣️ 🧠腾讯混元大模型（Hunyuan-Large）：全球最大MoE开源模型：3890亿参数，活跃参数520亿。强长文本处理和常识推理能力，支持256K上下文窗口。数据增强：使用合成数据提升对未见内容的理解。🔗详细介绍：[https://xiaohu.ai/p/15254](https://xiaohu.ai/p/15254)🔗模型下载：[https://huggingface.co/tencent/Tencent-Hunyuan-Large](https://huggingface.co/tencent/Tencent-Hunyuan-Large)🔗技术报告：[https://arxiv.org/pdf/2411.02265](https://arxiv.org/pdf/2411.02265)3⃣️ 🤔人类为何害怕AI：

XiaoHu.AI日报

谷歌Gemini多模态提示词培训课——Part1

本系列课程是Deeplearning联合谷歌Gemini团队开发的免费在线课程，课程中使用了Gemini模型作为教学模型，教授大家如何使用多模态提示词与模型交互。由于课程内容中有很多在国内无法应用的部分，在其之中也缺乏了某些概念。有鉴于此，我截取了部分教程内容，并适当混合了一些入门概念。将其进行重新整理和刊发，以增强其普世价值。（如有需要，请访问[原版在线课程](https://learn.deeplearning.ai/)）在这个系列中你可以学到：1.了解什么是多模态大模型2.了解Gemini系列模型3.使用Gemini API进行多模态提示词最佳实践（其提示词理念也同样也适用于完整AI产品的交互，0代码读者不必过多担心）[heading1]一、什么是多模态大模型（MLLM）[content]多模态大模型（MLLM）是一种在统一的框架下，集成了多种不同类型数据处理能力的深度学习模型，这些数据可以包括文本、图像、音频和视频等，通过整合这些多样化的数据，MLLM能够更全面地理解和解释现实世界中的复杂信息。这种多元化的数据处理能力使得MLLM在面对复杂任务时表现出更高的准确性和鲁棒性。通过综合分析不同类型的信息，这些模型能够得出更加全面和准确的结论，从而在各种应用场景中发挥重要作用。下方是一个典型MLLM架构的示意图。它包括一个编码器、一个连接器和一个LLM。可以选择性地在LLM上附加一个生成器，以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征，这些特征经由连接器处理，使LLM能更好地理解。连接器大致可分为三类：基于投影的、基于查询的和基于融合的连接器。前两种类型采用词元级融合，将特征处理成词元，与文本词元一起发送，而最后一种类型则在LLM内部实现特征级融合。注：词元=Token