Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

世界模型

Answer

世界模型方面的相关信息如下:

  • 谷歌发布了世界模型 Genie,这是一个 110 亿参数的基础世界模型,能够通过单张图像提示生成可玩的交互式环境。它由潜在动作模型、视频 tokenizer 和动态模型三个部分组成。可以用未见过的图像进行提示,并与想象中的虚拟世界互动,能处理合成图像、照片甚至手绘草图,生成无穷无尽的可玩世界。Genie 学到的潜在动作可以转移到真实的人类设计的环境中,谷歌针对机器人视频训练了相关模型作为概念验证。
  • 润米咨询创始人刘润指出,世界模型是人类理解世界的方式,比如知道一杯咖啡的重量从而预测拿起所需的力。人类做的事情越多,大脑里形成的世界模型越复杂,用于更准确地预测世界的反应。
  • Genie 在模型训练方面,能通过在无动作标签的视频上训练较小模型展示学习一致动作空间的能力;在模拟可变形物体方面,能够模拟衣物飘动、橡胶球变形等复杂物理行为;它不仅开启了从图像或文本生成完整交互式世界的新时代,还可能极大推动 AI 技术发展,特别是在创建自适应、多功能的 AI 方面。项目地址:https://sites.google.com/view/genie-2024/ 。此外,群友写了一篇面向低年级小学生的 Genie 模型科普文章:https://waytoagi.feishu.cn/wiki/FjwPwe4lti4nOfk5GLVcok2OnBe
Content generated by AI large model, please carefully verify (powered by aily)

References

谷歌发布世界模型Genie

一键生成可玩游戏世界。Sora问世才不到两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。[1111.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/MT2EbuvU1ofonMxxd3JcFj8znvg?allow_redirect=1)刚刚,谷歌定义了生成式AI的全新范式——生成式交互环境(Genie,Generative Interactive Environments)。Genie是一个110亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。群友写了一篇:[面向低年级小学生的Genie模型科普文章](https://waytoagi.feishu.cn/wiki/FjwPwe4lti4nOfk5GLVcok2OnBe)我们可以用它从未见过的图像进行提示,然后与自己想象中的虚拟世界进行互动。不管是合成图像、照片甚至手绘草图,Genie都可以从中生成无穷无尽的可玩世界。Genie由三个部分组成:一个潜在动作模型,用于推断每对帧之间的潜在动作;一个视频tokenizer,用于将原始视频帧转换为离散token;一个动态模型,用于在给定潜在动作和过去帧token的情况下,预测视频的下一帧。看到这项技术发布,很多人表示:谷歌又要来领导AI技术了。谷歌还提出,Genie学到的潜在动作可以转移到真实的人类设计的环境中。在这个假设基础上,谷歌针对机器人视频训练了一个Genie模型,作为机器人领域潜在世界模型应用的概念验证。被颠覆的游戏、设计、XR、机器人行业……我们可以从四个维度来理解Genie的革命性意义。首先,Genie可以在没有动作标签时学习控制。

【降低噪声】普通人也能一文读懂Sora系列

润米咨询创始人刘润1、用Sora生成的视频,并不总是能“咬就会有痕”。它“有时”也会出错。但这已经很厉害,很可怕了。因为“先记忆,再预测”,这种理解世界的方式,是人类理解世界的方式。这种方式有个名字,叫:世界模型。2、什么是,世界模型?我举个例子。3、你的“记忆”中,知道一杯咖啡的重量。所以当你想拿起一杯咖啡时,大脑准确“预测”了应该用多大的力。于是,杯子被顺利拿起来。你都没意识到。但如果,杯子里碰巧没有咖啡呢?你就会用很大的力,去拿很轻的杯子。你的手,立刻能感觉到不对。然后,你的“记忆”里会加上一条:杯子也有可能是空的。于是,下次再“预测”,就不会错了。你做的事情越多,大脑里就会形成越复杂的世界模型,用于更准确地预测这个世界的反应。这就是人类与世界交互的方式:世界模型。3、关于世界模型,如果感兴趣,我建议你读一本书,叫《千脑智能》。4、回到Sora。Sora的技术文档里有一句话:Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.翻译成中文就是:我们的结果表明,扩展视频生成模型是向着构建通用物理世界模拟器迈进的有希望的路径。5、什么意思?意思就是说,OpenAI最终想做的,其实不是一个“文生视频”的工具,而是一个通用的“物理世界模拟器”。也就是世界模型,为真实世界建模。6、而Sora,只是验证了,这条道路可行的一个里程碑。

谷歌发布世界模型Genie

游戏。1、模型训练:通过在没有动作标签的视频上训练一个较小的2.5B模型,Genie展示了它能够学习一致的动作空间。这种能力说明Genie可以识别和复制具有相同潜在动作序列的轨迹之间的相似行为,这对于训练具有身体实体的通用AI代理尤其重要。2、模拟可变形物体:Genie还能够模拟可变形物体,这是一个对于人类设计的模拟器来说极具挑战性的任务。模拟可变形物体的能力表明该系统能够从数据中学习并再现这些复杂的物理行为。这意味着Genie不仅能够生成静态的或者简单动态的环境,还能创建出在物理作用下表现出真实反应的复杂模型。例如,它可以模拟衣物在风中飘动的样子,或者一个橡胶球被压扁后恢复原状的过程。3、推动AI发展:Genie不仅引入了从图像或文本生成完整交互式世界的新时代,而且被视为未来训练通用AI代理的催化剂。它的出现可能会极大地推动AI技术的发展,特别是在创建自适应、多功能的AI方面。项目地址:[https://sites.google.com/view/genie-2024/](https://t.co/nPciFufbQE)

Others are asking
有哪些能够本地部署的AI视频生成模型
以下是一些能够本地部署的 AI 视频生成模型: 1. Stable Video Diffusion 模型: 准备工作:手动下载相关内容,分别放到指定路径。 模型选择:点击下拉箭头选择不同模型版本,勾选 load Model。 视频创作:支持图生视频,图片来源可选择 Midjourney、Stable Diffusion 等生成的图片,上传到 SVD 进行视频生成,可调节左侧参数控制效果。 保存路径:生成的视频在 outputs 下。 2. LTXVideo 模型: 基于 2B 参数 DiT,能够以 768x512 分辨率生成 24 FPS 的视频,速度比观看还快。 专为 RTX 4090 等 GPU 优化,使用 bfloat16 精度,实现高效内存使用且不影响质量。 ComfyUI 现已支持该模型,用户只需下载模型文件并获取工作流即可在本地运行。 3. Sora 模型: 功能:文生视频、图生视频、视频生视频,支持多种视频定制选项,如分辨率、视频长度和视频风格;具有故事板功能,允许用户通过时间线指导视频中的多个动作;提供混音和编辑功能,包括视频混音、延伸和剪辑、创建循环视频等;还有混合功能,可将两个视频场景合并成一个新的场景。 费用和订阅套餐:对于拥有 OpenAI Plus 或 Pro 账户的用户,使用包含在现有订阅中。OpenAI Plus 订阅每月 50 次视频生成次数,OpenAI Pro 订阅无限次慢速队列生成,500 次正常速度的视频生成次数。用户可根据需要选择更高分辨率的视频生成,但可能会减少每月使用次数。发布初期,某些地区(如欧洲和英国)可能会有延迟。
2025-01-21
国内文生图模型
以下是关于国内文生图模型的相关信息: Recraft 模型:用 8 个月自研模型,包含处理数据的模型、标注工作、训练 OCR 模型、新构建的数据集等。Recraft 生成带有长文本图像的流程图解,但存在生成默认是外国面孔而非亚洲面孔且生成的亚洲人不太自然的情况,可能与数据集有关。只有少数公司真正从头训练模型,创建自己的模型困难且成本高,需要超强团队和资金。 模型能力方面: 文本编码器的能力是文生图模型语义理解能力的关键。一开始大部分模型使用 CLIP 作为文本编码器,但存在一些问题。新的模型纷纷优化文本编码器能力,如引入更大更强的 T5XXL 或结合多个特征,但开源模型在中文生图方面能力一般。 腾讯开源的 HunyuanDiT 是较可用的中文生图模型,但仍存在优化空间。 Kolors 是最近开源的给力文生图模型,改进全面,技术实力强。
2025-01-21
吴恩达大模型教程
以下是一些与吴恩达大模型相关的教程和资源: 面向开发者的 LLM 入门课程: 地址: 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,包括吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版等。 提示工程指南: 地址: 简介:基于对大语言模型的兴趣编写的全新提示工程指南,介绍了相关论文研究等。 LangChain🦜️🔗中文网,跟着 LangChain 一起学 LLM/GPT 开发: 地址: 简介:由两位 LLM 创业者维护的 Langchain 中文文档。 LLM 九层妖塔: 地址: 简介:包含 ChatGLM 等实战与经验。 目录:吴恩达讲 Prompt https://github.com/zard1152/deepLearningAI/wiki Coze 复刻:吴恩达开源的 AI 翻译项目 复刻步骤:包括配置反思优化的提示词、结合反思优化建议再次翻译、选择输出方式等。 大语言模型分为基础 LLM 和指令微调 LLM 两类。基础 LLM 经过训练可根据文本预测下一个词,指令微调 LLM 经过训练能遵循指令,为让系统更有帮助并遵循指令,通常会使用人类反馈强化学习(RLHF)技术优化。提示的关键原则包括尽可能保证下达的指令“清晰、没有歧义”,给大模型思考的时间以及足够的时间去完成任务。
2025-01-21
有哪个大模型工具可以提供“word文本转excel表格”功能
以下是一些可以将 word 文本转 excel 表格的大模型相关方法: 1. Markdown 格式输出 Markdown 编辑器 Excel:将大模型的输出结果复制到 Markdown 编辑器(如 Typora),然后再直接复制到 Excel,就可以得到直接可用的数据文档。 2. Markdown 格式输出 Excel 数据分组:把大模型的输出直接复制到 Excel,一般使用 Excel 的数据分列功能,用“|”作为分隔符号处理数据。 3. Markdown 格式输出 Excel 数据分组:要求大模型把输出转换成 CSV 格式,然后把结果复制到 txt 文档,另存为成 csv 文件(注意:txt 另存为时,文件后缀名更改为.csv,编码选择 ANSI)。
2025-01-21
有哪个大模型工具可以提供“word技术规范书转功能清单”功能
目前尚未有确切的大模型工具专门提供“word 技术规范书转功能清单”的功能。但一些通用的自然语言处理工具和办公软件的插件可能会对您有所帮助,例如一些基于云服务的办公自动化工具,不过其效果可能因具体的文档内容和格式而有所差异。
2025-01-21
集文档管理、AI写作、资料搜索的AI大模型推荐
以下为您推荐一些集文档管理、AI 写作、资料搜索功能于一体的 AI 大模型: 1. RAG: 工作原理:就像超级智能的图书馆员,包括检索(从庞大知识库中找相关信息)、增强(筛选优化信息)、生成(整合信息给出连贯回答)。 优点:成本效益高、灵活性强、可扩展性好。 缺点:回答准确性相对不够。 相关网站:Metaso.cn(学术、研究)、So.360.com(生活、便捷)、Devv.ai(程序员、开发者)、Perplexity(付费、高质量)、Bing.com(通用)、Google.com(全球、精准)。 内幕:平均调用 9 次大语言模型,网络爬虫预先建立数据库,用便宜但推理弱的模型(免费版)。 2. 对于律师工作: AI 大模型擅长:信息检索与整理、模式识别与预测、自动化文档处理、多任务处理能力。 AI 大模型不擅长:法律解释与推理、理解道德和情感、创新或个性化的服务。 律师擅长:法律专业知识、沟通与谈判。 3. 沉浸式翻译:主打所有网页双语翻译、PDF 文档对照阅读,新功能可一键开启网页中 Youtube 视频的双语字幕。插件安装地址:https://immersivetranslate.com/ 4. Kimi:由月之暗面科技有限公司开发,最大特点是超长文本(支持最多 20 万字的输入和输出)处理和基于文件、链接内容对话的能力,能阅读并理解多种格式文件内容为用户提供回复。
2025-01-21
如果自己一个人要完成一个类似游戏的虚拟世界,需要一些什么软件,并且需要多久完成
要一个人完成类似游戏的虚拟世界,可能需要以下软件: 1. 图像生成软件,如 Midjourney、Stable Diffusion 等,用于生成概念图像和美术作品。 2. 3D 建模软件,用于创建 3D 模型、添加纹理和效果等。 完成所需的时间因多种因素而异,包括个人的技能水平、项目的复杂程度、投入的时间和精力等。像《Red Dead Redemption 2》这样复杂的游戏,制作成本近 5 亿美元,花了将近 8 年的时间来建造。但如果是相对简单的虚拟世界,时间可能会短很多。不过,这需要您具备扎实的相关技能和持续的努力。
2025-01-10
如果自己一个人要完成一个类似游戏的虚拟世界,需要一些什么软件
如果您想一个人完成类似游戏的虚拟世界,以下是一些可能会用到的软件: 1. Scenario、Iliad:可以创建游戏资源。 2. Promethean:能够构建整个虚拟世界的平台。 3. Inworld、Charisma、Convai:可用于生成非玩家角色(NPC)。 4. Midjourney:有助于游戏设计师进行游戏概念探索与灵感启发。 5. Stable Diffusion:可用于处理图像,如形成系列的图像变化、创建最后的艺术作品等。 6. 谷歌的 Genie:可以通过单张图像提示生成可玩的交互式环境,由潜在动作模型、视频 tokenizer 和动态模型组成。 此外,生成式人工智能工具在游戏概念探索、美术作品制作等方面也能发挥作用,比如加快概念艺术的开发流程。但需要注意的是,创建 3D 元素比创建 2D 平面图更为复杂,目前相关业务和创新尚在探索中。
2025-01-10
全世界最先进的模型是什么
目前全世界较为先进的模型包括: Meta 发布的 Meta Movie Gen 文生视频模型,Meta 称其为“迄今为止最先进的媒体基础模型(Media Foundation Models)”,但模型未公开上线。相关链接:https://ai.meta.com/research/moviegen/ 媒体报道:量子位:Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成/画面编辑全包,92 页论文无保留公开 https://mp.weixin.qq.com/s/rs7JQigqHO9yT_0wbF6cTg 歸藏的 AI 工具:Meta 发布视频生成和编辑模型,来看看项目负责人的论文导读 https://mp.weixin.qq.com/s/BLXNgCW0vAHNZtHgd4623g OpenAI 的 GPT4 是其最新和最强大的模型,GPT3.5Turbo 是为 ChatGPT 提供支持的模型,此模型专为对话模式进行了优化。相关链接:https://platform.openai.com/docs/quickstart Llama 3.1 是迄今为止最大版本,其在推理、数学、多语言和长上下文任务中能够与 GPT4 相抗衡。这标志首次开放模型缩小与专有前沿的差距。 此外,由 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在 LMSYS 排行榜上取得了优异的成绩,尤其在数学和编程方面表现尤为出色。中国的最强模型与美国生产的第二强前沿模型竞争,同时在某些子任务上挑战了 SOTA。中国模型更能优先考虑计算效率,以弥补 GPU 访问的限制,并学会比美国同行更有效地利用资源。中国模型各有优势。例如,DeepSeek 在推理过程中通过多头隐式注意力减少内存需求,并且改进了 MoE 架构。同时,零一万物更加关注数据集的建设而不是建筑创新。由于在像 Common Crawl 这样的流行存储库中相对缺乏数据,因此它更加关注建立强大的中文数据集来弥补不足。
2024-12-30
基于世界模型的具身智能 技术原理是什么
基于世界模型的具身智能技术原理主要包括以下方面: 谷歌发布的世界模型 Genie: 能够学习一致的动作空间,可能适合训练机器人,打造通用化的具身智能。 其架构中的多个组件基于 Vision Transformer构建而成,为平衡模型容量与计算约束,在所有模型组件中采用内存高效的 STtransformer 架构。 Genie 包含三个关键组件:潜在动作模型(Latent Action Model,LAM)用于推理每对帧之间的潜在动作;视频分词器(Tokenizer)用于将原始视频帧转换为离散 token;动态模型给定潜在动作和过去帧的 token,用来预测视频的下一帧。潜在动作模型以完全无监督的方式学习潜在动作。 相关论文《Genie:Generative Interactive Environments》已公布,论文地址为 https://arxiv.org/pdf/2402.15391.pdf,项目主页为 https://sites.google.com/view/genie2024/home?pli=1 ,论文的共同一作多达 6 人,包括华人学者石宇歌。 具身智能算法层: 机器人创业公司 Covariant 推出的首个机器人基础模型 RFM1 是基于真实任务数据训练的机器人大模型,共有 80 亿参数,是基于文本、图片、视频、机器人动作、传感器信息等多模态数据进行训练的 any to any 序列模型。 RFM1 将机器人的实际动作也视作 Token,其 token 包括多种模态,每个模块都有专门的 tokenizer 进行处理。操作只有一个——预测下一个 token。 RFM1 对物理世界的理解源自于其学习生成视频的过程,通过接受初始图像和机器人动作的输入,预测接下来视频帧的变化,掌握了模拟世界每个瞬间变化的低层次世界模型。 行业进展: 李飞飞在 AI 3D 生成领域的工作极大地加速了进展,通过对 3D 物体的生成所构建出的世界,再进行降维的视频生成,生成的视频自然符合物理世界的规律,生成的世界也可交互。 世界模型开启了在虚拟世界中预训练机器人的可能,这个虚拟世界完全符合物理规律,可以快速生成无限场景,支持并行训练多个任务,大幅降低试错成本,加速机器人的学习过程,为实现更复杂的机器人行为打开可能。这种进步正在催生新的应用可能,如更自然的人机交互界面、更安全的机器人控制系统、更高效的虚拟训练平台等。世界模型也在改变 AI 理解和交互世界的基本方式。
2024-12-27
2024年11月11日世界AI新闻有哪些
以下是 2024 年 11 月 1 日至 11 月 8 日的部分世界 AI 新闻: 11 月 1 日: 《》来自南乔,10 月 AI 行业大事件盘点包括多家公司的重要发布和创新,如 OpenAI 推出多项新功能,字节发布 AI 智能体耳机,以及各大模型的开源。趋势方面,强化学习被认为是推动 AGI 发展的关键技术,原生多模态模型逐渐成为研究热点。新兴应用如 AI 音乐创作、翻译和智能助手等受到关注,整体呈现出技术与应用的快速发展态势。 《》来自歸藏,10 月份美国 AI 聊天机器人市场报告显示,ChatGPT 仍是市场领导者,但份额逐渐下降。谷歌和微软在争夺第二的位置,Perplexity 和 ClaudeAI 则实现高速增长,正在从 ChatGPT 和 Gemini 手中蚕食市场份额。总体来看,专业 AI 工具的增长势头强劲,而初创公司的用户获取相对缓慢。 《》比尔・盖茨在采访中讨论了人工智能的革命性影响,认为 AI 将使每个人都能成为“超级个体”,改变人机交互方式。他强调 AI 将显著降低白领工作的成本,并逐渐影响蓝领市场。盖茨还提到他对全球健康和气候问题的关注,认为技术创新速度超出预期,未来 20 年将是充满希望的时期。他同时探讨了可再生能源的发展,尤其是核能和太阳能的潜力。 11 月 8 日: 《》由上海外国语大学图书馆发布,探讨了 AI 素养在数智时代的重要性和演变。报告指出,AI 素养不仅涉及技术知识,还包括态度、价值观和应对复杂需求的能力。随着 AI 技术的广泛应用,社会对 AI 素养的需求日益增长。 其它一些报告发布在: AIGCxChina 研究院、无界 AI:《》 《》(英文) 《》 请注意,这只是部分新闻,可能还有其他未涵盖的内容。
2024-11-11
目前世界上最强的Ai对话是那个
目前在世界范围内,很难确切地指出哪一个是最强的 AI 对话产品。不过,ChatGPT 是一款具有广泛影响力和显著特点的 AI 对话系统。 ChatGPT 由 OpenAI 开发,具有以下优势: 1. 开创性:作为首批向公众开放的大规模商用 AI 对话系统之一,在全球掀起了 AI 革命,改变了人们对 AI 的认知,为技术发展指明方向。 2. 用户体验:界面简洁直观,交互流畅自然,新手也能轻松上手,降低了普通人接触和使用 AI 的门槛。 3. 技术实力:背后的 GPT 系列模型性能和能力处于行业领先,在语言理解深度和生成内容质量上表现出色,能应对各种复杂任务和挑战。 然而,ChatGPT 也存在一些局限性: 1. 随着 AI 技术发展,已不再是市场上唯一的顶级选择,其他产品在特定领域可能超越它。 2. 对于国内用户,可能因网络连接问题遇到连接不稳定、响应延迟等情况,影响使用体验。 此外,大型语言模型改变了聊天机器人的局面,使得如今最好的聊天机器人能与人类进行自由流畅的对话。像 Replika、Anima 和 CharacterAI 等产品也受到许多用户的青睐,用户在与它们的关系中找到了真正的意义,并花费大量时间进行对话。
2024-10-22