Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

人类不需要活着了,AI是不是更完美的存在?

Answer

AI 并非是比人类更完美的存在。从某些观点来看,假设人按照最大化某个“快乐函数”行动,将各种情感和兴趣纳入考虑,AI 可以做到类似人类甚至超越人类。例如在面对“短期快乐”与“长期快乐”的取舍时,AI 能通过硬件算力和强化学习算法实现更优选择,像 AlphaGo 击败世界冠军那样在复杂任务上超越人类,建立更高效理想的社会。

然而,也有观点认为,在计算机能解决至少一个基本问题之前,不能称之为 AGI,因为人类已经部分解决了很多基本问题。而且,从宇宙尺度看,地球上意识的进化存在时间窗口限制。

同时,目前而言,AI 不是为替代工种而出现,是为辅助人类更高效完成目标。虽然 AIGC 进步迅速,能让不懂音乐创作的人快速创作出一定水平的歌曲,让小团队短期内完成以往需长时间的工作,但真正的好作品不能只看结果,也要看过程,各行顶峰仍需要真正的人,这是目前 AIGC 无法做到的。

Content generated by AI large model, please carefully verify (powered by aily)

References

余欣航heaven:人类一败涂地?

我明白了他的意思:他假设人按照最大化某个“快乐函数”行动,这个函数可以包含足够多的变元、形式足够复杂,将所有爱情亲情友情与信仰兴趣癖好统统纳入考虑。只要“效用函数”输入输出的维数可以任意大、函数的形式可以任意复杂,那么,就可以完全地定义出一个人,那么,AI就可以做到完全和人类一样……丁一纠正道:不只是和人类一样,而是可以超越人类!面对着“短期的快乐”与“长期的快乐”之间的取舍,人类总是无法找到最优点,继而无法真正实现“人生总快乐最大化”;相比之下,AI却可以通过日益提升的硬件算力及强化学习算法实现这一点。正如AlphaGo击败世界冠军一样,AI会在越来越复杂的任务上超越人类……因为硅基生物能够精准地以“众人的总快乐”为目标运行,所以它们建立的社会比人类要更高效、理想……终于,我算是理解了丁一的全部意思:

马斯克xAI动员大会纪要

所以,费米悖论实际上是我对文明和意识的脆弱性感到担忧的一部分,因为到目前为止,我们还没有任何关于智能生物的证据,尽管我们努力寻找。我们实际上可能是整个银河系,或者至少是银河系的这一部分中唯一的智能生物。如果是这样,那就意味着我们所拥有的是极其罕见的。我认为值得注意的是,对于地球上意识的进化来说,我们已经存在了大约45亿年。太阳正在逐渐膨胀,它将使地球变热,使海洋沸腾,进而产生温室效应的恶性循环,地球将变成像金星那样无法维持生命的环境。这可能只需要不到5亿年的时间。太阳不需要膨胀到包围地球,它只需要变得足够热,使空气中的水蒸汽增加到产生温室效应的程度。因此,从论证的角度来说,如果意识的进化比地球当前存在的时间慢了10%,那它可能根本就不会发展。从宇宙的尺度来看,这是一个非常狭窄的窗口。所以有很多根本性的问题。我认为,在计算机能够解决至少一个基本问题之前,你不能称之为AGI,因为人类还有很多基本问题,或者已经部分解决了这些问题。所以,如果计算机连其中的一个问题都解决不了,那我觉得它不如人类好。

白马:6000字超详细复盘!《AI你·南京》AIGC城市宣传MV全流程制作解析

“ AI一天,人间一天”,在这个圈子里人经常会发出这样的感叹。如果大家看过一年前AIGC产出的内容,再看看今天图像、音乐、视频如雨后春笋般的出现,就能体会得到为什么我们会如此看好AIGC的前景,它进步得实在太快了。我甚至都无法想象再过五年甚至十年之后,世界会被改变成什么样子。之前有很多敌对的情绪一直弥漫在人和AI之间,但是就目前而言,AI绝不是为了替代某一工种而出现的,它是为了辅助我们更高效地完成目标而存在。我们的世界仍然需要作家、需要音乐家、需要画家、需要设计师、需要导演、需要摄影、需要程序员,我们需要真正的人来攀登各行的顶峰,这是现在的AIGC所无法做到的。但是好的作品,我们不能只看结果,也要去看过程。AIGC可以让一个完全不懂音乐创作的人在十分钟之内创作出一首7 0分以上的歌曲,AIGC可以让一个只有几个人的团队在短短几天之内做出以前可能要一个月才能完成的视频,AIGC可以让一个人可抵千军万马。这,就是我们如此相信AI的理由。以上。-END-

Others are asking
初学者如何使用AI学习AI知识
对于初学者学习 AI 知识,建议如下: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛(比如图像、音乐、视频等),根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出自己的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 通过与这些 AI 产品的对话,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得自己的成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2025-01-23
即梦AI里做儿童绘本制作、故事绘本里,怎么做到人物一致,风格一致,场景风格一致。
要在即梦 AI 中制作儿童绘本并做到人物、风格和场景风格一致,可以按照以下步骤进行: 1. 描述故事场景:利用 ChatGPT 或者自行构思一段适合画绘本的故事,将其分为多个场景,用一句包含环境、人物、动作的话描述每个场景。例如,故事名《Lily 的奇妙之旅》,场景 1 为“探险开始,Lily 来到一个阳光明媚的森林,跳过清澈的小溪,愉快玩耍。在路上结识了一只友善的棕熊,她们成为了旅伴”。 2. 生成场景图片:为每个场景生成图片时,使用固定的 prompt 风格词,如“super high details,HDsmooth,by Jon Burgerman,s 400niji 5style expressivear 3:4”。为了使熊和人物有更好的互动感,生成场景时也包括人物主角。如场景 2 的 prompt 为“Walking in a mysterious cave with glittering gems,little girl Lily wearing a yellow floral skirt,her friend brown bear,dim,dreamlike,super high details,HDsmooth,by Jon Burgerman,s 400niji 5style expressivear 3:4”。如果需要,可使用 mj 的 region vary 工具将小女孩完全框选,在提示词中完全删除 Lily 的描述词,重新生成得到场景图像。 3. 绘制绘本主角:确定人物形象,如“a little girl wearing a yellow floral skirt+人物动作+风格词”,在 mj 中生成直到得到一张满意的人物图像,且一套绘本中风格词语不要改变。 4. 保持一致性描述:在写 prompt 时,应从多个角度描述需求,包括人种、画风、宠物品种等,以稳定内容符合预期。例如,如果想生成一个关于“狗”的视频,提供不同狗的品种、外貌、行为等信息,确保物种和画风的一致性。
2025-01-23
你有哪些AI工具
以下是一些常见的 AI 工具: 对于建筑设计师审核规划平面图,有以下工具: HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色,搭载自主训练的建筑大模型 ArchiMaster。 Maket.ai:面向住宅行业,可根据输入自动生成户型图。 ARCHITEChTURES:AI 驱动的三维建筑设计软件,能引入标准和规范约束设计结果。 Fast AI 人工智能审图平台:形成全自动智能审图流程,实现建筑全寿命周期内信息的集成与管理。 绘制逻辑视图、功能视图、部署视图的工具包括: Lucidchart:流行的在线绘图工具,支持多种图表创建。 Visual Paradigm:全面的 UML 工具,提供多种架构视图创建功能。 ArchiMate:开源建模语言,与 Archi 工具配合使用可创建逻辑视图。 Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图创建。 Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板。 draw.io(diagrams.net):免费的在线图表软件。 PlantUML:文本到 UML 转换工具,可通过描述文本生成相关视图。 Gliffy:基于云的绘图工具,支持创建多种架构图。 Archi:免费开源工具,支持逻辑视图创建。 Rational Rose:IBM 的 UML 工具,支持多种视图创建。 与 Excel 相关的 AI 工具和插件有: Excel Labs:Excel 插件,新增生成式 AI 功能,基于 OpenAI 技术。 Microsoft 365 Copilot:整合办公软件,通过聊天形式完成任务。 Formula Bot:提供数据分析聊天机器人和公式生成器功能。 Numerous AI:支持 Excel 和 Google Sheets,可生成文本、执行情感分析等任务。
2025-01-23
AI从业者相关资质证书
以下是一些与 AI 从业者相关的资质证书和学习资源: 学习资源: 云端问道:https://developer.aliyun.com/topic/techworkshop?spm=a2c6h.29649919.J_3425856640.1.45d87102rfvft7 云起实践平台:https://developer.aliyun.com/adc/?spm=a2c6h.28938832.0.0.5ca5448a0xO1Q9 人工智能认证证书: (免费) 视觉开放平台:https://vision.aliyun.com/ 此外,以下是一些关于 AI 从业者的相关信息: 【已结束】AI 创客松中参与同学的自我介绍和分类,包括擅长领域、想法方向和优势等。 AI 切磋大会第七期·线下狂欢 Show 中提到适合做 AI 摊主的人群特点,如技术背景丰富、产品开发与管理经验、多元化应用场景等,以及 AI 爱好者与学习者、AI 内容创作与营销能力方面的相关情况。
2025-01-23
哪个AI对PDF文件的提炼总结能力最强
目前在对 PDF 文件的提炼总结能力方面,Claude 2 表现出色。将整本书粘贴到 Claude 的前一版本中能取得令人印象深刻的结果,新模型更强大。可以通过查看相关经验和提示。此外,myaidrive.com 网站上的 AI PDF 也能处理较大的 PDF 文件,并为冗长的文档提供上级摘要。同时,近期出现的各类 AI 搜索引擎,如 perplexity.ai、metaso、360 搜索、ThinkAny 等,其智能摘要功能能够辅助快速筛选信息。但需要注意的是,这些系统仍可能产生幻觉,若要确保准确性,需检查其结果。
2025-01-23
目前最强大的AI工具
目前较为强大的 AI 工具包括以下几类: 绘制逻辑视图、功能视图、部署视图的工具: 1. Lucidchart:流行的在线绘图工具,支持多种视图创建,操作便捷。 2. Visual Paradigm:全面的 UML 工具,功能丰富。 3. ArchiMate:开源建模语言,与 Archi 工具配合使用。 4. Enterprise Architect:强大的建模、设计和代码生成工具。 5. Microsoft Visio:广泛使用,提供丰富模板。 6. draw.io(diagrams.net):免费在线图表软件。 7. PlantUML:文本到 UML 转换工具。 8. Gliffy:基于云的绘图工具。 9. Archi:免费开源,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具。 辅助编程的工具: 1. GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE。 2. 通义灵码:阿里巴巴团队推出,提供多种编程辅助能力。 3. CodeWhisperer:亚马逊 AWS 团队推出,提供实时代码建议。 4. CodeGeeX:智谱 AI 推出的开源免费工具,可快速生成代码。 5. Cody:Sourcegraph 推出,借助强大的代码分析能力。 6. CodeFuse:蚂蚁集团支付宝团队推出的免费 AI 代码助手。 7. Codeium:提供代码建议等帮助,提高编程效率和准确性。 辅助写邮件的工具: 1. Grammarly:提供语法检查、拼写纠正等功能,多平台适用。 2. Hemingway Editor:简化句子结构,提高可读性。 3. ProWritingAid:全面的语法和风格检查,提供详细报告。 4. Writesonic:基于 AI 生成多种文本,速度快。 5. Lavender:专注邮件写作优化,提供个性化建议和模板。
2025-01-23
我要做讲书的自媒体,个人不出镜,书的内容讲解与AI视频完美衔接,应该用什么工具,做到完美结合
如果您想做讲书的自媒体,个人不出镜,让书的内容讲解与 AI 视频完美衔接,可以参考以下工具和流程: 工具: 1. Stable Diffusion(SD):一种 AI 图像生成模型,可基于文本描述生成图像。 网址:https://github.com/StabilityAI 2. Midjourney(MJ):适用于创建小说中的场景和角色图像的 AI 图像生成工具。 网址:https://www.midjourney.com 3. Adobe Firefly:Adobe 的 AI 创意工具,能生成图像和设计模板。 网址:https://www.adobe.com/products/firefly.html 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。 网址:https://pika.art/waitlist 5. Clipfly:一站式 AI 视频生成和剪辑平台。 网址:https://www.aihub.cn/tools/video/clipfly/ 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。 网址:https://www.veed.io/zhCN/tools/aivideo 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。 网址:https://tiger.easyartx.com/landing 8. 故事 AI 绘图:小说转视频的 AI 工具。 网址:https://www.aihub.cn/tools/video/gushiai/ 流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-01-16
视频配音工具,并且可以完美对嘴型
以下为一些可以完美对嘴型的视频配音工具: PixVerse V3:Lipsync 功能可以为视频配音配口型,生成视频最长可达 30 秒,目前只支持对 PixVerse 生成的视频进行口型适配。支持多种语言,多样化音频适配,包括演讲、音乐、歌剧等。使用时,先选择一张带有人脸的图片上传,写好提示词生成视频,然后点击生成的视频,在下方找到“Lipsync”,输入文案,从预设声音中选择合适的声音或上传音频,最后点击“create”生成视频。注意生成视频的长度取决于文案或音频的长度,最长为 30 秒。 Pika:可控性强,可以对嘴型,可配音。 字节跳动开源的 LatentSync:自动根据音频调整角色嘴型,实现精准口型同步,无需复杂中间步骤。提出“时间对齐”技术,解决画面跳动或不一致问题,效果显著。开箱即用,预训练模型加持,操作简单,支持高度定制化训练。GitHub 链接:https://github.com/bytedance/LatentSync 论文:https://arxiv.org/pdf/2412.09262 此外,还有以下相关工具: Runway:网址为 https://runwayml.com ,有网页有 app 方便。 即梦:网址为 https://dreamina.jianying.com/,为剪映旗下产品,生成 3 秒,动作幅度有很大升级,最新 S 模型,P 模型。 Minimax 海螺 AI:网址为 https://hailuoai.video/ ,非常听话,语义理解能力非常强。 Kling:网址为 kling.kuaishou.com ,支持运动笔刷,1.5 模型可以直出 1080P30 帧视频。 Vidu:网址为 https://www.vidu.studio/ 。 haiper:网址为 https://app.haiper.ai/ 。 智谱清影:网址为 https://chatglm.cn/video ,开源了,可以自己部署 cogvideo 。 luma:网址为 https://lumalabs.ai/ 。 SVD:网址为 https://stablevideo.com/ ,对于景观更好用。
2025-01-15
如何将思维链的原理与prompt相结合,写出更加完美的prompt
思维链(CoT)提示是在 Wei 等人(2022)中引入的,它通过中间推理步骤实现了复杂的推理能力。您可以将其与少样本提示相结合,以获得更好的结果,以便在回答之前进行推理的更复杂的任务。 写提示词时,结构化框架具有层级清晰、可读性好、结构可扩展性强、格式和语义一致性便于迭代、debug 和维护等优势。但更重要的是它的思维链,包括 Role(角色)、Profile(角色简介)、Profile 下的 skill(角色技能)、Rules(角色要遵守的规则)、Workflow(满足上述条件的角色的工作流程)、Initialization(进行正式开始工作的初始化准备)等模块。 在使用结构化框架时,要明白每个模块存在的意义,根据实际需求扩展特定结构模块,避免硬凑语句。同时,要注重 Prompt 性能的提升,确保清晰、简明、有效、统一。 此外,了解 Transformers 的原理,如自注意力机制等,有助于根据原理优化 Prompt。您可以参考刘海的「思维链 COT」Prompt 技巧教程,详细阅读如何优化 Prompt。
2024-07-07
不是,我说的是免费的好用的ai视频生成网址,不是不是对免费有什么误解?
以下为一些免费且好用的 AI 视频生成网址: 1. Pika:这是一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。网址:https://pika.art/ 可控性强,可以对嘴型,可配音。 2. SVD:如果您熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。网址:https://stablevideo.com/ 对于景观生成效果更好。 3. 即梦:剪映旗下的产品。网址:https://dreamina.jianying.com/ 生成 3 秒,动作幅度有很大升级,最新 S 模型,P 模型。 4. Minimax 海螺 AI:非常听话,语义理解能力非常强。网址:https://hailuoai.video/ 5. 智谱清影:开源了,可以自己部署 cogvideo。网址:https://chatglm.cn/video 6. PixVerse:人少不怎么排队,还有换脸功能。网址:https://pixverse.ai/ 更多的文生视频的网站可以查看这里: 内容由 AI 大模型生成,请仔细甄别。
2025-01-16
是不是可以跟任何大模型进行对话
一般来说,可以跟很多大模型进行对话。以下是一些常见的方式: 1. 对于 Llama3 大模型: 下载大模型主要是为了与之对话,或者称为使用其进行推理。 有两种对话方式,可使用 API 或部署简单界面。面向小白,这里主要介绍部署界面的方式。 例如,在 /root/autodltmp 路径下新建 chatBot.py 文件并输入相关内容,然后启动 Webdemo 服务,按照指示映射端口,在浏览器中打开相应链接即可看到聊天界面。 2. 对于 Llama 大模型: 首先编译,为利用 Metal 的 GPU 可用特定命令编译。 去指定网址下载模型。 llama.cpp 还提供了 WebUI 供用户使用,启动 server 后默认监听 8080 端口,打开浏览器就可以对话。 3. 对于通过 Open WebUI 使用大模型: 访问指定网址,使用邮箱注册账号。 登陆成功后,Open WebUI 一般有聊天对话和 RAG 能力(让模型根据文档内容回答问题)两种使用方式。如果要求不高,已实现通过 Web UI 与本地大模型对话的功能。 需要注意的是,不同大模型的访问速度和回答效果可能存在差异,例如 ChatGPT 访问速度快是因为其服务器配置高,回答效果好是因为训练参数多、数据更优以及训练算法更好。
2025-01-07
人工智能未来是不是一个赚钱的风口?
人工智能未来很可能是一个赚钱的风口。以下是一些原因: 深度学习被证明有效,随着规模扩大预期会改善,人们持续增加相关资源投入。未来,人工智能模型将作为自主的个人助理执行特定任务,帮助人们协调医疗护理等,在各个领域取得科学进展。 数字化正在重塑生活,从依赖物理资源的稀缺经济转向以数字资源为基础的富足经济。AI 的发展使这种趋势进一步加强,进入更加富足的时代。 科技公司将有机会以前所未有的规模和盈利模式向全球提供即插即用的劳动力和智能解决方案,降低生产和运营成本。 预计 2024 年会有团队花费超过 10 亿美元来训练单个大型模型,生成式 AI 的热潮不会消退。 然而,也存在一些挑战: 如果不能建立足够的基础设施,人工智能可能成为有限资源,导致战争,并主要成为富人的工具。 政府和大型科技公司将继续承受计算需求的压力,逼近电网极限。 AI 介入选举等方面存在伦理挑战。 总之,人工智能领域充满机遇和挑战,是一个充满惊喜、伦理挑战和很多真金白银的奇妙世界。
2024-12-31
ChatGPT与Sora 是不是只有苹果手机或苹果电脑才能注册与登入?
ChatGPT 注册与登录: 苹果系统: 中国区正常无法在 AppleStore 下载 ChatGPT,需切换到美区。美区 AppleID 注册教程可参考知乎链接:https://zhuanlan.zhihu.com/p/696727277 。 最终在 AppleStore 搜到 ChatGPT 下载安装,注意别下错。 打开支付宝,地区切换到美区任意区,购买【App Store&iTunes US】礼品卡,按需要金额购买(建议先买 20 刀),然后在 apple store 中兑换礼品卡,在 chatgpt 中购买订阅 gpt plus,中途不想继续订阅可到订阅列表中取消。 会员不管在苹果还是安卓手机上购买的,电脑上都能登录。 注册美区 ID 详细步骤: 1. 电脑上打开 Apple ID 的注册页面:https://appleid.apple.com/ac 。 2. 填写验证码后点继续。 3. 到谷歌邮箱接收邮箱验证码。 4. 接着验证手机号码。 5. 验证完后会出现页面,此时美区 ID 已注册但未激活,切换到手机操作。 6. 打开 App Store,点击右上角人形头像。 7. 拉到最底下,点击退出登录,先退出国内的 ID。 8. 之后再点击右上角人形头像。 9. 手动输入美区 ID,会收到短信进行双重验证。 10. 之后完成美区的 ID 登录。 11. 随便找个软件下载,会弹出提示,点击“检查”进行激活。 12. 点击同意,进入下一页填写美国地址。 13. 若付款方式中没有“无”或“none”选项,输入街道地址和电话。 14. 至此,通过中国 IP、中国手机号、免信用卡成功注册一个美区 ID,可用于下载例如小火箭、ChatGPT、Discord、X、TikTok 等软件。 关于 Sora 的注册与登录相关信息未提及。
2024-12-16
siri是不是使用大模型技术
Siri 目前并非使用大模型技术。苹果公司的 Siri 概念虽好,但由于技术限制,其表现未达到人工智能的水平,常被称为“人工智障”。不过,随着技术发展,未来可能会用大模型重新改造 Siri,将手机上的所有功能控制起来,使其成为真正的智能助理。例如,苹果公司在手机算力的芯片发展到能够支撑大模型上手机的情况下,可能会推出大模型的小数据量、专业的版本来替代 Siri。同时,苹果公司若 All in 手机,其大模型可能会是本地化的,以重视个人数据保护和隐私。
2024-11-21
sairi是不是使用大模型技术
Sora 是使用大模型技术的。周鸿祎认为 Open AI 训练这个模型会阅读大量视频,大模型加上 Diffusion 技术需要对世界进一步了解,学习样本以视频和摄像头捕捉到的画面为主。Sora 在训练数据上采用在原始尺寸上进行训练的策略,避免了传统 AI 对人为抽象的依赖。此外,Sora 还采用了一些数据预处理技术,如将视觉图块压缩成低维潜在表示,并将其排列成序列,注入噪声后输入扩散变换器的输入层,同时采用时空分块化来降低后续对时间信息建模的复杂性。这种对原始视频和图像特征的细腻处理标志着生成模型领域的重大进步。
2024-11-21