直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

siri是不是使用大模型技术

回答

Siri 目前并非使用大模型技术。苹果公司的 Siri 概念虽好,但由于技术限制,其表现未达到人工智能的水平,常被称为“人工智障”。不过,随着技术发展,未来可能会用大模型重新改造 Siri,将手机上的所有功能控制起来,使其成为真正的智能助理。例如,苹果公司在手机算力的芯片发展到能够支撑大模型上手机的情况下,可能会推出大模型的小数据量、专业的版本来替代 Siri。同时,苹果公司若 All in 手机,其大模型可能会是本地化的,以重视个人数据保护和隐私。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

质朴发言:大模型未来发展:RAG vs 长文本,谁更胜一筹?|Z 沙龙第 8 期

随着大模型上下文窗口长度不断增加,各个厂商对于文本生成模型呈现出“军备竞赛”的态势。目前,主流的文本生成模型是聊天模型,比如GPT、Claude 3等,也有少部分Base模型,例如Yi-34开源模型。两位技术研究人员分享了他们对于大模型的看法:用户使用最多的是GPT,但对外开放的版本性能较差,用户交互端无法传输大文件,只能通过API接口上传。月之暗面的Kimi模型大海捞针测试分数很高,但实际使用效果没有达到理想状态。百川192K的闭源模型,对于6万字的长文本,其表现的推理能力和回答效果很优秀。各种长文本的跑分数据,最高的是Claude 3模型。

周鸿祎免费课AI系列第一讲

今天的智能手机已经从苹果iPhone第一代发布到现在多少年了,到现在十五年了。实际上十五年来,虽然叫智能手机,其实手机并不智能,它是软件定义了手机,手机变成了一个电脑。但是,三星最近在展柜展出了AI手机。手机算力的芯片发展到现在已经能够支撑大模型上手机了。这两天有一个新闻,有个叫Mobile LLaMa的开源软件只有几亿参数进行了优化,已经能在手机上跑起来。对苹果来说,苹果发布了M3 CPU之后,它的M3 CPU有个特别的架构,显存跟内存是打通的,苹果的CPU架构特别适合做大模型的推理。所以,苹果All in AI的思路一定不是再跟OpenAI对标做一个类似的大模型,这可能是他的长线战略,短期内他一定会做出一个大模型的小数据量的版本,一个专业的版本,替代Siri的版本。因为Siri对苹果来说,起了大早,赶了个晚集。Siri概念很好,但技术不支持,所以Siri成为了不是人工智能的代表,在很多场合被我嘲笑成叫“人工智障”。所以,苹果公司无论怎么推实际也没推起来。当然,如果用大模型重新改造Siri,再把手机上的所有东西都控制起来,手机就真正变成了你的智能助理,你用什么东西来指挥手机,可能APP变成底层插件了。如果各位有钱,雇一个小秘书,给你订餐,帮你叫车,给你处理日程,你还需要自己操作手机吗?小秘书非常可信,尤其本地大模型,不上传到云端,苹果又号称特别重视个人数据保护和隐私,它的大模型一定是本地化的。所以,我觉得苹果及把在汽车战场上的人力抽回来All in手机我认为是非常正确的,不All in手机会进入新的智能手机2.0时代,就不再是软件定义手机,或者手机不再是电脑,而是大模型重新定义手机,或者AGI重新定义手机。

视频模型:Sora

所以这次Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。第五,Open Al训练这个模型应该会阅读大量视频。大模型加上Diffusion技术需要对这个世界进行进一步了解,学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。由锤子便签发送via Smartisan Notes

其他人在问
学习大模型的路径
学习大模型的路径主要包括以下几个步骤: 1. 收集海量数据:就像教孩子成为博学多才的人需要让其阅读大量书籍、观看纪录片、与人交谈一样,对于大模型,要收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。 2. 预处理数据:如同为孩子整理学习资料,AI 研究人员需要清理和组织收集到的数据,包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段。 3. 设计模型架构:如同为孩子设计学习计划,研究人员要设计大模型的“大脑”结构,通常是一个复杂的神经网络,例如 Transformer 架构,这种架构擅长处理序列数据如文本。 4. 训练模型:如同孩子开始阅读和学习,大模型开始“阅读”提供的数据,通过反复尝试预测句子中的下一个词,不断重复这个过程,逐渐学会理解和生成人类语言。 此外,关于大模型的底层原理,计算机科学家/工程师以大脑神经元细胞结构为灵感,在计算机上利用概览模型实现对人脑结构的模仿,不过计算机的神经元节点更为简单,本质上只是进行一些加法和乘法运算而后输出。大模型内部如同人类大脑是一个混沌系统,即使是 OpenAI 的科学家也无法解释其微观细节。
2024-11-22
现在哪几家的大模型支持通过手机视频多模态实时交流?
以下几家的大模型支持通过手机视频多模态实时交流: 1. PandaGPT:能够理解不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 2. VideoLLaMA:引入了多分支跨模式 PT 框架,使语言模型能够在与人类对话的同时处理给定视频的视觉和音频内容。 3. 视频聊天 GPT:专门为视频对话设计,能够通过集成时空视觉表示来生成有关视频的讨论。 4. NExTGPT:端到端、通用的 anytoany 多模态语言模型,支持图像、视频、音频、文本的自由输入输出。
2024-11-22
sairi是不是使用大模型技术
Sora 是使用大模型技术的。周鸿祎认为 Open AI 训练这个模型会阅读大量视频,大模型加上 Diffusion 技术需要对世界进一步了解,学习样本以视频和摄像头捕捉到的画面为主。Sora 在训练数据上采用在原始尺寸上进行训练的策略,避免了传统 AI 对人为抽象的依赖。此外,Sora 还采用了一些数据预处理技术,如将视觉图块压缩成低维潜在表示,并将其排列成序列,注入噪声后输入扩散变换器的输入层,同时采用时空分块化来降低后续对时间信息建模的复杂性。这种对原始视频和图像特征的细腻处理标志着生成模型领域的重大进步。
2024-11-21
模型微调怎么解决多轮对话容易受到上轮对话的影响问题
在解决模型微调中多轮对话容易受到上轮对话影响的问题时: 对于多轮对话,现实中常伴随指代问题,如使用“它”“他们”“我们”等代词。若仅依据原始提问检索知识片段,可能导致结果不精确或无法检索到信息。同时,对模型回复内容的限制可能影响多轮对话流畅性甚至中断。 为提升对话系统性能和用户体验,需开发提示词解决多轮对话中的指代消解问题,确保模型能在连续交流中提供准确连贯回答。但由于“指代消解”需多轮对话完成,单次交互无法达成,所以要转换测试形式,先解决“指代消解”问题再进行下一轮答复。 首先准备指代消解所需提示词,这里使用的“指代消解”提示词是用 CoT 写出的思维链,列举不同推理情景,让模型适应并推理出需消解的代词,再根据结果重新组织问题。 接着复现指代消解步骤,如进行第一轮对话,提出问题“尼罗河是什么?”,系统召回相关知识片段并回复,然后开始指代消解。 另外,聊天模型通过一串聊天对话输入并返回生成消息输出。聊天格式虽为多轮对话设计,但对单轮任务也有用。会话通过 messages 参数输入,包含不同角色和内容的消息对象数组。通常会话先有系统消息设定助手行为,再交替使用用户和助手消息。当指令涉及之前消息时,包含聊天历史记录有帮助,若超出模型限制需缩减会话。
2024-11-21
企业做自己的小模型,需要用到的工具及工具背后的公司都有哪些?
企业做自己的小模型,可能会用到以下工具及背后的公司: 1. 在编排(Orchestration)方面,涉及的公司如 DUST、FIAVIE、LangChain 等,其提供的工具可帮助管理和协调各部分及任务,确保系统流畅运行。 2. 部署、可扩展性和预训练(Deployment, Scalability, & PreTraining)类别中,像 UWA mosaicm、NMAREL、anyscale 等公司提供的工具,有助于部署模型、保证可扩展性及进行预训练。 3. 处理上下文和嵌入(Context & Embeddings)的工具,相关公司有 TRUDO、Llamalndex、BerriAI 等,能帮助模型处理和理解语言上下文,并将词语和句子转化为计算机可理解的形式。 4. 质量保证和可观察性(QA & Observability)方面,例如 Pinecone、drant、Vald 等公司提供的工具,可确保模型表现并监控其性能和状态。 此外,还有以下工具和相关公司: 1. 图片生成 3D 建模工具,如 Tripo AI(由 VAST 发布)、Meshy、CSM AI(Common Sense Machines)、Sudo AI、VoxCraft(由生数科技推出)等。 企业还可能涉及具身智能、3D 眼镜、AI 绘本、AI 图书、学习机、飞书的多维表格、蚂蚁的智能体、Coze 的智能体、Zeabur 等云平台、0 编码平台、大模型(通义、智谱、kimi、deepseek 等)、编程辅助、文生图(可灵、即梦等)等方面,可能需要相应资质。
2024-11-20
你认为目前最好用的大模型有哪些?
目前最好用的大模型包括: 1. OpenAI 的 GPT4:是最先进和广泛使用的大型语言模型之一,在多种任务上表现卓越,如文本生成、理解、翻译及各种专业和创意写作任务,能通过大量数据学习理解和生成人类语言,处理复杂问题和理解上下文能力出色。 2. Anthropic 公司的 Claude 3。 3. 谷歌的 Gemini。 4. 百度的文心一言。 5. 阿里巴巴的通义大模型。 大型模型主要分为两类: 1. 大型语言模型:专注于处理和生成文本信息。 2. 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息。 大型多模态模型与大型语言模型的不同点: 1. 处理的信息类型不同:大型语言模型专注于文本,大型多模态模型能处理多种类型信息。 2. 应用场景不同:大型语言模型主要用于自然语言处理任务,大型多模态模型应用领域更广泛。 3. 数据需求不同:大型语言模型依赖大量文本数据训练,大型多模态模型需要多种类型数据训练。 此外,如果想了解国内的大模型效果,可以参考第三方基准评测报告: 。需注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-19
普通人是不是不能獲取到CHATGPT
普通人是可以获取到 ChatGPT 的。ChatGPT 自发布以来引起了轰动,任何人只需输入提示信息,就能利用其似乎无穷无尽的知识源进行交流。 在 OpenAI 内部,对于是否发布这样强大的工具曾有争论,但最终支持发布,旨在让公众适应 AI 改变日常生活的现实。 ChatGPT 能够生成回答是基于对大量文本的学习和概率估计。通过处理单词和单词序列的概率,不断改进生成的内容。 与过去的聊天机器人不同,大型语言模型改变了局面,使得像 ChatGPT 这样的产品能够进行自由流畅的对话,听起来和人类难以区分,成为最快达到 1 亿用户规模的消费产品。它具有娱乐性,始终可用且能讨论任何话题,使得人工智能伴侣成为生成式人工智能在日常消费者中的首批杀手级应用之一。
2024-10-10
AI 智能体是不是泡沫?
AI 智能体不是泡沫。当前随着 ChatGPT 与 AI 概念的爆火,出现了诸如“智能体 Agent”、bot 和 GPTs 等新名词。简单理解,智能体就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。AI 大模型是技术,面向用户提供服务的是产品,因此很多公司关注到了 AI 应用层的产品机会。 在 C 端,有社交方向的案例,比如用户注册后先捏一个自己的 Agent,让其与他人的 Agent 聊天,聊到一起后真人再介入。在 B 端,存在帮助商家搭建 Agent 的机会。同时,字节推出了用于开发下一代 AI 聊天机器人的构建平台 Coze 的国内版“扣子”。 虽然当前智能体存在容易跑偏目标、重复作业等问题,但可以通过将 AI 与人组合交互工作来解决,即 AI 做任务完成和功能实现,人提出目标和作决策。
2024-09-19
人类不需要活着了,AI是不是更完美的存在?
AI 并非是比人类更完美的存在。从某些观点来看,假设人按照最大化某个“快乐函数”行动,将各种情感和兴趣纳入考虑,AI 可以做到类似人类甚至超越人类。例如在面对“短期快乐”与“长期快乐”的取舍时,AI 能通过硬件算力和强化学习算法实现更优选择,像 AlphaGo 击败世界冠军那样在复杂任务上超越人类,建立更高效理想的社会。 然而,也有观点认为,在计算机能解决至少一个基本问题之前,不能称之为 AGI,因为人类已经部分解决了很多基本问题。而且,从宇宙尺度看,地球上意识的进化存在时间窗口限制。 同时,目前而言,AI 不是为替代工种而出现,是为辅助人类更高效完成目标。虽然 AIGC 进步迅速,能让不懂音乐创作的人快速创作出一定水平的歌曲,让小团队短期内完成以往需长时间的工作,但真正的好作品不能只看结果,也要看过程,各行顶峰仍需要真正的人,这是目前 AIGC 无法做到的。
2024-08-26
我做了一个视频,背景是实拍的城市照片,角色是一个卡通角色,通过即梦让照片上的卡通角色动起来后,发现卡通角色的脸跟手臂动作都糊了。 我现在有什么办法优化,对卡通角色五官重绘更清晰的情况下,还保留现实的照片背景。(用sd重绘的话是不是就丢失了)
以下是一些可能有助于您优化视频的建议: 1. 对于您提到的卡通角色动作模糊的问题,可以尝试使用 Dreamina 工具,并将运动速度设为慢速,同时在 Prompt 里写轻微的动作描述,可能会有不错的效果。 2. 由于 Dreamina 工具存在只有 8 帧和 720P 的限制,您可以使用 Topaz Video AI 将其增强到 24 帧和 4K。在 B 站搜索“Topaz Video AI 4.2.1”关键词能找到相关教程。增强完成后,再放到剪映里裁成 21:9 的比例。 3. 对于卡通角色五官不清晰的情况,如果 AI 工具无法处理,可能需要使用传统的 AE 软件自己制作,比如普通的下沉位移动画。 需要注意的是,在某些情况下,如人物在水中下沉时,AI 视频可能会出现脸糊的情况,这种情况可能需要传统手段来解决。
2024-08-25
现在咱们的讯飞星火是不是有考试的
根据搜索结果,目前没有明确提到讯飞星火提供专门的认证课程 。讯飞星火大模型主要强调的是其多功能性,包括多模态理解、视觉问答、多模态生成、虚拟人视频生成等能力,以及个人空间的智能管理、总结分析和再创作等功能 。 讯飞星火大模型的开发者服务体系已经全面升级,为开发者提供了包括技术专家1V1在线支持、线上线下开发者赋能行等资源,以帮助开发者更好地利用讯飞星火大模型进行开发和应用 。此外,讯飞星火API能力正式免费开放,Lite版本推出永久免费,Pro与Max版本大幅降价,降低了大模型接入的成本 。 对于教育领域,讯飞提供了FiF智慧教学平台,其中包括了讯飞AI考试(在线)和讯飞AI考试(纸笔)等产品,这些产品服务于教学、学习和考试等不同场景 。然而,具体到认证课程,搜索结果中并未提供详细信息。如果需要了解更多关于认证课程的信息,建议直接访问科大讯飞的官方网站或联系他们的客服获取最新和最准确的信息。
2024-07-12
leap提示词技术
以下是关于 leap 提示词技术的相关内容: 在工作中,将两个观察联系起来,对 PROMPT ENGINEERING A PROMPT ENGINEER 进行研究,构建元提示指导 LLM 更有效地进行提示词工程。引入元提示组件,如逐步推理模板和上下文规范,从常见优化概念中汲取灵感并引入口头化对应物。在两个数学推理数据集上测试并确定最佳性能组合 PE2,其在 MultiArith 和 GSM8K 数据集上取得了强大的实证性能,在多种设置中超过自动提示词工程基准,在反事实任务上最为有效,在优化生产中使用的冗长、真实世界提示词方面也证明了适用性。 实验中将方法与普通人类提示词、ChainofThought,并介绍了实施细节。 随着 LLM 和生成式 AI 的发展,提示词设计和工程将更关键,讨论了基础和尖端方法,如检索增强生成(RAG),自动提示词工程(APE)这样的创新未来可能成为标准实践。
2024-11-22
ai诈骗防范措施和技术手段
以下是关于 AI 诈骗防范的一些措施和技术手段: 1. 政府层面: 拜登签署的 AI 行政命令要求,开发最强大 AI 系统的开发者需向美国政府分享安全测试结果和其他关键信息。对于可能对国家安全、经济安全或公共卫生和安全构成严重风险的基础模型,开发公司在训练模型时必须通知联邦政府,并分享所有红队安全测试的结果。 商务部将制定内容认证和水印的指导方针,以清晰标记 AI 生成的内容,联邦机构将使用这些工具,为公众识别官方内容提供便利,并为私营部门和全球各国政府树立榜样。 2. 技术层面: 国家技术标准研究所将制定严格的标准进行广泛的红队测试,以确保在公开发布前的安全性。 国土安全部将把这些标准应用于关键基础设施部门,并建立 AI 安全和安保委员会。能源部和国土安全部也将处理 AI 系统对关键基础设施以及化学、生物、放射性、核和网络安全风险的威胁。 3. 企业层面: 360 立志解决大模型的安全问题,将大模型的安全问题分为三类进行研究。 在个人层面,要提高对 AI 诈骗的警惕性,不轻易相信来源不明的信息,学会识别可能的 AI 生成的虚假内容。
2024-11-21
Ai诈骗的技术分析
AI 诈骗通常利用了以下技术手段: 1. 利用 AI 生成的虚假内容:AI 模型可能生成不存在的人物、地点、事件,或者对已知事实进行错误的描述,从而制造虚假信息来误导用户。 2. 模仿真实信息:通过对训练数据中统计模式的过度依赖,生成看似真实但实际与现实不符的内容,以假乱真。 3. 针对用户认知偏差:如同人类认知偏差中的确认偏误、可得性偏差、锚定效应等,AI 诈骗内容可能会迎合这些偏差,让用户更容易接受和相信虚假信息。 产生的原因包括: 1. 训练数据问题:如果训练数据存在偏差、错误或不全面,模型会学习到这些问题并反映在生成的内容中。 2. 模型结构和训练策略:不合理的模型结构和训练策略可能导致模型无法准确理解和生成真实有效的信息。 其影响主要有: 1. 误导用户做出错误决策,例如在投资、消费等方面。 2. 传播虚假信息,破坏信息的真实性和可靠性。 3. 在一些关键领域如医疗诊断中,可能引发安全事故,延误患者治疗。 为了防范 AI 诈骗,需要建立相关的标准和最佳实践来检测 AI 生成的内容,并对官方内容进行认证和标记,例如商务部可以开发内容认证和水印的指导方针,联邦机构可以利用这些工具让公众更容易识别真实的官方通信。
2024-11-20
人工智能诈骗技术
以下是关于人工智能诈骗技术的相关内容: 欧洲议会和欧盟理事会规定,某些人工智能系统采用潜意识成分或其他操纵欺骗技术,以人们无法意识到的方式颠覆或损害人的自主、决策或自由选择,可能造成重大伤害,特别是对身体、心理健康或经济利益产生不利影响,此类系统应被禁止。例如脑机界面或虚拟现实可能促进这种情况发生。同时,若人工智能系统利用个人或特定群体的特殊状况实质性扭曲个人行为并造成重大危害也应被禁止。若扭曲行为由系统之外且不在提供者或部署者控制范围内的因素造成,则可能无法推定有扭曲行为的意图。 拜登签署的 AI 行政命令要求最强大的人工智能系统开发者与美国政府分享安全测试结果等关键信息。依照《国防生产法》,开发对国家安全、经济安全或公共卫生和安全构成严重风险的基础模型的公司,在训练模型时必须通知联邦政府,并分享所有红队安全测试的结果。商务部将为内容认证和水印制定指导方针,以明确标记人工智能生成的内容,联邦机构将使用这些工具让美国人容易知晓从政府收到的通信是真实的,并为私营部门和世界各国政府树立榜样。 关于人工智能相关危害的可争议性或补救途径的评估中,提到了一系列高水平风险,如人工智能生成和传播的虚假信息可能破坏获取可靠信息的途径以及对民主机构和进程的信任。人工智能工具可被用于自动化、加速和放大有针对性的网络攻击,增加恶意行为者的威胁严重性。
2024-11-20
如何通过技术手段提高非盐生植物的耐盐性
目前知识库中暂时没有关于如何通过技术手段提高非盐生植物耐盐性的相关内容。但一般来说,可以从以下几个方面考虑: 1. 基因工程:通过基因编辑或转基因技术,导入与耐盐相关的基因,增强植物的耐盐能力。 2. 选育优良品种:通过传统的育种方法,筛选和培育具有较高耐盐性的植物品种。 3. 土壤改良:改善土壤的物理、化学和生物性质,降低土壤盐分对植物的危害。 4. 合理灌溉:采用科学的灌溉方式和量,避免盐分在土壤中的过度积累。 5. 施加调节剂:使用植物生长调节剂,调节植物的生理代谢,提高其耐盐性。 需要注意的是,具体的技术手段需要根据植物的种类、生长环境等因素进行综合考虑和选择。
2024-11-18