Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

siri是不是使用大模型技术

Answer

Siri 目前并非使用大模型技术。苹果公司的 Siri 概念虽好,但由于技术限制,其表现未达到人工智能的水平,常被称为“人工智障”。不过,随着技术发展,未来可能会用大模型重新改造 Siri,将手机上的所有功能控制起来,使其成为真正的智能助理。例如,苹果公司在手机算力的芯片发展到能够支撑大模型上手机的情况下,可能会推出大模型的小数据量、专业的版本来替代 Siri。同时,苹果公司若 All in 手机,其大模型可能会是本地化的,以重视个人数据保护和隐私。

Content generated by AI large model, please carefully verify (powered by aily)

References

质朴发言:大模型未来发展:RAG vs 长文本,谁更胜一筹?|Z 沙龙第 8 期

随着大模型上下文窗口长度不断增加,各个厂商对于文本生成模型呈现出“军备竞赛”的态势。目前,主流的文本生成模型是聊天模型,比如GPT、Claude 3等,也有少部分Base模型,例如Yi-34开源模型。两位技术研究人员分享了他们对于大模型的看法:用户使用最多的是GPT,但对外开放的版本性能较差,用户交互端无法传输大文件,只能通过API接口上传。月之暗面的Kimi模型大海捞针测试分数很高,但实际使用效果没有达到理想状态。百川192K的闭源模型,对于6万字的长文本,其表现的推理能力和回答效果很优秀。各种长文本的跑分数据,最高的是Claude 3模型。

周鸿祎免费课AI系列第一讲

今天的智能手机已经从苹果iPhone第一代发布到现在多少年了,到现在十五年了。实际上十五年来,虽然叫智能手机,其实手机并不智能,它是软件定义了手机,手机变成了一个电脑。但是,三星最近在展柜展出了AI手机。手机算力的芯片发展到现在已经能够支撑大模型上手机了。这两天有一个新闻,有个叫Mobile LLaMa的开源软件只有几亿参数进行了优化,已经能在手机上跑起来。对苹果来说,苹果发布了M3 CPU之后,它的M3 CPU有个特别的架构,显存跟内存是打通的,苹果的CPU架构特别适合做大模型的推理。所以,苹果All in AI的思路一定不是再跟OpenAI对标做一个类似的大模型,这可能是他的长线战略,短期内他一定会做出一个大模型的小数据量的版本,一个专业的版本,替代Siri的版本。因为Siri对苹果来说,起了大早,赶了个晚集。Siri概念很好,但技术不支持,所以Siri成为了不是人工智能的代表,在很多场合被我嘲笑成叫“人工智障”。所以,苹果公司无论怎么推实际也没推起来。当然,如果用大模型重新改造Siri,再把手机上的所有东西都控制起来,手机就真正变成了你的智能助理,你用什么东西来指挥手机,可能APP变成底层插件了。如果各位有钱,雇一个小秘书,给你订餐,帮你叫车,给你处理日程,你还需要自己操作手机吗?小秘书非常可信,尤其本地大模型,不上传到云端,苹果又号称特别重视个人数据保护和隐私,它的大模型一定是本地化的。所以,我觉得苹果及把在汽车战场上的人力抽回来All in手机我认为是非常正确的,不All in手机会进入新的智能手机2.0时代,就不再是软件定义手机,或者手机不再是电脑,而是大模型重新定义手机,或者AGI重新定义手机。

视频模型:Sora

所以这次Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。第五,Open Al训练这个模型应该会阅读大量视频。大模型加上Diffusion技术需要对这个世界进行进一步了解,学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。由锤子便签发送via Smartisan Notes

Others are asking
什么是大模型
大模型通俗来讲,是输入大量语料,让计算机获得类似人类的“思考”能力,从而能够理解自然语言,并进行文本生成、推理问答、对话、文档摘要等工作。 可以用“上学参加工作”这件事来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:即用合适的算法讲述“书本”中的内容,让大模型更好理解 Token 之间的关系。 4. 就业指导:学完知识后,为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,就要正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。 在大模型中,Token 被视为模型处理和生成的文本单位,会被分割并生成词汇表,数字化便于计算机处理。为让计算机理解 Token 之间的联系,还需把 Token 表示成稠密矩阵向量,这个过程称为 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。以 Transform 为代表的大模型采用自注意力(Selfattention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。 大模型的“大”指用于表达 token 之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如 GPT3 拥有 1750 亿参数。 所谓的大模型,简而言之,就是拥有庞大参数数量的模型,通过处理和理解海量数据,能够胜任一系列复杂任务。大模型强大的原因在于庞大的参数数量和大量的数据训练。这些参数帮助模型更深入地理解和生成数据,而大量的数据让模型掌握丰富的知识和技能。
2025-01-06
什么是多模态模型
多模态模型是指能够处理和融合多种不同模态信息的模型,例如视觉和语言双模态。以下为您介绍一些相关的多模态模型: CogAgent18B:这是基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能基础上具备 GUI 图像的 Agent 能力。代码链接:。 CogVLM17B:强大的开源视觉语言模型(VLM),基于对视觉和语言信息之间融合的理解,能在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合,是目前多模态权威学术榜单上综合成绩第一的模型,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于。 RDM(Relay Diffusion Model):级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。代码链接:。 Gemini 模型本身也是多模态的,其展示了无缝结合跨模态能力的独特能力,例如从表格、图表或图形中提取信息和空间布局,以及语言模型的强大推理能力,在识别输入中的细微细节、在空间和时间上聚合上下文,以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态(图像、视频和音频)上的更详细评估,以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。
2025-01-06
通过 API 调用大模型
以下是通过 API 调用大模型的相关步骤: 1. 创建大模型问答应用: 进入百炼控制台的,在页面右侧点击新增应用。在对话框,选择智能体应用并创建。 在应用设置页面,模型选择通义千问Plus,其他参数保持默认。您也可以选择输入一些 Prompt,比如设置一些人设以引导大模型更好的应对客户咨询。 在页面右侧可以提问验证模型效果。不过您会发现,目前它还无法准确回答你们公司的商品信息。点击右上角的发布。 2. 获取调用 API 所需的凭证: 在我的应用>应用列表中可以查看所有百炼应用 ID。保存应用 ID 到本地用于后续配置。 在顶部导航栏右侧,点击人型图标,点击 APIKEY 进入我的 APIKEY 页面。在页面右侧,点击创建我的 APIKEY,在弹出窗口中创建一个新 APIKEY。保存 APIKEY 到本地用于后续配置。 3. 直接调用大模型(之前完成过 coze 对接的同学,直接去二、百炼应用的调用): 百炼首页:https://bailian.console.aliyun.com/ 当在 COW 中直接调用千问的某一个大模型时,只需要更改 key 和 model 即可。以调用“qwenmax”模型为例,在/root/chatgptonwechat/文件夹下,打开 config.json 文件,需要更改"model",和添加"dashscope_api_key"。 获取 key 的视频教程: 图文教程:以下是参考配置。 注意:需要“实名认证”后,这些 key 才可以正常使用,如果对话出现“Access to mode denied.Please make sure you are eligible for using the model.”的报错,那说明您没有实名认证,点击去,或查看自己是否已认证。 4. 申请大模型的 API 接口(以 silicon 硅基接口为例): 官方提供的接入 API 的教学文档。 以平时使用的 silicon 接口为例,有众多开源模型(Yi、Qwen、Llama、Gemma 等)免费使用。另赠送 14 元体验金,有效期未知,是个人认为 API 接口最方便最实惠的接口了。 silicon 注册和使用地址: 邀请码:ESTKPm3J(谢谢支持) 注册登录后,单击左边栏的 API 密钥,单击新建 API 密钥。 单击密钥即可完成 API 密钥的复制。 silicon 支持多种大模型,也支持文生图、图生图、文生视频,可自行探索。 这一步得到 silicon 的密钥即可,我们可以调用千问 2.5 的这个模型,满足日常对话完全没有问题,并且是免费调用的。 5. 申请大模型的 API 接口(以智普 GLM4 接口为例): 正在 BigModel.cn 上用智谱 API 打造新一代应用服务,通过专属邀请链接注册即可获得额外 GLM4Air 2000 万 Tokens 好友专属福利,期待和您一起在 BigModel 上探索 AGI 时代的应用;链接:https://www.bigmodel.cn/invite?icode=xxcbnybpRLOsZGMNOkqaLnHEaazDlIZGj9HxftzTbt4%3D 进入个人中心,先完成实名认证,再单击左边栏 API KEYS 或右上角的 API 密钥,进入后单击右上角的添加 API。 鼠标移至密钥上方,单击复制即可得到智普的 APIkey。 这一步做的是注册 silicon 和智普 GLM 的大模型账号,申请 API 密钥,保存密钥,等下配置需要填写。 密钥一定要保管好不能公开,否则后果很严重。
2025-01-06
模型的部署、容器化
以下是关于模型的部署和容器化的相关信息: ComfyUI ollama 本地大模型部署: 1. 先下载 ollama 安装,安装完成后不会有任何界面弹出,可以在电脑桌面右下角或者隐藏图标里面找到。 2. 之后再去下载对应的模型,选择模型,复制对应的命令。 3. 打开命令行界面,输入对应的模型获取命令,等待下载完成。 4. 下载的模型会保存到 D:\\ollama\\blobs 目录。 5. Docker 安装时会下载一些文件,安装后改下目录,不要放在 C 盘。 6. Open webui 安装,输入相关命令,安装成功后,回到 docker,点击会自动打开网页,第一次使用需注册账号,选择下载好的模型即可开始使用。 7. 若出现端口占用问题,运行特定两条命令可以解决。 8. 相关链接: comfyuiollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ docker:https://www.docker.com/ Open webui:https://openwebui.com/ 模型部署: 1. 选择学习路径: 快速上手 使用 Anaconda: 第 0 步:确保安装了 Python 3.10 以上版本。 第 1 步:准备环境,如需设置环境,安装所需要的软件包,运行特定命令。 第 2 步:从以下来源下载 Atom7BChat 模型:。 第 3 步:进行推理,创建一个名为 quick_start.py 的文件,并将相关内容复制到该文件中,运行 quick_start.py 代码。 快速上手 使用 Docker:详情参见:,包括准备 docker 镜像,通过 docker 容器启动,通过 dockercompose 启动 chat_gradio。 快速上手 使用 llama.cpp:详情参见: 快速上手 使用 gradio:基于 gradio 搭建的问答界面,实现了流式的输出,将特定代码复制到控制台运行,不同模型只需修改 model_name_or_path 对应的模型名称。 ComfyUI FLUX 模型的安装部署: 1. 模型:FLUX.1、FLUX.1,建议选择 dev 版本的,显卡可以的用 fp16,显卡不够用的选 fp8。模型下载后,放入 ComfyUI/models/unet/文件夹中。若爆显存,“UNET 加载器”节点中的 weight_dtype 可设置为 fp8,降低显存使用量,但可能稍降质量。 2. clip:t5xxl_fp16.safetensors 和 clip_l.safetensors,放在 ComfyUI/models/clip/文件夹里面。可以使用 t5xxl_fp8_e4m3fn.safetensors 来降低内存使用率,若有超过 32GB 内存,建议使用 fp16。相关链接:https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main 3. Vae:下载后放入 ComfyUI/models/vae 文件夹。 4. T5(/t5xxl_fp16.safetensors)的这个 clip,原本有一个输入输出,可能会导致提示词被吞,短提示效果差,训练 flux 或者 sd3 时,应尽量用长提示词或自然语言。
2025-01-06
开源模型与闭源模型调用
开源模型与闭源模型调用相关信息如下: 通义千问自 2023 年 8 月起密集推出 Qwen、Qwen1.5、Qwen2 三代开源模型,Qwen 系列的 72B、110B 模型多次登顶 HuggingFace 的 Open LLM Leaderboard 开源模型榜单。Qwen2 系列已上线魔搭社区 ModelScope 和阿里云百炼平台,开发者可在魔搭社区体验、下载模型,或通过阿里云百炼平台调用模型 API。同时,Qwen272binstruct 模型已上线中国大语言模型评测竞技场 Compass Arena,所有人都可登录体验其性能或进行对比测评,测评地址为:https://opencompass.org.cn/arena 。Compass Arena 是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台,集齐了国内主流的 20 多款大模型。 部分声称性能卓越的中国大模型被揭露为“套壳”产品,如李开复创办的“零一万物”被国外开发者质疑为“套壳”产品,其团队承认在训练过程中沿用了开源架构。此外,字节跳动被曝出在其秘密研发的大模型项目中调用了 OpenAI 的 API,并使用 ChatGPT 的输出数据来训练自己的模型。 在 LLM 应用程序中,开发者通常使用 OpenAI API 启动新的 LLM 应用,如 gpt4 或 gpt432k 模型。当项目投入生产并规模化时,常见的选择包括切换到更便宜且速度更快的 gpt3.5turbo,与其他专有供应商(如 Anthropic 的 Claude 模型)进行实验,将一些请求分流到开源模型等。开源模型有多种推理选项,包括 Hugging Face 和 Replicate 的简单 API 接口、主要云提供商的原始计算资源等。
2025-01-06
RAG,Agent 与小模型
以下是关于 RAG、Agent 与小模型的相关知识: Agent: Agent 是大模型的一个热门概念,被认为是大模型未来的主要发展方向之一。 其本质是在大模型(如 LLM)基础上增加工具、记忆、行动、规划这四个能力。 目前行业里主要用到的是 langchain 框架,它把 LLM 和 LLM 之间以及 LLM 和工具之间通过代码或 prompt 的形式进行串接。 例如,长期记忆相当于给大模型一个数据库工具让其记录重要信息,规划和行动则是在大模型的 prompt 层做逻辑设计,如将目标拆解并输出不同的固定格式 action 指令给工具。 RAG: 向量相似性检索,可以放在 system prompt 里或通过 tools 触发检索。 当大模型应用于实际业务场景时,会存在知识局限性、幻觉问题、数据安全性等问题,RAG 是解决这些问题的有效方案。 它能让大模型从权威、预先确定的知识来源中检索和组织相关信息,更好地控制生成的文本输出,用户也能了解 LLM 生成最终结果的过程。 RAG 可与微调结合使用,RAG 类似于为模型提供教科书,适用于回答特定询问或解决特定信息检索任务,不适合教模型理解广泛领域或学习新的语言、格式或样式。 小模型:文中未提及小模型的相关具体内容。
2025-01-06
人工智能未来是不是一个赚钱的风口?
人工智能未来很可能是一个赚钱的风口。以下是一些原因: 深度学习被证明有效,随着规模扩大预期会改善,人们持续增加相关资源投入。未来,人工智能模型将作为自主的个人助理执行特定任务,帮助人们协调医疗护理等,在各个领域取得科学进展。 数字化正在重塑生活,从依赖物理资源的稀缺经济转向以数字资源为基础的富足经济。AI 的发展使这种趋势进一步加强,进入更加富足的时代。 科技公司将有机会以前所未有的规模和盈利模式向全球提供即插即用的劳动力和智能解决方案,降低生产和运营成本。 预计 2024 年会有团队花费超过 10 亿美元来训练单个大型模型,生成式 AI 的热潮不会消退。 然而,也存在一些挑战: 如果不能建立足够的基础设施,人工智能可能成为有限资源,导致战争,并主要成为富人的工具。 政府和大型科技公司将继续承受计算需求的压力,逼近电网极限。 AI 介入选举等方面存在伦理挑战。 总之,人工智能领域充满机遇和挑战,是一个充满惊喜、伦理挑战和很多真金白银的奇妙世界。
2024-12-31
ChatGPT与Sora 是不是只有苹果手机或苹果电脑才能注册与登入?
ChatGPT 注册与登录: 苹果系统: 中国区正常无法在 AppleStore 下载 ChatGPT,需切换到美区。美区 AppleID 注册教程可参考知乎链接:https://zhuanlan.zhihu.com/p/696727277 。 最终在 AppleStore 搜到 ChatGPT 下载安装,注意别下错。 打开支付宝,地区切换到美区任意区,购买【App Store&iTunes US】礼品卡,按需要金额购买(建议先买 20 刀),然后在 apple store 中兑换礼品卡,在 chatgpt 中购买订阅 gpt plus,中途不想继续订阅可到订阅列表中取消。 会员不管在苹果还是安卓手机上购买的,电脑上都能登录。 注册美区 ID 详细步骤: 1. 电脑上打开 Apple ID 的注册页面:https://appleid.apple.com/ac 。 2. 填写验证码后点继续。 3. 到谷歌邮箱接收邮箱验证码。 4. 接着验证手机号码。 5. 验证完后会出现页面,此时美区 ID 已注册但未激活,切换到手机操作。 6. 打开 App Store,点击右上角人形头像。 7. 拉到最底下,点击退出登录,先退出国内的 ID。 8. 之后再点击右上角人形头像。 9. 手动输入美区 ID,会收到短信进行双重验证。 10. 之后完成美区的 ID 登录。 11. 随便找个软件下载,会弹出提示,点击“检查”进行激活。 12. 点击同意,进入下一页填写美国地址。 13. 若付款方式中没有“无”或“none”选项,输入街道地址和电话。 14. 至此,通过中国 IP、中国手机号、免信用卡成功注册一个美区 ID,可用于下载例如小火箭、ChatGPT、Discord、X、TikTok 等软件。 关于 Sora 的注册与登录相关信息未提及。
2024-12-16
sairi是不是使用大模型技术
Sora 是使用大模型技术的。周鸿祎认为 Open AI 训练这个模型会阅读大量视频,大模型加上 Diffusion 技术需要对世界进一步了解,学习样本以视频和摄像头捕捉到的画面为主。Sora 在训练数据上采用在原始尺寸上进行训练的策略,避免了传统 AI 对人为抽象的依赖。此外,Sora 还采用了一些数据预处理技术,如将视觉图块压缩成低维潜在表示,并将其排列成序列,注入噪声后输入扩散变换器的输入层,同时采用时空分块化来降低后续对时间信息建模的复杂性。这种对原始视频和图像特征的细腻处理标志着生成模型领域的重大进步。
2024-11-21
普通人是不是不能獲取到CHATGPT
普通人是可以获取到 ChatGPT 的。ChatGPT 自发布以来引起了轰动,任何人只需输入提示信息,就能利用其似乎无穷无尽的知识源进行交流。 在 OpenAI 内部,对于是否发布这样强大的工具曾有争论,但最终支持发布,旨在让公众适应 AI 改变日常生活的现实。 ChatGPT 能够生成回答是基于对大量文本的学习和概率估计。通过处理单词和单词序列的概率,不断改进生成的内容。 与过去的聊天机器人不同,大型语言模型改变了局面,使得像 ChatGPT 这样的产品能够进行自由流畅的对话,听起来和人类难以区分,成为最快达到 1 亿用户规模的消费产品。它具有娱乐性,始终可用且能讨论任何话题,使得人工智能伴侣成为生成式人工智能在日常消费者中的首批杀手级应用之一。
2024-10-10
AI 智能体是不是泡沫?
AI 智能体不是泡沫。当前随着 ChatGPT 与 AI 概念的爆火,出现了诸如“智能体 Agent”、bot 和 GPTs 等新名词。简单理解,智能体就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。AI 大模型是技术,面向用户提供服务的是产品,因此很多公司关注到了 AI 应用层的产品机会。 在 C 端,有社交方向的案例,比如用户注册后先捏一个自己的 Agent,让其与他人的 Agent 聊天,聊到一起后真人再介入。在 B 端,存在帮助商家搭建 Agent 的机会。同时,字节推出了用于开发下一代 AI 聊天机器人的构建平台 Coze 的国内版“扣子”。 虽然当前智能体存在容易跑偏目标、重复作业等问题,但可以通过将 AI 与人组合交互工作来解决,即 AI 做任务完成和功能实现,人提出目标和作决策。
2024-09-19
人类不需要活着了,AI是不是更完美的存在?
AI 并非是比人类更完美的存在。从某些观点来看,假设人按照最大化某个“快乐函数”行动,将各种情感和兴趣纳入考虑,AI 可以做到类似人类甚至超越人类。例如在面对“短期快乐”与“长期快乐”的取舍时,AI 能通过硬件算力和强化学习算法实现更优选择,像 AlphaGo 击败世界冠军那样在复杂任务上超越人类,建立更高效理想的社会。 然而,也有观点认为,在计算机能解决至少一个基本问题之前,不能称之为 AGI,因为人类已经部分解决了很多基本问题。而且,从宇宙尺度看,地球上意识的进化存在时间窗口限制。 同时,目前而言,AI 不是为替代工种而出现,是为辅助人类更高效完成目标。虽然 AIGC 进步迅速,能让不懂音乐创作的人快速创作出一定水平的歌曲,让小团队短期内完成以往需长时间的工作,但真正的好作品不能只看结果,也要看过程,各行顶峰仍需要真正的人,这是目前 AIGC 无法做到的。
2024-08-26
提示词工程技术
提示词工程师(Prompt Engineer)是在与人工智能模型交互时,负责设计和优化提示的专业人员。他们的目标是通过精心构造的提示,引导模型产生准确、有用和相关的回答。 提示词工程师的主要职责包括: 1. 设计提示:根据用户需求和模型能力设计有效的提示,考虑提示的长度、结构、措辞和信息量等因素,以清晰传达用户意图并引导模型生成满意结果。 2. 优化提示:通过收集用户反馈、分析模型结果和实验不同的提示策略等方式不断优化提示,提高模型性能。 3. 评估提示:使用各种指标如模型的准确率、流畅度和相关性等来评估提示的有效性。 提示词工程师需要具备以下技能和知识: 1. 领域知识:对所工作的领域有深入了解,以便设计出有效的提示。 2. 自然语言处理(NLP):了解 NLP 的基本原理和技术,能够理解和生成自然语言文本。 3. 人工智能(AI):了解 AI 的基本原理和技术,能够理解和使用 AI 模型。 4. 沟通能力:具备良好的沟通能力,与用户、团队成员和其他利益相关者有效沟通。 以下是一些提示词工程师工作的实际案例: 在推理任务方面,目前对于大语言模型来说具有挑战性,但通过更高级的提示词工程技术可以改进。例如在涉及数学能力的推理任务中,通过设计不同的提示词和示例来展示算术功能。 在实现让 LLM 获得 tool calling 的功能方面,采用的提示词工程主要有两部分代码组成:提示词注入和工具结果回传。提示词注入用于将工具信息以及使用工具的提示词添加到系统提示中,包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。工具结果回传则是解析 tool calling 的输出,并将工具返回的内容再次嵌入 LLM。利用正则表达式抓取输出中的“tool”和“parameters”参数,对于不同工具采用相应的处理方式。通过以上提示词工程,可以避免微调,让完全没有 tool calling 能力的 LLM 获得稳定的 tool calling 能力。 提示词工程师是一个新兴的职业,随着人工智能技术的不断发展,对提示词工程师的需求将会越来越大。
2025-01-06
RAG技术路线知识库搭建流程
RAG 技术路线知识库搭建流程主要包括以下步骤: 1. 文档加载:从多种不同来源加载文档,如 PDF 在内的非结构化数据、SQL 在内的结构化数据以及 Python、Java 之类的代码等。LangChain 提供了 100 多种不同的文档加载器。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储: 将切分好的文档块进行嵌入转换成向量的形式。 将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 在构建知识库的过程中,还涉及到文档解析环节,即将各种类型的资料(包括但不限于 Word、PDF、Excel 和图片等)转换成文字,为后续流程奠定基础。针对图片一般使用 OCR 图像识别技术,针对文档一般将其转换成 Markdown 格式。文档解析完成之后,要进行预处理。 基于 Coze 的知识库问答是典型的 RAG 方案,其重要一环是文档切片(Segment),但 RAG 方案存在一些缺点,如跨分片总结和推理能力弱、文档有序性被打破、表格解析失败等。
2025-01-06
RAG技术基本了解
RAG(Retrieval Augmented Generation,检索增强生成)是一种结合信息检索和文本生成能力的技术,主要用于处理需要广泛知识的任务,如问答系统,能够提供详细而准确的回答。 其基本流程包括以下几个步骤: 1. 文档加载:从多种不同来源加载文档,如PDF 在内的非结构化数据、SQL 在内的结构化数据以及 Python、Java 之类的代码等。 2. 文本分割:文本分割器把文档切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM(大语言模型),LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 RAG 由两部分组成:一个“检索器”和一个“生成器”。检索器从外部知识中快速找到与问题相关的信息,生成器则利用这些信息来制作精确和连贯的答案。在给定一个用户的输入(如问题或话题)时,RAG 会从数据源中检索出相关的文本片段作为上下文,然后将用户输入和检索到的上下文拼接成完整输入传递给大模型,并从大模型的输出中提取或格式化所需信息返回给用户。
2025-01-06
端到端语音技术现在进展到什么程度了
端到端语音技术目前取得了显著进展。 在语音合成方面: 语音合成将文本转换为可听的声音信息,是人机交互的重要接口,一般包括 TTS、歌唱合成等领域。 当代工业界主流语音合成系统包括文本前端和声学后端两个部分。文本前端将输入文本转换为层次化的语音学表征,声学后端基于此生成语音,主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法,当代主要采用端到端声学后端。 端到端声学后端一般包括声学模型和声码器两部分,也出现了直接从音素映射为波形的完全端到端语音合成系统。 在全模态智能体方面: OpenAI 发布的 GPT4o 是新模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,对音频输入的平均反应时间为 300 毫秒,与人类对话的反应时间相似。 直接拿音频数据来训练的好处是模型能从数据中感悟到人类表达的情绪、语调、风格等,能听到几乎真实的人类的声音。 OpenAI 未公开 GPT4o 的技术细节,唯一线索来自内部模型炼丹师的一篇博客,项目名是 AudioLM,目标是用端到端的方式扩大语音模型的能力。
2025-01-03
数字孪生的关键技术
数字孪生的关键技术包括以下方面: 利用定制软件实现工厂的数字孪生,如 Wistron 利用 Omniverse SDK 定制软件将 NVIDIA DGX 和 HGX 工厂实现数字孪生,大幅缩短调试周期。 运用生成式 AI 进行天气预测,如 CoreDev 可通过超高分辨率 AI 预测严重风暴。 构建端到端的机器人系统,让 AI 理解物理世界,需要 AI 计算机、监测分析计算机和执行任务的机器人三位一体。 提供模拟环境,如 Omniverse 提供模拟环境,教会机器人如何成为机器人。 实现软件定义的仓储、工厂,让机器人自主协同工作。 解决数字人构建中的工程关键点,如构建像人一样思考的 AI Agent、实现灵魂驱动躯壳、保证实时性、实现多元跨模态、处理拟人化场景等。
2025-01-02
文本与图像跨模态特征融合技术有哪些
文本与图像跨模态特征融合技术主要包括以下几种: 1. 图像融合方面: 像素级融合:将多个图像的像素直接进行组合。 特征级融合:对图像的特征进行融合。 决策级融合:基于不同图像的决策结果进行融合。 相关算法:小波变换、基于金字塔变换的多分辨率融合、基于区域的图像融合、基于特征的图像融合等。 2. 目标检测方面: 基于深度学习的目标检测算法:如 RCNN、Fast RCNN、Faster RCNN、YOLO、SSD 等。 基于传统计算机视觉技术的目标检测算法:如 HOG、SIFT、SURF 等。 3. 在 Stable Diffusion 中: 通过 Attention 机制将文本与图片的特征对应起来,例如两个输入先经过 Attention 机制输出新的 Latent Feature,再将新输出的 Latent Feature 与输入的 Context Embedding 做 Attention 机制。 Spatial Transformer 模块在图片对应的位置上融合语义信息,是将文本与图像结合的“万金油”模块。 CrossAttention 模块有助于在输入文本和生成图片之间建立联系,将图像和文本信息关联起来,用于将文本中的情感元素传递到生成图片中。 4. 多模态融合方法: 最初常采用预训练的目标检测器,如 ViLBERT、VisualBERT 和 UnicoderVL,通过提取图像特征和执行交叉模态预训练任务。 随着 ViT 的出现和普及,更多方法利用 ViT 作为图像编码器,强调大规模预训练,例如 Flamingo。 近期向多模态 LLMs 发展,如 LLaVA 和 MiniGPT4,通过融合视觉和语言信息,能够更有效地完成视觉理解相关的任务。
2025-01-01