Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

开源的开源的 LLM 微调推理,agent开发平台

Answer

以下是为您整理的关于开源的 LLM 微调推理、agent 开发平台的相关内容:

LLM 作为 Agent 的“大脑”的特点

  1. 知识获取能力:通过预训练学习大量语言数据,掌握丰富语言信息和常识知识,能处理多种任务。
  2. 指令理解:擅长解析人类语言指令,采用深度神经网络进行自然语言理解和生成,精准理解意图。
  3. 泛化能力:在未见过的数据上表现良好,能利用先前知识处理新挑战,形成对语言结构的通用理解。
  4. 推理和规划:能够进行逻辑推理和未来预测,分析条件制定最佳行动方案,在复杂环境中做出理性选择。
  5. 交互能力:拥有强大对话能力,在多人多轮次对话中自然流畅交流,改善用户体验。
  6. 自我改进:基于用户反馈和效果评估,通过调整参数、更新算法提升性能和准确性。
  7. 可扩展性:可根据具体需求定制化适配,针对特定领域数据微调提高处理能力和专业化水平。

相关产品和平台

  1. ComfyUI:可在其中高效使用 LLM。
  2. Vercel AI SDK 3.0:开源的工具,可将文本和图像提示转换为 React 用户界面,允许开发者创建丰富界面的聊天机器人。
  3. OLMo-7B-Instruct:Allen AI 开源的微调模型,可通过资料了解从预训练模型到 RLHF 微调模型的所有信息并复刻微调过程。
  4. Devv Agent:能提供更准确、详细的回答,底层基于 Multi-agent 架构,根据需求采用不同 Agent 和语言模型。

实例探究

  1. ChemCrow:特定领域示例,通过 13 个专家设计的工具增强 LLM,完成有机合成、药物发现和材料设计等任务。
  2. Boiko et al. (2023) 研究的 LLM 授权的科学发现 Agents:可处理复杂科学实验的自主设计、规划和执行,能使用多种工具。
Content generated by AI large model, please carefully verify (powered by aily)

References

ComfyUI & LLM:如何在ComfyUI中高效使用LLM

1.知识获取能力:LLM(例如GPT或BERT)通过预训练学习了大量的语言数据。这意味着这些模型已经掌握了大量的语言信息和常识知识。由于预训练数据涵盖了从书籍、新闻文章到互联网上的各种文本,LLM能够理解和处理多种任务。无论是日常生活的常见问题还是专业知识,LLM都能够从中汲取足够的知识基础来进行有效的处理和输出。2.指令理解:LLM擅长解析人类的语言指令。无论是简洁的命令还是复杂的句子,LLM都能够理解这些指令的真实含义,并据此作出相应的回应。它们通常采用深度神经网络进行自然语言理解和生成,从而能够精准理解用户的语言表达意图。3.泛化能力:泛化能力指的是在未见过的数据上表现良好,即使遇到未曾明确训练过的任务,LLM也可以利用先前学到的知识处理新的挑战。它们通过大量训练样本形成了对语言结构的通用理解,可以应用于各种未曾预料的情境。4.推理和规划:LLM能够进行逻辑推理和未来预测。这意味着它们可以通过分析当前条件来预测结果,或是基于现有数据来制定下一步行动的最佳方案。这种能力允许Agent在复杂动态环境中做出理性的选择并引导行动。5.交互能力:LLM拥有强大的对话能力,能够在多人多轮次对话中自然流畅地进行沟通交流。这种特性对于构建实用性强的操作界面至关重要,可以显著改善用户体验。6.自我改进:基于用户的使用反馈和实际效果评估,LLM可以通过调整参数、更新算法等方式逐渐提升自身性能和准确性,这一过程称为自我改进。随着时间推移,Agent会变得越来越“聪明”,更好地满足用户需求。7.可扩展性:可扩展性意味着LLM可以根据具体需求进行定制化适配。通过针对某一领域或某种任务的数据进行微调,LLM可以显著提高在特定领域的处理能力和专业化水平。

AIGC Weekly #61

链接:https://vercel.com/blog/ai-sdk-3-generative-uiVercel在2024年3月1日宣布开源其v0.dev生成式UI设计工具的技术,并发布了Vercel AI SDK 3.0。这个工具最初是在去年十月推出的,它可以将文本和图像提示转换为React用户界面(UI),简化了设计工程流程。AI SDK 3.0允许开发者创建超越纯文本和Markdown的聊天机器人,提供基于组件的丰富界面。[heading2]OLMo-7B-Instruct:完整的开源LLM[content]链接:https://allenai.org/olmoAllen AI开源了微调模型OLMo-7B-Instruct,真正意义上的开源。你可以通过他们给出的资料了解从预训练模型到RLHF微调模型的所有信息。自己复刻一遍微调过程。发布的内容包括:完整的预训练数据:该模型是基于AI2的Dolma数据集构建的,该数据集包括了用于语言模型预训练的三万亿标记的开放语料库,包括生成训练数据的代码。训练代码和模型权重:OLMo框架包括四种7B规模模型变体的完整模型权重,每个模型至少训练了2T个标记。推理代码、训练指标和训练日志都已提供。评估:我们已发布了开发中使用的评估套件,每个模型每1000步都有500多个检查点,并在Catwalk项目的框架下提供了训练过程和评估代码。[heading2]Devv Agent:更详细的搜索[content]链接:https://devv.ai/en发布Devv Agent,Devv Agent可以提供更准确、更详细的回答,它会理解你的需求,并分解任务,最终输出一个详尽的答案。Devv Agent底层基于的是Multi-agent的架构,根据不同的需求场景,会采用不同的Agent和语言模型。

文章:LLM 驱动的自主Agents | Lilian Weng

ChemCrow([Bran等人,2023](https://arxiv.org/abs/2304.05376))是一个特定领域的示例,其中LLM通过13个专家设计的工具进行了增强,以完成有机合成、药物发现和材料设计等任务。[在LangChain](https://github.com/hwchase17/langchain)中实现的工作流程反映了之前在[ReAct](https://lilianweng.github.io/posts/2023-06-23-agent/#react)和[MRKL](https://lilianweng.github.io/posts/2023-06-23-agent/#mrkl)中描述的内容,并将CoT推理与与任务相关的工具相结合:LLM提供了工具名称列表、其实用程序的描述以及有关预期输入/输出的详细信息。然后,系统会指示它在必要时使用提供的工具来回答用户给出的提示。该指令建议模型遵循ReAct格式-Thought,Action,Action Input,Observation.一个有趣的观察是,尽管基于LLM的评估得出结论称GPT-4和ChemCrow的表现几乎相当,但与专家进行的人工评估,专注于解决方案的完整性和化学正确性,显示出ChemCrow在很大程度上胜过GPT-4。这表明在需要深入专业知识的领域中,使用LLM来评估自身的性能可能存在潜在问题。缺乏专业知识可能导致LLM不了解其缺陷,因此无法很好地判断任务结果的正确性。[Boiko et al.(2023)](https://arxiv.org/abs/2304.05332)还研究了LLM授权的科学发现Agents,以处理复杂科学实验的自主设计、规划和执行。该Agents可以使用工具浏览互联网、阅读文档、执行代码、调用机器人实验API并利用其他LLM。例如,当要求时"develop a novel anticancer drug",模型提出以下推理步骤:

Others are asking
开源的数字人工具
以下是一些开源的数字人工具: 1. 名称:aigcpanel 特点:开源且适合小白用户,具有一键安装包,无需配置环境,简单易用。 功能:能够生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub 链接: 官网链接: 2. 名称:HeyGen 特点:AI 驱动的平台,可创建逼真的数字人脸和角色。 适用场景:适用于游戏、电影和虚拟现实等应用。 3. 名称:Synthesia 特点:AI 视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。 适用场景:支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 4. 名称:DID 特点:提供 AI 拟真人视频产品服务和开发,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后就能合成一段非常逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2025-02-04
现在有哪些开源的文生图大模型?
以下是一些开源的文生图大模型: Kolors: 2024 年 7 月 6 日开源,基于数十亿图文对进行训练,支持 256 的上下文 token 数,支持中英双语。技术细节参考 。 已支持 Diffusers,使用方式可参考 。 支持了 。 支持了 。 关于 Kolors 模型的教学视频: ,作者:BlueBomm 。 ,作者:AI 算法工程师 01 。 ,作者:峰上智行 。 ,作者:设计师学 Ai 。 Kolors 模型能力总结:改进全面,有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,在看到 Kling 视频生成的强大表现,能体现快手的技术实力。
2025-01-24
开源项目数字人
以下是关于开源项目数字人的相关内容: 一、构建高质量的 AI 数字人 1. 构建数字人躯壳 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 开源数字人项目选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单。 卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 2. 构建数字人灵魂 自建代码实现各模块开发工作量巨大,迭代难度高,对于个人开发者不现实。 推荐借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等。 在开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。 如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。 数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展。 上述 Dify 接口使用注意事项: 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。 二、写在最后 数字人在未来肯定会有很多的应用场景,比如家庭中有数字人管家,全面接管智能家居或其他设备;学校中有数字人老师,孜孜不倦的为学生答疑解惑;商场里有数字人导购,为顾客提供指路、托管个人物品等悉心服务。 数字人在未来肯定还有很多的技术突破,比如可以将五感数据作为输入(例如声音、图像、气味、震动等等),将所有可以控制躯壳的参数也作为输入(例如躯壳骨骼节点,面部混合形状参数等);次世代的算法可以自我迭代升级,也可以拿到感官输入以及躯壳控制方法后,自行演化躯壳控制方式。 作者希望通过 Dify 搭建数字人的开源项目,给大家展现低门槛高度定制数字人的基本思路,但数字人的核心还是在于我们的 Agent,也就是数字人的灵魂,怎样在 Dify 上面去编排专属自己的数字人灵魂是值得大家自己亲自体验的。真诚的希望看到,随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,用户在需要使用 AI 的能力时,AI 既可以给你提供高质量的信息,也能关注到你的情绪,给你一个大大的微笑,也许到了那时,数字世界也开始有了温度。
2025-01-22
我能否借助开源社区力量构建高质量的 AI 数字人
您可以借助开源社区力量构建高质量的 AI 数字人。 构建数字人的躯壳有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表是 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表是 UE、Unity、虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:省去建模流程直接生成数字人的展示图片,但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高,可以使用,典型项目有 wav2lip、videoretalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向,但仍在探索中。 构建数字人的灵魂需要注意以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。 4. 多元跨模态:不仅仅是语音交互,还可以通过添加摄像头数据获取数据,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常和人交流时不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。 如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此推荐借助开源社区的力量,现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。 使用 Dify 接口需要注意: 1. 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21
国内有哪些开源ai可以调用?
国内有以下一些开源 AI 可供调用: MiniMax 推出的 Hailuo Audio HD 此外,还有一些应用于不同领域的 AI 技术和产品,如: 在游戏领域,有根据玩家需求推荐游戏道具的 AI 游戏道具推荐系统。 在天气领域,彩云天气的分时预报利用了 AI 提供精准的分时天气预报。 在医疗领域,医渡云的病历分析系统利用 AI 分析医疗病历,辅助诊断。 在会议领域,讯飞听见的会议总结功能利用 AI 自动总结会议发言内容。 在书法领域,书法临摹软件利用 AI 识别书法作品的笔画和结构,为用户提供临摹指导和评价。
2025-01-20
可开源的AI工具是什么意思,我可以看到她的代码吗
可开源的 AI 工具是指其源代码可以被公开获取和使用的人工智能工具。这意味着您有机会查看和研究其代码的实现方式。 以下为您列举一些常见的可开源的 AI 工具: 1. CodeGeeX:由智谱 AI 推出的开源免费 AI 编程助手,基于 130 亿参数的预训练大模型,能快速生成代码,提升开发效率。 2. :一个带 Web 界面简单易用的声音克隆工具。可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。 3. :一个开源的音频、音乐和语音生成整合工具包。 4. :一键部署私人 GPT/LLM 的聊天机器人。支持语音合成、多模态和可扩展的插件系统,可以联网、画图、爬虫等。 5. :能够利用爬虫,自动抓取与整合指定 URL 地址中的各种信息,并生成一个 output.json 的数据文件。将其喂给 ChatGPT,便可快速定制您的专属 GPT,打造个人知识库或者智能助理。 6. :给 AI 看一眼截屏,便能直接生成代码。该项目可借助 GPT4 Vision 的能力,直接给您将屏幕截图转换为 HTML/Tailwind CSS,并利用 DALLE 3 的图像生成能力,生成外观相似的图像。 7. :可在命令行终端,直接调用与展示各种大模型能力。实现了视频和照片编辑、系统配置更改、自动生成并运行 Demo 源码,AI 一对一聊天问答等功能。 需要注意的是,不同的开源 AI 工具在功能和适用场景上可能会有所不同,您可以根据自己的需求选择最适合您的工具。
2025-01-20
AnythingLLM 怎么用,好用吗
AnythingLLM 是一款功能强大的软件,具有以下特点和使用方法: 功能:包含了所有 Open WebUI 的能力,并且额外支持选择文本嵌入模型和向量数据库。 安装和配置:安装地址为 https://useanything.com/download 。安装完成后进入配置页面,主要分为三步:选择大模型、选择文本嵌入模型、选择向量数据库。 构建本地知识库:其中有 Workspace 的概念,可以创建自己独有的 Workspace 与其他项目数据隔离。首先创建工作空间,然后上传文档并进行文本嵌入,接着选择对话模式,提供了 Chat 模式(大模型根据训练数据和上传文档数据综合给出答案)和 Query 模式(大模型仅依靠文档中的数据给出答案),最后进行测试对话。 相关评价:被认为是一个可打造成企业内部知识库的私人专属 GPT,能将任何文档、资源或内容转换为大语言模型(LLM)知识库,支持多用户使用,可设权限,兼容多种 LLM 和数据库。 总的来说,AnythingLLM 的使用效果因人而异,需要您亲自实践和体验来判断其是否好用。
2025-02-04
如何从零到一学习LLM上层AI应用开发
从零到一学习 LLM 上层 AI 应用开发,您可以参考以下步骤: 1. 掌握深度学习和自然语言处理基础: 学习机器学习、深度学习、神经网络等基础理论。 掌握自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: 熟悉 Transformer 模型架构及自注意力机制原理。 掌握 BERT 的预训练和微调方法。 阅读相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 进行大规模文本语料预处理。 熟悉 LLM 预训练框架,如 PyTorch、TensorFlow 等。 学会微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 掌握模型压缩、蒸馏、并行等优化技术。 了解模型评估和可解释性。 熟悉模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 以下是一些相关的学习资源: 面向开发者的 LLM 入门课程: 提示工程指南: LangChain🦜️🔗中文网,跟着 LangChain 一起学 LLM/GPT 开发: LLMs 九层妖塔: 在课程方面,欢迎来到针对开发者的 AIGPT 提示工程课程。该课程将分享软件开发最佳实践的提示,涵盖常见用例,包括总结、推理、转换和扩展,并指导使用 LLM 构建一个聊天机器人。在大型语言模型或 LLM 的开发中,大体上有基础 LLM 和指令调整后的 LLM 两种类型。基础 LLM 已训练出根据文本训练数据预测下一个单词,通常在大量数据上训练,以找出接下来最有可能的单词。
2025-01-28
从零到一的 LLM 学习教程
以下是从零到一学习 LLM 的教程: 1. 掌握深度学习和自然语言处理基础: 学习机器学习、深度学习、神经网络等基础理论。 掌握自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: 了解 Transformer 模型架构及自注意力机制原理。 掌握 BERT 的预训练和微调方法。 阅读相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 进行大规模文本语料预处理。 运用 LLM 预训练框架,如 PyTorch、TensorFlow 等。 微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 掌握模型压缩、蒸馏、并行等优化技术。 进行模型评估和可解释性研究。 实现模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 此外,为您推荐以下 LLM 开源中文大语言模型及数据集集合的学习资源: 1. 面向开发者的 LLM 入门课程: 地址: 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。 2. 提示工程指南: 地址: 简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。 3. LangChain🦜️🔗中文网,跟着 LangChain 一起学 LLM/GPT 开发: 地址: 简介:Langchain 的中文文档,由是两个在 LLM 创业者维护,希望帮助到从刚进入 AI 应用开发的朋友们。 4. LLMs 九层妖塔: 地址: 简介:ChatGLM、ChineseLLaMAAlpaca、MiniGPT4、FastChat、LLaMA、gpt4all 等实战与经验。 关于 LLM 的预测原理: LLM 接触了包括教科书、文章、网站等在内的庞大数据集。在训练阶段,它们学会了理解语言的上下文和流动性,掌握了包括语法、风格,甚至是文本的语调等方面。当您用一个句子或问题来指导 LLM 时,它便利用自己所学的知识,预测接下来最可能的一个或几个词。这不仅是基于它在训练期间观察到的模式和规则的推测。 在提示工程方面,鉴于 LLM 的概率本质,提示工程师面临的挑战是如何引导 LLM 向着高度可预测和准确的结果方向发展。在相关课程中,您将学习许多技巧,这些技巧将帮助您掌握高度可预测的 LLM 输出结果的艺术和科学。但在深入学习之前,可以先从一些简单的练习开始,激活思维。
2025-01-28
llm cookbook 有资源吗
以下是关于 LLM 学习资源和 OpenAI Cookbook 的相关信息: 学习大型语言模型(LLM)开发的资源和路径: 1. 掌握深度学习和自然语言处理基础: 机器学习、深度学习、神经网络等基础理论。 自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: Transformer 模型架构及自注意力机制原理。 BERT 的预训练和微调方法。 掌握相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 大规模文本语料预处理。 LLM 预训练框架,如 PyTorch、TensorFlow 等。 微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 模型压缩、蒸馏、并行等优化技术。 模型评估和可解释性。 模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 OpenAI Cookbook 资源: 如需更多灵感,请访问,其中包含示例代码以及指向第三方资源的链接,例如: 1. 2. 3. 4. 此外,还有 LLM 开源中文大语言模型及数据集集合中的相关资源: HuggingLLM: 地址: 简介:介绍 ChatGPT 原理、使用和应用,降低使用门槛,让更多感兴趣的非 NLP 或算法专业人士能够无障碍使用 LLM 创造价值。 OpenAI Cookbook: 地址: 简介:该项目是 OpenAI 提供的使用 OpenAI API 的示例和指导,其中包括如何构建一个问答机器人等教程,能够为从业人员开发类似应用时带来指导。
2025-01-14
Llm studio 联网搜索
以下是关于 LLM studio 联网搜索的相关内容: Cursor 方面: Cursor 适用于多种编程场景,如问答。在问答场景中,LLM 支持联网功能后,如 Claude、ChatGPT、Perplexity 等平台可咨询技术问题,能自动提炼关键字、联网搜索并总结分析搜索结果返回简洁答案,但答案置信率不高,而 Cursor 的上下文符号引用能力(如@Codebase 符号索引整个仓库)弥补了这一点,其将整个仓库 Embedding 成向量数据库供 LLM 消费,具备极强的私域知识理解能力,还能高效地帮用户分析总结各类项目的底层原理。 LLM Agent 方面: 工作步骤包括接收指令(用户通过文本、语音等方式发出指令或提出问题)、数据处理与理解(利用内部大语言模型解析用户输入,提取关键信息)、生成响应与执行任务(根据用户需求生成回答或采取行动,如查询数据库、搜索网络等)、输出结果(通过文本或语音将生成的结果反馈给用户)。 AIGC Weekly34 方面: 提出将 LLM 与互联网上的高质量内容结合来修复信息生态系统的问题,如 Metaphor 希望恢复搜索的神奇感,发布了 Metaphor API 用于将 LLM 连接到互联网。 介绍了 StarCraft II 作为强化学习环境的相关论文,提出了 AlphaStar Unplugged 基准测试。 提到了名为 Glean 的 AI 搜索工具能帮助用户在工作场景中进行搜索和优化,还讨论了人工智能人格模拟相关内容,如语言模型如何模拟和改变人格等。
2025-01-13
LLM输出的结果一致性如何保证
要保证 LLM 输出结果的一致性,可以采取以下几种策略: 1. Prompt 工程: 明确的待处理内容指引:在构建 Prompt 时,清晰地定义需要处理的文本,并使用标记框起来,让模型准确识别待处理内容范围,从中提取信息。 提供明确字段定义:具体化每个字段的名称、用途及要求,为 LLM 提供明确的提取方向和标准。 异常处理:设置异常处理原则,如规定缺失数据使用默认值填充,特殊数据类型符合标准格式,确保模型输出的完整性和一致性。 要求结构化输出:指示 LLM 以结构化格式(如 JSON)输出数据,便于后续处理和系统集成。 2. 自我一致性增强可靠性:促使 LLM 对同一问题产生多个答案,通过一致性审查衡量其可信度。一致性评估可从内容重叠、语义相似性评估及高级指标(如 BERT 分数或 ngram 重叠)等多方面进行,增强 LLM 在事实核查工具中的可靠性。 3. 衡量和评估不确定性:如牛津大学通过生成一个问题的多个答案,并使用另一个模型根据相似含义分组来衡量 LLM 不确定性。 4. 利用外部工具验证:如 Google DeepMind 推出的 SAFE,通过将 LLM 响应分解为单个事实、使用搜索引擎验证事实以及对语义相似的陈述进行聚类来评估 LLM 响应的真实性。 5. 借助其他 LLM 发现错误:如 OpenAI 推出的 CriticGPT,使用基于大量有缺陷输入数据集训练的 GPT 式 LLM 来发现其他 LLM 生成代码中的错误。 6. 利用 LLM 生成的评论增强 RLHF 的奖励模型:如 Cohere 使用一系列 LLM 为每个偏好数据对生成逐点评论,评估提示完成对的有效性。
2025-01-02
agent怎么设计
以下是关于 Agent 设计的相关内容: 从产品经理角度思考: 明确 Agent 是谁和其性格,例如是一个知识渊博、温暖亲切、富有同情心的历史新闻探索向导。 为使角色生动,设计简短背景故事,如曾是历史学家,对重大历史事件了如指掌且愿意分享知识。 写好角色个性需考虑角色背景和身份,编写背景故事明确起源、经历和动机;定义性格特点和说话方式风格;设计对话风格,从基本问答到深入讨论;明确核心功能如新闻解析、历史背景分析等,增加附加功能提高吸引力和实用性。 在人工智能领域: Agent 是能够感知环境并根据感知信息做出决策以实现特定目标的系统,能自动执行任务,如搜索信息、监控系统状态或与用户交互。 吴恩达最新演讲提到四种设计范式:Reflection(反思,类似于 AI 的自我纠错和迭代)、Tool Use(大语言模型调用插件,拓展 LLM 边界能力)、Planning(规划)和 Multiagent(多智能体)。其中 Reflection 可让 AI 自我迭代,Tool Use 在很多产品中常见。 希望以上内容对您有所帮助。
2025-02-05
面向老年人的AI agent
以下是为您整理的关于面向老年人的 AI agent 的相关信息: Meta 发布了可以利用 AI 自动剪辑视频的 Agents LAVE,结合 Sora 这样的视频生成模型,一些简单的短视频及广告视频可能无需人工介入。 人工智能可以赋予计算机个性,相关配套产品范围广泛,有些用于娱乐,有些专注于提供特定价值,比如帮助孩子浏览互联网或对抗老年人的孤独感。51%的成年人表示感到孤独,像 MyReplika 这样的应用程序可以减少自杀意念。 在基于 LLM 的 AI Agent 方面: 理解工具:AI Agent 有效使用工具的前提是全面了解其应用场景和调用方法。可利用 LLM 的 zeroshot learning 和 fewshot learning 能力,通过描述工具功能和参数的 zeroshot demonstration 或特定工具使用场景和相应方法演示的少量提示来获取工具知识。面对复杂任务,AI Agent 应将其分解为子任务并有效组织协调,这依赖于 LLM 的推理和规划能力以及对工具的理解。 使用工具:AI Agent 学习使用工具的方法主要包括从 demonstration 中学习和从 reward 中学习(清华有一篇从训练数据中学习的文章),包括模仿人类专家行为,了解行为后果,并根据环境和人类反馈做出调整。环境反馈包括任务完成结果反馈和行动引起的环境状态变化中间反馈;人类反馈包括显性评价和隐性行为,如点击链接。 在具身智能方面:具身 Agent 强调将智能系统与物理世界紧密结合,其设计灵感来自人类智能发展,认为智能更多来自与环境的持续互动和反馈。与传统深度学习模型相比,LLMbased Agent 能够主动感知和理解所在物理环境并与其互动,利用内部丰富知识库进行决策和产生具体行动改变环境,这一系列行为被称为“具身行动”。
2025-02-05
代码小白想要学习上手aiagent 请给我制定高效学习流程
以下是为代码小白制定的学习 AI Agent 的高效流程: 1. 基础了解 度过第一阶段,了解 AI 的基本原理和发展阶段。 2. 选择方向 鉴于您是代码小白,建议从不需要代码基础的 Coze 工作流学起。它适用所有人,只要能发现智能体的需求,就可以用工作流来实现。 3. 学习资源 可以参考《雪梅 May 的 AI 学习日记》,了解在业务运营领域如何通过 Coze 接触大量应用场景和进行 prompt 练习。 阅读安仔的文章,学习如何使用极简未来平台、腾讯云轻量应用服务器、宝塔面板和 Docker 搭建一个 AI 微信聊天机器人,了解相关技术组件的选用、配置步骤、费用和运维问题。 查看元子的分享,如“小白的 Coze 之旅”,深入了解 Coze 平台。 4. 加入社群 可以加入免费的 AI Agent 共学群,基于 WaytoAGI 社区等高质量信息源,分享时下 AI Agent 相关的玩法、经验和前沿资讯。通过微信号 Andywuwu07 或扫描二维码加微信,备注 AI 共学即可加入。 希望以上流程对您有所帮助,祝您学习顺利!
2025-02-05
我应该如何使用ai agent
使用 AI Agent 可以从以下几个方面入手: 1. 理解工具:AI Agent 有效使用工具的前提是全面了解其应用场景和调用方法。利用 LLM 的 zeroshot learning 和 fewshot learning 能力,可通过描述工具功能和参数的 zeroshot demonstration 或特定工具使用场景和相应方法演示的少量提示来获取工具知识。面对复杂任务,应先将其分解为子任务,再组织和协调,这依赖于 LLM 的推理和规划能力。 2. 使用工具:AI Agent 学习使用工具的方法主要包括从 demonstration 中学习和从 reward 中学习。这包括模仿人类专家行为,了解行为后果,并根据环境和人类的反馈(如行动是否成功完成任务的结果反馈、环境状态变化的中间反馈、显性评价和隐性行为)做出调整。 3. 具身智能:在追求 AGI 的过程中,具身 Agent 成为核心研究范式,强调智能系统与物理世界紧密结合。与传统深度学习模型不同,LLMbased Agent 能主动感知和理解物理环境并互动,利用内部知识库进行决策和行动,改变环境。 此外,目前有不少大厂推出了 AI 智能体平台,如字节的扣子、阿里的魔搭社区等。以扣子为例,它是字节跳动旗下的新一代一站式 AI Bot 开发平台,无论是否有编程基础,都能在该平台上迅速构建各类问答 Bot,开发完成后还可发布到社交平台和通讯软件上。创建智能体通常可通过简单 3 步:起名称、写介绍、用 AI 创建头像。
2025-02-05
怎么制作一个AI agent?
制作一个 AI Agent 通常有以下几种方式和步骤: 方式: 1. Prompttuning:通过 Prompt 来构建大脑模块,但一般适合拟人化不是很重的情况,其缺点是使用的 Prompt 越长,消耗的 Token 越多,推理成本较高。 2. Finetuning:针对“有趣的灵魂”,通过微调一个定向模型来实现,能将信息直接“记忆”在 AI 的“大脑模块”中,提高信息提取效率,减少处理数据量,优化性能和成本。 3. Prompttuning + Finetuning:对于复杂情况,一般是两种方式结合。 步骤(以工作流驱动的 Agent 为例): 1. 规划: 制定任务的关键方法。 总结任务目标与执行形式。 将任务分解为可管理的子任务,确立逻辑顺序和依赖关系。 设计每个子任务的执行方法。 2. 实施: 在 Coze 上搭建工作流框架,设定每个节点的逻辑关系。 详细配置子任务节点,并验证每个子任务的可用性。 3. 完善: 整体试运行 Agent,识别功能和性能的卡点。 通过反复测试和迭代,优化至达到预期水平。
2025-01-31
系统学习agent构建
以下是一些关于系统学习 Agent 构建的内容: 一些 Agent 构建平台: Coze:新一代一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成丰富插件工具拓展 Bot 能力边界。 Microsoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 文心智能体:百度推出的基于文心大模型的智能体平台,支持开发者根据需求打造产品能力。 MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行工作流。 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等场景,提供多种成熟模板,功能强大且开箱即用。 钉钉 AI 超级助理:依托钉钉强大的场景和数据优势,提供环境感知和记忆功能,在处理高频工作场景表现出色。 搭建工作流驱动的 Agent 简单情况可分为 3 个步骤: 规划:制定任务的关键方法,总结任务目标与执行形式,将任务分解为可管理的子任务,确立逻辑顺序和依赖关系,设计每个子任务的执行方法。 实施:分步构建和测试 Agent 功能,在 Coze 上搭建工作流框架,设定每个节点的逻辑关系,详细配置子任务节点,并验证每个子任务的可用性。 完善:全面评估并优化 Agent 效果,整体试运行 Agent,识别功能和性能的卡点,通过反复测试和迭代,优化至达到预期水平。
2025-01-30
开源大模型训练推理,应用开发agent 平台
以下是一些关于开源大模型训练推理、应用开发 agent 平台的相关信息: Agent 构建平台: Coze:新一代一站式 AI Bot 开发平台,集成丰富插件工具,适用于构建各类问答 Bot。 Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,可将 Copilot 部署到多种渠道。 文心智能体:百度推出的基于文心大模型的智能体平台,支持开发者打造产品能力。 MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识等,并访问第三方数据和服务或执行工作流。 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等场景,提供多种成熟模板。 钉钉 AI 超级助理:依托钉钉优势,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 Gemini 相关:大型语言模型的推理能力在构建通用 agents 方面有潜力,如 AlphaCode 团队构建的基于 Gemini 的 agent 在解决竞争性编程问题方面表现出色。同时,Gemini Nano 提升了效率,在设备上的任务中表现出色。 成为基于 Agent 的创造者的学习路径:未来的 AI 数字员工以大语言模型为大脑串联工具。Agent 工程如同传统软件工程学有迭代范式,包括梳理流程、任务工具化、建立规划、迭代优化。数字员工的“进化论”需要在 AI 能力基础上对固化流程和自主思考作出妥协和平衡。
2024-12-12
当前国内逻辑推理能力最强的大模型是什么
目前国内逻辑推理能力较强的大模型有以下几种: 1. Baichuan213BChat(百川智能):是百川智能自主训练的开源大语言模型。在逻辑推理、知识百科、生成与创作、上下文对话等基础能力上排名 200 亿参数量级国内模型第一,其中逻辑推理能力超过 34B 参数量级的大模型,生成与创作能力超过 72B 参数量级的模型。可应用于小说/广告/公文写作等内容创作场景、智能客服/语音助手以及任务拆解规划等场景,还能部署在教育、医疗、金融等垂直行业中应用,同时可部署在低算力终端处理基础智能任务。 2. 智谱清言(清华&智谱 AI):是智谱 AI 和清华大学推出的大模型产品,基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。可应用于 AI 智能体方面相关的应用,包括任务规划、工具使用及一些长文本记忆相关的场景,在较复杂推理应用上的效果也不错,广告文案、文学写作方面也是很好的选择。 3. 文心一言 4.0API(百度):在计算、逻辑推理、生成与创作、传统安全这 4 大基础能力上排名国内第一。另外在代码、知识与百科、语言理解与抽取、工具使用能力上排名国内前三。能力栈较为广泛,可应用于查询搜索知识应用、任务拆解规划 Agent、文案写作以及代码编写及纠错等方面,在科学研究、教育、工业方面的落地能力也值得关注。
2024-12-08
大模型推理 prefill 是什么?
在大模型推理中,Prefill 是一个阶段。在这个阶段,首先会把用户的输入 prompt 通过并行计算,产生每个 Token 对应 Self Attention 的 KeyValue,并将其存储在 KV Cache 中,供 Decoding 阶段产生每个 Token 时计算 Self Attention 时使用。这个阶段每个 Token 的 KeyValue 可并行计算,模型运行一次能输出多个 Token 的 KV,所以 GPU 利用率高。而 Decoding 阶段根据用户 Prompt 生成后续内容,但模型运行一次只能产生一个 Token,所以无法有效利用 GPU 的并行计算特长,资源利用率不足。资源利用率的差异导致了输出阶段成本高,这也是大模型一般输出价格是输入价格 3 到 4 倍的原因。
2024-12-05
大模型推理 preview 是什么?
大模型推理 preview 通常指的是一种新的大模型功能或特性。以 OpenAI 的 o1preview 为例: 它引入了更高级的思维链(CoT)技术,能够让模型展现更完整的推理过程,从而更好、更稳健地推理出最终结果,增强了对越狱攻击等的抵御能力。 带来了自我反思与错误修正能力,这在教学场景等方面具有重要价值。 但也存在一些问题,如 CoT 技术目前并不十分成熟,出于安全考虑,OpenAI 隐藏了模型的思考过程;复杂问题的思考过程较长,速度偏慢;新模型的使用条数少,冷却时间长。 不过,随着推理模型准确率的不断攀升,其应用前景广阔,能覆盖更多行业和高精尖业务,为 AI 领域带来新的活力和希望。
2024-12-05
如何提高提示词的推理效率
以下是一些提高提示词推理效率的方法: 1. 运用抽象 prompt:抽象可以理解为概括,从具体事物中提取共同特征,压缩信息,减少上下文,提取话题核心点,避免输入大量无效信息,尤其适用于大段信息需要嵌入和检索时。 2. 采用演绎 prompt:演绎是从已知情况推导出新情况的思维方式,在提问中效果显著,要求大模型具备文章理解和问题处理能力,能推动长对话的多轮交互。 3. 利用反应 prompt:过长的思维链会导致回复缓慢,反应 prompt 能快速和直观地回应输入,适用于需要快速反馈、测评或咨询的情况,迅速响应在表达中发挥关键决策作用。 此外,提示词工程是优化大型语言模型性能的重要任务,目前推理任务对于大语言模型具有挑战性,需要更高级的提示词工程技术。例如,在涉及数学能力的推理任务中已有一些改进,通过示例给模型说明能获得更准确结果,后续章节还会介绍更多常见应用示例及更高级的提示工程概念和技术。 另外,有研究表明提示词工程需要复杂推理来检查模型错误、明确任务等,如“PROMPT ENGINEERING A PROMPT ENGINEER”的研究,介绍并分析了关键组成部分,最终方法在多个数据集和任务中表现出色,展示了其多功能性和出色的编辑、推理能力。 将这些 prompt 融入工作流中,能更高效地训练智能体,改进大语言模型,探索新应用领域,实现低成本、高效能和模型效益最大化。
2024-12-04
GPU 推理平台搭建
很抱歉,目前知识库中没有关于 GPU 推理平台搭建的相关内容。但一般来说,搭建 GPU 推理平台需要考虑以下几个关键步骤: 1. 硬件选择:根据您的需求和预算,选择合适的 GPU 型号和数量,同时要确保服务器或计算机的其他硬件能够支持 GPU 的高效运行。 2. 操作系统和驱动安装:选择适合的操作系统(如 Linux),并正确安装 GPU 驱动程序。 3. 深度学习框架配置:选择常用的深度学习框架(如 TensorFlow、PyTorch 等),并按照框架的要求进行配置和安装。 4. 模型优化:对要进行推理的模型进行优化,例如模型压缩、量化等,以提高推理效率。 5. 性能调优:通过调整参数、使用合适的算法等方式,对推理平台进行性能调优,以达到最佳的推理效果。 以上只是一个大致的步骤概述,实际搭建过程中可能会遇到各种具体的技术问题,需要根据您的具体情况进行分析和解决。
2024-08-13