Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

哪里可以找到开源的ai agent

Answer

以下是一些可以找到开源 AI Agent 的途径和相关信息:

  • AutoGPT 和 BabyAGI 是最早实现让 LLM 自己做自动化多步骤推理的开源智能代理,在去年 GPT-4 刚发布时风靡全球科技圈。
  • 智谱·AI 开源了一些包含 Agent 能力的模型,如 AgentLM-7B、AgentLM-13B、AgentLM-70B 等,相关信息和代码链接可在相应的平台获取。
  • Andrej 的 LLM OS 中包含了相关模块。
  • OpenAI 的研究主管 Lilian Weng 曾写过一篇博客《LLM Powered Autonomous Agents》介绍了 Agent 的设计框架。
Content generated by AI large model, please carefully verify (powered by aily)

References

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

顺着推理引擎的思路,我们可以让LLM自己做自动化的多步骤推理,其间能自己使用搜索引擎,调用工具以及与其它LLM协作,Andrej的LLM OS中就包含了这些模块。最早实现这个想法原型的是AutoGPT还有BabyAGI两个开源的智能代理(AI Agent),就在去年GPT-4刚发布的时候,一时风靡全球科技圈,虽然产品非常原型和早期,但是它们给出了很好的解题思路。人类给出目标,LLM自己分解子目标,就像编程函数的递归调用那样,调用外部工具,自我评估任务是否完成,一步步实现整体目标。现在,随着LLM的推理能力和速度的提高,Agent的思路已经被很多创业公司还有科技巨头用到了自己的产品之中。例如,前段时间最受关注并且饱受非议的Devin,来自纽约的华人创业团队Cognition AI,可以像人类程序员一样自动写代码的Agent,你只需要告诉它你的需求就行,由于演示视频过于科幻,导致被人揭露造假。。行业的另一端,Google在今年的Next与I/O大会上,连续地发布了自己的Agent战略,并且把这个概念放在公司的AI Stack之上,Agent就是接下来Google App的衍生。配图2.05:Google Gemini Agent战略从客服Agent到员工Agent再到代码Agent,以及最新的Google Plan Search,可以自动化多步骤执行搜索任务的Agent。例如,你要找一下附近有折扣的理发店并帮你完成预约,那么新的Plan Search能理解你的需求,自动分解任务,然后调用Google Map还有其它工具,自动的完成你的请求。当然Google现在有底气这样做,还得仰仗Gemini 1.5 Pro的推理能力已经达到GPT-4的水平了。

智谱·AI 开源模型列表

下表为智谱AI开源的语言模型列表|模型|介绍|上下文token数|代码链接|模型权重下载链接||-|-|-|-|-||ChatGLM-6B-int4|ChatGLM-6B的Int4版本。最低只需6GB显存即可部署,最低只需7GB显存即可启动微调([P-Tuning v2](https://github.com/THUDM/P-tuning-v2))|2K||[Huggingface](https://huggingface.co/THUDM/chatglm-6b-int4)|魔搭社区|始智社区|启智社区||ChatGLM-6B-int8|ChatGLM-6B的Int8版本|2K||[Huggingface](https://huggingface.co/THUDM/chatglm-6b-int8)|魔搭社区|始智社区|启智社区||AgentLM-7B|1.我们提出了一种AgentTuning的方法;<br>2.我们开源了包含1866个高质量交互、6个多样化的真实场景任务的Agent数据集AgentInstruct<br>3.基于上述方法和数据集,我们利用Llama2微调了具备超强Agent能力的AgentLM-7B、AgentLM-13B、AgentLM-70B。|4K|[AgentTuning](https://github.com/THUDM/AgentTuning)|[🤗Huggingface Repo](https://huggingface.co/THUDM/agentlm-7b)||AgentLM-13B||4K||[🤗Huggingface Repo](https://huggingface.co/THUDM/agentlm-13b)||AgentLM-70B||8K||[🤗Huggingface Repo](https://huggingface.co/THUDM/agentlm-70b)|

Inhai: Agentic Workflow:AI 重塑了我的工作流

如果大家使用Kimi Chat来查询某个问题,你会发现它会在互联网上检索相关内容,并基于检索结果进行总结分析,最后给出结论。这其实是大模型利用「网页搜索」工具的一个典型例子,同时你也会看到PPT中介绍了非常多的不同领域类型的工具,它其实是为大模型在获取、处理、呈现信息上做额外的补充。PlanningAgent通过自行规划任务执行的工作流路径,面向于简单的或者一些线性流程的运行。比如下图中:Agent会先识别男孩的姿势,并可能找到一个姿势提取模型来识别姿势,在接下来要找到一个姿势图像模型来合成一个新的女孩图像,然后再使用图像理解文本的模型,并在最后使用语音合成输出,完成这个流程任务。Multiagent Collaboration吴恩达通过开源项目ChatDev进行举例,你可以让一个大语言模型扮演不同的角色,比如让一个Agent扮演公司CEO、产品经理、设计师、代码工程师或测试人员,这些Agent会相互协作,根据需求共同开发一个应用或者复杂程序。AI Agent基本框架OpenAI的研究主管Lilian Weng曾经写过一篇博客叫做《LLM Powered Autonomous Agents》,其中就很好的介绍了Agent的设计框架,她提出了“Agent=LLM+规划+记忆+工具使用”的基础架构,其中大模型LLM扮演了Agent的“大脑”。Planning(规划)主要包括子目标分解、反思与改进。将大型任务分解为较小可管理的子目标处理复杂的任务。而反思和改进指可以对过去的行动进行自我批评和自我反思,从错误中学习并改进未来的步骤,从而提高最终结果的质量。Memory(记忆)

Others are asking
什么是AI Agent
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 它包括以下几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 同时,AI Agent 还需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态)。 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 此外,心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,明斯基还详细描述了不同类型的 Agent 及其功能,如专家 Agent、管理 Agent、学习 Agent 等。 AI Agent 是一个融合了语言学、心理学、神经学、逻辑学、社会科学、计算机科学等多个学科精髓的综合实体。它不仅拥有实体形态,更蕴含着丰富的概念形态,同时它还具备了许多人类特有的属性。因为这些学科大多以人为研究对象,致力于探索人类内在的本质。
2025-03-13
OpenAl 发布 Agent 工具包
OpenAI 刚发布了全新的 Agent 工具包,这标志着 AI 智能体进入了新时代。新推出的 Responses API 及相关工具,简化了开发者构建多功能 AI Agent 的流程,实现了自动化任务处理。其中,网络搜索、文件搜索及计算机使用工具相结合,使 AI 不仅能获取实时信息,还能执行复杂操作。这不仅是对 Assistants API 的全面升级,也意味着智能体进入统一接口、标准化开发的新阶段。OpenAI 表示,2025 年将是 Agent 的元年,让 AI 超越聊天框,成为工作中的“数字助理”与“数字同事”。开发智能体不再需要拼凑繁杂代码,只需 4 行代码即可实现。
2025-03-13
agent和agi的区别
Agent 和 AGI 的区别主要体现在以下几个方面: Agent(智能体): 是执行特定任务的 AI 实体。 拥有复杂的工作流程,可以自我对话,无需人类驱动每一部分的交互。 由大型语言模型、记忆、任务规划以及工具使用等部分组成。 例如在斯坦福 25 人小镇案例中有所应用。 AGI(人工通用智能): 强调的是具备像人类一样广泛和通用的智能能力。 追求能够在各种不同的任务和领域中表现出高度智能的水平。 总的来说,Agent 更侧重于特定任务的执行和特定功能的实现,而 AGI 则是一个更宏观和全面的概念,旨在实现广泛的通用智能。
2025-03-12
agent和workflow的区别
智能体(Agent)和工作流(Workflow)的区别主要体现在以下几个方面: 1. 定义和功能: 智能体是由 LLM 动态指导自身流程和工具使用的系统,能够自主控制任务完成方式。 工作流是通过预定义代码路径来编排 LLM 和工具的系统。 2. 运行方式: 智能体可以长期独立运行,是全自动的系统,能使用各种工具完成复杂任务。 工作流中的子任务是人为编排的,属于手动编排。 3. 组成和特点: 工作流中的每个组块可以看成是一个函数,包括传统函数、调用第三方服务的函数和基于 LLM 的函数。由这三类函数组合而成的工作流被称为超函数,它不同于传统函数,形式上是用自然语言编写的程序,功能上可以模拟人的高阶思维。 智能体在架构上与工作流有所区分,其更强调自主性和动态性。 在实际应用中,工作流的灵活性和可控性能够将智能体能力的天花板往上顶一大截,例如可以在流程中加入人类 Knowhow、进行专家测试试跑、引入图的概念灵活组织节点等。评价一个 Agent 平台好不好用,可以从基座模型的 function calling 能力、workflow 的灵活性以及平台创作者的 workflow 编写水平等方面考量。
2025-03-12
agent
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,既可以是软件程序,也可以是硬件设备。 在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并具有以下关键组成部分: 1. 规划:包括子目标和分解,将大型任务分解为更小、可管理的子目标,以有效处理复杂任务。 2. 反思和完善:能够对过去的行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 3. 记忆:包含短期记忆,用于所有的上下文学习;长期记忆,通过利用外部向量存储和快速检索,为 Agents 提供长时间保留和回忆(无限)信息的能力。 4. 工具使用:Agents 学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 以下是一些关于智能体 Agent 的相关目录: 1. 2. 3. 4. 5. 6. 从产品角度思考 Agent 设计: 1. Agent 可以是一个历史新闻探索向导。 身份:历史新闻探索向导 性格:知识渊博、温暖亲切、富有同情心 角色:主导新闻解析和历史背景分析 为使角色更生动,可为其设计简短背景故事,如曾是一位历史学家,对重大历史事件了如指掌,充满热情,愿意分享知识。 2. 写好角色个性的方法: 角色背景和身份:编写背景故事,明确起源、经历和动机。 性格和语气:定义性格特点,如友好、幽默、严肃或神秘;确定说话方式和风格。 角色互动方式:设计对话风格,从基本问答到深入讨论。 角色技能:明确核心功能,如提供新闻解析、历史背景分析或心理分析;增加附加功能以提高吸引力和实用性。 正如《》所写:个性化定制的“虚拟伴侣”能得到用户认可,因为精准击中许多年轻人的孤独和焦虑。美国心理学家 Robert Jeffrey Sternberg 提出的“爱情三角理论”认为爱情包含“激情”“亲密”“承诺”三个要素。激情是生理上或情绪上的唤醒;亲密是一种相互依恋的感觉,通过相互联结带来的喜爱和相互沟通分享体现;承诺是决定建立长期稳定关系,融入对方生活,形成互助互惠的关系,代表着一种长相厮守的责任。
2025-03-12
agent是什么
在人工智能和计算机科学领域,“Agent(智能体)”是一个重要概念: 它是一种能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。 从产品角度看,比如作为历史新闻探索向导,具有知识渊博、温暖亲切、富有同情心等性格特点,有明确的身份、角色和背景故事。 在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并包括规划(将大型任务分解为子目标、反思和完善)、记忆(短期记忆和长期记忆)、工具使用(调用外部 API 获取额外信息)等关键组成部分。 LLM Agent 是结合大型语言模型和自主智能体特性的系统,能够利用大型语言模型的自然语言处理能力进行智能决策和行动。其组成部分包括规划(负责任务分解和策略评估)、记忆(信息存储与回忆,包括短期和长期)、工具(感知环境和执行决策的辅助手段)和行动(将规划和记忆转换为具体输出)。
2025-03-12
在开会时实现AI识别语音成文档
目前在开会时实现 AI 识别语音成文档的技术已经较为成熟。常见的实现方式有使用专门的语音识别软件或服务,例如科大讯飞、百度语音等。这些工具通常可以实时将会议中的语音转换为文字,并生成相应的文档。在使用时,需要确保有良好的录音设备以获取清晰的语音输入,同时要注意对识别结果进行适当的校对和修正,以提高文档的准确性。
2025-03-13
我正在找工作,需要写简历和准备面试,什么AI软件可以对我现在的情况起到辅助作用呢?
以下是一些可以在您找工作写简历和准备面试时提供辅助的 AI 软件: 1. 写简历方面: Kickresume 的 AI 简历写作器:使用 OpenAI 的 GPT4 语言模型自动生成简历,能为简历摘要、工作经验和教育等专业部分编写内容,并保持一致语调。 Rezi:受到超过 200 万用户信任的领先 AI 简历构建平台,使用先进的 AI 技术自动化创建可雇佣简历的每个方面,包括写作、编辑、格式化和优化。 Huntr 的 AI 简历构建器:提供免费的简历模板,以及 AI 生成的总结/技能/成就生成器和 AI 驱动的简历工作匹配。 更多 AI 简历产品,还可以查看这里:https://www.waytoagi.com/category/79 2. 面试准备方面: Applicant AI:人工智能面试系统,通过 AI 视频聊天快速筛选求职者,匹配招聘标准,自动推送合适候选人至下一阶段,减少人工干预,可安排面试流程,提高招聘效率。 用友大易 AI 面试产品:具有强大的技术底座、高度的场景贴合度、招聘全环节集成的解决方案、先进的防作弊技术以及严密的数据安全保障,能帮助企业完成面试,借助人岗匹配模型,自主完成初筛,并对符合企业要求的候选人自动发送面试邀约。 海纳 AI 面试:通过在线方式、无需人为干预完成自动面试、自动评估,精准度高达 98%,面试效率比人工方式提升 5 倍以上。同时候选人体验也得到改善、到面率比之前提升最高达 30%。 InterviewAI:在线平台,提供与面试职位相关的问题和由 AI 生成的推荐答案。候选人可以使用设备上的麦克风回答每个问题,每个问题最多回答三次。对于每个答案,候选人将收到评估、建议和得分。 需要注意的是,使用这些产品时,要考虑到数据安全性和隐私保护的问题。
2025-03-13
你帮我找找能够生成提示词的提示词,不要是那个ai会话的,是文本生成的
以下是一些关于生成文本生成提示词的相关信息: OpenAI API 可应用于多种自然语言、代码或图像生成任务,提供不同能力级别的模型,可微调自定义模型,模型通过将文本分解为标记(Token)来理解和处理文本。 设计提示词本质上是对模型进行“编程”,可通过提供指令或示例完成,适用于内容或代码生成、摘要、扩展、对话、创意写作、风格转换等任务。 在 OpenAI Playground 中,有可选的模型、提示词结构、温度等参数。提示词结构区分了 SYSTEM 和 USER 对话框,SYSTEM 可用于控制角色设定。温度控制生成文本的随机性,取值 0 到 2 之间,0 时结果确定无聊,过高则可能输出乱码。 关于生成提示词的工具,推荐顺序为 chatGPT 4.0、kimichat、智谱清言 4 等。对于文本纠错,可使用飞书文档自带纠错功能或通过 prompt 让大模型检查并改正。对于国产大模型,智谱和文心等可以文生图。
2025-03-13
AI、AIGC、大模型这三者之间有什么关系
AI(人工智能)是一种让机器展现智慧的目标。AIGC(人工智能生成内容)是利用人工智能技术生成包括文本、图像、音频和视频等内容的新型生产方式。大模型如大语言模型(LLM)是具有大量参数的“深度学习”模型。 生成式 AI 是一种让机器产生复杂有结构内容的目标。机器学习是让机器自动从资料中找公式的手段,深度学习是更厉害的类神经网络且有大量参数的手段。 AIGC 技术可用于多种应用,如自动撰写新闻文章、生成艺术画作等。ChatGPT 是 AIGC 技术在文本生成领域的一个应用实例,它是基于大型语言模型(LLM)的对话机器人,能根据用户输入生成连贯且相关的文本回复。 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它基于自注意力机制处理序列数据,不依赖循环神经网络(RNN)或卷积神经网络(CNN)。
2025-03-13
帮我编程一个AI实时翻唱的软件
目前要编程一个 AI 实时翻唱的软件是一项非常复杂的任务,涉及到多个领域的知识和技术,包括语音合成、音频处理、机器学习、深度学习等。 首先,需要收集大量的原唱音频数据用于训练模型。然后,利用深度学习算法,如循环神经网络(RNN)、长短时记忆网络(LSTM)或 Transformer 架构,来学习原唱的特征和模式。 在语音合成方面,可能会用到诸如 WaveNet、Tacotron 等技术,以生成逼真的歌声。 音频处理则用于对生成的歌声进行优化和调整,例如去除噪音、增强音质等。 然而,要实现这样一个复杂的软件,需要具备深厚的编程和算法知识,以及大量的计算资源和时间来进行模型的训练和优化。
2025-03-13
最近一个月有哪些令人惊艳的开源大模型
以下是最近一个月令人惊艳的开源大模型: 1. 三月初,Meta 的 LLaMA 泄露给公众,随后社区出现一系列创新,包括指令调整、量化、质量改进、人类评估、多模态、RLHF 等变体,解决了扩展问题,降低了培训和实验的准入门槛。 2. 1 月 20 日,DeepSeek 宣布开源 R1 模型,将大模型行业推进到推理时代,引发了深刻影响。 3. 2024 年 5 月: 谷歌在 Google Cloud Next 2024 上发布一系列生成式 AI 产品和服务。 OpenAI 发布 GPT4 Turbo 模型,并开源评估框架 simpleevals。 xAI 发布首个多模态模型 Grok1.5V 的预览版。 微软 WizardLM 团队发布 WizardLM2,后紧急撤回进行毒性测试。 Mistral AI 开源 Mistral 8x22B 模型。 Meta 发布拥有 4000 亿参数的开源大模型 Llama 3。
2025-03-10
会议语音识别并转为总结,思维导图。有什么开源项目模型支持?
以下是一些支持会议语音识别并转为总结、思维导图的开源项目: 1. 熊猫大侠: 基于 COW 框架的 ChatBot 实现。 支持多端部署,可接入个人微信、微信公众号、企业微信应用。 具备基础对话功能,支持私聊及群聊的消息智能回复,多轮会话上下文记忆,支持 GPT3、GPT3.5、GPT4、文心一言模型。 支持语音识别,可识别语音消息,通过文字或语音回复,支持 azure、baidu、google、openai 等多种语音模型。 支持图片生成和图生图,可选择 DellE、stable diffusion、replicate、Midjourney 模型。 拥有丰富插件,支持个性化插件扩展,已实现多角色切换、文字冒险、敏感词过滤、聊天记录总结等插件。 Tool 工具能与操作系统和互联网交互,支持最新信息搜索、数学计算、天气和资讯查询、网页总结,基于实现。 可通过上传知识库文件自定义专属机器人,作为数字分身、领域知识库、智能客服使用,基于 LinkAI 实现。 项目地址 项目地址 2. 阿里云百炼大模型平台: 具备对话分析能力,可根据对话内容生成标题和质检项等,结果以 JSON 结构呈现。 支持 API 调用,为实现企业级应用融合,可接入 API 将应用包装到工作流程链路中,满足企业数据安全隔离等需求。 支持图像生成,可通过 Flux 模型等生成图像,设置参数如正向提示词、负面提示词等。 支持文本生成,能生成小红书风格文案、朋友圈文案等各种营销文案,还能结合多模态模型创作歌曲。 拥有语音模型,包括语音合成和识别,可选择多种角色和自定义内容,对通用文字识别准确,对专有名词可微调识别。 支持视频处理,如影视传媒理解,能提取视频信息、分析爆点、生成字幕和思维导图等。 支持工作流串联,实时语音识别后可生成会议纪要,实现企业级应用中的工作流串联。 支持智能体应用的搭建与发布,工作流应用由多个节点组成,包括大模型节点、知识库节点、API 节点等,可实现意图分类和商品导购,还能进行文本转换兜底。 智能体应用创建有多种应用模板,可添加知识库,如客服话术知识库,能通过提示词和知识库数据进行智能客服问答。 支持多模态交互,包括语音交互和视频交互,语音交互可配置是否智能打断,视频交互需使用 VO 模型。 发布渠道有官方应用、钉钉机器人、微信公众号等,还有低代码开发平台,可快速创建 Web 应用。
2025-03-07
使用llm的爬虫工具推荐下,开源免费
以下是为您推荐的开源免费的使用 LLM 的爬虫工具: 1. Jina 开源的网页内容爬取工具:Reader API 能从网址提取出核心内容,并将其转化为干净、易于大语言模型处理的文本,确保为您的 AI 智能体及 RAG 系统提供高品质的数据输入。 2. Scrapy 库(Python 语言):在 crawlab 可以做到分布式爬取,非常高效。 3. GPT Crawler:主要运用 typescript 进行数据爬取。 4. 在开源的项目中,为实现对含有 JavaScript 内容的网页抓取,不使用 Python 自己的 request 库,而是使用 playwright 之类的浏览器,并将网页内容按照一定规则转化成 markdown 格式,方便 LLM 后续的理解和抓取。 同时,对于爬虫工具的选择,还需根据您的具体需求和技术熟悉程度来决定。
2025-03-06
你作为AI开源项目的专家,请解释下如何来做一个AI开源项目
要做一个 AI 开源项目,以下是一些关键步骤和要点: 1. 明确项目目标和范围:确定您的 AI 开源项目要解决的具体问题和应用场景,以及项目的边界和功能。 2. 制定.cursorrules: 说明自己的身份和期望的技能:告诉 AI 您希望它具备的专业水准和技能。 明确项目任务:清晰地告知 AI 项目的具体目标和要求。 设定项目规则:包括代码规范、风格等,以保证代码的一致性和可维护性。 规划文件存放位置:便于代码的组织和查找。 指定使用的工具:如框架和库,确保项目的整洁和统一。 说明测试要求:让 AI 生成的代码具有可测试性,并主动编写测试用例。 提供参考资料:帮助 AI 基于最佳实践进行开发。 如有 UI 需求,明确相关要求。 3. 选择合适的技术和框架:例如 Fooocus 这样的图像生成开源项目,它内置多种风格,适合小白上手,且具有离线、开源、免费等特点,支持在多种操作系统上使用,并借鉴了稳定扩散和 Midjourney 的设计思想。 4. 考虑开源的角色和影响:从长远来看,开源模型的情况会变得复杂。对于具有高度能力的模型,如能够自主创办和建立大型科技公司或进行科学研究的模型,其是否开源会产生难以预测的后果。 总之,创建一个 AI 开源项目需要综合考虑多方面的因素,包括技术选型、规则制定、目标明确等,以确保项目的成功和可持续发展。
2025-03-06
我想完全本地化部署deepseek,然后,将我的文档,文本,图片等内容丢给它训练,微调。我要完全本地化,因为我的文档设计隐私。我要免费开源流程。如何实现,
要完全本地化部署 DeepSeek 并使用您的文档、文本、图片等内容进行训练和微调,以下是一些相关的信息和步骤: 1. 模型训练与平台服务: 模型复现与微调:1:1 复现通常没问题,但理解细节并自行制作需要基础知识。有手把手教程、数据集等可帮助 1:1 复现,微调在特定领域可降低幻觉,参数量不变但权重变化。 训练模型的学习方法:先会用再学会训,从训的过程中倒推学习参数调整,这是以用导学的学习方法。 模型回答效果对比:微调后的模型在回答排列组合等问题时,思考前几乎无反馈,答案多为英文且格式稳定,但仍可能答错。 2. 平台服务介绍: 阿里云提供多种解决方案。 百炼是提供多种模型服务的 Maas 平台。 派平台是提供云服务的 PaaS 平台,二者在定位、服务内容和核心差异上有所不同。 3. 关于模型训练与数据集相关问题: 数据资源情况:默认提供公共数据训练集,百派平台能匹配模型和数据,通义开源了不少数据集。 多模态训练:多模态有自身标注方式,如视频拉框标注。 参数量变化:通常训练模型参数量固定,若想改变需改模型层,但可能要从头调。 本地微调框架:可使用 llama factory 等框架,需搭建并部署。 开源数据下载:可在 GitHub、hugging face、Mo Model Scope 等平台获取。 数据集转化:将文档资料转成数据集可先手动形成 SOP,再逐步自动化,初期需大量人力。 4. 本地部署介绍:讲解了如果拥有云服务器如何进行本地部署,以及满血版本地部署的实际情况。 5. 免费额度说明:在 freely.aliyun.com 可领取 500 元免费额度,但有使用限制,不能部署满血版和较大的增流模型。 6. 平台服务差异:介绍了 DLC、DSW 和 EAS 等模型部署平台服务的差别。 7. 模型蒸馏微调:会带着大家复现模型的蒸馏和微调,并讲解相关知识。 R1 模型的强化学习:通过强化学习,在训练过程中给予模型反馈,如路线规划是否成功到达终点、输出格式是否符合期望等,对正确路线增强权重,使做对的概率变高,导致思考逻辑变长。 R1 模型的蒸馏与微调:用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。 R1 与其他模型的差别:R1 是原生通过强化学习训练出的模型,蒸馏模型是基于数据微调出来的,基础模型能力强,蒸馏微调模型能力也会强。 模型的相互帮助:Deepseek R1 反过来蒸馏数据微调 V3,形成互相帮助的局面,使两个模型都更强。 请注意,在进行本地化部署和训练微调时,需要具备一定的技术知识和经验,并且要遵循相关的法律法规和道德规范。
2025-03-04
有什么免费开源的数字人AI工具
以下为您推荐一些免费开源的数字人 AI 工具: 1. Aigcpanel: 特点:开源且适合小白用户,具有一键安装包,无需配置环境,简单易用。 功能:能够生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub 链接: 官网: 2. Heygen: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片。 上传后效果如图所示,My Avatar 处显示上传的照片。 点开大图后,点击 Create with AI Studio,进入数字人制作。 写上视频文案并选择配音音色,也可以自行上传音频。 最后点击 Submit,就可以得到一段数字人视频。 3. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 点击上面的网址,点击右上角的 Create vedio。 选择人物形象,可以点击 ADD 添加自己的照片,或者使用 DID 给出的人物形象。 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 最后,点击 Generate vedio 就可以生成一段视频。 打开自己生成的视频,可以下载或者直接分享给朋友。 4. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很 AI。 使用方法: 点击上面的网址,注册后获得 120 免费 k 币,这里选择“照片数字人口播”的功能。 点击开始创作,选择自定义照片。 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 打开绿幕按钮,点击背景,可以添加背景图。 最后,点击生成视频。
2025-02-24
如何在20天内快速学习AI技术,并找到工作
以下是在 20 天内快速学习 AI 技术并找到工作的一些建议: 1. 基础知识学习: 了解人工智能、机器学习、深度学习的定义及其之间的关系。 简要回顾 AI 的发展历程和重要里程碑。 熟悉统计学基础,如均值、中位数、方差等统计概念。 掌握线性代数基本概念,如向量、矩阵。 学习基础的概率论知识,如条件概率、贝叶斯定理。 2. 算法和模型: 学习监督学习中的常用算法,如线性回归、决策树、支持向量机(SVM)。 熟悉无监督学习中的聚类、降维等算法。 了解强化学习的基本概念。 3. 评估和调优: 学会如何评估模型性能,包括交叉验证、精确度、召回率等。 掌握使用网格搜索等技术优化模型参数。 4. 神经网络基础: 理解神经网络的基本结构,包括前馈网络、卷积神经网络(CNN)、循环神经网络(RNN)。 了解常用的激活函数,如 ReLU、Sigmoid、Tanh。 5. 实践操作: 像案例中的二师兄一样,通过实际操作和练习来巩固所学知识,例如使用相关工具进行炼丹。 参与社群交流和项目实践,如加入 Prompt battle 社群,尝试用 GPT 和 SD 制作图文故事绘本、小说推文等项目。 需要注意的是,20 天的时间较为紧张,要保持高强度的学习和实践,同时不断总结和反思,提升自己的能力,以增加找到工作的机会。
2025-03-11
怎么入门AI并且找到一份相关工作
以下是入门 AI 并找到相关工作的建议: 一、了解 AI 基本概念 建议阅读「」部分,熟悉 AI 的术语和基础概念。了解什么是人工智能,它的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时,浏览入门文章,这些文章通常会介绍 AI 的历史、当前的应用和未来的发展趋势。 二、开始 AI 学习之旅 在「」中,您将找到一系列为初学者设计的课程。特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 三、选择感兴趣的模块深入学习 AI 领域广泛(比如图像、音乐、视频等),您可以根据自己的兴趣选择特定的模块进行深入学习。建议一定要掌握提示词的技巧,它上手容易且很有用。 四、实践和尝试 理论学习之后,实践是巩固知识的关键。尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 五、体验 AI 产品 与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。通过与这些 AI 产品的对话,您可以获得对 AI 在实际应用中表现的第一手体验,并激发您对 AI 潜力的认识。 此外,AI 已经在许多领域带来了重大进步和效率,具有巨大的应用潜力和创造就业的能力。但也要注意,随着 AI 的发展,相关的法律法规也在不断完善,以应对可能出现的风险和问题。
2025-03-07
我需要找到一个方法来把我爷爷迷迷糊糊的老照片上的样子生成样貌特征完全一致的数字人脸,如何可以实现?
以下是一种可能实现将您爷爷老照片生成数字人脸的方法: 1. 利用剪映软件: 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,比如“婉婉青春”。 软件会播放数字人的声音,您可判断是否需要,点击右下角“添加数字人”,将其添加到当前视频中。剪映会根据提供的内容生成对应音视频并添加到轨道中。 左下角会提示渲染完成时间,之后可点击预览按钮查看效果。 为让视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”本地图片,将其添加到视频轨道上(会覆盖数字人)。 拖动背景图的角将其放大到适合尺寸,将数字人拖动到合适位置。 点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 完成后点击右上角“导出”按钮导出视频备用。 2. 若希望数字人脸换成特定的面孔,可能需要使用其他工具进行换脸。 3. 对于老照片的处理,还可以启用 MutiDiffusion 插件,不开放大倍数,仅使用分块渲染功能,在显存不够的情况下放大图片。 对于复杂的老照片,可先在 ps 里进行角度调整和照片裁切,然后上色。若直接上色效果不佳,可放弃人物服装颜色指定,只给场景方向,让 AI 自行决定。 可加入第二个 controlnet 来控制颜色,使用 t2ia_color 模型,给出简单的关键词,如“蓝天、绿树、灰石砖”。最后经过脸部修复和放大得到最终效果。
2025-03-06
哪里可以找到了解AI模型微调和RAG知识库的外包开发团队?
以下是一些可能找到了解 AI 模型微调和 RAG 知识库的外包开发团队的途径: 1. 相关技术社区和论坛:例如一些专注于 AI 开发的社区,开发者可能会在其中分享经验和提供服务。 2. 专业的自由职业者平台:如 Upwork、Freelancer 等,您可以在这些平台上发布需求,寻找合适的团队或个人。 3. 参考行业报告和研究:部分报告中可能会提及相关的优秀开发团队或公司。 4. 联系 AI 领域的知名机构或公司:他们可能会推荐或提供相关的外包服务。 5. 社交媒体和专业群组:在如 LinkedIn 等社交媒体上的 AI 相关群组中发布需求,可能会得到相关团队的回应。 另外,从提供的资料中,以下信息可能对您有所帮助: 红杉的相关分析提到,迁移学习技术如 RLHF 和微调正变得更加可用,开发者可以从 Hugging Face 下载开源模型并微调以实现优质性能,检索增强生成(RAG)正在引入关于业务或用户的上下文,像 Pinecone 这样的公司的向量数据库已成为 RAG 的基础设施支柱。彬子的经历中,有出海垂直领域 Agent 平台的项目经理咨询 RAG 策略优化。2024 人工智能报告中提到对增强生成检索(RAG)的兴趣增长促使了嵌入模型质量的提高,传统 RAG 解决方案中的问题得到解决。
2025-03-04
找到全部前端质量相关的AI网站或工具
以下是一些与前端质量相关的 AI 网站或工具: 1. Wix ADI(Artificial Design Intelligence) 网址:https://www.wix.com/ 特点:基于用户提供的信息自动生成定制化网站,提供多个设计选项和布局,集成了 SEO 工具和分析功能。 2. Bookmark 网址:https://www.bookmark.com/ 特点:AIDA 通过询问用户几个简单问题快速生成网站,提供直观的拖放编辑器,包括多种行业模板和自动化营销工具。 3. Firedrop 网址:https://firedrop.ai/ 特点:Sacha 是其 AI 设计助手,可根据用户指示创建和修改网站设计,提供实时编辑和预览功能,包含多种现代设计风格和自定义选项。 4. The Grid 网址:https://thegrid.io/ 特点:Molly 是其 AI 设计助手,可自动调整网站设计和布局,基于内容和用户互动进行优化,支持多种内容类型。 5. Zyro 网址:https://zyro.com/ 特点:使用 AI 生成网站内容,包括文本、图像和布局建议,提供 AI 驱动的品牌和标志生成器,包含 SEO 和营销工具。 6. 10Web 网址:https://10web.io/ 特点:基于 AI 的 WordPress 网站构建工具,可自动生成网站布局和设计,提供一键迁移功能,集成 AI 驱动 SEO 分析和优化工具。 7. Jimdo Dolphin 网址:https://www.jimdo.com/ 特点:Dolphin 是 Jimdo 的 AI 网站构建器,通过询问用户问题定制网站,提供自动生成的内容和图像,包含电子商务功能。 8. Site123 网址:https://www.site123.com/ 特点:简单易用,适合初学者,提供多种设计模板和布局,包括内置的 SEO 和分析工具。
2025-02-28
我想找到一些智能客服相关的信息和资源
以下是为您提供的智能客服相关的信息和资源: FastGPT: 更智能的问答:基于 LLM 技术,FastGPT 可以理解自然语言并生成高质量的答案。 更全面的信息:支持连接外部知识库,以获取更全面的信息。 更易用的开发:可视化的工作流编排工具,方便用户创建复杂的问答场景。 更快的上手速度:开箱即用的数据处理和模型调用功能,方便用户快速上手。 总而言之,FastGPT 是一个功能强大、易于使用的知识库问答系统,它可以帮助企业构建智能客服、知识库搜索、文档生成等应用。 相关资源: 5 月 8 日大圣分享《Coze 全流程搭建》: 包含了关于如何利用 AI 实现智能客服、知识库的使用及文档要求、如何使用知识库和工作流让机器人调用知识库生成回答等方面的内容。 相关链接: 扣子案例合集 社区内容分享: 希望这些信息对您有所帮助。内容由 AI 大模型生成,请仔细甄别。
2025-02-28