Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

具身智能用什么开发

Answer

具身智能的开发涉及多个方面,其技术路线包括端到端模型和分层决策模型。感知模块负责收集和处理信息,通过多种传感器感知和理解环境,例如在机器人上常见的传感器有可见光相机、红外相机、深度相机、激光雷达、超声波传感器、压力传感器和麦克风等。具身智能的研究涉及多个学科,包括机器人学、认知科学、神经科学和计算机视觉等。目前,具身智能正成为人工智能的新浪潮,在机器人领域、虚拟现实、增强现实和游戏设计等方面有着广泛应用,但仍面临诸多挑战,如智能体身体设计、复杂环境中的有效学习以及与人类社会相关的伦理和安全问题等。

Content generated by AI large model, please carefully verify (powered by aily)

References

4.4 历史更新

《[量子位:AI视频生成研究报告](https://waytoagi.feishu.cn/record/S20crIXGHeREDwcA3qLcRQatny其它推荐报告:《[量子位:中国具身智能创投报告](https://waytoagi.feishu.cn/record/EfohrRIQoeV9EkcwF3Xcb4uYnhf)》具身智能(Embodied AI)正成为人工智能的新浪潮。该技术使机器人能感知、学习并与环境交互,广泛应用于物理实体。具身智能的发展得益于大模型和生成式AI的进步,技术路线包括端到端模型和分层决策模型。《[用友:AI在企业招聘中的应用现状调研报告](https://waytoagi.feishu.cn/record/EGgxrvbqSea5M3cZGkDc0w3MnNf)》报告预测,随着技术进步,AI将进一步推动个性化人力资源管理,创造无人值守的HR平台,推动企业持续发展。《[云计算开源产业联盟:中国AIOps现状调查报告(2024)](https://waytoagi.feishu.cn/record/JWmSrPjX4e516qcIaw3cRmvanqg)》《[易观分析:中国在线旅游市场年度报告2024](https://waytoagi.feishu.cn/record/ISghrazTvevU6YcXHNNc2joHnPg)》《[帆软:Al+for+Bl:让人人都成为数据分析师](https://waytoagi.feishu.cn/record/Blh6rLZcUeLnatcXG63cRCu0nwd)》

问:具身智能是什么?

具身智能(Embodied Intelligence)是人工智能领域的一个子领域,它强调智能体(如机器人、虚拟代理等)需要通过与物理世界或虚拟环境的直接交互来发展和展现智能。这一概念认为,智能不仅仅是处理信息的能力,还包括能够感知环境、进行自主导航、操作物体、学习和适应环境的能力。具身智能的核心在于智能体的“身体”或“形态”,这些身体可以是物理形态,如机器人的机械结构,也可以是虚拟形态,如在模拟环境中的虚拟角色。这些身体不仅为智能体提供了与环境互动的手段,也影响了智能体的学习和发展。例如,一个机器人通过其机械臂与物体的互动,学习抓取和操纵技能;一个虚拟代理通过在游戏环境中的探索,学习解决问题的策略。具身智能的研究涉及多个学科,包括机器人学、认知科学、神经科学和计算机视觉等。在机器人学中,具身智能关注的是如何设计能够自主行动和适应环境的机器人;在认知科学和神经科学中,研究者探索大脑如何处理与身体相关的信息,以及这些机制如何应用于人造智能系统;在计算机视觉中,研究者致力于开发算法,使智能体能够理解和解释视觉信息,从而进行有效的空间导航和物体识别。具身智能的一个重要应用是在机器人领域,特别是在服务机器人、工业自动化和辅助技术等方面。通过具身智能,机器人可以更好地理解和适应人类的生活环境,提供更加自然和有效的人机交互。此外,具身智能也在虚拟现实、增强现实和游戏设计等领域有着广泛的应用,通过创造更具沉浸感和交互性的体验,丰富了人们的数字生活。尽管具身智能在理论和技术上取得了显著进展,但它仍面临许多挑战。例如,如何设计智能体的身体以最大化其智能表现,如何让智能体在复杂多变的环境中有效学习,以及如何处理智能体与人类社会的伦理和安全问题等。未来的研究将继续探索这些问题,以推动具身智能的发展和应用。

一篇具身智能的最新全面综述!(上)

感知模块负责收集和处理信息,通过多种传感器感知和理解环境。在机器人上,常见的传感器有:1.可见光相机:负责收集彩色图像。2.红外相机:负责收集热成像、温度测量、夜视和透视。红外相机能够检测物体发出的热辐射,即使在完全黑暗的环境中也能生成图像。这种能力使得红外相机适用于夜视和热成像。红外相机可以测量物体表面的温度,广泛应用于设备过热检测、能源审计和医学成像等领域。某些红外相机能够穿透烟雾、雾气和其他遮挡物,适用于应急救援和安全监控。3.深度相机:负责测量图像中每个点与相机之间的距离,获取场景的三维坐标信息。4.激光雷达(LiDAR):负责测量目标物体的距离和速度。通过发射激光脉冲并接收反射回来的光来计算与物体的距离,生成高精度的三维点云数据,广泛应用于自动驾驶和机器人导航。5.超声波传感器:负责避障。通过发射超声波脉冲并接收这些脉冲的反射来确定机器人与障碍物之间的距离,判断障碍物是否存在。6.压力传感器:负责测量机器人手或脚部的压力,用于行走和抓取力的控制以及避障。7.麦克风:负责收音。

Others are asking
具身智能是什么技术?用小学生能理解的话术回答
小朋友,具身智能呀,是人工智能里的一种很有趣的技术。 它说的是像机器人、虚拟代理这样的智能体,要通过和真实世界或者虚拟环境直接打交道来变得更聪明。 比如说,智能体要有能感觉周围环境的能力,能自己到处走,能拿东西、操作东西,还能学习新本领,适应新环境。 具身智能很在意智能体的“身体”,这个“身体”可以是机器人的样子,也可以是游戏里的虚拟角色。这些“身体”能帮智能体和环境互动,还会影响智能体学习。 像机器人可以通过它的手学会抓东西、摆弄东西,虚拟代理在游戏里能学会解决问题。 研究具身智能要用到好多知识,像机器人学、认知科学、神经科学还有计算机视觉。 在机器人领域,具身智能能让机器人更好地理解和适应我们人类的生活环境,跟我们交流更自然。在虚拟现实、增强现实和游戏里,也能让我们玩得更开心。 不过呢,具身智能还有一些难题要解决,比如怎么设计智能体的身体让它更聪明,怎么让它在复杂的环境里好好学习,还有怎么处理它和人类社会相关的一些问题。 简单说,具身智能就是给聪明的人工智能装上“身体”,让它能和周围环境更好地交流互动。
2025-04-05
具身智能最核心的技术热点是什么
具身智能最核心的技术热点包括以下方面: 1. 人机混合增强智能标准:规范多通道、多模式和多维度的交互途径、模式、方法和技术要求,如脑机接口、在线知识演化、动态自适应、动态识别、人机协同感知、人机协同决策与控制等。 2. 智能体标准:规范以通用大模型为核心的智能体实例及智能体基本功能、应用架构等技术要求,包括智能体强化学习、多任务分解、推理、提示词工程,智能体数据接口和参数范围,人机协作、智能体自主操作、多智能体分布式一致性等。 3. 群体智能标准:规范群体智能算法的控制、编队、感知、规划、决策、通信等技术要求和评测方法,包括自主控制、协同控制、任务规划、路径规划、协同决策、组网通信等。 4. 跨媒体智能标准:规范文本、图像、视频、音频等多模态数据处理基础、转换分析、融合应用等方面的技术要求,包括数据获取与处理、模态转换、模态对齐、融合与协同、应用扩展等。 5. 具身智能标准:规范多模态主动与交互、自主行为学习、仿真模拟、知识推理、具身导航、群体具身智能等。 具身智能需要具备感知、决策和执行三种核心能力。执行能力是技术难点,涉及硬件设计,具身智能体主要分为移动和操作两大能力。移动方面,各种类型机器人在不同地形下实现鲁棒的移动仍是前沿学术问题。操作方面,现阶段能落地的只有简单抓取,可泛化的通用执行能力是三大核心能力中最短的板。大语言模型(LLM)为具身智能热潮来临提供了机会,其强泛化能力和 zeroshot 能力使不再需要为每个任务手工调校机器人。
2025-03-12
具身智能
具身智能是人工智能领域的一个子领域,以下是关于具身智能的详细介绍: 定义:强调智能体(如机器人、虚拟代理等)通过与物理世界或虚拟环境的直接交互来发展和展现智能。 核心:在于智能体的“身体”或“形态”,其可以是物理形态(如机器人的机械结构)或虚拟形态(如模拟环境中的虚拟角色)。这些身体不仅是互动手段,也影响智能体的学习和发展。 涉及学科:包括机器人学、认知科学、神经科学和计算机视觉等。 机器人学:关注设计能自主行动和适应环境的机器人。 认知科学和神经科学:探索大脑处理与身体相关信息的机制及应用于人造智能系统。 计算机视觉:致力于开发算法,使智能体能够理解和解释视觉信息,进行有效空间导航和物体识别。 应用: 机器人领域:在服务机器人、工业自动化和辅助技术等方面,使机器人更好地理解和适应人类生活环境,提供更自然有效的人机交互。 虚拟现实、增强现实和游戏设计等领域:创造更具沉浸感和交互性的体验。 特点: 三要素:“本体”(硬件载体)、“智能”(大模型、语音、图像、控制、导航等算法)、“环境”(本体所交互的物理世界),三者高度耦合是高级智能的基础。 四个模块:感知决策行动反馈,形成闭环。 面临挑战:如设计智能体身体以最大化智能表现、让智能体在复杂多变环境中有效学习、处理智能体与人类社会的伦理和安全问题等。 尽管具身智能在理论和技术上取得显著进展,但仍有诸多挑战待解决,未来研究将继续探索推动其发展和应用。
2025-03-12
具身智能
具身智能是人工智能领域的一个子领域,以下是关于具身智能的详细介绍: 定义:强调智能体(如机器人、虚拟代理等)通过与物理世界或虚拟环境的直接交互来发展和展现智能。 核心:在于智能体的“身体”或“形态”,其可以是物理形态(如机器人的机械结构)或虚拟形态(如模拟环境中的虚拟角色)。这些身体不仅是互动手段,也影响智能体的学习和发展。 涉及学科:包括机器人学、认知科学、神经科学和计算机视觉等。 机器人学:关注设计能自主行动和适应环境的机器人。 认知科学和神经科学:探索大脑处理与身体相关信息的机制及应用于人造智能系统。 计算机视觉:致力于开发使智能体能够理解和解释视觉信息,进行有效空间导航和物体识别的算法。 应用: 机器人领域:在服务机器人、工业自动化和辅助技术等方面,使机器人更好地理解和适应人类生活环境,提供更自然有效的人机交互。 虚拟现实、增强现实和游戏设计等领域:创造更具沉浸感和交互性的体验。 重要要素和模块: 三要素:“本体”(硬件载体)、“智能”(大模型、语音、图像、控制、导航等算法)、“环境”(本体所交互的物理世界),三者高度耦合是高级智能的基础。 四个模块:感知决策行动反馈,形成一个闭环。 尽管具身智能在理论和技术上取得显著进展,但仍面临诸多挑战,如智能体身体设计、复杂环境中的有效学习、与人类社会的伦理和安全问题等。未来研究将继续探索这些问题以推动其发展和应用。
2025-03-10
具身智能是什么?
具身智能是人工智能领域的一个子领域,指的是智能体(如机器人、虚拟代理等)通过与物理世界或虚拟环境的直接交互来发展和展现智能。 其核心在于智能体的“身体”或“形态”,这些身体可以是物理形态,如机器人的机械结构,也可以是虚拟形态,如在模拟环境中的虚拟角色。身体不仅为智能体提供了与环境互动的手段,也影响其学习和发展。 具身智能的研究涉及多个学科,包括机器人学、认知科学、神经科学和计算机视觉等。在机器人学中,关注如何设计能自主行动和适应环境的机器人;在认知科学和神经科学中,探索大脑处理与身体相关信息的机制及应用于人造智能系统;在计算机视觉中,致力于开发算法让智能体理解和解释视觉信息,进行有效空间导航和物体识别。 具身智能的应用广泛,在机器人领域,特别是服务机器人、工业自动化和辅助技术等方面,能让机器人更好地理解和适应人类生活环境,提供更自然有效的人机交互。在虚拟现实、增强现实和游戏设计等领域,能创造更具沉浸感和交互性的体验。 具身智能有三要素:本体(硬件载体)、智能(大模型、语音、图像、控制、导航等算法)、环境(本体所交互的物理世界),三者高度耦合是高级智能的基础。其行动分为“感知决策行动反馈”四个步骤,分别由四个模块完成并形成闭环。 尽管具身智能取得显著进展,但仍面临诸多挑战,如设计智能体身体以最大化智能表现、让智能体在复杂多变环境中有效学习、处理智能体与人类社会的伦理和安全问题等。
2025-03-10
具身智能软硬件解决方案。
具身智能的软硬件解决方案包括以下方面: 算法层: 技术层级: 任务层级:可细分为任务级、技能级、动作级、基元级、伺服级,通常关注前四个级别。 解决方案层级:通常可拆分为大脑+小脑两个层级。大脑负责人机交互与规划决策,小脑负责运动控制及将语义信息理解转化为动作。 大脑侧:负责人机交互,能通过视觉在语义层面理解场景、任务等并进行决策。大模型的发展对大脑有促进作用,大脑的长期发展高度依赖多模态大模型。如 2024 年 3 月,有鹿机器人发布了基于 LPLM10B 的软硬件结合产品 Master 2000。 整机硬件方案:基于下游场景需求设计运动、感知、计算和通信硬件方案。具身智能厂商倾向于软硬件全流程自主控制,自己制作机体,原因包括机体和数据模式未统一,训练数据与机体构造紧密联系,以及考虑二级供应商是否成熟和整机利润。部分强大厂商如 Tesla 具备制作更底层电机、传感器的能力,软硬件一体化制造能带来更高利润。 智能类型:包括认知智能和物理智能。认知智能涉及思考、规划和决策能力,完全由大脑驱动;物理智能指机器人的感知和与环境的运动互动能力,感知环节由大脑侧算法实现,行动环节由小脑侧算法和硬件配合完成。 发展趋势: 人形化:外形向人类细部特征靠拢,功能具备真实人类运动、灵活和环境判断能力。 成本下降显著:核心零部件成本降低,人形机器人成本及售价呈下降趋势。 构成元素:包括大脑(意图理解、环境感知、规划决策)、小脑(运动控制、语义信息理解转化为动作)、整机硬件方案。
2025-03-07
AI智能体
以下是关于 AI 智能体的相关信息: Genspark Super Agent 是世界上首个 MixtureofAgents 系统,集多种功能于一体,能自动完成复杂任务。它具有以下特点: 1. 快速:近乎即时的结果,可与常规搜索/聊天相媲美。 2. 可靠:执行过程中的错误和幻觉显著减少。 3. 导向:用户能够掌控一切,指导和优化输出直至符合要求。 在 GAIA 基准测试中,Genspark 在三个级别的测试中得分均最高,显示出在多轮对话和复杂任务处理上的优势,能更准确反映用户与 AI 助手互动对话的需求。效果更好的原因在于它是世界上第一个 MixtureofAgents 系统,利用最佳模型、工具和数据集执行不同任务,比如基础智能体的对话、图片、视频生成以及翻译。 在品牌卖点提炼中,AI 智能体可以发挥作用。AI 在逻辑推理、数据分析、内容理解和输出上有独特强项,可应用于品牌卖点提炼。但在搭建智能体前,需明确其能力边界,如 AI 对公司的主要产品、独特之处、获得的认可、核心渠道、核心购买人群、营销手段、期望的新渠道结果等了解程度接近于 0。AI 真正的能力包括通过分析数据和信息进行逻辑推理、快速处理和分析数据并提取有价值信息和模式、拥有大量训练数据并输出更全面相关信息、理解用户提供内容并按正确结构梳理有效输出。因此,更适合搭建引导型助手,在寻找卖点过程中提供思考维度。 此外,有宝玉日报推荐阅读《真正的 AI 智能体即将到来:告别死板提示词,迎接自主规划时代!》,提到 LLM 智能体不再靠提示词,具备自主规划与行动能力,DeepResearch 与 Claude Sonnet 3.7 正在用强化学习推动智能体时代,关键特征包括 RL 训练、多步推理、草稿模式与结构化输出。
2025-04-09
飞书智能伙伴创建平台 RAG实现
飞书智能伙伴创建平台(英文名:Aily)是飞书团队旗下的企业级 AI 应用开发平台,能提供简单、安全且高效的环境,帮助企业构建和发布 AI 应用,推动业务创新和效率提升,为企业探索大语言模型应用新篇章、迎接智能化未来提供理想选择。 在飞书智能伙伴创建平台上实现 RAG 相关应用有多种方式: 1. 利用飞书的知识库智能问答技术,引入 RAG 技术,通过机器人帮助用户快速检索内容。 2. 可以使用飞书的智能伙伴功能搭建 FAQ 机器人,了解智能助理的原理和使用方法。 3. 本地部署资讯问答机器人,如通过 Langchain + Ollama + RSSHub 实现 RAG,包括导入依赖库、从订阅源获取内容、为文档内容生成向量等步骤。例如使用 feedparse 解析 RSS 订阅源,ollama 跑大模型(使用前需确保服务开启并下载好模型),使用文本向量模型 bgem3(如从 https://huggingface.co/BAAI/bgem3 下载,假设放置在某个路径 /path/to/bgem3,通过函数利用 FAISS 创建高效向量存储)。 使用飞书智能伙伴创建平台的方式: 1. 在 WaytoAGI 飞书知识库首页找到加入飞书群的链接(二维码会定期更新,需在找到最新二维码),点击加入,直接@机器人。 2. 在 WaytoAGI.com 的网站首页,直接输入问题即可得到回答。 创建问答机器人的原因: 1. 知识库内容庞大,新用户难以快速找到所需内容。 2. 传统搜索基于关键词及相关性,存在局限性。 3. 需要用更先进的 RAG 技术解决问题。 4. 在群中提供快速检索信息的方式,使用更便捷。 2024 年 2 月 22 日的会议介绍了 WaytoAGI 社区的成立愿景和目标,以及其在飞书平台上的知识库和社区情况,讨论了相关技术和应用场景,并介绍了企业级 agent 方面的实践。
2025-04-08
工作流 和 智能体的区别?
工作流和智能体的区别主要体现在以下几个方面: 定义: 工作流是通过预定义代码路径来编排 LLM 和工具的系统。 智能体则是由 LLM 动态指导自身流程和工具使用的系统,能够自主控制任务完成方式。 功能: 智能体是一个自动化的“助手”,用来执行特定任务,擅长做一些具体的、重复性的任务,比如客服聊天、推荐商品、处理订单等,但只能按照预先设定的规则和任务来做事,如果遇到超出范围的情况,就不知道怎么办了。 工作流是一系列任务的流程,决定了每个步骤应该做什么,可以处理一个完整的过程,比如从客户下单、付款到发货和售后服务,涵盖了所有步骤和环节,更灵活,能够适应变化,可以调整步骤和规则来应对不同的情况,不需要一开始就固定下来。 范围: 智能体是特定任务的“助手”,用于局部执行任务。 工作流是一个“计划”或“路线图”,指导整个任务的流程。简单说,工作流是全局的,智能体是局部的。 在业务中,通常需要的是工作流而非单个智能体,因为整个业务流程设计至关重要。例如,在烹饪中,关键不在于使用多贵的锅,而是按步骤完成每道工序。因此,工作流才是解决问题的关键,它帮助优化思路、提升效率。设计好工作流才能大幅提升整体业务效率。
2025-04-08
智能客服
以下是关于智能客服的相关内容: 在开源 AI 社区中,通过 Coze 开发了社群运营机器人作为智能客服。 知识库问答方面:将社区长期积累的文章和资料喂给机器人学习,它能通过 RAG 机制匹配用户问题给出准确稳定答案。解决了如“AGI 是什么”“什么是 ChatGPT”等基础问题,提高了效率,保证了答案的准确性和一致性。此外,机器人还会基于问题给出相关延伸阅读链接,鼓励用户主动学习,影响用户学习方式。 定时推送方面:能将活动信息和社区动态定时推送给用户,避免用户因不在电脑前错过重要活动。提前设置好推送任务,就能精准送达。 关于 GPT 智能客服部署:GPTs 是 GPT 的一种 ID 账号形态,类似微信公众号,用户可开发自己垂类应用。开放门槛低,基本是 0 代码,开发方式包括自然语言(prompt)、知识库(knowledge)、第三方 API 对接(Action)。其实现目前最强的智能客服,具有对话流畅、多观点融合、答案准确等特点,不太擅长推理计算。实现原理是将 FAQ 上传到知识库,让 GPTs 具有客服应答能力。猜测类似检索增强生成技术(RAG),将知识库和问题一起做 embedding,扔给 LLM 作答。
2025-04-08
你好,你是基于哪个大语言模型的人工智能?
我并非基于某个特定的大语言模型。AI 领域中的语言模型众多,例如 GPT3 等。大语言模型通常是使用深度学习和神经网络创建的,基于人类训练数据来理解单词、代码语法等。像生成式 AI 可以生成文本、图片、音频、视频等内容形式,其中包括大语言模型。2017 年 6 月,谷歌团队发表的论文《Attention is All You Need》首次提出了 Transformer 模型,它基于自注意力机制处理序列数据,不依赖于循环神经网络或卷积神经网络。
2025-04-08
有没有职业经理人智能体
在 AI 领域,存在决策智能体。例如,Anterior 公司开发的临床决策引擎用于自动化理赔提交审核,其智能体遍历决策树并利用语言模型评估相关文件。此外,Norm AI 为监管合规打造智能体,Parcha 为 KYC 建立智能体。 在传统职业领域,“Agent”一词涵盖多种职业角色。在商业领域,随着大航海时代及全球贸易兴起,“Agent”的角色变得重要,如贸易代理和公司代理商。工业革命期间,其职能拓展到保险、房地产等新兴行业。19 世纪,政府及情报领域也广泛使用,如情报特工和便衣警察。 在现代(20 世纪至 21 世纪),“Agent”在娱乐和体育行业指艺人经纪人和运动员经理等,负责安排试镜、合同谈判和规划职业生涯。还包括劳务代理和招聘代理(猎头),劳务代理提供劳动力匹配服务,猎头为公司招募高技能或高级管理职位的专业人士。从词源和历史变迁看,“Agent”具有行动和替身的含义,多数情况下是替代他人做事。但目前尚未有明确指向“职业经理人智能体”的特定概念。
2025-04-08
常见的工作流与 Agent 开发平台
常见的工作流与 Agent 开发平台如下: AI Workflow 开发平台: Coze:新一代 AI Bot 开发平台,集成了丰富的插件工具,有国际版和国内版。 Dify:开源平台,支持自定义和插件。 腾讯元器。 FastGPT:国内知名,支持自定义流程。 影刀&zapier。 Leap。 Betteryeah:立足 RPA 场景,用 AI 将用户需求生成工作流,并通过 RPA 自动化,产品形态与 Coze 相似,是企业级的 AI 应用开发平台。 Flowise:快速实现智能体搭建。 BISHENG:主攻 tob 场景的开源 LLM 搭建平台,与 fastgpt 功能类似,但面向的客户不同,整体功能和部署成本更重。 Agent 构建平台: Coze:具有拓展强、好上手、不用出国等优点。 Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 文心智能体:百度推出的基于文心大模型的智能体平台。 MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景。 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 此外,Inhai 的 Agentic Workflow 将一整套工作流组合起来,每个工具在每一个节点执行一个任务。LangGPT 提示词框架应用了 CoT 完成从输入到思维链再到输出的映射。
2025-04-09
我想要系统学习ai大模型应用开发,能帮我制定一个系统学习路线吗?
以下是一个系统学习 AI 大模型应用开发的学习路线: 1. 掌握深度学习和自然语言处理基础: 学习机器学习、深度学习、神经网络等基础理论。 掌握自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: 熟悉 Transformer 模型架构及自注意力机制原理。 掌握 BERT 的预训练和微调方法。 研读相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 进行大规模文本语料预处理。 熟悉 LLM 预训练框架,如 PyTorch、TensorFlow 等。 微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 掌握模型压缩、蒸馏、并行等优化技术。 进行模型评估和可解释性研究。 实现模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 7. 参与相关社区交流和项目实践: 总的来说,AI 大模型应用开发是一个多学科、系统性的领域,需要深入的理论学习和工程实践经验相结合。除了学习基础知识,熟练使用开源框架工具也很关键。保持对前沿动态的跟踪,并实际参与相关项目是获得真知灼见的最佳途径。 此外,以下是一个利用 AI+SMART 安排学习计划的案例: 学习目标与个人或职业发展目标的关系:平时工作中需要经常阅读英文文档。另外,有朋友和客户是英文母语者,想要和他们沟通更加顺畅。其次,希望未来有机会进入大型外企工作。 具体学习内容:首先是词汇需要提高,其次听力、口语、阅读和写作这些方面都进行全面提高。 量化学习进度和成功:以考取雅思 8.0,且可以和朋友或客户流利的交谈为目标。 时间框架:半年内。 现实可行性:目前雅思 6.5,每天可以投入 2 小时。周末可以更多。有访问网络课程的条件,也可以购买书籍或其他学习材料。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-08
大模型应用开发岗位需要掌握什么
大模型应用开发岗位通常需要掌握以下内容: 1. 编程思维和 Python 基础。 2. 认识大模型 Embedding 技术,包括理论知识和代码实战。 3. 在构建模型应用方面: 根据项目需求选择合适的开发框架。 了解业务背后的深层次需求,设定流程环节以确保模型能解决实际问题。 在每个环节精心设计提示词,引导模型提供准确有用的回复。 确保应用在提供服务时遵守安全和伦理标准。 通过不断测试和迭代优化模型性能和用户体验。 成功部署应用后持续维护和更新以适应需求变化。 4. 提示词的精细设计和调试,因为其直接影响模型的输出质量和应用效果。 5. 对于智能体构建,了解动态推理智能体情感设定,以制作更有情商的智能体。
2025-04-08
作为财务人员,可以开发什么样的AI助手
作为财务人员,可以开发以下类型的 AI 助手: 1. 税务方面: 利用引刀 AP 创建网页实现智能解答税务问题。 结合飞书避免信息泄露和实现自动回复。 2. 日常工作方面: RPA 流程自动化机器人,可替代电脑办公中的重复有逻辑工作,如开票、网银流水下载等,为企业降本增效。 财经数据分析助手,能分析和解释财经数据,提供投资建议。 风险评估模型,进行财务风险评估和预测。 自动化金融报告编制,自动化编制和解读财务报告。
2025-04-01
帮我写一段cursor的user rules,符合前端开发
以下是关于 Cursor 的 User Rules 相关内容,适用于前端开发: Cursor Rules 简单来说是为 Cursor 做角色定位,使其以更专业的角色服务。它允许开发者为 AI 助手设置特定指导原则和行为模式,让 AI 在生成代码、提供建议和响应查询时能更好适应开发者的编码风格和项目需求。 设置通用规则的步骤如下: 1. 点击界面右上角的小齿轮图标。 2. 在 cursor settings 中找到 Rules。 3. 将相关文本拷贝到 User Rules 后,关掉页面即可。 当您从新手阶段进阶,希望进行更专业的 APP 开发、前后端项目时,可以通过以下方式获取更专业的 Cursor Rules: 1. 访问下方的 github 项目:https://github.com/PatrickJS/awesomecursorrules 。 2. 使用 https://cursor.directory/generate ,根据项目重点直接生成。 设置好 Cursor Rules 后,就可以开始创作第一个小作品,比如一个打砖块的小游戏。首先在右侧对话框中输入本次项目的内容(可以非常口语化),使用 claude3.7 模型等待代码生成完毕。可以看到左侧文件夹生成多个文件,中间显示 AI 生成的不少代码,右边是 AI 告知的互动生成内容。点击右下方的 Accept all 使代码生效。若想查看项目效果,直接跟 AI 说“运行项目”,点击 AI 提示的 Run command 会跳转到预览页面。如果玩起来有问题(如操控感不好、不美观),可以让 AI 进一步帮助美化。 另外,在某些情况下,比如导入 cursor 时,需要上传到 github 并下载到本地,在设置里把 user rules 改成“always respond in 中文”,在 terminal 里输入“npm i”“npm run dev”等操作。
2025-03-31
coze开发硬件接入ai
如果您想开发硬件接入 Coze 智能体,以下是一些相关信息: 在服务器设置方面,对于 chatgptonwechat(简称 CoW)项目,可点击“Docker”中的“编排模板”中的“添加”按钮。备注说明版可借用“程序员安仔”封装的代码。将编译好的内容复制进来,在“容器编排”中“添加容器编排”,选择在“编排模板”里创建的“coze2openai”,若无法正常启动,可查看文档后面的“常见问题”。 关于计划,包括弄共学、做网页连接 Coze 等,涉及网页、小程序、App、桌面应用、浏览器插件等方面,还提到了硬件相关的工作安排。 在入门 Coze 工作流方面,首先要明确任务目标与执行形式,包括详细描述期望获得的输出内容(如文本、图像、音频等形式的数据,以及具体格式和结构、质量标准),预估任务的可行性,确定任务的执行形式。例如对于一篇文章,可参照特定框架进行微调,评估任务可行性,结合使用习惯确定预期的执行形式。
2025-03-27