Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

ai训练师和标注师的工作区别是什么

Answer

AI 训练师和标注师的工作存在以下区别:

  1. 工作重点:标注师主要负责编辑和扩大数据集,对数据进行标注和整理;而训练师在训练模型时涉及数据清洗、数据生成、对齐等操作,需要用到 Prompt 工程的地方较多。
  2. 技能要求:标注师侧重于对数据的准确理解和标注能力;训练师则需要具备更深入的技术知识,包括对模型训练原理和相关技术的掌握。
  3. 工作影响:标注师的工作直接影响数据集的质量和丰富度,为模型训练提供基础;训练师的工作决定了模型的训练效果和性能。
Content generated by AI large model, please carefully verify (powered by aily)

References

软件 2.0(Software 2.0)

对于神经网络而言,我们将搜索限制在程序空间的一个连续的子集上,并且,使用反向传播和随机梯度下降方法进行搜索,(出人意料地)这种搜索方式挺有效。更具体地对比,软件1.0是将人工设计的源码(比如cpp文件)编译为可以有效工作的二进制文件。而软件2.0的源码通常由两部分组成:1)定义了目标行为的数据集;2)给定代码大致结构,但是需要填充细节的神经网络结构。训练神经网络的过程,就是将数据集编译成二进制文件的过程——得到最终的神经网络。时至今日,大多数实际应用中,神经网络的结构及训练系统已经日益标准化为一种商品,所以,大部分活跃的“软件开发”工作某种形式上变成了组织、增加、调整和清理带标签的数据集。这从根本上改变了我们迭代软件的编程范式,将开发团队分成了两拨:软件2.0的程序员(数据标记员)负责编辑和扩大数据集,而另一小撮人,维护着与训练有关的基础设施以及分析、可视化和标注等接口。事实证明,对于真实世界中的很多问题,采集数据(更泛化地说,确定期待的行为)比显式地写程序要容易得多。由于以上以及以下我将要介绍的软件2.0的诸多好处,我们正在见证工业界大量代码从软件1.0迁移至软件2.0的重大转变。软件1.0吞噬着整个世界,软件2.0(AI)在吞噬软件1.0。

为了在医疗保健中产生真正的改变,AI 需要像我们一样学习

毫无疑问,AI将不可逆转地改变我们如何预防和治疗疾病。医生将把文档工作交给AI书记员;初级医疗服务提供者将依赖聊天机器人进行分诊;几乎无穷无尽的预测蛋白结构库将极大地加速药物开发。然而,为了真正改变这些领域,我们应该投资于创建一个模型生态系统——比如说,“专家” AI——它们像我们今天最优秀的医生和药物开发者那样学习。成为某个领域顶尖人才通常以多年的密集信息输入开始,通常是通过正规的学校教育,然后是某种形式的学徒实践;数年时间都致力于从该领域最出色的实践者那里学习,大多数情况下是面对面地学习。这是一个几乎不可替代的过程:例如,医学住院医生通过聆听和观察高水平的外科医生所获取的大部分信息,是任何教科书中都没有明确写出来的。通过学校教育和经验,获得有助于在复杂情况下确定最佳答案的直觉特别具有挑战性。这一点对于人工智能和人类都是如此,但对于AI来说,这个问题因其当前的学习方式以及技术人员当前对待这个机会和挑战的方式而变得更加严重。通过研究成千上万个标记过的数据点(“正确”和“错误”的例子)——当前的先进神经网络架构能够弄清楚什么使一个选择比另一个选择更好。我们应该通过使用彼此堆叠的模型来训练AI,而不是仅仅依靠大量的数据,并期望一个生成模型解决所有问题。例如,我们首先应该训练生物学的模型,然后是化学的模型,在这些基础上添加特定于医疗保健或药物设计的数据点。预医学生的目标是成为医生,但他们的课程从化学和生物学的基础开始,而不是诊断疾病的细微差别。如果没有这些基础课程,他们未来提供高质量医疗保健的能力将受到严重限制。同样,设计新疗法的科学家需要经历数年的化学和生物学学习,然后是博士研究,再然后是在经验丰富的药物设计师的指导下工作。这种学习方式可以帮助培养如何处理涉及细微差别的决策的直觉,特别是在分子层面,这些差别真的很重要。例如,雌激素和睾酮只有细微的差别,但它们对人类健康的影响截然不同。

刘海:Prompt 纵向研究的最新成果:伪代码提示词

Langchain等框架,Milvus、Pinecone等向量数据库,记忆存储,会话管理等等应用层建设…负责开发AI应用的后端部分的代码工程师,Prompt只是写的过程中顺便写的一个环节,好不好另外调,也可以包装出去给专门的写提示词做测试的同事(新时代“数据标记员”)去完善这块,毕竟需要不断迭代的活,在没有能够debug和控制变量的情况下,想要一下子得到好的结果,还是需要不断地迭代优化,会耽误开发进程吧,可以作为并行分支同步进行。[heading3]4、AI模型训练师[content]训练模型时涉及到数据清洗、数据生成、对齐等操作,需要用到Prompt工程的地方很多,这方面我了解不多,实操机会较少,未来有一定实操沉淀后再分享给大家。[heading3]5、AIGC产品经理[content]很多产品经理都会说,不懂技术老是被开发那边吐槽这个那个,这里的技术指的是前端设计,后端逻辑,数据库增删改查逻辑等等。那懂技术的产品经理,他就会把每个环节的前后端联调方案都写出来,开会决议等等,减少了很多这样的问题:“这个环节,后端实现起来难度怎么样?”同理,在做AIGC应用时,要验证用户的需求是否能够用AI解决,就离不开提示词设计的技能需要了,这还真不是你把提示词这块工作完全丢给“提示词工程师”就可以解决的,就好像你把后端相关内容你不考虑进去,直接把界面设计出来让后端自己去联想解决方案一样,最后就会导致大家步调不一致,重写。

Others are asking
有哪些直接可以操作电脑的AI
以下是一些可以直接操作电脑的 AI: XiaoHu.AI 能通过图形用户界面操作电脑,执行如订餐、网购、填写表单等复杂任务。其功能亮点包括视觉感知(解析屏幕像素数据,理解状态)、推理规划(通过“思维链”技术动态调整任务计划)、操作执行(使用虚拟鼠标键盘完成任务)。但当前仅对美国 Pro 用户开放测试,未来将扩展更多任务场景。相关链接:https://www.xiaohu.ai/c/xiaohuai/openail3operator 。 此外,还有一些能联网检索的 AI: ChatGPT Plus 用户现在可以开启 web browsing 功能,实现联网功能。 Perplexity 结合了 ChatGPT 式的问答和普通搜索引擎的功能,允许用户指定希望聊天机器人在制定响应时搜索的源类型。 Bing Copilot 作为一个 AI 助手,旨在简化您的在线查询和浏览活动。 还有如 You.com 和 Neeva AI 等搜索引擎,它们提供了基于人工智能的定制搜索体验,并保持用户数据的私密性。 需要注意的是,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-08
推荐些AI文章
以下是为您推荐的一些 AI 文章: 《》:推荐了适合新手使用的各类 AI 产品,包括聊天对话类、图像类、视频类、PPT 类、音频类和私人定制类,介绍了国内外的相关产品及特点。 《》:通过生动故事探讨自然语言处理(NLP)、自然语言理解(NLU)和自然语言生成(NLG)的概念起源和发展。 《》:设想未来 150 年内 AI 原住民与智能机器的共生关系。 《》:关于与 ChatGPT 共创的思考。 《》:揭秘背后团队的秘密。 《》:关于演示视频的思考。 《》:探讨教育在 AI 时代的困境和变革。 《介绍一种提升写作能力的方法》by 和菜头:介绍借助 AI 提升写作能力的方法,包括分析好文章、让 AI 点评自己的文章以及对作者进行心理侧写等。
2025-02-08
如何搭建基于微信的AI助手
搭建基于微信的 AI 助手可以参考以下两种方法: 方法一: 1. 搭建,用于汇聚整合多种大模型接口,方便后续更换使用各种大模型,同时会告知如何白嫖大模型接口。 2. 搭建,这是一个知识库问答系统,将知识文件放入其中,并接入上面的大模型作为分析知识库的大脑,最后回答问题。如果不想接入微信,到此搭建完成即可,它也有问答界面。 3. 搭建,其中的 cow 插件能进行文件总结、MJ 绘画等。 方法二: 1. 确定功能范围: 支持用户发送“关键字”,自助获取分享的“AI 相关资料链接”。 能回答 AI 相关知识,优先以“自己的知识库”中的内容回答,若知识库内容不足则调用 AI 大模型回复,并在答案末尾加上“更多 AI 相关信息,请链接作者:jinxia1859”。 “AI 前线”能发布在微信公众号上,作为微信客服助手。 2. 准备以下内容: 根据 Bot 的目的和核心能力编写 prompt 提示词。 整理“关键字”与“AI 相关资料链接”的对应关系,可用 word、txt、excel 整理。 创建自己的【知识库】用于回答 AI 相关知识。 创建【工作流】控制 AI 按要求处理信息。 准备好自己的微信公众号,以便发布机器人。 以上是搭建基于微信的 AI 助手的相关步骤和方法。
2025-02-08
ai 大模型的课程推荐
以下为您推荐两个关于 AI 大模型的课程: 1. 【包教包会】一条视频速通 AI 大模型原理_哔哩哔哩_bilibili (https://www.bilibili.com/video/BV17t4218761/?vd_source=3cc4af77a2ef185635e8097d3326c893) 介绍:由(https://space.bilibili.com/523995133)(女神)主讲,和某知识 up 主 Genji 一起制作的免费公益课。干货满满,新手友好,能带你 50 分钟速通 AI 大模型原理。 2. 用大模型保存你的全部人生,你会接受吗:专访安克创新 CEO 阳萌|大咖谈芯第 11 期_哔哩哔哩_bilibili (https://www.bilibili.com/video/BV1iT421Q7M1) 介绍:某知识 up 主老石谈芯专访安克创新 CEO 阳萌的视频,一共两期,此链接为第二期。两期内容都值得观看,访谈非常硬核。
2025-02-08
AI 课程推荐
以下是为新手推荐的 AI 课程学习路径: 1. 了解 AI 基本概念: 建议阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,您将找到一系列为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛(比如图像、音乐、视频等),您可以根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 为您推荐的一门超级棒的 AI 课是【野菩萨的 AIGC 资深课】,由工信部下属单位【人民邮电出版社】开设,是市面上为数不多的值得推荐的 AI 课程之一,也是全网技术更新最快的课程!课程内容涵盖 AI 绘画、视听语言和 ChatGPT 等多个体系的知识。无论您是 AI 初学者还是进阶者,这门课程都能满足您的学习需求。 这门课程的具体内容包括: 1. 预习周课程:包括 AI 绘画电脑配置要求、高效 AIGC 创意者的数字人工具包、SD 插件安装方法、画静为动的 AIGC 视频制作讲解等。 2. 基础操作课:涵盖 AI 绘画通识课、AI 摄影虚拟的真实、AI 电影 穿越的大门等内容。 3. 核心范式课程:涉及词汇的纸牌屋、核心范式应用、控制随机性等方面。 4. SD WebUi 体系课程:包括 SD 基础部署、SD 文生图、图生图、局部重绘等。 5. ChatGPT 体系课程:有 ChatGPT 基础、核心 文风、格式、思维模型等内容。 6. ComfyUI 与 AI 动画课程:包含部署和基本概念、基础工作流搭建、动画工作流搭建等。 7. 应对 SORA 的视听语言课程:涉及通识 欢迎参加电影的葬礼、影像赏析、基础戏剧影视文学等。 如果您想要免费获得这门课程,可以来参与 video battle,这是唯一一个获胜者就可以拥有课程的机会。每期的 video battle 的评委野菩萨老师都非常严格,需要寓意深度审美并存。 冠军奖励:4980 课程一份;亚军奖励:3980 课程一份;季军奖励:1980 课程一份;入围奖励:598 野神殿门票一张。 扫码添加菩萨老师助理,了解更多课程信息。让我们一起在“通往 AGI 之路”社区学习成长,探索 AI 的无限可能吧!
2025-02-08
ai爬虫
以下是关于 AI 爬虫的相关信息: Firecrawl Extract 是一款只需文字提示就能爬取任意网络数据的工具。它具有以下特点: 1. 通过自然语言提示,能轻松将网页内容转换为结构化数据,无需手动写脚本。 2. 支持复杂数据提取,例如联系人信息、任务描述、动态价格等。 3. 兼容多语言与国际网站,能够抓取 JavaScript 渲染的动态页面内容。 4. 提供 API 集成,支持大规模数据处理,可提取数千个结果,解决上下文限制问题。 相关链接: 另外,对于不会代码的人,也可以尝试使用 Python 和 AI 来完成爬虫应用。例如,可以让 ChatGPT 帮忙写抓取特定文章(如地址为 https://mp.weixin.qq.com/s/KUnXlDlgRs_6D5RFpQbnQ )正文内容的程序,然后在 Colab 里运行。
2025-02-08
数据标注这个行业前景如何
数据标注行业具有一定的前景,但也面临着一些变化和挑战。 从前景方面来看: 1. 数据质量成为提高模型性能的关键瓶颈,这使得数据标注的重要性日益凸显。 2. 多模态模型的发展需要更加细致和复杂的数据标注,为行业带来了更多需求。 3. 随着技术的进步,数据标注不再是简单的劳动力作业,而是向知识密集型转变,这要求从事标注的人员具备更高的专业水平和特定领域的知识,从而提升了行业的专业性和价值。 然而,也存在一些挑战: 1. 数据标注工作繁琐,数据清洗工作占据了大量时间。 2. 合成数据的使用虽然带来了便利,但也存在与真实数据分布不一致可能导致模型偏差等风险。 在数据标注的具体操作上,数据标注可以分为自动标注和手动标注。自动标注主要依赖像 BLIP 和 Waifu Diffusion 1.4 这样的模型,手动标注则依赖标注人员。例如使用 BLIP 自动标注 caption 时,需要进行一系列的操作和配置。
2025-02-05
在语音数据的标注中你有什么针对你行业(车载语音助手)的特殊标注规则
在车载语音助手这一行业的语音数据标注中,特殊标注规则如下: 1. 音素覆盖:在录音开始前构建基础的文本前端,具备简单的文本转音素(G2P)系统。录音文本要保持多样性,音素或音素组合尽可能覆盖全,统计音素序列中的 NGram,避免某些音素或组合出现频次过高或过少。 2. 场景定制:收集车载播报的常用话术、专业术语(如油量、胎压等)、音乐名或歌手名、地名和新闻播报。对业务有一定理解,并在一开始就和需求方紧密沟通。 3. 文本正确性:确保录音文本拼写无误,内容正确,删除脏话、不符合宗教信仰或政治不正确的语句。
2024-11-11
AI和人工标注相关
以下是关于 AI 和人工标注相关的内容: 在 Agent 相关比赛的赛道介绍中,涉及到多个与 AI 和人工标注相关的参考方向,包括: 1. 内容生成:AI 可自动编写文章并选择或生成相应图片。 2. 图像标注:AI 能识别和理解图片内容,并生成相应文字描述。 3. 图文匹配:为给定图片找到合适文字描述,或为给定文字找到匹配图片。 4. 数据可视化:将复杂数据用图表、信息图等方式可视化展示,使解读更直观简洁。 5. 设计辅助:例如生成 LOGO、海报设计等。 6. 自动化排版:根据文本内容与结构自动进行页面布局和美观排版。 7. 图文识别:借助 OCR 技术抓取图文内容后,AI 能够理解并处理。 8. 新闻和社交媒体:AI 可对大量新闻和社交媒体信息自动编辑和汇总,生成图文摘要。 9. 艺术创作:辅助绘画、音乐创作。 在 OpenAI O1 的训练中,可能采用的训练数据包括人工标注数据和合成数据。对于人工标注数据,会人工标注一批 COT 思考过程,形成<问题,思考过程(包括思考过程中出现的错误及错误修正过程),答案>,用这些数据 SFT 一下 o1 初始的模型,启动其输出模式。但人工标注存在难度大、成本高、可扩展性差的问题,优点是质量较高。之后可以采用合成数据的模式,如从人工标注的 COT 里截取片段,用 MCTS 树搜索方式补齐后续推理过程,或者对于有确定标准答案的逻辑问题,通过不断试错的模式搜索答案,这些正确或错误的答案都可用于训练 o1 模型。
2024-10-14
推荐分析PDF文档 提炼标注关键词的AI
以下是一些可以分析 PDF 文档、提炼标注关键词的 AI 产品或方法: 1. DeepL(网站):点击页面“翻译文件”按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部“更多”按钮,选择“制作双语 BPUB 电子书”、“翻译本地 PDF 文件”、“翻译 THML / TXT 文件”、“翻译本地字幕文件”。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件“Ebook Translator”。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译“Document”按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏“文件翻译”,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击“文档翻译”,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方“切换成电子书”,轻触屏幕唤出翻译按钮。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-09-14
数据标注与Ai的大模型是怎样的环节
在 AI 领域中,数据标注与大模型有着密切的关系。 对于大模型而言: 1. 数据清洗:在训练前对数据预处理,移除或修正有偏见、歧视等不道德内容的数据。 2. 算法设计:减少偏见和不公平性,平衡数据集中不同群体的代表性。 3. 道德和伦理准则:制定明确准则指导开发和使用。 4. 透明度:对模型能力和局限性保持透明,告知用户可能的偏差和不确定性。 5. 用户反馈:允许用户反馈以识别和纠正不道德行为。 6. 持续监控:监控模型表现,确保输出符合道德和伦理标准。 7. 人工干预:在可能涉及道德伦理问题时引入人工审核和干预。 8. 教育和培训:对使用人员进行道德伦理方面的教育和培训。 在数据标注方面: 1. 数据清洗工作占据 AIGC 时代模型训练 70%80%的时间,必不可少,因为数据质量决定机器学习的上限。 2. 需筛除分辨率低、质量差、存在破损及与任务目标无关的数据,去除可能包含的水印、干扰文字等。 3. 数据标注分为自动标注和手动标注,自动标注主要依赖像 BLIP 和 Waifu Diffusion 1.4 这样的模型,手动标注依赖标注人员。例如使用 BLIP 可对数据进行自动标注 caption。 然而,在中国的 AI 创业生态中,存在一些问题: 1. 高质量的数据处理服务稀缺。 2. 数据获取门槛低,但高质量数据获取困难,中文互联网数据质量相对较低。 总之,确保 AI 大模型的道德和伦理性以及获取高质量的数据标注是复杂且持续的挑战。
2024-09-12
数据标注会涉及哪些方面?以及现在哪些类型、行业的数据更需要标注?
数据标注涉及以下方面: 1. 从量到质的转变:早期大模型训练侧重依靠大量算力和大规模数据集提升性能,如今数据质量成为提高模型性能的关键瓶颈,更需注重提高数据质量和相关性。 2. 向知识密集型转变:多模态模型需处理多种类型数据,如文本、图像、声音等,这使数据标注过程更细致复杂,需要更高水平的理解和分析能力,不再是简单的劳动力作业。 3. 对标注方式的理解:大模型的数据标注不仅关注清晰的行业术语,还需要能被模型理解的标注方式,可能涉及更多上下文的理解和语义分析。 4. 对业务的理解:目前数据服务依赖于标注员对业务的理解,通用型数据需求减少,更多是公司内部独有的数据内容和词语,能承接大模型数据标注的服务商不多。 现在更需要标注的数据类型和行业包括: 1. 多模态模型相关的数据,如同时包含文本、图像、声音等多种类型的数据。 2. 公司内部独有的、与特定业务相关的数据。 在数据标注过程中,还需注意数据隐私与安全问题,如数据加密与计算效率的权衡等。
2024-09-12
AI怎么训练
AI 的训练是指通过大数据训练出一个复杂的神经网络模型。具体来说: 1. 收集海量数据:如同教孩子成为博学多才的人需要让其阅读大量书籍等,对于 AI 模型,要收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。 2. 预处理数据:像为孩子整理适合其年龄和学习能力的资料一样,AI 研究人员需要清理和组织收集到的数据,如删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段。 3. 设计模型架构:为孩子设计学习计划类似,研究人员要设计 AI 模型的“大脑”结构,通常是一个复杂的神经网络,如 Transformer 架构,其擅长处理序列数据(如文本)。 4. 进行训练:如同孩子开始阅读和学习,AI 模型开始“阅读”提供的所有数据,这个过程被称为“训练”。例如,模型会反复阅读数据,尝试预测句子中的下一个词,通过不断重复这个过程,逐渐学会理解和生成人类语言。 此外,为了在医疗保健中让 AI 产生真正的改变,应投资创建像优秀医生和药物开发者那样学习的模型生态系统。成为顶尖人才通常从多年密集信息输入和正规学校教育开始,再到学徒实践。对于 AI 来说,当前学习方式及技术人员对待方式使问题更严重,应通过堆叠模型训练,而非仅依靠大量数据和生成模型。就像预医学生从基础课程学起,设计新疗法的科学家需多年学习后在指导下工作,这种方式有助于培养处理细微差别决策的直觉。 同时,机器学习是人工智能的一个分支,是实现人工智能的途径之一,涉及多领域学科。自然语言处理是人工智能和语言学领域的分支学科,包括认知、理解、生成等部分。推理是指利用训练好的模型,使用新数据推理出各种结论。
2025-02-08
我想用自己训练的卡通形象lora生成一张元宵节放孔明灯的海报,应该怎么制作
以下是用自己训练的卡通形象 lora 生成元宵节放孔明灯海报的制作方法: 1. 关键词: 模型:dreamshaper_8 正关键词:,white,white_background,CGposterrender bsw <lora:电商新年海报 2024_v1.0:0.4>,gold,<lora:新年红包封面_v1.0:0.6>,new year,<lora:gcbottle:0.3> 中文的关键词:(杰作,高分辨率,高品质,高分辨率)中国建筑,红色主题,剪纸,中国结,纸灯笼,中国图案,金色,中国元素,红色背景 2. ControlNet 设置: 预处理器:depth_leres 模型:control_v11f1p_sd15_depth 权重:0.75 预处理器:softedge_pidinet 模型:control_v11p_sd15_softedge 权重:0.3 3. lora 资源: https://www.liblib.ai/modelinfo/bddf824e232f4124991c05a26027504d https://www.liblib.ai/modelinfo/983703dd48134e43983b84abfcb44308 第三个东方瓷器 lora 已经下架(请至 AGI 之路百度云下载) 链接:https://pan.baidu.com/s/10hYM8i2y2Li9OlT2oD1qOQ 密码:asub 您可以参考以上步骤进行制作,同时您还可以访问以下链接获取更多相关信息: 作者小红书:https://www.xiaohongshu.com/user/profile/5cfd0e600000000016029764?wechatWid=803c253b00ed4224d3a2adcd80b46ed7&wechatOrigin=menu 通往 AGI 之路小红书教程:http://xhslink.com/OOeHsy AI 春晚阶段性纪实:https://waytoagi.feishu.cn/wiki/MI0UwhfXJiRH9ak4dwxcwqPVnIh
2025-02-08
本地部署语言大模型后进行知识库训练
以下是关于本地部署语言大模型后进行知识库训练的详细步骤: 1. 部署大语言模型: 下载并安装 Ollama:根据您的电脑系统,从 https://ollama.com/download 下载,双击打开后点击“Install”。安装完成后,将下方地址复制进浏览器中确认:http://127.0.0.1:11434/ 。 下载 qwen2:0.5b 模型(若设备充足,可下载更大的模型): 如果是 Windows 电脑,点击 win+R,输入 cmd 后点击回车。 如果是 Mac 电脑,按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。 复制相关命令行并粘贴进入,回车后等待自动下载完成。(若下载久了卡顿,可鼠标点击窗口并按空格键刷新) 2. 了解 RAG 技术:利用大模型的能力搭建知识库是 RAG 技术的应用。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给 LLM。RAG 应用可抽象为 5 个过程: 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器,包括 PDF 在内的非结构化的数据、SQL 在内的结构化的数据,以及 Python、Java 之类的代码等。 文本分割:文本分割器把 Documents 切分为指定大小的块。 存储:包括将切分好的文档块进行嵌入转换成向量的形式,以及将 Embedding 后的向量数据存储到向量数据库。 检索:通过某种检索算法找到与输入问题相似的嵌入片。 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示生成更合理的答案。 3. 本地知识库进阶: 安装 AnythingLLM:安装地址为 https://useanything.com/download 。安装完成后进入配置页面,主要分为三步:选择大模型、选择文本嵌入模型、选择向量数据库。 构建本地知识库:AnythingLLM 中有 Workspace 的概念,可创建自己独有的 Workspace 与其他项目数据隔离。首先创建一个工作空间,然后上传文档并在工作空间中进行文本嵌入,选择对话模式(包括 Chat 模式和 Query 模式),最后进行测试对话。
2025-02-08
训练数字人
以下是关于训练数字人的相关内容: 工作流: 1. 先用 Stable different 生成自己脸部的 Lora,然后生成各种不同风格的图片,并进行配音。 2. 在 heygen 里面让图片口型和配音对上。 第一步:拍摄训练的图片。 第二步:使用 EasyPhoto 开始训练,等待显示 The training has been completed 表示完成。 第三步:训练好的 lora 用来推理,注意推理使用的底图尽量和自己外形相似,尤其是发型。 在剪映中生成数字人的方法: 1. 在剪映右侧窗口顶部打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后可根据声音判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,左下角会提示渲染完成时间,完成后可点击预览查看效果。 2. 增加背景图片:删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”本地图片,将图片添加到视频轨道上,可通过拖拽轨道右侧竖线使其与视频对齐,选中轨道后可调整背景图大小和数字人的位置。 构建高质量 AI 数字人: 参考“真正的人”,赋予数字人躯壳和灵魂。数字人的躯壳要有好看的皮囊,能进行可视化、带有神态动作的动态互动;数字人的灵魂要具备一定智能水平,能理解交互对象信息并给予有效、符合预期的回应。
2025-02-08
垂直领域大模型训练指南
以下是一份垂直领域大模型训练指南: 一、大模型入门 通俗来讲,大模型就是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。 大模型的训练和使用过程可以用“上学参加工作”来类比: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:即用合适的算法讲述“书本”中的内容,让大模型更好理解 Token 之间的关系。 4. 就业指导:为了让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 在 LLM 中,Token 被视为模型处理和生成的文本单位,可以代表单个字符、单词、子单词等,具体取决于所使用的分词方法。在将输入进行分词时,会对其进行数字化,形成一个词汇表。 二、LLM 开源中文大语言模型及数据集集合 1. 医疗领域 XrayGLM:首个会看胸部 X 光片的中文多模态医学大模型。 地址: 简介:该项目发布了 XrayGLM 数据集及模型,在医学影像诊断和多轮交互对话上显示出非凡潜力。 MeChat:中文心理健康支持对话大模型。 地址: 简介:该项目开源的中文心理健康支持通用模型由 ChatGLM6B LoRA 16bit 指令微调得到,数据集通过调用 gpt3.5turbo API 扩展真实的心理互助 QA 为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。 MedicalGPT 地址: 简介:训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗 LoRA 模型 shibing624/ziyallama13bmedicallora,基于 ZiyaLLaMA13Bv1 模型,SFT 微调了一版医疗模型,医疗问答效果有提升,发布微调后的 LoRA 权重。 三、100 基础训练大模型 步骤三·Lora 生图: 1. 点击预览模型中间的生图会自动跳转到相应页面。 2. 模型上的数字代表模型强度,可在 0.6 1.0 之间调节,默认为 0.8。 3. 可以自己添加 lora 文件,点击后会显示训练过的所有 lora 的所有轮次。 4. VAE 不需要替换。 5. 正向提示词输入所写的提示词,可以选择基于这个提示词一次性生成几张图。 6. 选择生成图片的尺寸,包括横板、竖版、正方形。 7. 采样器和调度器新手小白可以默认不换。 8. 迭代步数可以按照需求在 20 30 之间调整。 9. CFG 可以按照需求在 3.5 7.5 之间调整。 10. 随机种子 1 代表随机生成图。 11. 所有设置都完成后,点击开始生成,生成的图会显示在右侧。 12. 如果有某次生成结果不错,想要微调或者高分辨率修复,可以点开那张图,往下滑,划到随机种子,复制下来,粘贴到随机种子这里,下次生成的图就会和这次的结果近似。 13. 如果确认了一张很合适的种子和参数,想要高清放大,则点开高清修复,可以选择放大的倍数。新手小白可以默认算法,迭代步数建议在 20 30 之间,重回幅度根据需求在 0.3 0.7 之间调整。 今日作业:按照比赛要求,收集六个主题中一个主题的素材并且训练出 lora 模型后提交 lora 模型与案例图像。 提交链接:https://waytoagi.feishu.cn/share/base/form/shrcnpJAtTjID7cIcNsWB79XMEd
2025-02-07
我们是做小红书笔记的,目前有没有哪个软件可以把我们上千篇以往人工写的笔记,投喂给它,训练出一个能按照以往风格来写笔记的呢?比如扣子或者钉钉,可以吗
目前市面上常见的软件中,豆包暂时未获取到扣子或钉钉有此功能的相关信息。不过,像一些专门的自然语言处理和机器学习平台,如 OpenAI 的 GPT 系列、百度的文心一言等,在一定的技术支持和合规操作下,有可能实现您的需求。但需要注意的是,将大量以往的笔记用于训练模型可能涉及到数据隐私和版权等问题,需要谨慎处理。
2025-02-07
comfy ui 和 web ui是什么关系?有什么区别?
ComfyUI 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI。 它们的关系是:ComfyUI 可以和 WebUI 共享环境和模型。 区别主要包括以下方面: 操作方面:ComfyUI 操作门槛高,需要有清晰的逻辑;WebUI 相对操作更简便。 性能方面:ComfyUI 对显存要求相对较低,启动速度快,出图速度快;系统资源占用更少。 自由度方面:ComfyUI 具有更高的生成自由度。 生态方面:WebUI 的生态比 ComfyUI 更多,但 ComfyUI 也有针对其开发的有趣插件。 种子处理和提示词权重处理:处理方式不同,会导致图像不同。例如种子处理,ComfyUI 通过 GPU 计算种子噪声,WebUI 通过 CPU。 硬件配置方面:ComfyUI 配置更低,最低可在小于 3G 的 GPU 上运行,甚至没有 GPU 光用 CPU 也可以运行,但速度极慢。而 SDXL 出来后,ComfyUI 运行配置提高,最低需要 8GB 显存+32GB 运行内存,12GB 流畅运行,推荐 16GB 以上。玩 SDwebui 和 ComfyUI 建议使用 6GB 以上的显存的 NVIDIA 显卡,内存在 16G 以上。硬盘最好使用 SSD 以提高加载模型速度。
2025-02-08
comfy UI和stable diffusion有什么区别?它们的关系是什么?
ComfyUI 和 Stable Diffusion 的区别及关系如下: ComfyUI 是一个基于节点流程式的 Stable Diffusion AI 绘图工具 WebUI。 区别: 优势: 对显存要求相对较低,启动速度快,出图速度快。 具有更高的生成自由度。 可以和 WebUI 共享环境和模型。 可以搭建自己的工作流程,可以导出流程并分享给别人,报错的时候也能清晰的发现错误出在哪一步。 生成的图片拖进后会还原整个工作流程,模型也会选择好。 劣势:操作门槛高,需要有清晰的逻辑;生态没有 WebUI 多(常用的都有),也有一些针对 ComfyUI 开发的有趣插件。 关系:ComfyUI 集成了 Stable Diffusion 的功能,通过将 Stable Diffusion 的流程拆分成节点,实现了更加精准的工作流定制和完善的可复现性。 在从 WebUI 到 ComfyUI 过渡时,需要了解采样器与调度器。简单理解为:采样器负责生成图像,而调度器负责控制噪声减少的速度。可以将 Stable Diffusion 模型中的采样器和调度器理解为一个加噪和去噪的过程。在这个过程中,采样器负责向图像添加噪声,而调度器则负责控制去噪的速度。 Stable Diffusion 是一种扩散模型的变体,叫做“潜在扩散模型”。它最初称为潜在扩散模型,CLIP 将用户输入的 Prompt 文本转化成 text embedding,核心组件包括 VAE EncoderDecoder、UNET 等。ComfyUI 的存放路径为 models/checkpoints/,Stable Diffusion 有不同的模型实例,如 SD1.5、SDXL 等,还有不同的训练方法和模型格式。
2025-02-08
为什么要用智能体 提示词和提问题什么区别
智能体的使用具有重要意义,写好提示词是创建智能体的第一步。设计提示词有多种原则和模型,如 CRISPE 框架,其中包括能力与角色(CR)、洞察(I)、陈述(S)、个性(P)、实验(E)等方面,明确希望 AI 扮演的角色、具备的背景信息、要做的事、回答风格以及提供多个答案等。FewShot COT 模型通过加入示例能有更好效果,可提供 1 到多个样本;ZeroShot COT 模型则不增加示例样本。TOT 模型先分步骤,每个步骤产生多个结果并选择,再进行下一步。SelfConsistent COT 模型则注重一个问题的多种解法。 从使用角度看,提示词可分为任务型和拟人化型。任务型提示词高度专业化、流程清晰,遵循严格工作逻辑,专注完成特定任务或解决问题;拟人化提示词模拟人类交互方式,用于陪伴聊天等,需要更细致全面的设计以呈现丰富个性和背景。 在生成式人工智能模型中,提示词是用户输入用于引导模型产生期望输出的文本,可简单可复杂,包含指令、问题、输入数据和示例等,为得到期望回应,通常必须包含指令或问题,其他元素可选。在 LLM 中,基本提示词可直接提问或提供特定任务指令,高级提示词则有更复杂结构,如思维链提示词引导模型逻辑推理得出答案。 提示词和提问题的区别在于,提示词不仅包含问题,还可能包含指令、输入数据和示例等,以更全面地引导模型产生期望的输出。而提问题相对较为简单直接,侧重于获取答案。
2025-02-07
deepseek与其他大模型有什么区别
DeepSeek 与其他大模型的区别主要体现在以下几个方面: 1. 模型类型:DeepSeek 是推理型大模型,与指令型大模型不同,不需要用户提供详细步骤指令,而是通过理解用户真实需求和场景提供答案。 2. 语言理解:能够理解用户用“人话”表达的需求,不需要用户学习和使用特定提示词模板。 3. 思考深度:在回答问题时能够进行深度思考,而非简单罗列信息。 4. 文风转换:可以模仿不同作家的文风进行写作,适用于多种文体和场景。 5. 技术路线:DeepSeek R1 与 OpenAI 现在最先进的模型 o1、o3 同属于基于强化学习 RL 的推理模型,在回答用户问题前会先进行“自问自答”式的推理思考,提升最终回答质量。 6. 发展路径:从一开始,DeepSeek 与国内诸多大模型新秀选择的不是同一个战场。它不拿融资,不抢座次,不比国内舆论声势,不搞产品投放投流,而是选择走全球开源社区,分享直接的模型、研究方法和成果,吸引反馈,再迭代优化。开源彻底,包括模型权重、数据集、预训练方法和高质量论文。
2025-02-07
ai本地部署对比网页版区别在哪
AI 本地部署和网页版主要有以下区别: 1. 出图速度:网页版出图速度快,本地部署可能相对较慢。 2. 硬件配置要求:网页版不吃本地显卡配置,本地部署对电脑配置要求较高,配置不高可能出现生成半天后爆显存导致出图失败的情况。 3. 出图质量:本地部署出图质量通常高于网页版。 4. 功能扩展性:本地部署可以自己添加插件,网页版功能相对固定。 5. 算力限制:网页版为节约算力成本,通常只支持出最高 1024×1024 左右的图,制作横板、高清等图片受限;本地部署算力限制较小。 6. 电脑使用状态:本地部署使用期间电脑基本处于宕机状态,网页版则无此问题。 例如,在图像生成方面,线上的优势在于找参考、测试模型,线下则是主要的出图工具。一些在线体验平台如哩布哩布 AI 每天有一百次生成次数,集成了最新模型;Clipdrop 每天免费 400 张图片,需排队,出图约需二三十秒。
2025-02-05
豆包和coze有什么区别
Dify 和 Coze 都是大模型中间层产品,有以下主要异同点: 开源性: Dify 是开源的,允许开发者自由访问和修改代码以定制,由专业团队和社区共同打造。 Coze 由字节跳动推出,目前未明确是否开源,可能更侧重商业化服务和产品。 功能和定制能力: Dify 提供直观界面,结合多种功能,支持基于任何 LLM 部署 API 和服务。 Coze 有丰富插件能力和高效搭建效率,支持发布到多个平台作为 Bot 能力使用。 社区和支持: Dify 作为开源项目有活跃社区,开发者可参与共创共建。 Coze 可能更多依赖官方更新和支持,社区参与和开源协作程度可能不如 Dify。 豆包和 Coze 的区别在于: 豆包主要是大模型交互,功能相对默认。 Coze 不用魔法,上手简单,更新快,插件多。在模型选择方面,GLM 模型和 MoonShot 模型对结构化提示词理解良好,适合处理精确输入输出任务;豆包系列模型在角色扮演和工具调用方面有优势,能识别用户意图并选择合适工具或服务。将这三种模型结合在工作流或多 Agent 中可实现优势互补。
2025-01-25