Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

语料库训练相关文档

Answer

以下是为您提供的语料库训练相关文档:

中文数据集 |ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注| |-|-|-|-|-|-|-|-|-|-| |6|CLUE Fine-Grain NER|2020 年|CLUE||CLUENER2020 数据集,是在清华大学开源的文本分类数据集 THUCTC 基础上,选出部分数据进行细粒度命名实体标注,原数据来源于 Sina News RSS。数据包含 10 个标签类别,训练集共有 10748 条语料,验证集共有 1343 条语料|细粒度;CULE|命名实体识别|\|中文| |7|CoNLL-2003|2003|CNTS-Language Technology Group||数据来源于 CoNLL-2003 的任务,该数据标注了包括 PER,LOC,ORG 和 MISC 的四个类别|CoNLL-2003|命名实体识别|论文|英文| |8|微博实体识别|2015 年|https://github.com/hltcoe/golden-horse|||EMNLP-2015|命名实体识别||| |9|SIGHAN Bakeoff 2005|2005 年|MSR/PKU|||bakeoff-2005|命名实体识别|||

TTS 超全教程 - 音库制作和文本前端 音库制作 音频录制 音频的录制对合成语音的表现较为重要,较差的语音甚至会导致端到端声学模型无法正常收敛。用于训练的录音至少要保证录音环境和设备始终保持一致,无混响、背景噪音;原始录音不可截幅;如果希望合成出来的语音干净,则要删除含口水音、呼吸音、杂音、模糊等,但对于目前的端到端合成模型,有时会学习到在合适的位置合成呼吸音、口水音,反而会增加语音自然度。录音尽可能不要事先处理,语速的调节尚可,但调节音效等有时会造成奇怪的问题,甚至导致声学模型无法收敛。音频的录制可以参考录音公司的标准,购买专业麦克风,并保持录音环境安静即可。在音库录制过程中,可尽早提前尝试声学模型,比如音库录制 2 个小时语音后,就可尝试训练基线语音合成系统,以防止录音不符合最终的需求。

语料整理 检查文本和录制的语音是否一一对应,录制的音频本身一句话是否能量渐弱,参与训练的语音前后静音段要保持一致,能量要进行规范化。可使用预训练的语音活动检测(Voice Activity Detection,VAD)工具,或者直接根据语音起止的电平值确定前后静音段。可以使用一些开源的工具,比如pyloudnorm统一所有语音的整体能量,这将有助于声学模型的收敛。当然,在声学模型模型训练时,首先就要对所有语料计算均值方差,进行统一的规范化,但是这里最好实现统一能量水平,防止一句话前后能量不一致。能量规整的示例代码如下。

Content generated by AI large model, please carefully verify (powered by aily)

References

中文数据集

NER|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||6|[CLUE Fine-Grain NER](https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip)|2020年|CLUE||CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料|细粒度;CULE|命名实体识别|\|中文||7|[CoNLL-2003](https://www.clips.uantwerpen.be/conll2003/ner/)|2003|CNTS-Language Technology Group||数据来源于CoNLL-2003的任务,该数据标注了包括PER,LOC,ORG和MISC的四个类别|CoNLL-2003|命名实体识别|[论文](https://www.aclweb.org/anthology/W03-0419.pdf)|英文||8|[微博实体识别](https://github.com/hltcoe/golden-horse)|2015年|[https://github.com/hltcoe/golden-horse](https://github.com/hltcoe/golden-horse)|||EMNLP-2015|命名实体识别||||9|[SIGHAN Bakeoff 2005](http://sighan.cs.uchicago.edu/bakeoff2005/)|2005年|MSR/PKU|||bakeoff-2005|命名实体识别|||

TTS超全教程

音频的录制对合成语音的表现较为重要,较差的语音甚至会导致端到端声学模型无法正常收敛。用于训练的录音至少要保证录音环境和设备始终保持一致,无混响、背景噪音;原始录音不可截幅;如果希望合成出来的语音干净,则要删除含口水音、呼吸音、杂音、模糊等,但对于目前的端到端合成模型,有时会学习到在合适的位置合成呼吸音、口水音,反而会增加语音自然度。录音尽可能不要事先处理,语速的调节尚可,但调节音效等有时会造成奇怪的问题,甚至导致声学模型无法收敛。音频的录制可以参考录音公司的标准,购买专业麦克风,并保持录音环境安静即可。在音库录制过程中,可尽早提前尝试声学模型,比如音库录制2个小时语音后,就可尝试训练基线语音合成系统,以防止录音不符合最终的需求。[heading3]语料整理[content]检查文本和录制的语音是否一一对应,录制的音频本身一句话是否能量渐弱,参与训练的语音前后静音段要保持一致,能量要进行规范化。可使用预训练的语音活动检测(Voice Activity Detection,VAD)工具,或者直接根据语音起止的电平值确定前后静音段。可以使用一些开源的工具,比如[pyloudnorm](https://github.com/csteinmetz1/pyloudnorm)统一所有语音的整体能量,这将有助于声学模型的收敛。当然,在声学模型模型训练时,首先就要对所有语料计算均值方差,进行统一的规范化,但是这里最好实现统一能量水平,防止一句话前后能量不一致。能量规整的示例代码如下。

Others are asking
怎么投喂语料库给ai
以下是关于投喂语料库给 AI 的一些方法和步骤: 在音乐学习方面: 1. 步骤 3:把 Midi 导出到 MP3 虚拟演奏文件。可以直接导总谱,也可以分轨导出(适用于不同乐器组合)。由于制谱软件有很重的 midi 味,有时需要调整乐器音色。320kbit 码率是各大音乐平台的门槛,而向 Suno 导出的是 192k 的,后期如果想输出到 QQ 音乐之类,需要转个码。导出以后就可以喂给 AI 了。修改音色这一步不是必须,也有很多染色的软件可以用,比如用 Neutron4 从 Youtube 上面下载一些自己喜欢的乐器音色(比如雅马哈大钢琴),然后用宿主软件打开插件,导入这段音频,就可以实现渲染。 2. 步骤 4:丢给 AI 做二次创作。比较喜欢丢完整的小节给 AI,这样节奏的识别性更好,当然也可以在中间掐断,AI 的识别能力还是不错的。接下来就是细化去 roll 后面的部分,大家可以自由发挥。 在 OpenAI 方面: 如果作为输入的一部分提供,模型可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如,如果用户询问有关特定电影的问题,将有关电影的高质量信息(例如演员、导演等)添加到模型的输入中可能会很有用。嵌入可用于实现高效的知识检索,以便在运行时将相关信息动态添加到模型输入中。文本嵌入是一个向量,可以衡量文本字符串之间的相关性。相似或相关的字符串将比不相关的字符串靠得更近。这一事实以及快速向量搜索算法的存在意味着嵌入可用于实现高效的知识检索。特别是,一个文本语料库可以被分割成块,每个块都可以被嵌入和存储。然后,给定的查询可以被嵌入,可以进行向量搜索,以找到与查询最相关的语料库的嵌入文本块(即,在嵌入空间中最接近的)。可以在中找到示例实现。有关如何使用知识检索来最小化模型编造错误事实的可能性的示例,请参阅策略“指示模型使用检索到的知识来回答查询”。
2024-12-30
哪款AI 工具可以梳理文档知识形成知识库
以下是一些可以梳理文档知识形成知识库的 AI 工具: 1. Cursor:对于非开发性质的问答,它是一个天然的 RAG 引擎。能针对大的代码库精准找到相关函数,并利用其信息撰写代码。在问答窗口使用 Command 加回车发出问题时,会先在当前文件夹下搜索并显示相关文档和相关度,最后用这些信息构建提示词完成生成。对于非开发任务,也能与私有文档结合问答,并将新生成的 insights 沉淀成新文档,形成知识闭环,提升知识管理效率。 2. 百炼:通过以下步骤为 AI 助手增加私有知识形成知识库: 上传文件:在百炼控制台的中的非结构化数据页签中点击导入数据,根据引导上传虚构的产品介绍。 建立索引:进入,创建新的知识库并选择上传的文件,其他参数保持默认。 引用知识:完成知识库创建后,在中设置,打开知识检索增强开关、选择目标知识库,测试验证符合预期后点击发布。 3. kimichat:可以让 AI 拆解书籍的章节并按照 markdown 产出内容,然后将内容复制到在线思维导图 Markmap 中,一键生成思维导图,并可自定义微调内容及免费导出图片。
2025-01-04
如何用AI梳理文档知识
以下是关于如何用 AI 梳理文档知识的一些方法和步骤: 使用 Kimi 梳理文档: Kimi 是月之暗面公司推出的类似 ChatGPT 的大模型聊天机器人,支持超长上下文,能输入长达 20 万字。 可以让 Kimi 梳理全书,与目录对照,脉络会更清晰。 能要求 Kimi 更细致地梳理,虽然目前不能生成思维导图,但可借助 MarkMap 获得。 针对具体章节或知识点,可让 Kimi 展开讲解,还能让其给出例子和代码。 可以让 Kimi 出题测试对知识点的掌握程度。 在网站上增加 AI 助手梳理文档: 上传文件:在百炼控制台的中的非结构化数据页签中点击导入数据,根据引导上传相关文档。 建立索引:进入,创建新的知识库并选择上传的文件,其他参数保持默认。 引用知识:完成知识库创建后,在中进行相关设置,打开知识检索增强开关、选择目标知识库,测试验证符合预期后点击发布。 AI 梳理文档的检索原理: 信息筛选与确认:对检索器提供的信息进行评估,筛选出最相关和最可信的内容,验证信息的来源、时效性和相关性。 消除冗余:识别和去除多个文档或数据源中的重复信息。 关系映射:分析不同信息片段之间的逻辑和事实关系。 上下文构建:将筛选和结构化的信息组织成连贯的上下文环境,包括排序、归类和整合。 语义融合:合并意义相近但表达不同的信息片段。 预备生成阶段:将整合好的上下文信息编码成适合生成器处理的格式。 大模型生成回答:大语言模型根据提供的信息来回答问题。
2025-01-04
有没有可以帮我翻译万字中文文档为英文的工具
以下是一些可以帮助您翻译万字中文文档为英文的工具和方法: 1. 利用 ChatGPT:先将中文内容以流水账式记叙文写出来,然后把中文丢进 ChatGPT,并给出指令让其翻译成英文。 2. DeepL(网站): 点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 3. 沉浸式翻译(浏览器插件): 安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 4. calibre(电子书管理应用): 下载并安装 calibre,并安装翻译插件「Ebook Translator」。 5. 谷歌翻译(网页): 使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 6. 百度翻译(网页): 点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 7. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、PDF、Word、Excel、PPT、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 8. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 9. 浏览器自带的翻译功能:如果一些 PDF 太大,翻译工具不支持,除了将 PDF 压缩或者切分外,还可以转成 HTML 格式,然后使用浏览器自带的网页翻译功能。
2024-12-31
有能帮我美化word文档的AI吗
以下是一些能够帮助美化 Word 文档的 AI 工具: 1. Wordvice AI:集校对、改写转述和翻译等功能于一体,基于大型语言模型提供全面的英文论文润色服务。 2. ChatGPT:由 OpenAI 开发的大型语言模型,可用于学生和写作人员的多方面写作辅助。 3. Quillbot:人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 4. HyperWrite:基于 AI 的写作助手和大纲生成器,可帮助用户在写作前进行头脑风暴和大纲规划。 5. Wordtune:AI 驱动的文本改写和润色工具,可以帮助用户优化文章的语言表达。 6. Smodin:提供 AI 驱动的论文撰写功能,可以根据输入生成符合要求的学术论文。 此外,还有一些 AI 文章排版工具可供选择: 1. Grammarly:不仅是语法和拼写检查工具,还提供排版功能,可改进文档整体风格和流畅性。 2. QuillBot:AI 驱动的写作和排版工具,能改进文本清晰度和流畅性,并保持原意。 3. Latex:虽不是纯粹的 AI 工具,但在学术论文排版中广泛使用,使用标记语言描述文档格式,有许多 AI 辅助的编辑器和插件可简化排版过程。 4. PandaDoc:文档自动化平台,使用 AI 帮助创建、格式化和自动化文档生成,适合商业和技术文档。 5. Wordtune:AI 写作助手,可重新表述和改进文本,使其更清晰专业,同时保持原始意图。 6. Overleaf:在线 Latex 编辑器,提供丰富模板和协作工具,适合学术写作和排版。 选择合适的工具取决于您的具体需求,如文档类型、出版标准和个人偏好。对于学术论文,Latex 和 Overleaf 是受欢迎的选择;对于一般文章和商业文档,Grammarly 和 PandaDoc 等工具可能更适用。 另外,在使用 AI 进行写作打磨文章时,您可以先拆解流程,再引入 AI 工具。例如,对于 Claude 3.5,登录后先根据相关设置打开 Artifacts 功能。您可以用其润色词句、打磨优化文章,注意在同一聊天窗口操作,同时根据自身情况修改提示词。
2024-12-30
以下是大致可以采用的步骤来实现这样一个能自动在大语言模型网站生成不同场景机器人图片的程序(以下以Python语言示例,不过不同平台具体实现会有差异且需遵循对应网站的使用规则和接口规范): ### 1. 选择合适的大语言模型网站及确认其API(应用程序编程接口)情况 不同大语言模型网站对于图片生成通常会提供相应的API来允许外部程序与之交互,比如部分知名的AI绘画相关平台。你需要先确定要使用哪些网站,然后去注册开发者账号等,获取对应的API Key以及详细的API文档,了解如何通过代码向其发起图
以下是为您整合的相关内容: Ollama 框架: 1. 支持多种大型语言模型,如通义千问、Llama 2、Mistral 和 Gemma 等,适用于不同应用场景。 2. 易于使用,适用于 macOS、Windows 和 Linux 系统,支持 cpu 和 gpu,用户能轻松在本地环境启动和运行大模型。 3. 提供模型库,用户可从中下载不同模型,这些模型有不同参数和大小以满足不同需求和硬件条件,可通过 https://ollama.com/library 查找。 4. 支持用户自定义模型,例如修改模型的温度参数来调整创造性和连贯性,或者设置特定的系统消息。 5. 提供 REST API 用于运行和管理模型,以及与其他应用程序的集成选项。 6. 社区贡献丰富,包括多种集成插件和界面,如 Web 和桌面应用、Telegram 机器人、Obsidian 插件等。 7. 安装:访问 https://ollama.com/download/ 进行下载安装。安装完后,确保 ollama 后台服务已启动(在 mac 上启动 ollama 应用程序,在 linux 上通过 ollama serve 启动),可通过 ollama list 确认。 基于 COW 框架的 ChatBot 实现步骤: 1. COW 是基于大模型搭建的 Chat 机器人框架,将多模型塞进自己的微信里实现方案。 2. 基于张梦飞同学的教程: 。 3. 实现内容: 打造属于自己的 ChatBot(文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等)。 常用开源插件的安装应用。 4. 正式开始前需知: ChatBot 相较于在各大模型网页端使用区别:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项: 微信端因非常规使用,有封号危险,不建议主力微信号接入。 只探讨操作步骤,请依法合规使用。 大模型生成的内容注意甄别,确保所有操作均符合相关法律法规要求。 禁止用于任何非法目的。 处理敏感或个人隐私数据时注意脱敏,以防滥用或泄露。 5. 多平台接入:微信、企业微信、公众号、飞书、钉钉等。 6. 多模型选择:GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等。 7. 多消息类型支持:能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能。 8. 多部署方法:本地运行、服务器运行、Docker 的方式。
2024-12-29
ai可以如何帮忙撰写 产品需求文档
以下是一些利用 AI 帮忙撰写产品需求文档的工具和方法: 1. :可以生成产品需求文档(PRD)的原型图、解决方案流程图、时序图、页面结构图、测试用例等,还能帮助生成数据字段、优化 PRD 文档、评估功能的价值、生成 SQL 代码和周报思路等。 2. ChatPRD、WriteMyPRD、Uizard、tldraw 等工具:可以通过人类语言描述想要的产品,得到 80%的完成稿,然后进行修改和发布。 3. 产品经理还可以借助一些其他相关的 AI 工具,如: :用于个性化调色。 :将博客文章转化为播客。 :高效存储和检索图片。 此外,Lenny 认为人工智能(AI)将对产品管理的高级技能产生影响,如在产品塑造工作方面,AI 可通过分析市场、数据、客户需求和未来的见解制定超级智能的计划,产品经理则要擅长选择合适的数据和提出正确问题。在目标设定和跟踪方面,AI 工具能基于战略、业务要求和限制智能地建议应优化的目标,产品经理成为超级智能建议的编辑者。 同时,还有一些针对产品经理的其他 AI 工具集,如: 用户研究、反馈分析:Kraftful(kraftful.com) 脑图:Whimsical(whimsical.com/aimindmaps)、Xmind(https://xmind.ai) 画原型:Uizard() 项目管理:Taskade(taskade.com) 写邮件:Hypertype() 会议信息:AskFred() 团队知识库:Sense() 需求文档:WriteMyPRD(writemyprd.com) 敏捷开发助理:Standuply(standuply.com) 数据决策:Ellie AI() 企业自动化:Moveworks(moveworks.com)
2024-12-28
AI训练师
以下是关于您问题的回答: AI 训练师 AI 训练师是一个专门从事训练和优化人工智能模型的专业人员。他们的工作包括但不限于以下几个方面: 1. 数据准备:收集、整理和标注大量的数据,以提供给模型进行学习。 2. 模型选择与调整:根据任务需求选择合适的 AI 模型,并对其进行参数调整和优化。 3. 评估与改进:通过各种指标评估模型的性能,发现问题并进行改进。 4. 与团队协作:与开发人员、数据科学家等团队成员密切合作,确保项目的顺利进行。 健身的 AI 产品 以下是一些健身的 AI 产品: 1. Keep:中国最大的健身平台,为用户提供全面的健身解决方案,以帮助用户实现其健身目标。网址:https://keep.com/ 2. Fiture:沸彻魔镜由核心 AI 技术打造,集硬件、丰富课程内容、明星教练和社区于一体。网址:https://www.fiture.com/ 3. Fitness AI:利用人工智能进行锻炼,增强力量和速度。网址:https://www.fitnessai.com/ 4. Planfit:健身房家庭训练与 AI 健身计划,AI 教练是专门针对健身的生成式人工智能,使用 800 多万条文本数据和 ChatGPT 实时提供指导。网址:https://planfit.ai/ 学校利用生成式 AI 的案例 北京市新英才学校的师生在以下方面使用了生成式 AI: 1. 跨学科项目老师带着学生用 AIGC 做学校地图桌游。 2. 英语老师在 AIGC 的帮助下备课和授课。 3. 生物和信息科技老师合作一起带着学生用训练 AI 模型,用以识别植物。 沃顿商学院给教师和学生的提示词库 沃顿商学院为教师提供了模拟创建器的提示词库,适用于 GPT4 和 Gemini Advanced。在这个模拟创建中,AI 主持人需要具备多种能力,包括为学生设计角色扮演场景、在模拟后给予反馈和改进建议等。创建者需要从教师那里获取足够信息来设计模拟,例如教学目标、关键要素等。
2025-01-05
flux lora调参数,我训练出来的人物模型和数据集的人物图片不像,出现这种情况的原因都有哪些,应该调整哪些参数,我需要我的flux模型训练出来的模型是一致性还原性,和泛化性比较不错的,按照这个方向给我指导
以下是关于 flux lora 调参数以获得一致性、还原性和泛化性较好的人物模型的指导: 打标环节: 选择基础大模型,如“麦橘写实”,并为 lora 命名。 将照片导入,选择合适分辨率,可勾选“脸部加强训练”,然后进行预处理。手动裁剪图片比自动裁剪更可靠。 预处理后会出现脸部和整体文件夹,且每张照片自动打好 tag 标签。 可为整体添加统一标签,也可单独修改每张图片的标签。标签有助于 AI 理解图片,描述越详细,人物变化可能越多,泛化性可能越好。仔细检查每张图片的标签,其质量会影响人物 lora 的泛化性。 参数调整环节: 大部分参数是固定的,主要的几个按照人物参数配置一遍。后期根据生成结果再调整。 炼丹环节: 例如 18 张脸部图片,20 张整体图片,各训练 50 步,循环训练 10 次,并行步数为 1。训练总步数和时长会有所不同,loss 值可作为参考,但最终效果仍需通过测试判断。 此外,在 Lora 串联方面,多个 Lora 串联时左右顺序不影响结果,可复制并点对点连接。CLIP 层 1 和 2 的效果不同,加 Lora 时某些 Lora 可能更适合 2。Lora 可用于生成底模无法画出的内容。在运行中点击取消可打断正在渲染跑的图。图像放大可通过 up scale image using model 节点,选择放大模型,用 resize 节点调整尺寸,再用编码器和采样器处理。放大模型直接放大的图像效果不佳,需再次采样增加细节。添加飞桨缺失节点可通过拖入工作流查看标红节点,从管理器安装或从 GitHub 获取节点包放入文件管理系统。采样器和调度器参数设置建议参考模型作者推荐,并结合自己调试。Web UI 中 Lora 库有刷新按钮,将 Lora 丢到文件夹后多点几次刷新即可。
2025-01-04
flux lora训练指南
以下是关于 Flux 的 Lora 模型训练的指南: 准备工作: 需要下载以下模型: t5xxl_fp16.safetensors clip_l.safetensors ae.safetensors flux1dev.safetensors 注意事项: 1. 不使用的话,模型放置位置不限,但要清楚其“路径”,后续会引用到。 2. 训练建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 下载脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 修改脚本路径和参数: 如果显卡是 16G,右键 16G 的 train_flux_16GLora 文件;如果显卡是 24G 或更高,右键 24G 的 train_flux_24GLora 文件。(DB 全参微调对硬件要求高,内存 32G 可能不行。即使是 train_flux_24GLora 方式,也建议内存高于 32G 以避免意外。) 右键用代码编辑器打开文件,理论上只需修改红色部分:底模路径、VAE 路径、数据集路径,还有下面的 clip 路径和 T5xxl 路径。如果 4 件套在一个文件夹,路径填写更简单;若不在,需准确复制各模型的路径,注意检查格式,避免多双引号、漏双引号或路径错误。 数据集准备: 1. 进入厚德云 模型训练 数据集:https://portal.houdeyun.cn/sd/dataset 2. 创建数据集:在数据集一栏中,点击右上角创建数据集,输入数据集名称。zip 文件可以包含图片+标签 txt,也可以只有图片(之后可在 c 站使用自动打标功能),也可一张一张单独上传照片,但建议提前将图片和标签打包成 zip 上传。Zip 文件里图片名称与标签文件应当匹配,例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传 zip 后等待一段时间,确认创建数据集,返回到上一个页面,等待上传成功后可点击详情检查,能预览到数据集的图片以及对应的标签。 Lora 训练: 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。选择数据集,点击右侧箭头选择上传过的数据集。触发词可有可无,取决于数据集是否有触发词。模型效果预览提示词可随机抽取数据集中的一个标签填入。训练参数可调节重复次数与训练轮数,若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。可按需求选择是否加速,点击开始训练,会显示所需消耗的算力,然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有生图,点击会自动跳转到使用此 lora 生图的界面,点击下方的下载按钮则会自动下载到本地。
2025-01-04
如何训练智能体,把特定的数据导入进智能体。
训练智能体并导入特定数据的方法如下: 1. 手动清洗数据创建在线知识库: 点击创建知识库,创建一个如画小二课程的 FAQ 知识库。 选择飞书文档,选择自定义的自定义,输入“”。 飞书的文档内容会以“”区分开来,可点击编辑修改和删除。 点击添加 Bot,添加好后可在调试区测试效果。 2. 处理本地文档: 对于本地 word 文件,注意不能将大量数据一股脑全部放进去训练。 正确的方法是先将大的章节名称内容放进来,章节内详细内容按固定方式进行人工标注和处理。 然后选择创建知识库自定义清洗数据。 3. 发布应用: 点击发布,确保在 Bot 商店中能够搜到。 此外,具身智能体的训练还涉及以下方面: 大脑智能算法是感知/分析层的核心,通过视觉语言理解模型感知环境、接收理解任务并进行规划决策,最终输出具体任务指令。 小脑运动控制算法是动作层的核心,将动作视为类似语言的一种模态,理解交互物品及机器本体的姿态和运动状态,并将语义理解转化为动作。 整机硬件方案基于下游场景需求设计,具身智能厂商有从软件到硬件全流程自主控制的需求。 实现人工智能让计算机表现得像人类一样,有自上而下和自下而上两种可能的方法: 自上而下的方法模拟人类通过推理来解决问题的方式,包括对人类知识的提炼并用计算机可读的形式表示,开发在计算机内部模拟推理的方法。 自下而上的方法模拟人脑的结构,由大量称为神经元的简单单元组成,每个神经元的行为取决于输入数据的加权平均值,可通过提供训练数据来训练神经元网络。 还有一些其他可能实现智能的方法,如新兴的依靠协同的多智能体系统,基于大量简单智能系统的相互作用产生复杂智能行为;进化方法或遗传算法,是一种基于进化原理的优化过程。
2025-01-03
个人知识库训练
个人知识库训练主要有以下内容: 私人知识库中的内容一般包括从互联网收集的优质信息以及个人日常的思考和分享。 基于私人知识库打造个人专属的 ChatGPT 常见有两种技术方案: 训练专有大模型:KimiChat 和 ChatGPT 等能精准回答问题是因用整个互联网语料训练从而拥有相关知识。也可用个人知识库训练专有大模型,效果虽好但并非当下主流,存在高成本、更新难度大等缺陷。 RAG(检索增强生成)技术:大模型训练数据有截止日期,当需依靠不在训练集中的数据时,可通过 RAG 实现。RAG 应用包括文档加载、文本分割、存储(包括嵌入和向量数据存储)、检索、输出(把问题及检索出的嵌入片提交给 LLM 生成答案)。 使用 embeddings:将文本转换成向量能节省空间,可理解为索引。把大文本拆分成小文本块并转换成 embeddings 向量,在向量储存库保存这些向量和文本块作为知识库。用户提问时,问题先转成向量,与储存库向量比对,提取关联度高的文本块与问题组合成新 prompt 发送给 GPT API。例如对“此文作者是谁?”的提问,可通过比较 embeddings 向量得出关联度高的文本块,发送给 GPT API 以获取答案。
2025-01-02
如何在本地部署LLM,然后完成某个专业或者主题的专业知识库训练
以下是在本地部署 LLM 并完成某个专业或主题的专业知识库训练的详细步骤: 1. 部署大语言模型: 下载并安装 Ollama:根据电脑系统,点击进入 https://ollama.com/download 下载,下载完成后双击打开,点击“Install”。安装完成后,将 http://127.0.0.1:11434/ 复制进浏览器,若出现相关字样则表示安装完成。 下载 qwen2:0.5b 模型:如果是 Windows 电脑,点击 win+R,输入 cmd 点击回车;如果是 Mac 电脑,按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。复制相关命令行粘贴进入并回车,等待自动下载完成。 2. 安装 Docker Desktop: 点击去下载,根据系统进行选择。以 Windows 系统为例,点击 https://docs.docker.com/desktop/install/windowsinstall/ 下载,双击下载项目,点击 ok 加载文件,点击“close and restart”重启电脑。重启后,点击“Accept”,选择第二个,点击"Finish",进入 Docker Desktop。 3. 部署 FastGPT+OneAPI: 在桌面按住“shift”+鼠标右键,选择“在此处打开 Powershell 窗口”,在窗口中一行一行输入并回车。等待上方命令执行完成,下载完成之后。回到桌面,打开 FastGPT 文件夹,右键 dockercompose.yml 文件,选择打开方式为记事本打开,查找并修改相关内容后保存。回到命令行窗口中,继续输入并回车。 4. 配置 OneAPI: 在浏览器中输入:http://localhost:3001 ,进入登录页,账号 root 密码 123456 点击登录。点击【渠道】【添加新的渠道】,类型选择 Ollama,名称设为 qwen2,模型设为 qwen2:0.5b,秘钥设为 sksky,代理设为 http://host.docker.internal:11434 ,点击提交。点击【令牌】【添加新令牌】,名称随意,时间设为永不过期、额度设为无限额度,点击【提交】,点击【令牌】复制 key。 5. 配置 FastGPT: 回到 FastGPT 文件夹里,用记事本打开“dockercompose.yml”文件,查找并修改相关内容后保存。打开 config.json,根据图示修改完成,把相关数值改成 1500 左右。在命令窗口中输入:docker compose down 等待执行完成,再输入:docker compose upd 等待执行完成。在浏览器上输入:http://localhost:3000 ,账号 root 密码 1234 点击进入,设置好后点击确定。发布 API 并创建一个 key。
2025-01-02
为一张3层建筑渲染里面效果,请为我提供相关的提示词
以下是为您提供的 3 层建筑渲染效果的相关提示词: 视角:LowAngle(仰视)、3d isometric blueprint(3D 等轴测蓝图)、3D isometric model(3D 等轴测模型) 介质:abstract expressionist art style(抽象表现主义艺术风格) 镜头:superresolution microscopy(超分辨率显微镜) 灯光:ambient lighting(环境照明)、overhead lighting(头顶照明) 颜色:white(白色)、darkbrown(深棕色) 描述:classical realism(古典现实主义) 艺术家:Kazimir Malevich(卡齐米尔·马列维奇) 电影:2001 A Space Odyssey(2001 太空漫游)、Fantasia(幻想曲) 游戏:Age of Empires(帝国时代)、EarthBound(地球之旅) 画面精度:high detail(高细节)、hyper quality(高品质)、high resolution(高分辨率)、FHD,1080P,2K,4K18K 全高清.1080P,2K,4K,8K、8k smooth 8 流畅 渲染效果:Unreal Engine(虚幻引擎)、octane render(渲染器)、Maxon Cinema 4D 渲染器、architectural visualisation(建筑渲染)、Corona Render(室内渲染)、Quixel Megascans Render(真实感)、VRay V 射线、Behance、C4D、3D、blender、surreal photography(超现实摄影)、realistic 3D(真实 3D)、zbrush
2025-01-05
有扣子智能体搭建相关的课程吗
以下是与扣子智能体搭建相关的课程信息: 1. 无企业资质也能 coze 变现!手把手教你通过卖 Key 方式:Zion 威少模板跟着搭——支持上架多个智能体。上节课分享了如何用 Zion 把您的 Coze bot 打造成能赚钱的工具,包括前端页面设计和用户支付链路搭建等。点击回顾往期内容👉🏻,内含变现案例实操分享。针对常见难题,本期特别邀请了 Coze+Zion 独立开发者威少(B站:赛博画手威少@wei)开发的一个“Coze 变现模板(多智能体版)”,无需企业支付宝账号,个人用户也能轻松实现变现和收款。模板页面演示:https://coze.weishao.vip/ 。 2. 扣子案例合集社区内容分享: 3. 02 基础通识课: 智能纪要:本章节主要对整节分享进行复习。内容包括模型中数据集的清洗、抽取,rag 基于知识库存储数据到向量数据库方便检索,IAG 快速检索数据,编辑生成平台构建 prompt 的技巧,agent 概念,插件 pragin,运维平台,缓存机制,还提到大模型接入多家模型,以及 AI 改变工作流等。 智能章节:本章节主要介绍 AI 工程平台在日常生活中的帮助及使用方法。以扣子平台为例,其新版本有很多模板帮助学习。如名画照相馆工作流,能进行名画换脸操作。平台中的工作流程包含很多节点,且有多种插件工具,像必应搜索、链接读取、代码执行器等可供使用。本章节主要讲述代码方面更高阶需求可编写自己代码,提到知识库可存储文稿信息。重点介绍了一个名画处理工作流,包括开始节点的输入内容如用户照片、名画内容、性别等,工作流中涉及大模型意图分析、结构化整理、历史撰写以及图像生成模型等操作。
2025-01-04
我想做一个停车场方面相关的智能AI机器人
以下是关于停车场相关智能 AI 机器人的一些参考和建议: 摊位信息方面: 可以参考类似的摊位设置,如 MBTI 开运写真/头像、多模型多平台 AI 对话软件、主产品为 AI 脑筋急转弯和谜语问答并提供相关困惑解答、技术与工具教学agent 技巧、一键定制专属徽章等。 赛道说明方面: 借鉴汽车品牌相关的 AI 座舱赛道,例如对于车辆操作、状态查询或故障诊断等问题提供专业解答,利用车身硬件条件和软件生态自定义各种高频用车场景的智能体,提升车内人员的驾驶舒适性、娱乐性、趣味性、安全性体验等。 活动参考方面: 参考“AI 切磋摆摊大会”,利用类似支付宝百宝箱这样的无需代码基础的 AI 应用开发平台为摊位提供技术支持,配备专业的咨询智能体,展示各种有趣的 AI 应用,如 AI 绘画、AI 音乐、AI 视频剪辑等。 综合以上内容,您在开发停车场相关的智能 AI 机器人时,可以考虑以下几点: 1. 明确机器人的功能和服务,如提供停车场车位查询、引导停车、车辆状态监测等。 2. 利用自然语言处理技术,实现用户与机器人的便捷交流。 3. 结合图像识别等技术,实现对车辆和车位的准确识别。 4. 提供个性化的服务,根据用户的需求和习惯提供定制化的建议和引导。
2025-01-04
我想要一个能根据空白背景的产品图,生成不同视角的其他图片的AI工具,有相关产品吗?
目前比较成熟的能根据输入图片生成类似图片的 AI 工具主要有以下几种: 1. Artguru AI Art Generator:这是一个在线平台,能够生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:是一款 AI 工具,可以将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:属于新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果超级好。 需要注意的是,这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出,但仍存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。
2025-01-03
人工智能的相关岗位
以下是关于人工智能相关岗位的一些信息: 在企业中建构人工智能方面,智能音箱的工作流程包括探测触发词或唤醒词、语音识别、意图识别、执行相关程序,但智能音箱面临着对每个用户需求单独编程导致公司需花费大量资金教育客户的困境。自动驾驶汽车方面,检测包括使用监督学习、多种传感器和技术,运动规划包括输出驾驶路径和速度。 人工智能团队的角色示例有:软件工程师,负责智能音箱中的软件编程工作,在团队中占比 50%以上;机器学习工程师,创建映射或算法,搜集和处理数据;机器学习研究员,负责开发前沿技术;应用机器学习科学家,解决面临的问题;数据科学家,检测和分析数据;数据工程师,整理数据;AI 产品经理,决定用 AI 做什么以及其可行性和价值。 在【已结束】AI 创客松中,参与同学的擅长领域和岗位包括:AI 2C 项目负责人、技术实践者、AI 算法开发、产品经理、程序员、产品体验设计师、咨询顾问/服务设计师等,他们在不同方向有着各自的优势和想法,如产品落地服务、多 Agent 处理任务流、宠物与 AI 结合、智能写作产品等。
2025-01-03
跟股票相关的AI工具有哪些?
以下是一些与股票相关的 AI 工具: 1. 东方财富网投资分析工具:利用 AI 技术分析金融市场数据,为投资者提供投资建议和决策支持,例如根据股票的历史走势和市场趋势预测股票的未来走势。 2. 目前市场上还有一些通用的 AI 工具,如 ChatGPT 等,虽然不是专门针对股票,但可以辅助进行相关的信息收集和分析。 需要注意的是,使用这些工具时应结合自身的判断和专业知识,谨慎做出投资决策。
2025-01-01