Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有没有数据清洗AI

Answer

以下是关于数据清洗 AI 的相关内容:

数据清洗对于 AI 至关重要,就如同为 AI 做全面的“体检”,是预防 AI 幻觉的根本措施。

在 AI 领域,数据清洗就像医生为病人清除体内毒素一样,数据科学家会利用各种技术手段,对训练数据进行“清洗”,去除错误信息、补充缺失数据、修正不一致内容,并尽可能消除数据中的偏见。

在文档准备与预处理环节,例如构建 RAG 知识库时,会有数据清洗和去噪这一重要步骤,其目的包括清理无效数据以提高后续检索速度,以及统一数据格式便于后续处理和检索。

在大模型训练中,高质量的数据清洗和精细整理能将粗糙的数据打磨成有价值的资源。然而,在中国的 AI 创业生态中,高质量的数据处理服务较为稀缺,中文互联网数据质量相对较低,这给大模型的训练带来了挑战。

Content generated by AI large model, please carefully verify (powered by aily)

References

【深度揭秘】AI 幻觉背后的技术真相与应对策略,探索人工智能的未来

正如我们在前文中提到的,低质量的训练数据是导致AI幻觉的重要原因。因此,为AI模型提供“干净”、“健康”的训练数据,就如同给AI做一次全面的“体检”,是预防AI幻觉的根本措施。数据清洗:就像医生为病人清除体内的毒素一样,数据科学家们会利用各种技术手段,对AI的训练数据进行“清洗”,去除错误信息、补充缺失数据、修正不一致的内容,并尽可能消除数据中的偏见。数据增强:为了让AI模型学习到更全面的知识,我们需要为它提供更多、更丰富的训练数据,就像给学生补充各种类型的练习题,帮助他们掌握不同的知识点和解题技巧。例如,在训练一个图像识别模型时,我们可以对已有的图像进行旋转、缩放、裁剪等操作,生成更多新的样本,从而提高模型的泛化能力。

这可能是讲 Coze 的知识库最通俗易懂的文章了

你要做AI知识库,你起码得有知识库吧,所以RAG的第一步就是准备知识库数据。当下技术下RAG的能力仍然以处理文本数据为主,例如PDF、在线云文档,EXCEL等等为了保证后续流程的质量,在文本准备时会有一个重要的环节,叫做文本的预处理。用专业的词汇叫做数据清洗和去噪。他的目的主要有两点清理无效的数据:删除无效、过时或者不相关的数据,提高后续的检索速度统一数据的格式:将不同的数据元转换成统一的格式,便于后续的处理和检索举个例子:当要整理书桌的时候,我们的第一步通常都是先将桌面上的垃圾给扔掉,然后才是整理桌面上的书本、电脑等物品。扔掉垃圾这一动作就是数据的清洗和去噪

中国大模型面临的真实问题:登顶路远,坠落一瞬

[title]中国大模型面临的真实问题:登顶路远,坠落一瞬[heading1]五、"你有我也有"接下来,让我们把目光转向数据这个同样关键的要素。在人工智能的世界里,数据就像是原油,而高质量的数据则是精炼后的汽油。虽然OpenAI训练大模型所用的中文数据也源自中国的互联网平台,但他们在数据处理上的额外努力,就像是将粗糙的原石打磨成璀璨的钻石。这种数据质量的提升,远非简单的数据标注工作所能企及,而是需要一支专业团队进行深度的数据清洗和精细整理。然而,在中国的AI创业生态中,高质量的数据处理服务就像是稀缺资源。在国内,数据获取的门槛相对较低,这看似是一个优势。然而,虽然数据获取容易,但高质量数据的获取却是另一回事。国内的大模型主要以中文数据为基础,这看似是一个自然的选择。但业内普遍认为中文互联网数据的质量相对较低。这种情况让人想起了信息论中的"垃圾进,垃圾出"原理。如果输入的数据质量不高,那么即使有最先进的算法,输出的结果也难以令人满意。这个现象在IT从业者的日常工作中得到了印证。当需要搜索专业信息时,他们往往会首选Google、arXiv或Bing等国际平台,而不是国内的搜索引擎。那么,可能有人会想:“那我买点优质数据不就完了吗?”但对于许多公司,尤其是初创企业来说,这笔投入看似是一个风险过高的赌注。更不要考虑到找到一个好的数据供应商是万里挑一的概率了。这个风险,创业公司很难担的起。如果大规模投入后,模型效果不如预期,那么这笔投资就像是泥牛入海。因此,许多公司选择了一条看似更安全的路径:直接使用开源数据进行训练,然后匆忙召开发布会。更有意思的是,在国内的AI领域,这份"黄金"似乎变成了一个难解的谜题。正如一位大厂AI线的负责人所言,"在中国,你能拿到的数据,别人也能拿到。"

Others are asking
我需要用AI画一幅清晨的,早晨的画,请给我一些提示,或者这个提示词
以下是一些用于绘制清晨场景的 AI 绘画提示词: 早晨的阳光洒在长城上,露出一线光辉。提示词:A photographic capture of the Great Wall in the morning light, adorned with red lanterns for the Spring Festival, revealing a gleam along its path. From a distant view, slowly zooming in to unveil its grandeur and festive spirit. Created Using: vibrant reds, traditional lanterns, early morning light, detailed texture of the wall, historical ambiance, wideangle lens, cinematic zoom, festive atmosphere ar 16:9 v 6.0 市民在公园里晨练,老人太极,孩子们在跑步。提示词:A lively park scene at dawn with citizens practicing Tai Chi and children running, all amidst Spring Festival decorations like red lanterns and paper cuttings. Medium shot with a horizontal pan to capture the energetic and festive atmosphere. Created Using: natural daylight, festive decorations, diverse age groups, motion blur for movement, community spirit, green park background with red accents, candid expressions, lively festive atmosphere ar 16:9 v 6.0 场景提示词:In the morning mist(在晨雪中)、full of sunlight(充满阳光) 此外,还有一些常见的与清晨相关的场景提示词,如:classroom(教室)、forest(森林)、ruins(废墟)、city(城市)、street scenery(街景)、meadow(草原草地)等。您可以根据自己的具体需求和创意,对这些提示词进行组合和调整。
2025-01-04
什么是ai
AI(人工智能)是一门令人兴奋的科学,它是指某种模仿人类思维可以理解自然语言并输出自然语言的东西,其生态位是一种似人而非人的存在。 从技术角度来看,最初计算机由查尔斯·巴贝奇发明,用于按照明确的程序进行数字运算,现代计算机虽更先进但仍遵循相同理念。然而对于像根据照片判断人的年龄这类无法明确编程的任务,正是人工智能感兴趣的。 在应用方面,AI 健身是利用人工智能技术辅助或改善健身训练和健康管理的方法,能为用户提供个性化指导。例如 Keep、Fiture、Fitness AI、Planfit 等都是不错的 AI 健身工具。
2025-01-04
ai全套课程
以下为为您推荐的 AI 全套课程: 微软 AI 初学者入门课程:这是一个为期 12 周、共 24 课时的课程,由专家设计,适合初学者。课程涵盖符号人工智能、神经网络、计算机视觉、自然语言处理等内容,还涉及 TensorFlow、PyTorch 及人工智能伦理原则。通过亲身实践课程内容、做随堂小测试或开展实验可提升学习效果。 野菩萨的 AI 课程:预习周课程包括 AI 绘画电脑配置要求等;基础操作课涵盖 AI 绘画通识课等;核心范式课程涉及词汇的纸牌屋等;SD WebUi 体系课程包括 SD 基础部署等;ChatGPT 体系课程有 ChatGPT 基础等;ComfyUI 与 AI 动画课程包含部署和基本概念等;应对 SORA 的视听语言课程涉及通识等。免费获得这门课程的机会是参与 video battle。 当 AI 走进小学课堂(全套课程设计):针对三年级孩子的 60 分钟课程,分为四个部分,分别是:什么是 AI、AI 的发展历程和重大突破、玩转 AI——今日应用探索、Q&A。
2025-01-04
如何快速正确的学习ai做自媒体
以下是关于如何快速正确地学习 AI 做自媒体的建议: 一、了解 AI 基本概念 1. 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 2. 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 二、开始 AI 学习之旅 1. 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 2. 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 三、选择感兴趣的模块深入学习 AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。同时,一定要掌握提示词的技巧,它上手容易且很有用。 四、实践和尝试 1. 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。 2. 在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 五、体验 AI 产品 1. 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 2. 通过与这些 AI 产品的对话,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 此外,关于如何用 AI 进行英语学习和数学学习: 英语学习 1. 利用 AI 写作助手(如 Grammarly)进行英语写作和语法纠错,改进英语表达和写作能力。 2. 使用语音识别应用(如 Call Annie)进行口语练习和发音纠正,获取实时反馈和建议。 3. 使用自适应学习平台(如 Duolingo),利用 AI 技术量身定制学习计划,提供个性化的英语学习内容和练习。 4. 利用智能对话机器人(如 ChatGPT)进行英语会话练习和对话模拟,提高交流能力和语感。 数学学习 1. 使用自适应学习系统(如 Khan Academy),结合 AI 技术提供个性化的数学学习路径和练习题,根据能力和需求精准推荐。 2. 利用智能题库和作业辅助工具(如 Photomath),通过图像识别和数学推理技术获取数学问题的解答和解题步骤。 3. 使用虚拟教学助手(如 Socratic),利用 AI 技术解答数学问题、提供教学视频和答疑服务,帮助理解和掌握数学知识。 4. 参与交互式学习平台(如 Wolfram Alpha)的数学学习课程和实践项目,利用 AI 技术进行数学建模和问题求解。 通过结合 AI 技术和传统学习方法,可以更高效、更个性化地进行英语学习和数学学习,并取得更好的学习效果。但请注意,内容由 AI 大模型生成,请仔细甄别。
2025-01-04
如何学习AI,他可以做什么?
以下是关于学习 AI 以及其应用的全面指导: 一、新手学习 AI 的方法 1. 了解 AI 基本概念 阅读「」,熟悉术语和基础概念,包括主要分支(如机器学习、深度学习、自然语言处理等)及它们的联系。 浏览入门文章,了解 AI 的历史、应用和发展趋势。 2. 开始学习之旅 参考「」中的课程,推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习,有机会可获证书。 3. 选择感兴趣的模块深入学习 AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入。 掌握提示词技巧,其上手容易且实用。 4. 实践和尝试 理论学习后,通过实践巩固知识,尝试使用各种产品创作作品。 知识库有实践作品和文章分享,欢迎分享自己的实践成果。 5. 体验 AI 产品 与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解工作原理和交互方式,获得实际应用体验,激发对 AI 潜力的认识。 二、中学生学习 AI 的建议 1. 从编程语言入手 学习 Python、JavaScript 等编程语言,掌握编程语法、数据结构、算法等基础知识。 2. 尝试使用 AI 工具和平台 体验 ChatGPT、Midjourney 等生成工具的应用场景。 探索面向中学生的教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识 了解 AI 基本概念、发展历程、主要技术(机器学习、深度学习等)。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关实践项目 参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试用 AI 技术解决生活实际问题,培养动手能力。 5. 关注 AI 发展前沿动态 关注权威媒体和学者,了解最新进展。 思考 AI 技术对未来社会的影响,培养思考和判断能力。 总之,无论是新手还是中学生,学习 AI 都可以从多个方面入手,全面系统地学习知识和技能,为未来做好准备。 三、AI 的应用 鉴于人工智能依赖的神经网络基础,专家 AI 可能通过元学习更快地获得知识,并带着人类一同进步。AI 的性质让我们可以做一些对人无法做的事情,如将其一部分一部分地拆解,并研究每一个小部分。通过构建系统深入探索专家 AI 的内部工作机制,将创造一个学习的飞轮。最终,专家 AI 可能超越领域专家的角色,成为下一代专家(无论是人类还是 AI)的教师。
2025-01-04
什么是AI板块的“自然语言处理”
自然语言处理(NLP)是人工智能和语言学领域的分支学科。它包括让电脑对输入的语言进行认知和理解,将其转化为有意义的符号和关系,并根据目的进行处理。自然语言处理涵盖了多个方面和步骤,基本包括认知、理解、生成等部分。其旨在处理和运用自然语言,例如把计算机数据转化为自然语言。自然语言处理涉及多门学科,如概率论、统计学、逼近论、凸分析、计算复杂性理论等。在计算机科学中,为了让计算机能理解和处理自然语言这种复杂多样、具有语境依赖性和模糊性的信息,引入了 Token 化的概念,将复杂的文本数据分解成更小、更易于计算机处理的单元,如单词、短语或标点符号,从而更有效地进行语言处理和提取意义。
2025-01-04
我想利用AI帮助我快速分析Excel数据,做好数据清洗、分析的工作
以下是一些可帮助您利用 AI 快速分析 Excel 数据、做好数据清洗和分析工作的工具和方法: 1. 工具方面: Excel Labs:这是一个 Excel 插件,新增了基于 OpenAI 技术的生成式 AI 功能,能在 Excel 中直接进行数据分析和决策支持。 Microsoft 365 Copilot:微软推出的整合了多种办公软件的 AI 工具,通过聊天形式,用户告知需求后,Copilot 会自动完成如数据分析、格式创建等任务。 Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,用户可通过自然语言交互进行数据分析和生成 Excel 公式。 Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,能生成公式、相关文本内容、执行情感分析、语言翻译等任务。 2. 方法方面: 信息收集:利用 AI 搜索与权威网站结合获取关键数据,AI 可辅助提取结构化表格数据或编写抓取程序。 内容拆分:针对报告需求将内容拆分,避免 AI 单次处理任务过长。 数据处理:借助传统工具如 Excel,结合 AI 指导高效操作数据筛选与图表生成。 分析与撰写:通过整理数据,利用 AI 辅助分析后撰写报告初稿,可指定风格并校验数据与结论准确性。但要注意,AI 仅作辅助,最终内容需人工主导校验,避免误导性结论。 随着技术的不断发展,未来可能会有更多 AI 功能被集成到 Excel 中,进一步提高工作效率和数据处理的智能化水平。
2024-12-02
AI 数据清洗
以下是关于 AI 数据清洗的相关内容: 数据清洗对于预防 AI 幻觉和保证 AI 决策的准确性至关重要。 低质量的训练数据是导致 AI 幻觉的重要原因,因此为 AI 模型提供“干净”、“健康”的训练数据是根本措施。 数据清洗就像医生为病人清除体内的毒素,数据科学家会利用各种技术手段去除错误信息、补充缺失数据、修正不一致的内容,并尽可能消除数据中的偏见。 在准备 AI 知识库时,例如 RAG 流程中,文本预处理环节包含数据清洗和去噪,其目的包括清理无效的数据(删除无效、过时或者不相关的数据,提高后续的检索速度)以及统一数据的格式(将不同的数据元转换成统一的格式,便于后续的处理和检索)。 AI 的决策能力取决于输入数据的质量与多样性,“垃圾进,垃圾出”原理在 AI 决策中显著,数据中的偏见会被放大甚至造成认知扭曲。例如在招聘系统中,AI 可能因训练数据中的历史偏见更倾向于选取某一性别候选人。企业在使用 AI 时必须对输入的数据保持警觉。
2024-11-04
AI 数据清洗
AI 数据清洗是为 AI 模型提供高质量训练数据的重要环节,具有以下要点: 1. 是预防 AI 幻觉的根本措施,如同给 AI 做全面“体检”。 2. 像医生为病人清除体内毒素一样,利用各种技术手段去除错误信息、补充缺失数据、修正不一致内容,并尽可能消除数据中的偏见。 3. 为让 AI 模型学习更全面知识,可对已有数据进行增强操作,如对图像进行旋转、缩放、裁剪等生成新样本以提高模型泛化能力。 4. 对于准备 AI 知识库,如 RAG ,在准备数据时会进行文本预处理,包括数据清洗和去噪,目的是清理无效数据以提高检索速度,统一数据格式便于后续处理和检索,例如整理书桌时先扔掉垃圾。 5. AI 决策能力取决于输入数据质量与多样性,“垃圾进,垃圾出”原理显著,数据常无意中强化社会偏见,如在招聘系统中可能导致性别歧视等问题,企业使用 AI 时必须对输入数据保持警觉。
2024-11-04
有没有语音翻译工具
以下为您介绍一些语音翻译工具: Eleven Labs 推出的 Dubbing:可以将视频/音频翻译成不同的语言,同时保持原始的声音。支持十一种语言的 AI 配音功能,v2 模型目前支持包括印地语、葡萄牙语、西班牙语、日语、乌克兰语、波兰语、阿拉伯语等 20 多种语言的语音翻译。还可以检测多个说话人的声音,支持背景音分离和环境音降噪。 ZipZapAI:提供沉浸式阅读和写作体验,支持多种语言的高质量翻译。能够智能识别网页上的内容,如 Twitter、Discord 等,提供鼠标悬停翻译。支持 Chrome、Edge 等主流浏览器,下载插件即可使用。具有简单易用的用户界面,操作方便,内置了 GPT 的聊天功能,可以随时提问。 此外,ChatGPT 的语音功能已向所有免费用户开放,更新下载客户端即可使用。
2025-01-02
我想问 有没有可以帮忙写 flux 或者其他图像模型 prompt 的 system prompt 模板
以下是为您整理的相关内容: 关于 FLUX 模型的安装部署: 模型选择:FLUX.1 有 dev、dev fp8、schnell 等版本,建议选择 dev 版本,显卡较好可用 fp16,显卡不够选 fp8。模型下载后放入 ComfyUI/models/unet/文件夹中。若爆显存,可在“UNET 加载器”节点中将 weight_dtype 设置为 fp8,降低显存使用量,但可能稍降质量。 clip:t5xxl_fp16.safetensors 和 clip_l.safetensors 放在 ComfyUI/models/clip/文件夹里,也可用 t5xxl_fp8_e4m3fn.safetensors 降低内存使用率,超过 32GB 内存建议用 fp16。 Vae:下载后放入 ComfyUI/models/vae 文件夹。 关于训练 Midjourney 的 prompt: 训练问题:强大的 DMs 通常消耗数百个 GPU 天,推理由于顺序评估而成本高昂。在有限的计算资源上应用 DMs 于强大的预训练自动编码器的潜在空间中训练,可在不影响质量和灵活性的情况下实现复杂度降低和细节保留的最佳点,显著提高视觉保真度。引入交叉注意力层到模型架构使扩散模型成为强大灵活的生成器,支持文本和边界框等一般条件输入,实现高分辨率卷积合成。 版本:Midjourney 定期发布新模型版本以提高效率、连贯性和质量。最新模型为默认,也可通过version 或v 参数或/settings 命令选择其他版本。V5 模型于 2023 年 3 月 15 日发布,具有更广泛的风格范围、更高的图像质量、更详细的图像等优点。 关于 ComfyUI 图片提示词反推提示词生成: 在 ComfyUI 里使用 MiniCPM 做图片提示词反推与文本提示词生成,可和 flux 模型配合生成图片,建议使用量化版本的模型(int4 结尾)节省显存。 安装方法:进入 ComfyUI 自定义节点目录,克隆相关仓库,重启 ComfyUI。 模型下载:网盘 https://pan.quark.cn/s/00b3b6fcd6ca ,下载后放入 ComfyUI 的 models 文件夹下 MiniCPM 文件夹中,没有就新建一个。
2025-01-02
有哪些作文批改类的ai工具。以及有没有ai作文批改的共学分享
以下是一些常见的作文批改类 AI 工具: 1. Wordvice AI:集校对、改写转述和翻译等功能于一体的 AI 写作助手,基于大型语言模型提供全面的英文论文润色服务。 2. ChatGPT:由 OpenAI 开发的大型语言模型,可用于学生和写作人员的多方面写作辅助。 3. Quillbot:人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 4. HyperWrite:基于 AI 的写作助手和大纲生成器,可帮助用户在写作前进行头脑风暴和大纲规划。 5. Wordtune:AI 驱动的文本改写和润色工具,可以帮助用户优化文章的语言表达。 6. Smodin:提供 AI 驱动的论文撰写功能,可以根据输入生成符合要求的学术论文。 关于 AI 作文批改的共学分享,目前在飞书群进行问题接龙及答疑,例如: 1. 上课用什么工具,大模型工具需自行准备,推荐顺序为 chatGPT 4.0、kimichat、智谱清言 4。 2. 文本纠错方面的方法案例,如果是问工具,飞书文档带有纠错功能;如果用 prompt 纠错,文本量不能太大,直接告诉大模型:检查下列文本中的错别字、语法错误和格式错误,指出并改正,重新生成新的文本。 3. 用文心一言 APP 可以。 4. 关于国内是否有类似国外提示词支持调用其他 AI 工具的情况,如国产大模型能否文生图,一些模型可以,比如智谱和文心。 5. 把文章给大模型容易,关键是自己给自己写什么样的 prompt。 6. 如果只是用来自己学,长期学习,不一定必须需要 iPhone 手机或者对显卡有一定要求,ChatGPT 交费存在问题且没有途径。
2024-12-31
有没有可以帮我翻译万字中文文档为英文的工具
以下是一些可以帮助您翻译万字中文文档为英文的工具和方法: 1. 利用 ChatGPT:先将中文内容以流水账式记叙文写出来,然后把中文丢进 ChatGPT,并给出指令让其翻译成英文。 2. DeepL(网站): 点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 3. 沉浸式翻译(浏览器插件): 安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 4. calibre(电子书管理应用): 下载并安装 calibre,并安装翻译插件「Ebook Translator」。 5. 谷歌翻译(网页): 使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 6. 百度翻译(网页): 点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 7. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、PDF、Word、Excel、PPT、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 8. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 9. 浏览器自带的翻译功能:如果一些 PDF 太大,翻译工具不支持,除了将 PDF 压缩或者切分外,还可以转成 HTML 格式,然后使用浏览器自带的网页翻译功能。
2024-12-31
我想用cursor做一个微信小游戏,有没有什么好的提示词
以下是使用 Cursor 做微信小游戏的一些提示词和相关经验: 1. 前期描述好需求:在设置里面,Rules for AI 的提示词。 2. 按照功能模块单独建立实现文档,包括深入理解需求、技术实现、测试等。 3. 学会看代码,了解每一步文件的作用,以提升对技术的理解。 4. 注意 Cursor 相关报错原因,如重复安装依赖项、重新创建文件、导入的路径不对、错误导入已经废弃的文件、突破 AI 记忆的东西、Cursor 缓存未更新等。 此外,还有一些教训和好用的软件: 1. 教训:页面样式保存和海报样式保存等问题需要注意。 2. 好用的软件: GitHub:大名鼎鼎,有宝藏开源项目库。 Apifox:检验端口以及 API 是否有效回应。 DBeaver:用于数据库。 Docker Desktop:某些项目安装下载可用。 微信开发者工具:开发微信小程序必需。 另外: 1. 学会向 AI 提供线索非常重要,比如使用纠错公式,在【xxxx】位置,做了【xxxx】动作,出现了【xxxx】错误,预期是【xxxx】。 2. 了解切换目录命名的命令,如 CD 命令。 3. 可以参考 Python 教程,掌握 Python 编程语言,过去在微信机器人教程中有相关介绍。 4. 分享个 Cursor 提示词网站:https://cursor.directory/,里面有大量网友实践后上传的提示词可供学习和参考。
2024-12-31
有没有语音对话的AI
目前有多种具备语音对话功能的 AI 技术和应用。 OpenAI 在语音对话方面,通过更换 prompt 让 GPT 尽量生成短内容,不轻易生成列表和代码,语音合成用 TTS API,识别用 whisper API。其方法论追求大的通用模型,避免定制和特化,将精力集中在模型研发上。 在游戏领域,生成式 AI 带来了语音方面的变革。借助生成性 AI 对话,游戏角色可以说任何话,完全响应玩家正在做的事情。结合更智能的 NPC AI 模型,完全对玩家作出反应的游戏将很快成为现实。此外,还能使用与玩家虚拟形象匹配的生成声音维持角色扮演的幻觉,控制声音的细微差别,实现对话的本地化翻译和发音。 在音频方面,有众多公司致力于为游戏角色创造逼真的语音,如 Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai 等。同时,也有很多公司试图创建由 AI 生成的音乐,例如 Soundful、Musico、Harmonai、Infinite Album 和 Aiva 等。
2024-12-31
flux lora调参数,我训练出来的人物模型和数据集的人物图片不像,出现这种情况的原因都有哪些,应该调整哪些参数,我需要我的flux模型训练出来的模型是一致性还原性,和泛化性比较不错的,按照这个方向给我指导
以下是关于 flux lora 调参数以获得一致性、还原性和泛化性较好的人物模型的指导: 打标环节: 选择基础大模型,如“麦橘写实”,并为 lora 命名。 将照片导入,选择合适分辨率,可勾选“脸部加强训练”,然后进行预处理。手动裁剪图片比自动裁剪更可靠。 预处理后会出现脸部和整体文件夹,且每张照片自动打好 tag 标签。 可为整体添加统一标签,也可单独修改每张图片的标签。标签有助于 AI 理解图片,描述越详细,人物变化可能越多,泛化性可能越好。仔细检查每张图片的标签,其质量会影响人物 lora 的泛化性。 参数调整环节: 大部分参数是固定的,主要的几个按照人物参数配置一遍。后期根据生成结果再调整。 炼丹环节: 例如 18 张脸部图片,20 张整体图片,各训练 50 步,循环训练 10 次,并行步数为 1。训练总步数和时长会有所不同,loss 值可作为参考,但最终效果仍需通过测试判断。 此外,在 Lora 串联方面,多个 Lora 串联时左右顺序不影响结果,可复制并点对点连接。CLIP 层 1 和 2 的效果不同,加 Lora 时某些 Lora 可能更适合 2。Lora 可用于生成底模无法画出的内容。在运行中点击取消可打断正在渲染跑的图。图像放大可通过 up scale image using model 节点,选择放大模型,用 resize 节点调整尺寸,再用编码器和采样器处理。放大模型直接放大的图像效果不佳,需再次采样增加细节。添加飞桨缺失节点可通过拖入工作流查看标红节点,从管理器安装或从 GitHub 获取节点包放入文件管理系统。采样器和调度器参数设置建议参考模型作者推荐,并结合自己调试。Web UI 中 Lora 库有刷新按钮,将 Lora 丢到文件夹后多点几次刷新即可。
2025-01-04
快速生成数据集
以下是两种快速生成数据集的方法: 方法一:通过数据分析器+dify 1. 原始文档格式转换:利用第三方工具(如 wps)将原始文档转换成 txt 格式,特别注意在中文语言编码情况下,代码解释器对 TXT 的识别度较高。输出后打开 txt 文档,手动删除掉目录页。 2. 代码解释器操作: 导入文件到代码解释器,进行初步格式调整。 重新调整格式。 3. 导入 Dify 进行数据集训练:建议使用经济模式,高质量索引可能会出现错误,原因待解决。 4. 创建 bot: 创建并命名。 点击提示词编排,输入提示词并设置上下文数据集。 模型设置建议选择 claude2,对比 3.5 质量更高。 进行测试。 方法二:在厚德云平台操作 1. 进入厚德云模型训练数据集(https://portal.houdeyun.cn/sd/dataset)。 2. 步骤一·创建数据集: 在数据集一栏中,点击右上角创建数据集。 输入数据集名称。 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片没有打标文件(之后可在 c 站使用自动打标功能),或者一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。 Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,预览数据集的图片以及对应的标签。 3. 步骤二·Lora 训练: 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 触发词可有可无,取决于数据集是否有触发词。 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数,如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力,然后等待训练,会显示预览时间和进度条,训练完成的会显示出每一轮的预览图。 鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。
2025-01-04
数据集
以下是关于数据集的相关信息: 在厚德云创建数据集 步骤一: 1. 进入厚德云模型训练数据集,点击右上角创建数据集。 2. 输入数据集名称。 3. 可以上传包含图片+标签txt 的 zip 文件,也可以只有图片没有打标文件(之后可在 C 站使用自动打标功能),或者一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。 4. Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 5. 上传 zip 以后等待一段时间,确认创建数据集。 6. 返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,能预览到数据集的图片以及对应的标签。 步骤二:Lora 训练 1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 2. 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 3. 触发词可有可无,取决于数据集是否有触发词。 4. 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 5. 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 6. 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。 7. 然后等待训练,会显示预览时间和进度条。训练完成的会显示出每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 OpenAI 发表新论文中的数据集 OpenAI 发表新论文《让我们一步一步验证》中提到的数据集:使用的数据集表明过程监控是高度准确的。PRM800K 训练集包含 800,000 个步骤级标签,可用于 12,000 个问题的 75,000 个答案。点击此处查看 PRM 和 ORM 实际数学精度的比较。在这两个结果中,可以看出使用 PRM 的模型给出了更好的结果。据报道,PRM 不仅在数学方面取得了更好的成绩,而且在化学和物理方面也取得了更好的成绩。 中文数据集 1. ,更新日期 42856,提供者为北京极目云健康科技有限公司,数据来源于其云医院平台的真实电子病历数据,共计 800 条(单个病人单次就诊记录),经脱敏处理,类别为电子病历,关键字为命名实体识别,论文地址无,备注为中文。 2. ,更新日期 2018 年,提供者为医渡云(北京)技术有限公司,CCKS2018 的电子病历命名实体识别的评测任务提供了 600 份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体,类别为电子病历,关键字为命名实体识别,论文地址无,备注为中文。 3. ,提供者为 MSRA,标注形式为 BIO,共有 46365 条语料,类别为 Msra,关键字为命名实体识别,论文地址无,备注为中文。 4. ,提供者为人民日报,标注形式为 BIO,共有 23061 条语料,类别为 98 人民日报,关键字为命名实体识别,论文地址无,备注为中文。 5. ,提供者为玻森数据,标注形式为 BMEO,共有 2000 条语料,类别为 Boson,关键字为命名实体识别,论文地址无,备注为中文。
2025-01-04
如何训练智能体,把特定的数据导入进智能体。
训练智能体并导入特定数据的方法如下: 1. 手动清洗数据创建在线知识库: 点击创建知识库,创建一个如画小二课程的 FAQ 知识库。 选择飞书文档,选择自定义的自定义,输入“”。 飞书的文档内容会以“”区分开来,可点击编辑修改和删除。 点击添加 Bot,添加好后可在调试区测试效果。 2. 处理本地文档: 对于本地 word 文件,注意不能将大量数据一股脑全部放进去训练。 正确的方法是先将大的章节名称内容放进来,章节内详细内容按固定方式进行人工标注和处理。 然后选择创建知识库自定义清洗数据。 3. 发布应用: 点击发布,确保在 Bot 商店中能够搜到。 此外,具身智能体的训练还涉及以下方面: 大脑智能算法是感知/分析层的核心,通过视觉语言理解模型感知环境、接收理解任务并进行规划决策,最终输出具体任务指令。 小脑运动控制算法是动作层的核心,将动作视为类似语言的一种模态,理解交互物品及机器本体的姿态和运动状态,并将语义理解转化为动作。 整机硬件方案基于下游场景需求设计,具身智能厂商有从软件到硬件全流程自主控制的需求。 实现人工智能让计算机表现得像人类一样,有自上而下和自下而上两种可能的方法: 自上而下的方法模拟人类通过推理来解决问题的方式,包括对人类知识的提炼并用计算机可读的形式表示,开发在计算机内部模拟推理的方法。 自下而上的方法模拟人脑的结构,由大量称为神经元的简单单元组成,每个神经元的行为取决于输入数据的加权平均值,可通过提供训练数据来训练神经元网络。 还有一些其他可能实现智能的方法,如新兴的依靠协同的多智能体系统,基于大量简单智能系统的相互作用产生复杂智能行为;进化方法或遗传算法,是一种基于进化原理的优化过程。
2025-01-03
数据孪生 怎么在企业中搭建
在企业中搭建数字孪生可以参考以下要点: 1. 利用定制软件:如 Wistron 利用 Omniverse SDK 定制软件,将 NVIDIA DGX 和 HGX 工厂实现数字孪生,大幅缩短调试周期。 2. 集成多类数据:将 Multicad 和过程模拟数据虚拟集成到统一视图中,进行测试和优化布局。 3. 提高效率和缩短上线时间:如 Wistron 工厂使用数字孪生,工人效率提高 51%,上线时间缩短一半。 4. 验证物理构建与数字化计划的匹配:尽早发现差异,避免成本高昂的变更订单。 5. 快速测试新布局和改进操作:使用生产线上每台机器的实时物联网数据监控实时操作。 6. 与合作伙伴共同构建:如西门子正在构建工业元宇宙,并将其皇冠宝石加速器连接到 NVIDIA Omniverse。 未来,设施仓库、工厂建筑将由软件定义,在数字孪生中运行自主机器人堆栈,集成软件的方式是使用数字孪生。同时,NVIDIA 已将 Omniverse 变得更易访问,创建云 API,将其与语言聊天能力集成,可在 3D 环境中进行设计、模拟或生成。
2025-01-02
整合多组学数据用什么方法
整合多组学数据的方法包括以下几种: 1. 机器学习中的集成学习方法,如 Bagging(Bootstrap Aggregating)。其核心思想是通过多次抽样生成多个数据集,训练多个模型,并将这些模型的结果进行平均(或投票)来提高整体预测的稳定性和准确性。具体包括从原始数据集中有放回地抽取多个子集,用每个子集训练独立的相同模型类型(如决策树、多项式等),对于回归任务取平均结果,对于分类任务通过多数投票决定最终分类结果。 2. 在未来的机器学习发展中,预计会在数据整合方面取得进展,例如整合多种模态(如图像、文本和传感器数据)和数据领域的数据,以创建更丰富和更健壮的复杂现象的表示。为实现这种多模态和跨领域的理解,机器学习模型将需要在深度学习、表示学习、自我监督学习和常识推理方面取得进展,并将领域知识和常识推理结合起来。
2025-01-02