Chat with Wiki - AI 数据清洗

Answer

AI 数据清洗是为 AI 模型提供高质量训练数据的重要环节，具有以下要点：

是预防 AI 幻觉的根本措施，如同给 AI 做全面“体检”。
像医生为病人清除体内毒素一样，利用各种技术手段去除错误信息、补充缺失数据、修正不一致内容，并尽可能消除数据中的偏见。
为让 AI 模型学习更全面知识，可对已有数据进行增强操作，如对图像进行旋转、缩放、裁剪等生成新样本以提高模型泛化能力。
对于准备 AI 知识库，如 RAG ，在准备数据时会进行文本预处理，包括数据清洗和去噪，目的是清理无效数据以提高检索速度，统一数据格式便于后续处理和检索，例如整理书桌时先扔掉垃圾。
AI 决策能力取决于输入数据质量与多样性，“垃圾进，垃圾出”原理显著，数据常无意中强化社会偏见，如在招聘系统中可能导致性别歧视等问题，企业使用 AI 时必须对输入数据保持警觉。

Content generated by AI large model, please carefully verify (powered by aily)

References

正如我们在前文中提到的，低质量的训练数据是导致AI幻觉的重要原因。因此，为AI模型提供“干净”、“健康”的训练数据，就如同给AI做一次全面的“体检”，是预防AI幻觉的根本措施。数据清洗：就像医生为病人清除体内的毒素一样，数据科学家们会利用各种技术手段，对AI的训练数据进行“清洗”，去除错误信息、补充缺失数据、修正不一致的内容，并尽可能消除数据中的偏见。数据增强：为了让AI模型学习到更全面的知识，我们需要为它提供更多、更丰富的训练数据，就像给学生补充各种类型的练习题，帮助他们掌握不同的知识点和解题技巧。例如，在训练一个图像识别模型时，我们可以对已有的图像进行旋转、缩放、裁剪等操作，生成更多新的样本，从而提高模型的泛化能力。

这可能是讲 Coze 的知识库最通俗易懂的文章了

你要做AI知识库，你起码得有知识库吧，所以RAG的第一步就是准备知识库数据。当下技术下RAG的能力仍然以处理文本数据为主，例如PDF、在线云文档，EXCEL等等为了保证后续流程的质量，在文本准备时会有一个重要的环节，叫做文本的预处理。用专业的词汇叫做数据清洗和去噪。他的目的主要有两点清理无效的数据：删除无效、过时或者不相关的数据，提高后续的检索速度统一数据的格式：将不同的数据元转换成统一的格式，便于后续的处理和检索举个例子：当要整理书桌的时候，我们的第一步通常都是先将桌面上的垃圾给扔掉，然后才是整理桌面上的书本、电脑等物品。扔掉垃圾这一动作就是数据的清洗和去噪

AI决策背后的黑箱：企业如何避免陷入智能陷阱，重塑决策流程

MIT的研究表明，AI系统在处理数据时，**常常会无意中强化现有的社会偏见**。例如，当AI用于招聘系统时，它可能会根据历史招聘数据中的性别、种族等因素做出倾向性决策。**这些系统通过过去的决策模式学习，导致无意中扩大了历史上积累的偏见**。[heading3]案例：招聘系统中的性别歧视[content]某公司在招聘过程中依赖AI系统筛选简历，尽管目的是提高效率，但AI模型因训练数据中包含的历史性别歧视问题，**更倾向于选取男性候选人**。在这些案例中，AI没有能力从道德或伦理角度审视这些模式，因此产生了进一步强化的性别歧视问题。这个例子清楚地表明，AI不具备处理复杂社会问题的能力，只能基于历史数据生成决策。赫拉利对此表达了明确的警示，他认为，**企业在使用AI时必须对输入的数据保持警觉**，因为数据并不只是数字，它还承载着社会和历史的复杂背景。