Chat with Wiki - AI 数据清洗

Answer

以下是关于 AI 数据清洗的相关内容：

数据清洗对于预防 AI 幻觉和保证 AI 决策的准确性至关重要。

低质量的训练数据是导致 AI 幻觉的重要原因，因此为 AI 模型提供“干净”、“健康”的训练数据是根本措施。

数据清洗就像医生为病人清除体内的毒素，数据科学家会利用各种技术手段去除错误信息、补充缺失数据、修正不一致的内容，并尽可能消除数据中的偏见。

在准备 AI 知识库时，例如 RAG 流程中，文本预处理环节包含数据清洗和去噪，其目的包括清理无效的数据（删除无效、过时或者不相关的数据，提高后续的检索速度）以及统一数据的格式（将不同的数据元转换成统一的格式，便于后续的处理和检索）。

AI 的决策能力取决于输入数据的质量与多样性，“垃圾进，垃圾出”原理在 AI 决策中显著，数据中的偏见会被放大甚至造成认知扭曲。例如在招聘系统中，AI 可能因训练数据中的历史偏见更倾向于选取某一性别候选人。企业在使用 AI 时必须对输入的数据保持警觉。

Content generated by AI large model, please carefully verify (powered by aily)

References

【深度揭秘】AI 幻觉背后的技术真相与应对策略，探索人工智能的未来

正如我们在前文中提到的，低质量的训练数据是导致AI幻觉的重要原因。因此，为AI模型提供“干净”、“健康”的训练数据，就如同给AI做一次全面的“体检”，是预防AI幻觉的根本措施。数据清洗：就像医生为病人清除体内的毒素一样，数据科学家们会利用各种技术手段，对AI的训练数据进行“清洗”，去除错误信息、补充缺失数据、修正不一致的内容，并尽可能消除数据中的偏见。数据增强：为了让AI模型学习到更全面的知识，我们需要为它提供更多、更丰富的训练数据，就像给学生补充各种类型的练习题，帮助他们掌握不同的知识点和解题技巧。例如，在训练一个图像识别模型时，我们可以对已有的图像进行旋转、缩放、裁剪等操作，生成更多新的样本，从而提高模型的泛化能力。

这可能是讲 Coze 的知识库最通俗易懂的文章了

你要做AI知识库，你起码得有知识库吧，所以RAG的第一步就是准备知识库数据。当下技术下RAG的能力仍然以处理文本数据为主，例如PDF、在线云文档，EXCEL等等为了保证后续流程的质量，在文本准备时会有一个重要的环节，叫做文本的预处理。用专业的词汇叫做数据清洗和去噪。他的目的主要有两点清理无效的数据：删除无效、过时或者不相关的数据，提高后续的检索速度统一数据的格式：将不同的数据元转换成统一的格式，便于后续的处理和检索举个例子：当要整理书桌的时候，我们的第一步通常都是先将桌面上的垃圾给扔掉，然后才是整理桌面上的书本、电脑等物品。扔掉垃圾这一动作就是数据的清洗和去噪

AI决策背后的黑箱：企业如何避免陷入智能陷阱，重塑决策流程

MIT的研究表明，AI系统在处理数据时，**常常会无意中强化现有的社会偏见**。例如，当AI用于招聘系统时，它可能会根据历史招聘数据中的性别、种族等因素做出倾向性决策。**这些系统通过过去的决策模式学习，导致无意中扩大了历史上积累的偏见**。[heading3]案例：招聘系统中的性别歧视[content]某公司在招聘过程中依赖AI系统筛选简历，尽管目的是提高效率，但AI模型因训练数据中包含的历史性别歧视问题，**更倾向于选取男性候选人**。在这些案例中，AI没有能力从道德或伦理角度审视这些模式，因此产生了进一步强化的性别歧视问题。这个例子清楚地表明，AI不具备处理复杂社会问题的能力，只能基于历史数据生成决策。赫拉利对此表达了明确的警示，他认为，**企业在使用AI时必须对输入的数据保持警觉**，因为数据并不只是数字，它还承载着社会和历史的复杂背景。