Chat with Wiki - 数据标注主要有什么用

Answer

数据标注主要有以下作用：

在 AIGC 时代的模型训练中，数据标注是必不可少的环节。数据质量决定了机器学习的上限，而标注工作能筛除分辨率低、质量差、存在破损以及与任务目标无关的数据，去除可能包含的水印、干扰文字等，从而提高数据质量。
有助于提高训练数据的真实性、准确性、客观性和多样性。
在生成式人工智能技术研发过程中，数据标注的提供者应当制定清晰、具体、可操作的标注规则，开展质量评估，抽样核验标注内容的准确性，对标注人员进行必要培训，监督指导标注人员规范开展标注工作。
数据标注分为自动标注和手动标注。自动标注主要依赖像 BLIP 和 Waifu Diffusion 1.4 这样的模型，手动标注则依赖标注人员。例如使用 BLIP 可自动标注 caption。

Content generated by AI large model, please carefully verify (powered by aily)

References

教程：深入浅出完整解析Stable Diffusion（SD）核心基础知识 - 知乎

首先，我们需要对数据集进行清洗，和传统深度学习时代一样，数据清洗工作依然占据了AIGC时代模型训练70%-80%左右的时间。并且这个过程必不可少，因为数据质量决定了机器学习的上限，而算法和模型只是在不断逼近这个上限而已。我们需要筛除分辨率较低，质量较差（比如说768*768分辨率的图片< 100kb），存在破损，以及和任务目标无关的数据，接着去除数据里面可能包含的水印，干扰文字等，最后就可以开始进行数据标注了。数据标注可以分为自动标注和手动标注。自动标注主要依赖像BLIP和Waifu Diffusion 1.4这样的模型，手动标注则依赖标注人员。（1）使用BLIP自动标注caption我们先用BLIP对数据进行自动标注，BLIP输出的是自然语言标签，我们进入到SD-Train/finetune/路径下，运行以下代码即可获得自然语言标签（caption标签）：

【法律规定】生成式人工智能服务管理暂行办法

（四）采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性；（五）《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。第八条在生成式人工智能技术研发过程中进行数据标注的，提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则；开展数据标注质量评估，抽样核验标注内容的准确性；对标注人员进行必要培训，提升尊法守法意识，监督指导标注人员规范开展标注工作。

《生成式人工智能服务管理暂行办法》

（三）涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形；（四）采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性；（五）《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。第八条在生成式人工智能技术研发过程中进行数据标注的，提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则；开展数据标注质量评估，抽样核验标注内容的准确性；对标注人员进行必要培训，提升尊法守法意识，监督指导标注人员规范开展标注工作。