Chat with Wiki - 数据标注这个行业前景如何

Answer

数据标注行业具有一定的前景，但也面临着一些变化和挑战。

从前景方面来看：

数据质量成为提高模型性能的关键瓶颈，这使得数据标注的重要性日益凸显。
多模态模型的发展需要更加细致和复杂的数据标注，为行业带来了更多需求。
随着技术的进步，数据标注不再是简单的劳动力作业，而是向知识密集型转变，这要求从事标注的人员具备更高的专业水平和特定领域的知识，从而提升了行业的专业性和价值。

然而，也存在一些挑战：

数据标注工作繁琐，数据清洗工作占据了大量时间。
合成数据的使用虽然带来了便利，但也存在与真实数据分布不一致可能导致模型偏差等风险。

在数据标注的具体操作上，数据标注可以分为自动标注和手动标注。自动标注主要依赖像 BLIP 和 Waifu Diffusion 1.4 这样的模型，手动标注则依赖标注人员。例如使用 BLIP 自动标注 caption 时，需要进行一系列的操作和配置。

Content generated by AI large model, please carefully verify (powered by aily)

References

教程：深入浅出完整解析Stable Diffusion（SD）核心基础知识 - 知乎

首先，我们需要对数据集进行清洗，和传统深度学习时代一样，数据清洗工作依然占据了AIGC时代模型训练70%-80%左右的时间。并且这个过程必不可少，因为数据质量决定了机器学习的上限，而算法和模型只是在不断逼近这个上限而已。我们需要筛除分辨率较低，质量较差（比如说768*768分辨率的图片<100kb），存在破损，以及和任务目标无关的数据，接着去除数据里面可能包含的水印，干扰文字等，最后就可以开始进行数据标注了。数据标注可以分为自动标注和手动标注。自动标注主要依赖像BLIP和Waifu Diffusion 1.4这样的模型，手动标注则依赖标注人员。（1）使用BLIP自动标注caption我们先用BLIP对数据进行自动标注，BLIP输出的是自然语言标签，我们进入到SD-Train/finetune/路径下，运行以下代码即可获得自然语言标签（caption标签）：注意：在使用BLIP进行数据标注时需要依赖bert-base-uncased模型，Rocky这边已经帮大家配置好了，大家只要使用SD-Train项目便无需做任何修改。同时，如果大家想要修改bert-base-uncased模型的调用路径，可以找到SD-Train/finetune/blip/blip.py脚本的第189行，将“../bert-base-uncased”部分修改成自己的本地自定义路径比如“/本地路径/bert-base-uncased”即可。从上面的代码可以看到，我们第一个传入的参数是训练集的路径。下面Rocky再向大家介绍一下其余参数的意义：

质朴发言：期待地搓手手：多模态大模型的 GPT 时刻｜Z 沙龙第 6 期

在合成过程中，我们发现原始真实数据的质量和数量对合成效果的影响很大，因此我们需要尽可能提高这些数据的质量。团队发现直接使用合成数据进行训练可行，但在实际应用场景中可能会出现一些不匹配的情况。例如，不同机构或医院对阳性和阴性的定义可能不一致，导致标准不统一。尽管存在这些问题，合成数据仍是一个不错的替代训练数据集。c.数据领域的三个趋势、挑战和机会从量到质的转变早期的大模型训练侧重于“暴力美学”，即通过大量算力和大规模数据集来驱动模型的性能提升。然而，随着技术的进步，数据质量成为了提高模型性能的关键瓶颈。这意味着简单地增加数据量和算力不再足够，更重要的是提高数据的质量和相关性。数据标注向知识密集型转变多模态模型需要处理多种类型的数据（如文本、图像、声音等），这要求数据标注过程更加细致和复杂。例如，进行情绪判断或推理时，需要更高水平的理解和分析能力。数据标注不再是简单的劳动力作业，而是转变为一种知识密集型的工作。这要求从事标注的人员不仅要接受专业的培训，而且在某些情况下，需要特定领域（如法律、医疗、金融等）的专家来执行。数据标注的自动化和合成数据的使用随着人工智能技术的发展，数据标注领域正在经历自动化转型。这意味着可以使用大模型来自动标注数据，进而提高标注的效率和减少人力成本。合成数据的使用越来越普遍，主要原因包括成本较低、可以避免隐私问题以及能够生成长尾场景的数据。例如，在自动驾驶领域，合成数据可以用于生成罕见但关键的路况场景，以提高模型的鲁棒性和准确性。

展望2025，AI行业有哪些创新机会？ | 峰瑞报告

在AI领域，数据就像燃料，驱动着模型的进步。然而，传统互联网数据的“油井”已经不够用了，AI模型渴望更高质量的“前沿数据”来提升其推理能力和整体性能。这些数据超越了常规信息，涵盖复杂的推理过程、专业知识和人类思维模式，成为突破模型能力边界的关键。正如前特斯拉AI总监、OpenAI创始成员Andrej Karpathy近期在社交媒体上所言，训练大型语言模型（LLM）的数据可比作人类教科书中的练习题。就像人类做练习题一样，数据被大语言模型压缩成权重，生成可供人类使用的应用解决方案，未来，这些解决方案甚至可能实现自动化。这也改变了数据标注员的角色——从简单的画边界框，转变为需要证明复杂数学定理或批判性审查AI生成的多种解决方案。类似OpenAI最新的o1模型，也离不开规模化高质量、前沿数据的支持。面对高质量数据的短缺，合成数据成为AI训练的“救命稻草”。通过模拟真实数据，生成多样化、高质量的训练样本，合成数据有效解决了真实数据获取难、隐私保护成本高等问题。目前，合成数据已经开始被广泛应用于自动驾驶、医疗影像、金融风控和增强现实等领域。然而，这项技术也伴随着一定风险与挑战，例如合成数据与真实数据分布不一致可能导致模型偏差，以及隐藏的误导性模式可能影响模型的可靠性。在前沿数据领域，峰瑞资本投资了整数智能。整数智能致力于成为AI行业的数据合伙人，对标美国头部公司Scale ai，其提供的智能数据工程平台（MooreData Platform）与数据集构建服务（ACE Service），服务于智能驾驶、生成式人工智能、具身智能等多个人工智能应用场景，以满足它们对先进的智能标注工具以及高质量数据的需求。整数智能不仅深耕服务中国本地客户，还在积极拓展海外市场。/04/应用前沿▎ToC、ToB和ToP