以下是关于数据标注行业发展趋势的相关内容:
数据标注行业呈现出以下几个主要的发展趋势:
从量到质的转变:早期大模型训练侧重通过大量算力和大规模数据集来提升性能,但随着技术进步,数据质量成为提高模型性能的关键瓶颈,更注重提高数据的质量和相关性,而非单纯增加数据量和算力。
数据标注向知识密集型转变:多模态模型需处理多种类型数据,使数据标注过程更细致复杂。例如进行情绪判断或推理时,需要更高水平的理解和分析能力。这要求从事标注的人员不仅要接受专业培训,在某些情况下还需要特定领域专家执行。
数据标注的自动化和合成数据的使用:随着人工智能技术发展,数据标注领域正经历自动化转型,可使用大模型自动标注数据,提高标注效率并减少人力成本。合成数据使用越来越普遍,因其成本较低、能避免隐私问题及可生成长尾场景数据。例如在自动驾驶领域,可用于生成罕见但关键的路况场景,提高模型的鲁棒性和准确性。
此外,相关法律法规也对生成式人工智能技术研发过程中的数据标注做出规定,如提供者应制定清晰、具体、可操作的标注规则,开展数据标注质量评估,对标注人员进行必要培训等。
在合成过程中,我们发现原始真实数据的质量和数量对合成效果的影响很大,因此我们需要尽可能提高这些数据的质量。团队发现直接使用合成数据进行训练可行,但在实际应用场景中可能会出现一些不匹配的情况。例如,不同机构或医院对阳性和阴性的定义可能不一致,导致标准不统一。尽管存在这些问题,合成数据仍是一个不错的替代训练数据集。c.数据领域的三个趋势、挑战和机会从量到质的转变早期的大模型训练侧重于“暴力美学”,即通过大量算力和大规模数据集来驱动模型的性能提升。然而,随着技术的进步,数据质量成为了提高模型性能的关键瓶颈。这意味着简单地增加数据量和算力不再足够,更重要的是提高数据的质量和相关性。数据标注向知识密集型转变多模态模型需要处理多种类型的数据(如文本、图像、声音等),这要求数据标注过程更加细致和复杂。例如,进行情绪判断或推理时,需要更高水平的理解和分析能力。数据标注不再是简单的劳动力作业,而是转变为一种知识密集型的工作。这要求从事标注的人员不仅要接受专业的培训,而且在某些情况下,需要特定领域(如法律、医疗、金融等)的专家来执行。数据标注的自动化和合成数据的使用随着人工智能技术的发展,数据标注领域正在经历自动化转型。这意味着可以使用大模型来自动标注数据,进而提高标注的效率和减少人力成本。合成数据的使用越来越普遍,主要原因包括成本较低、可以避免隐私问题以及能够生成长尾场景的数据。例如,在自动驾驶领域,合成数据可以用于生成罕见但关键的路况场景,以提高模型的鲁棒性和准确性。
第五条鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系。支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作。第六条鼓励生成式人工智能算法、框架、芯片及配套软件平台等基础技术的自主创新,平等互利开展国际交流与合作,参与生成式人工智能相关国际规则制定。推动生成式人工智能基础设施和公共训练数据资源平台建设。促进算力资源协同共享,提升算力资源利用效能。推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。鼓励采用安全可信的芯片、软件、工具、算力和数据资源。第七条生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;(五)《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。第八条在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。
第五条鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系。支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作。第六条鼓励生成式人工智能算法、框架、芯片及配套软件平台等基础技术的自主创新,平等互利开展国际交流与合作,参与生成式人工智能相关国际规则制定。推动生成式人工智能基础设施和公共训练数据资源平台建设。促进算力资源协同共享,提升算力资源利用效能。推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。鼓励采用安全可信的芯片、软件、工具、算力和数据资源。第七条生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;(五)《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。第八条在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。