大模型在标注数据方面存在以下几个主要痛点:
- 缺乏高质量的训练数据
- 相比英文数据,中文开源高质量数据较少,特别是通用领域的百科、问答、学术等数据
- 专业数据服务行业还处于起步阶段,可用于训练的经过加工、清洗、标注的高质量数据集较为匮乏
- 数据标注人才短缺
- 能够进行专业数据标注的人才并不多,这成为制约大模型训练的瓶颈之一
- 企业需要与高校、研究机构等合作,共同解决数据标注人才的缺乏问题
- 数据隐私和安全问题
- 由于训练数据的敏感性,企业往往只愿意将大模型的训练数据保留在本地,这与需要借助云端算力的矛盾
- 需要在数据隐私保护和算力需求之间寻求平衡
总的来说,高质量训练数据的获取、专业数据标注人才的培养,以及数据隐私安全的平衡,都是当前大模型在标注数据方面面临的主要挑战。这些问题需要产学研各方通力合作,共同解决。