Chat with Wiki - 数据收集

Answer

以下是关于数据收集的相关内容：

AIGC 服务提供者的数据收集是创建 AIGC 的源头，用于训练 AI 模型以提高其功能性和准确性。数据来源主要包括：提供者自身持有的数据集、已合法公开的各类数据、通过网络爬虫等形式抓取的数据、通过用户交互而获取的数据、其他由相关方提供的数据。

已生效的《生成式人工智能服务管理暂行办法》对数据采集有明确规定：

使用具有合法来源的数据和基础模型。
涉及知识产权的，不得侵害他人依法享有的知识产权。
涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形。
采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性。
遵守《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。

在数据收集过程中可能涉及的法律风险有：

采取网络爬虫等技术收集数据的法律风险。
直接收集合法公开数据的法律风险。

《个人信息保护法》确立的数据收集基本原则有：

合法正当，不得窃取或以其他非法方式收集数据，个人信息的收集需取得规定的合法性基础（告知、同意等）。
公开透明，数据处理应遵循公开、透明原则，公开个人信息处理规则，明示处理的目的、方式和范围。
最小必要，只应收集满足个人信息主体授权同意范围内的最少类型和数量的个人信息，不应收集与其提供的服务无直接或无合理关联的个人信息。

在欧盟 GDPR 合规体系中，数据收集是企业进行数据处理活动的起始环节。企业在对特定领域业务中涉及到数据收集的环节进行风险梳理时，重点比照 GDPR 中的要求，如数据收集前是否进行充分告知，包括数据控制者、数据处理者以及二者的数据保护官（DPO，如有）的身份和联系方式，数据收集的目的、种类、数量、范围等。

Content generated by AI large model, please carefully verify (powered by aily)

References

2024AIGC法律风险研究报告（更新版）.pdf

数据采集过程是AIGC服务提供的源头。创建一个AIGC离不开对于大量数据的收集，这种数据主要用于训练AI模型，以提高AI的功能性和准确性，使得AI能够满足提供者和使用者的共同要求，提供优质、高效而又精确的服务。而该等用于训练、优化模型的数据则主要来源于：（1）提供者自身持有的数据集；（2）已合法公开的各类数据；（3）通过网络爬虫等形式抓取的数据；（4）通过用户交互而获取的数据；（5）其他由相关方提供的数据。对此，已经生效的《生成式人工智能服务管理暂行办法》第七条明确规定，“生成式人工智能服务提供者（以下称提供者）应当依法开展预训练、优化训练等训练数据处理活动，遵守以下规定：（一）使用具有合法来源的数据和基础模型；（二）涉及知识产权的，不得侵害他人依法享有的知识产权；（三）涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形；（四）采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性；（五）《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。”38AIGC法律风险研究报告其中对于数据要求其有合法来源，对于个人信息，要求其取得个人同意或者法律、行政法规规定的其他情形。而在前述数据收集的过程中，可能涉及的法律风险有：[heading3]其一，采取网络爬虫等技术收集数据的法律风险；[heading3]其二，直接收集合法公开数据的法律风险；

2024AIGC法律风险研究报告（更新版）.pdf

《个人信息保护法》等树立的数据收集基本原则有：第一、合法正当，即不得窃取或者以其他非法方式收集数据，同时个人信息的收集需取得规定的合法性基础（告知、同意等）。第二、公开透明，即数据处理应当遵循公开、透明原则，公开个人信息处理规则，明示处理的目的、方式和范围。第三、最小必要，即只应收集满足个人信息主体授权同意范围内的最少类型和数量的个人信息，不应收集与其提供的服务无直接或无合理关联的个人信息。8AIGC法律风险研究报告[heading1]2、数据处理[content]近日出台的《生成式人工智能服务管理暂行办法》已经尝试规范GenAI工具使用者训练数据的处理活动，该办法第七条明确要求AIGC服务提供者须遵守以下规定：（1）使用具有合法来源的数据和基础模型；（2）不得侵害他人依法享有的知识产权；（3）应取得个人信息所有者的同意；（4）采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性；（5）符合法律法规。[heading1]3、数据保护[content]AIGC服务提供者使用数据不可避免涉及数据脱敏、储存、传输等环节。服务提供者往往通过与使用者签订服务条款明确权利义务，而协议的合法性、可履行性则需要进一步检验。

【合规指引】欧盟GDPR合规指引.pdf

在企业经过初步判断确定属于GDPR的规制范围之后，则需要更进一步地对企业自身的业务活动和领域进行梳理和筛查，并对相关数据的收集、使用、处理、保存和跨境传输的状态进行具体的梳理和分析。在实践中，为了保证全面、准确地识别企业可能受到GDPR影响的具体业务领域和数据处理活动，通常建议企业首先按照自身主要经营活动为模块进行梳理和筛查，确定GDPR合规风险较大的业务模块和领域。其次，在确定主要涉及GDPR合规的业务领域之后，企业可以根据每个业务模块的具体业务流程，按照所涉及到的数据收集、使用、处理、保存和跨境传输等数据处理周期中的具体环节，比照GDPR中所规定的13欧盟GDPR合规指引数据处理的基本原则、数据处理活动中数据主体的权利以及数据控制者和处理者的义务，识别企业所进行的数据处理周期中每一环节所可能存在的风险和问题，从而锁定出不同业务中GDPR合规风险较大的具体数据处理环节。具体而言，企业可对其数据处理周期中的每个环节作如下梳理：（1）数据收集数据收集是企业进行数据处理活动的起始环节。企业在对特定领域业务中涉及到数据收集的环节进行风险梳理时，可以重点比照GDPR中的下列要求，确定企业在特定目标业务领域中的数据收集环节是否存在较大的风险：1）数据收集前是否进行充分告知GDPR中规定数据控制者或处理者在向数据主体进行数据收集前，需以清晰明确、易于理解的方式向数据主体告知有关数据收集和处理的相关信息，具体包括：a.数据控制者、数据处理者以及二者的数据保护官（DPO，如有）的身份和联系方式，如电话、电子邮箱、邮寄地址等；b.数据收集的目的、种类、数量、范围；