【条文主旨】
本条是关于相关名词定义的规定。
【条文理解】
此次个人信息立法中使用了诸多重要名词,部分名词为首次在立法中出现,部分名词具有技术复杂性,因此,有必要对此次立法中涉及的重要名词的内涵和外延通过名词解释的方式予以明确。
一、关于个人信息处理者
《个人信息保护法》中多次使用了“个人信息处理者”这一名词,“个人信息处理者”是此次《个人信息保护法》中使用的关键概念,是本法用于规制的主要对象。甚至可以说,《个人信息保护法》主要是规制个人信息处理者处理个人信息行为的一部法律。本法绝大多数条款是针对个人信息处理者制定的,仅有第10条适用主体是“任何组织、个人”,此范围大于个人信息处理者的范围。
信息处理者主体范围的界定在数次个人信息保护立法过程中逐步得以明确。2016年欧盟通过的GDPR使用了“信息控制者”和“信息处理者”的概念,“信息控制者”是在信息自决观念下,在事实上占有、控制信息的主体,而信息处理则是基于对信息控制下的延伸活动。我国个人信息保护立法一定程度上参考借鉴了欧盟的相关立法,也有观点提出,《个人信息保护法》应采纳“信息控制者”的概念。但《个人信息保护法》最终并未将“信息控制者”这一概念直接引入,而是立足中国个人信息利用的具体实践,逐步将法律规制主体分为“任何组织或者个人”与“信息处理者”两大类。可见,为加强个人信息保护力度,防止遗漏适用主体,我国采用从行为出发的主体范围界定方式,即任何组织或个人,只要存在目的性、有组织地处理个人信息的行为,均受到个人信息保护相关法律的规制。《个人信息保护法》第58条对一定规模以上的信息处理者课以更严格的责任,除此种特殊情形外,信息处理者的责任并不以其是否为网络服务提供者、线下经营主体、公共管理机构等为区别。
二、关于自动化决策
《个人信息保护法》中关于“自动化决策”的条款是在《个人信息保护法(草案二次审议稿)》的基础上修改完善的。《个人信息保护法》第24条对“自动化决策”问题进行了规定,个人信息处理者不得利用自动化决策技术实行不合理差别待遇,应当保障个人同意拒绝使用自动化决策技术的权利。
“自动化决策”作为处理个人信息的一种技术首次入法,涉及用户画像、算法推荐等新技术应用,需对该技术的具体概念进行明确。自动化决策是建立在大数据、机器学习、人工智能和算法等基础之上,通过大数据技术对海量的用户进行持续追踪和信息采集,然后遵循特定的规则处理所收集的个人信息,对用户进行数字画像和相应的决策。[1]大部分应用机器学习算法的个人信息处理活动都属于自动化决策的范围。根据上述定义,自动化决策过程由以下两个环节构成,一是根据现有信息对用户进行评估、分析,如进行用户画像;二是进行决策,包括利用特定的规则进行个性化展示、算法推荐等。虽然整个数据收集、算法决策的过程是通过计算机自动处理进行,但其中的处理规则可能蕴含人工干预,也即,在一定价值判断下进行规则制定的过程。
关于用户画像。根据《信息安全技术个人信息安全规范》第3.8条的规定,用户画像是指通过收集、汇聚、分析个人信息,对某特定自然人个人特征,如职业、经济、健康、教育、个人喜好、信用、行为等方面作出分析或预测,形成其个人特征模型的过程。(注:直接使用特定自然人的个人信息,形成该自然人的特征模型,称为直接用户画像。使用来源于特定自然人以外的个人信息,如其所在群体的数据,形成该自然人的特征模型,称为间接用户画像。)自动化决策的本质是针对不同用户特点提供不同针对性的个性化服务,其前提是对用户进行分类,这就是进行用户画像的过程。《信息安全技术个人信息安全规范》第7.4条还对用户画像进行了一些限制性规定:“a)用户画像中对个人信息主体的特征描述,不应:1)包含淫秽、色情、赌博、迷信、恐怖、暴力的内容;2)表达对民族、种族、宗教、残疾、疾病歧视的内容。b)在业务运营或对外业务合作中使用用户画像的,不应:1)侵害公民、法人和其他组织的合法权益;2)危害国家安全、荣誉和利益,煽动颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,传播暴力、淫秽色情信息,编造、传播虚假信息扰乱经济秩序和社会秩序。c)除为实现个人信息主体授权同意的使用目的所必需外,使用个人信息时应消除明确身份指向性,避免精确定位到特定个人。例如,为准确评价个人信用状况,可使用直接用户画像,而用于推送商业广告目的时,则宜使用间接用户画像。”
关于个性化展示。个性化展示在不同场合可能被表述为个性化推荐、算法推荐或推荐算法等。根据《信息安全技术个人信息安全规范》第3.16条的规定,个性化展示是指基于特定个人信息主体的网络浏览历史、兴趣爱好、消费记录和习惯等个人信息,向该个人信息主体展示信息内容、提供商品或服务的搜索结果等活动。个性化推荐概念首次出现是在1995年3月的美国人工智能协会上。自此之后,个性化推荐的研究开始蓬勃发展。推荐算法的研究起源于20世纪90年代,由美国明尼苏达大学的研究小组最先开始,他们想要制作一个电影推荐系统,从而实现对用户进行电影的个性化推荐。此后,亚马逊网站开始使用推荐系统,在实际中对用户的浏览购买行为进行分析,尝试对曾经浏览或购买商品的用户进行个性化推荐。[2]
三、关于去标识化
该定义与《信息安全技术个人信息安全规范》第3.15条对去标识化作出的定义相一致。该规范注释中提及,去标识化建立在个体基础之上,保留了个体颗粒度,采用假名、加密、哈希函数等技术手段替代对个人信息的标识。
去标识化和匿名化不同,去标识化处理后,个人信息处理者仍可通过一定方式还原个人信息,只是为了信息存储和使用的安全,对个人信息采取分开存储、加密替代等技术,使得个人信息不能被直接获取,而需通过某种技术借助额外信息进行复原后才能呈现出能识别特定自然人的信息。因此,去标识化一般作为个人信息保护的安全技术措施使用。例如,在收集个人信息后,个人信息控制者可采取技术和管理方面的措施,将可用于恢复识别个人的信息与去标识化后的信息分开存储,这是一种使用去标识化技术提升存储安全的方式。又如,《信息安全技术个人信息安全规范》要求,对外提供学术研究或描述的结果时,需对结果中所包含的个人信息进行去标识化处理,是一种仅保留信息处理者等一定主体掌握的个人信息,而对个人信息进行部分利用的行为。可见,个人信息处理者对去标识化后信息的处理仍属于对个人信息的处理,只是在存储、传输、公开等环节,采取了分开存储、加密存储或部分利用等手段,使得在利用个人信息同时可强化个人信息保护力度。
四、关于匿名化
个人信息“匿名化”这一概念出现在国内外诸多个人信息保护
法律法规中。我国《
网络安全法》第42条虽然没有直接使用“匿名化”这个词,但出现了与之含义相近的“个人信息经过处理无法识别特定自然人且不能复原的过程”的表述。而《信息安全技术个人信息安全规范》则将匿名化定义为“通过对个人信息的技术处理,使得个人信息主体无法被识别或者关联,且处理后的信息不能被复原的过程”。从这一系列定义可以看出,匿名化并不是字面上将姓名隐匿这么简单,需要被隐匿的信息也可能包括出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等,并且对这类信息隐匿处理的最终目的,是要做到无法识别个人身份。[3]
匿名化与去标识化不同,后者可通过额外信息或还原技术将信息恢复到可识别特定自然人信息的程度,而前者则是通过技术手段处理后无法识别特定自然人且不能复原的情况。也就是说,匿名化和去标识化处理后的信息虽均不能识别到特定自然人,但后者可通过一定技术手段和额外信息复原,而前者不能复原。《个人信息保护法》第4条规定:个人信息是已识别或可识别的特定自然人的信息,而匿名化处理后的信息已不再符合构成个人信息的条件,故不再属于个人信息。
【条文适用】
对于本条的适用,需要注意个人信息去标识化与匿名化的区分问题。在司法实践中,判断信息是否完全被匿名化,进而认定其是否应作为个人信息保护,往往是兼具技术性和法律性的难题。在技术实践层面,匿名化并不仅仅是简单的“有或无”的问题,而是一个层次丰富的“多或少”的问题。也就是说,根据信息脱敏程度,可能存在完全无法识别身份的用户信息,存在当下就可以结合其他数据进行个人身份识别的信息(尽管需要或高或低的成本,存在难易程度的不同),也可能存在当下完全匿名化但无法保证未来不被去匿名化的信息。
实践中常涉及以下问题的判断:一组信息关联了手机IMEI号或者手机账户Open_ID,但未关联具体身份证或姓名,该信息是否属于识别到特定自然人的信息。在2015年朱某诉北京百度网讯科技公司隐私权纠纷案中,法院认为,百度网讯公司个性化推荐服务收集和推送信息的终端是浏览器,没有定向识别使用该浏览器的网络用户身份,其收集的信息不符合“可识别”的要求。在2020年黄某与腾讯公司隐私权、个人信息权益网络侵权责任纠纷一案中,法院认为,Open_ID本身就是微信生成的识别用户的识别码,获取Open_ID即可识别用户身份,且昵称、头像、Open_ID以及多个Open_ID之间的好友关系链等信息的组合并未达到匿名化和去标识化的程度,特别是Open_ID与用户主体身份具有强对应关系,在特定场景下结合其他数据仍可还原到相对应用户的具体主体身份信息,最终认定上述信息组合达到了可识别性标准。
司法实践层面对该问题进行了一些探索,随着《
民法典》和《个人信息保护法》的公布,相关认定标准也进一步得到明确。从技术层面上来说,匹配了特定手机或计算机终端的信息,可通过进一步跟踪用户痕迹进行用户画像,理论上讲,在数据样本进一步充分的情况下可实现识别特定自然人的目标。可见,即使在特定时间和特定主体范围中实现了匿名化的信息,亦存在结合其他信息实现可识别的可能性。例如,疫情期间,各地公布的流行病学调查信息,为保护个人隐私均将个人信息进行了一定的匿名化处理,仅凭公开的信息已无法识别到特定自然人,但通过结合其他信息,社会公众可能进一步识别出被公布人的信息。因此,从技术层面上看,信息的完全匿名化几乎很难实现。GDPR序言第26条把“匿名化信息”框定在“合理可能的无法识别”这一标准。我们认为,可考虑根据信息的性质、处理主体、使用的具体场景和方式等综合判断信息是否具有复原的可能性:第一,从信息性质上看,关联了手机IMEI号或手机账户OPEN_ID号的信息,往往可直接用于机器识别“是谁”,具有较强的可复原性;第二,从信息处理主体来说,脱敏后的信息和与之结合后可能识别特定主体的其他信息均由同一主体或关联主体持有的,对该主体来说,并非匿名化信息;第三,从使用的具体场景、方式来说,例如,对信息进行公开的处理行为,不特定公众均可通过其持有的信息进一步挖掘并识别,又如,对信息主体痕迹跟踪的处理和收集行为,可结合更为充分的数据样本进行分析画像,以上两种情形下,可结合的信息为海量、不可控的,故达到可识别标准的可能性较大。