2020 年,中共中央、国务院提出加快培育数据要素市场,数据分类分级安全保护成热点,被评选为 2020 年中国网络安全十大事件 。数据分级分类管理是实施数据全生命周期安全保护的重要基础,只有在科学、规范的数据分级分类管理基础上,数据要素的安全要求与使用需求才能够有效地平衡 。在培育数据要素市场过程中,企业是产业运行的主体,是数据要素生产和流通的践行者和市场化建设的重要动力源 。近 20 年来,国内学者主要从基于等级保护制度、法理保护、国家安全、数据生命周期4种视角开展了不同程度的数据分类分级与保护相关理论实践及技术专题研究。然而,不同行业领域学者因站位不同、观点不一,导致企业很难系统地把握数据分类分级与保护的实施路径。为此,本文通过对我国数据分类分级的总体研究进展进行系统梳理,对其内涵、目的、责任主体和思路视角多个方面予以分析和阐述,尝试提出数据分类分级的可行路径和未来发展方向,以期为企业提供实践参考。
1
文献样本范围
为了全面了解数据分类分级保护的研究进展,本文选择知网学术期刊数据库,检索时间截至 2022 年 12月 31 日,不设置最早时间,考虑到我国大数据元年前分类分级保护对象是信息或信息系统,故检索规则确定为:主题包含数据或信息且主题包含分类、分级或分类分级且关键词包含安全。从检索结果中,通过阅读摘要,剔除与数据分类分级的内涵、目的、思路、技术和实施路径均不相关的文献,最后获得 90 篇文献。此外,根据信息系统安全、网络安全、数据安全、分类分级、数据分类、数据分级、数据开放和数据共享等关键词,检索我国部门规章、标准与指南等 33 篇,其中信息系统安全类 2 篇、网络安全类 6 篇、数据安全类6 篇、数据分类分级类 15 篇(涵盖网络数据、金融数据、政府数据、工业数据和公共数据等)、数据开放共享类 4 篇。
2
描述性分析
2.1 趋势分析
按年度统计文献样本发文量,文献发布量趋势如图 1 所示。自 2004 年李晓勇等人首次对政务信息提出了安全分类方法后的 14 年里,学界关于信息或信息系统分类分级的研究处于低位停滞状态,直到 2018 年《网络安全等级保护条例》倡导落实数据分类、重要数据备份和加密等措施,2019 年起数据分类分级相关研究发文量迅猛增长,随着 2021 年《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》的颁布,数据分类分级与保护的研究达到顶峰。
图 1 文献发布量趋势
2.2 领域分析
经统计,90 篇文献样本的研究覆盖了 12 个领域的数据,如图 2 所示,其中 32 篇文献针对广义数据、信息或信息系统数据开展了研究,作者大部分来自高校,内容多侧重于分类分级关键技术、模式方法等。其余 58 篇文献聚焦特定领域的数据分类分级研究,其中,公共数据领域的分类分级研究最多,交通运输、能源、电信和卫生健康等领域的分类分级研究次之,工业、农业、教育和金融等领域的分类分级研究最少。
图 2 数据领域分布
经分析,政务数据分类分级研究超前,不仅得益于其数据规范程度高于其他领域,也有赖于我国一系列政务数据共享政策制度的强力推动。2015 年,国务院印发《促进大数据发展行动纲要》,随后中央及各部委发布了《关于推进公共信息资源开放的若干意见》《政务信息资源共享管理暂行办法》《政务信息资源目录编制指南(试行)》等多篇文件,明确了政务数据共享原则和策略指向。从 2016 年起,贵州、杭州、浙江和长春等地陆续发布地方政务数据分类分级标准,为践行政府公共数据分类分级提供路径指引,也为各界学者深入对比研究提供参考。
3
系统性分析
从早期的信息系统分类分级研究,到信息分类分级演变为数据分类分级,数据的内涵逐步扩充,分类分级的目的和实际意义逐渐清晰,分类分级责任主体得以明确,各行各业数据分类分级策略、实施路径、工具和技术相继涌现、相互吸收,推动数据分类分级管理体系进一步完善。
3.1 数据的内涵及演变
数据起源于计数,最早可追溯到商周时期《易九家言》记载的“结绳记事”。国外最早发现的数据存储证据是非洲斯威士兰的列彭波骨和刚果的伊尚戈骨刻纹。进入农耕时代,随着数据量的日益增长,传统的计数方式已不能满足需求,进而催生了以阿拉伯数字为代表的计数系统,奠定了后期数据统计、计算机处理的基础。计算机和关系型数据库产生后,在计算机科学中,数据被定义为“所有能输入到计算机并被程序处理的符号介质的总称”,包括具有一定意义的数字、字母、符号和模拟量等,数据仅包括计算机存储的结构化数据和静态数据库。
进入信息时代,随着信息系统的出现,数据的存储和处理设备发生了根本性变革,除结构化数据外,诸如文本、音频、视频图像等半结构化、非结构化数据也一并纳入数据范畴。《信息安全技术 网络安全事件分类分级指南》将数据定义为任何以电子或者其他方式对信息的记录。
随着互联网大数据时代的到来,计算机存储和处理的对象越发广泛,数据的内涵向具有多元、大量、高速特征的大数据方向发展演变,成为大数据的代名词,本文所称的数据内涵即为此。
3.2 数据分类分级及目的
数据具有种类繁杂、领域广泛、主体多样、权益不同、归属交叉和动态敏感等特征属性,导致数据的分类、分级维度多样,主流的数据分类 按照数据生成来源划分为公共数据、企业数据和个人信息数据,按照行业领域数据可划分为工业数据、电信数据、金融数据、交通数据、自然资源数据、卫生健康数据、教育数据、科技数据和政务数据等数据分级一般按照特性分级,如按价值维度分为公开、内部、核心,按敏感度维度分为秘密、机密和绝密,按司法影响范围分为境内和跨境等。
基于数据分类分级结果,开展数据全生命周期精准安全保护与使用管控是数据分类分级的最终目的。在科学、规范的分类分级管理基础上,有效平衡数据的安全要求和使用需求,才能较好地实现数据的风险管理成本与利用效益的平衡,实现数据在全领域、全周期、多场景和多维度下的科学精准治理,进而推动数据产业的快速、健康、可持续发展。
3.3 数据分类分级责任主体
数据分类分级管理工作的责任主体因数据类别不同而不同,本文按主流的数据分类进行总结。
(1)公共数据方面,典型的如《福建省大数据发展条例》第三十条指出,省人民政府应当建立健全数据分类分级保护和安全审查制度,明确各环节中数据安全的范围边界、责任主体和具体要求 ;《辽宁省大数据发展条例》第十七条指出,公共管理和服务机构应按照公共数据管理制度和规范,落实数据管理主体责任。
(2)个人数据方面,参照《中华人民共和国个人信息保护法》规定,个人信息处理者应当对个人信息处理活动负责 。
(3)企业数据方面。一是工业和电信数据,根据《工业和信息化领域数据安全管理办法》第七条规定,工业和信息化部组织制定工业和信息化领域数据分类分级、重要数据和核心数据识别认定、数据分级防护等标准规范,指导开展数据分类分级管理工作。地方行业监管部门分别组织开展本地区工业和信息化领域数据分类分级管理及重要数据和核心数据识别工作,确定本地区重要数据和核心数据具体目录并上报工业和信息化部,目录发生变化的,应当及时上报更新。二是金融数据,根据《证券基金经营机构信息技术管理办法》第三十条规定,证券基金经营机构应当将经营及客户数据按照重要性和敏感性进行分类分级 。三是科学数据,根据《科学数据管理办法》第十条规定,科学数据中心是促进科学数据开放共享的重要载体,由主管部门委托有条件的法人单位建立,主要职责包括负责科学数据的分级分类、加工整理和分析挖掘等 。四是教育数据,根据《教育部机关及直属事业单位教育数据管理办法》第四条规定,教育数据的采集、储存、共享、公开和安全管理等工作要在教育部统筹管理、统一标准的基础上,由教育部机关及直属事业单位分头实施、各负其责 。
3.4 数据分类分级策略与技术
3.4.1 数据分类分级策略
在 60 篇关于数据分类分级策略、理论框架与实践研究的文献样本中,43 篇基于企业特定场景提出了数据分类分级方法与分级防护的具体措施,其余 17 篇文献分别从国外对比、国家视角、等保视角、数据生命周期视角和法理保护视角,提出了数据分类分级思路与保护策略,对企业开展数据分类分级工作有较高借鉴价值。
(1)国外的数据分类分级制度。美国数据分类分级研究起步较早且已形成体系。完颜邓邓等人 总结了美国的信息分类情况,一是国家安全信息,最早于 1995 年提出并在 2009 年以13526 号总统令修订明确,现按照信息泄露造成的损害程度可将信息划分为最高机密、机密和秘密 3 类。二是受控未分类信息,即需要根据法律法规及政府维护或控制的信息,最早于2008 年明确,在 2010 年以 13556 号总统令修订发布,构建了该类信息公开且统一的管控规程。
此后,针对受控未分类信息,司法部、受控未分类信息办公室、联邦公报等主体系统化完善并发布了关于该类信息的审查程序、实施框架、细则与指南、安全评估控制程序和方法等指导性文件,为受控未分类信息的标记、保护、传播、控制提供全面的政策与指导。
此外,周亚超等人通过大量调查研究发现,美国各行政部门现已发布了 20 个大类、124 个子类别的受控未分类信息的保护、传播、标志及管控政策程序。刘崇瑞等人对比分析了加拿大敏感信息和英国政府信息的分类方法和配套人员安全审查控制机制,发现加拿大将信息按保护程度分为涉密信息、受保护信息和隔离信息 3 大类,其中,涉密信息细分为秘密、机密和绝密 3 级,受保护信息细分为低敏感、特敏感和极敏感 3 类。
此外,配套可靠性、机密级安全和绝密级安全的审查机制,再按不同级别人员安全要求区分标准审查和强化审查,构建形成了多类别、多维度的信息分类与审查保护机制。通过对比研究发现,英国持从简观点,将政府信息分为官方信息、秘密信息和绝密信息 3 类,并根据政府信息内容规定了标识相应的标识符,配套设置人员、物理、信息安全控制标准和审查机制,根据人员安全需要设定了高度审查、反恐怖分子审查等 4 类人员安全审查类型。
(2)国家视角的数据分类分级规划。由于我国数据分类分级主体大多为企业,由其“自下而上”规划设计,极易存在因“本位思想”“片面认识”导致的系列问题。就此,洪延青 剖析了数据分类分级工作管理思路上升至国家层面,并服务于数据主权国际竞争的必要性,提出企业站在组织内部视角开展数据分类分级管理时,应兼顾国家层面“自上而下”的数据分类分级和保护要求,即企业应按照国家发布的“重要数据目录”,将企业组织内部涉及保护国家安全、国计民生、公共利益整体层面的数据列入重要数据,并高度关注重要数据目录的更新发布,及时调整自身数据分类分级和保护措施,强化重要数据和核心数据的保护。
(3)等级保护制度与数据分类分级整合。我国在 1999 年就开展了信息系统等级划分和等级保护,后出台了基于信息密级划分的涉密信息系统等级保护,并发展至对于涉密信息的分级划分与管理,现已逐步升级到新时代数据资源分类分级和网络安全等级保护。
基于企业已制定运行的针对信息系统、涉密信息等级保护的规定,有机整合、兼顾、规划设计企业的数据分类分级规则,更加有利于企业对信息、信息系统和数据的统一分类管理。徐岩柏 参照网络安全等级保护相关制度的要求,总结金融、政府和电信互联网行业分类分级现状,并指出数据分类分级要根据行业特点从业务和管理两条线进行梳理。唐迪等人结合网络安全等级保护制度,提出了基于等级保护策略的个人信息分级保护技术要求。
(4)法理保护辅助数据分类分级完善。数据的法理保护是数据要素市场化流通的法制保障。数据分类分级制度为数据刑法保护体系的构建、数据犯罪量刑认定与处罚提供了依据和参考,数据刑法保护中的法益识别和价值衡量可以帮助构建完善的数据分类分级制度。张勇 指出,要将数据作为独立法益加以保护,数据分类分级应具有数据安全法益识别功能,能够为认定数据犯罪提供罪质和罪量的评价依据,成为数据犯罪认定的重要支撑,确立以数据安全为核心的体系化刑法保护。杨诚 建议,发挥数据分类分级的法益识别和定位功能,在数据分类分级框架下,构建以数据为核心的刑法保护体系;完善数据全周期保护,对数据犯罪的上中下游的制裁同步进行;增设以数据为独立犯罪对象的新罪名,遵循数据分类分级制度需求对不同数据采取不同的入罪门槛和刑罚方式;在《刑法》中同步构建数据分类分级制度。
(5)生命周期视角强化数据安全保障。数据全生命周期通常包括产生、收集、存储、使用、加工、传输和共享等阶段,每个阶段数据的形态格式、价值度和泄露危害程度都不同,因此考虑对数据的全生命周期进行分类分级,才能最大限度地做好数据的防护保障。刘晓娟等人基于科学数据,从数据获取、存储传输、处理分析、发布共享、销毁 5 个生命周期阶段构建了制度层、管理层、执行层和技术设施层4 层数据分级管理框架,提出了在数据获取阶段预先制订数据管理计划、确定并标注数据级别,在存储传输阶段、处理分析阶段实施符合数据安全级别要求的管理措施,在发布共享阶段设定访问权限并审批访问请求,同时,配套数据生命周期安全可靠的工具、设施保障,从而实现了科学数据的分级管理。汪火明等人从敏感度、泄露危害度方面对健康医疗大数据进行分级,在数据的采集、传输、存储、处理、共享和销毁 6 个阶段对数据制定了不同的管理策略和技术保障要求,并在湖北进行试点验证,且对不同用户在生命周期各阶段的授权控制策略进行展望。
3.4.2 数据分类分级技术
30 篇文献样本对数据分类分级技术和工具进行了研究,本文发现,其主要聚焦在电力、医疗和政府等领域,运用卷积神经网络、决策树算法、支持向量机算法和贝叶斯算法,实现文本、图像数据的高精度、高效率自动分类和分类性能优化改进。
(1)基于神经网络算法。王道元等人 提出一种基于改进粒子群算法和卷积神经网络的智能风险分级模型,提升了安全隐患数据风险等级划分的精确度。谢斌红等人提出基于词向量训练模型和卷积神经网络的自动分类方法,实现了端到端的自动分类。葛琳等人 根据网络通信时间片段中的通信关系、通信内容特征,采用潜在狄利克雷分布模型进行建模分类,构建了一种实时多维信息联合的在线内容安全事件分类模型,实现了网络信息安全事件在线分类的优越性能。
(2)基于决策树算法。冯晓荣等人提出一种改进的基于 Boosting 算法的 C4.5 决策树文本分类模型。陈晶采用随机森林算法完成聚类数据的预处理,剔除网络数据的不相关特征属性,并利用邻域粗糙集算法提取特征,去除冗余数据后,建立基于极端梯度提升算法的分类模型,利用网格搜索法自动优化选择,设置学习目标参数、通用参数等参数,实现网络安全数据的快速分类。赵学民 提出结合深度学习算法的网络安全信息高精度分类方法,即采用深度置信网络模型提取舰船网络安全信息特征,而后利用随机森林分类器进行网络安全信息类型的分类。
(3)基于支持向量机算法。赵明等人提出基于词频参数的改进特征项降维方法,该方法降低了文本的噪声,并结合优化的支持向量机模型,提高了分类算法的准确率。李一桐引入基于信息熵的数据安全分类模型,即使用基于平均自信息和互信息隐私度量的方法得到数据的隐私度量特征,使用文本向量化技术得到每一段文本特征,并将两部分特征融合后输入到文本分类模型中进行数据安全分类。
(4)基于贝叶斯算法。田伟等人采用混合法筛选隐蔽网络信息安全指数属性,得到初始属性集合,并在此基础上构建多维贝叶斯分类模型,利用菌群优化算法约简初始属性集合,为隐蔽网络信息提供快速、精准的多维属性分类方法。
此外,考虑数据传输、共享安全问题,贾婧针对医疗领域多模态数据资源,融合同态加密技术构建了安全卷积神经网络模型,实现了密文多模态资源特征的提取和正确分类。凌天斌等人针对网络涉密信息欠缺分类检测和传输易泄露等问题,提出了基于扩展贝叶斯分类算法的信息安全传输方法。
4
企业数据分类分级实施路径
基于以上研究,本文尝试提出企业数据分类分级的实施路径如下:
(1)建立企业数据分类分级管理组织,明确责任人并健全配套管理与问责制度。企业数据分类分级管理工作是一个不断优化、动态完善、长期且持续的过程,明确组织架构、职责范围和问责机制是确保数据分类分级等数据安全管理工作有效落地的资源基础。
(2)“自上而下”做实企业数据分类分级法理、制度宣贯。首先,深入理解《中华人民共和国数据安全法》等国家政策中规定的核心数据和重要数据的范围,按照所在地区和行业主管部门制定的重要数据目录分析自身企业数据,与国家层面的管理要求保持一致。其次,检索行业监管部门的要求与指导文件,获得分类分级、安全保护的实施依据。最后,基于企业已有的信息系统、网络、基础设施等级保护 2.0制度落实情况,综合开展相关数据资源的分级等级保护工作。例如,裴晋泽等人综合分析了国家秘密、等级防护、网络安全评估标准级别、信息安全评估标准、计算机信息系统安全保护等级划分方法,提出了多种数据分级与防护方案。
(3)立足企业发展,按业务路线盘点数据资源并实施分类。一是识别结构化、非结构化、半结构化各类型数据;二是同步梳理业务线和用户场景,按照企业管理发展需要进行分类,即按企业业务板块划分为不同业务域,进而依据不同的业务流程和业务过程阶段进行数据分类;三是对照数据分类原则检查完善核对,确保分类法律性、稳定性、体系性、可扩展性和可行性。3 个步骤遵循戴明环持续优化完善,以期全面掌握企业的数据资源。
(4)设计多因素综合数据分级定级规则。根据行业特征,考虑数据定级常见的因素有信息 / 数据重要程度、影响对象(或客体)、影响范围(或影响广度)、影响程度(或影响深度、损害严重程度、泄露危险性、破坏影响)和影响要素(或数据安全属性)等,基于以上因素,还可借鉴其他行业优秀实践设计科学定级算法。例如,钟璐潞等人以港口企业数据资产为研究目标,提出了基于 4 个维度影响对象、3 个影响要素、3 个影响程度来制定科学定级算法,实现不低于 3 级的定级方法。高磊等人考虑数据发生安全事故后的影响对象、影响广度、影响深度等因素,设计矩阵法,并根据数据应用场景和行业特点确定数据级别。
(5)开展数据分类分级试点工作,依据业务场景逐步验证、完善,同步引入自动分类技术、工具,提高数据分类分级的精确度和有效率。
5
结 语
鉴于当前研究热点聚焦在以数据安全、信息安全和网络安全为目的的大数据分类和分级,具体涉及数据目录、实践指南及安全防护技术,企业下一步研究重点应为:
(1)基于企业具体业务场景的、涵盖企业所有数据的智能化、自动化分类分级解决方案、安全防护技术产品等,亟须企业与数据安全厂商共同研发和持续优化。
(2)在行业数据分类分级、数据全生命周期确权和数据共享交易等方面需要深入研究并形成实施细则,以指导企业更快、更好地开展数据分类分级与保护工作。