大数据背景下的数据安全治理研究进展

徐 双a,b,刘文斌a,李佳龙a,李灯熬a,b,c,赵菊敏b,c,d

(太原理工大学 a.大数据学院,b.大数据融合分析与应用山西省重点实验室,c.山西省智能感知工程研究中心,d.信息与计算机学院,山西 晋中 030600)

摘 要:【目的】通过检索与分析数据安全治理相关技术文献,从数据全生命周期各阶段入手,展开实现数据安全治理的各类安全治理技术研究。【方法】首先,通过介绍数据安全治理现状,分析加强数据安全治理研究的重要性;其次,具体阐述了数据全生命周期理论,给出数据生命周期的不同阶段;然后,系统性总结了数据准备、使用、存储与销毁等不同生命周期阶段的数据安全治理技术及其应用;最后,对数据安全治理面临的挑战与未来研究方向进行了分析与展望。【结论】加强数据安全治理,不论是对个人信息的隐私保护,还是对数据产业自身发展,甚至是对国家的信息安全,都有着重大意义。数据安全治理领域应更好地将区块链技术和实际应用相结合,建立更加健全的数据追责机制,明确数据使用的责任和义务。

关键词:数据安全治理;全生命周期;数据准备;数据使用;数据存储与销毁

中图分类号:TP309.2

文献标识码:A

DOI:10.16355/j.tyut.1007-9432.20230294

文章编号:1007-9432(2024)01-0127-15

引文格式:徐双,刘文斌,李佳龙,等.大数据背景下的数据安全治理研究进展[J].太原理工大学学报,2024,55(1):127-141.

XU Shuang,LIU Wenbin,LI Jialong,et al.Research progress on data security governance under the background of big data[J].Journal of Taiyuan University of Technology,2024,55(1):127-141.

收稿日期:2023-04-20;

修回日期:2023-06-22

基金项目:国家自然科学基金资助项目(62102280);山西省基础研究计划资助项目(20210302124167);山西省重点研发计划项目(202102020101001);国家自然科学基金面上资助项目(61972273);山西省关键核心技术和共性技术研发攻关专项项目(2020XXX007)资助

第一作者:徐双(1990-),博士,讲师,主要研究领域为空天网络、边缘计算、数据资产管理,(E-mail)xushuang@tyut.edu.cn

Research Progress on Data Security Governance Under the Background of Big Data

XU Shuanga,b, LIU Wenbina, LI Jialonga, LI Deng′aoa,b,c, ZHAO Juminb,c,d

(a.CollegeofDataScience,b.KeyLaboratoryofBigDataFusionAnalysisandApplicationofShanxiProvince,c.IntelligentPerceptionEngineeringTechnologyCenterofShanxi,d.CollegeofInformationandComputer,TaiyuanUniversityofTechnology,Jinzhong030600,China)

AbstractPurposes】 In this paper, research on various stages of the data life cycle and various security governance technologies has been conducted to achieve data security governance progress by searching and analyzing related technical literatures. 【Motheds】 First, the importance of strengthening research on data security governance is analyzed by introducing the status quo of data security governance. Second, the theory of the whole data life cycle is expounded in detail, and the different stages of the data life cycle are given. Third, the data security governance technologies and their applications in different life cycle stages such as data preparation, use, storage, and destruction are systematicalhy summarized. At last, the challenges and future research directions of data security governance are analyzed and prospected. 【Conclusions】 Strengthening data security governance is of great significance, whether for the privacy protection of personal information, or for the development of the data industry itself, or even for the information security of the country.

Keywordsdata security governance; full lifecycle; data preparation; data usage; data storage and destruction

随着互联网的发展与信息技术的进步,数据已经成为影响社会生产的关键要素,其体量已达到PB/EB级别。数据总量呈现爆发式增长的同时[1],数据价值愈加凸显,数据安全风险与日俱增。数据泄露、数据贩卖等数据安全事件频发,为个人隐私、企业商业机密、国家重要情报等带来了严重的安全隐患。因此,数据的安全性显得尤为重要,数据安全已成为数字经济时代最紧迫、最基础的安全问题,加强数据安全治理已成为维护国家安全和国家竞争力的战略需要。随着《中华人民共和国数据安全法》的正式颁布,数据安全在国家安全体系中的重要地位得到进一步的明确。

本文通过对数据安全治理领域现有研究成果的分析,对大数据环境下的数据安全治理技术进行了全面的探索与总结。

1 数据安全治理概述

数据安全治理以“让数据使用更安全”为目的,对企业或组织内部的数据进行规范化管理和保护,以确保数据的完整性、保密性和可用性。其本质是以数据为中心设计和实施安全保护措施,以数据安全能力成熟度为抓手的体系化方法论[2]。数字经济时代,数据安全、高效地流通交易才能更好地释放数据价值。因此,数据安全治理的目标是在合规保障及风险管理的前提下,实现数据的开发利用,保障企业数据管理业务的持续健康发展,确保数据安全与业务发展的双向促进。

数据治理的核心产出是数据质量的显化和提升,而数据安全治理是保障上述产出的核心手段和措施,所以不能简单将数据安全治理视为数据治理的一个分支。对于同样容易混淆的数据安全管理来说,管理的概念通常强调控制和执行,以形成制度和规范条例的方式加以表述和落实;治理则更强调协调和合作,通常以方法论的形式呈现。在数据安全范畴内,数据安全治理相比数据安全管理拥有更好的灵活性、丰富性和包容性,更有利于指引数据安全建设。

根据在IEEE、Sage、Science Direct、ACM、Wiley五大出版社上以标题、摘要、关键词为搜索范围,使用“data security governance”进行搜索,获得了从2014—2023年的论文数量数据,如图1所示。论文统计截止到2023年5月,因此发现,论文数量大致呈现逐年增长趋势,且预计其未来趋势仍然呈增长,从这些论文数量的增长趋势中可以看出,学术界对数据安全治理问题的研究兴趣不断提升。这反映了学者们对于数据安全和隐私保护的重视,以及对数据泄露、网络攻击和其他数据安全威胁的关注。此外,数据安全治理在组织和企业层面的实践也成为研究的热点,学者们致力于寻找有效的方法和策略来建立健全的数据安全治理框架。

图1 数据安全治理相关文献数统计
Fig.1 Statistics on the number of literature related to data security governance

针对相关论文总体发表情况的进一步研究,发现数据安全治理研究的综述类文章占极少数,且对具体的、适应时代的数据安全治理技术缺少系统性的总结归纳,所以我们在这一相关工作方面展开了研究。

目前,数据安全治理存在以下几个问题:1) 由于网络攻击不当等原因,数据泄露[3]的风险在不断增加。近年来,各种规模的数据泄露事件频发,其影响范围涉及个人、企业、政府等多个领域。这些事件揭示了数据安全治理的薄弱环节,暴露了许多企业和组织对于数据安全的重视不足。与不可靠的合作伙伴进行数据共享可能导致数据泄露,使企业面临巨大的数据安全风险[4]。不安全的数据交换通道以及对合作伙伴的安全审核不力,都可能导致数据被泄露或滥用。2) 内部威胁对数据安全构成了一定的风险,需要适当的访问控制、监控机制和对员工行为的审计来检测并防止此类威胁。这包括员工、管理员或其他拥有内部权限的人员,他们可能窃取敏感数据以谋取个人利益、进行报复行为或为竞争对手获取商业数据。例如,将敏感数据发送给错误的收件人、在不安全的网络上进行数据传输、未经授权地使用或访问数据等。这些操作可能是无意的,但却可能对数据安全造成严重影响。3) 数据安全治理需要专业的人员进行管理和维护,但是目前我国的数据安全人才缺口较大,而且人员技能水平也存在一定的差异。一些企业和组织没有意识到数据安全的重要性,内部没有建立完善的数据管理体系,导致数据管理混乱,数据安全无法得到有效保障,同时数据安全治理相关方面的研究较少。4) 很多企业和组织没有采取有效措施保护用户的个人隐私,数据隐私保护不足导致用户的个人信息被滥用。例如,一些企业违规应用过度收集个人信息,平台应用通过用户隐私协议授权,过度的读取隐私信息等。

2 数据全生命周期

从某种意义上说,数据如同企业其他资产一样,也具有生命周期[5]。只有充分地认识数据的全生命周期,才能更好地描述、衡量、量化和治理数据。在实际应用中,特定的数据所经历的生命周期由实际的业务场景所决定,并非所有的数据都会完整地经历每个阶段。数据生命周期是指从产生或获取到销毁的过程,包括以下几个阶段[6]

数据准备阶段:在这个阶段中,数据采集是指从各种来源收集数据的过程。所收集到的数据种类包括语音、图片、视频、用户上网行为、设备地理位置、管理系统日志以及网站信息等,这些多种多样的数据可能来源于传感器、设备、应用程序或社交媒体等。采集完数据后,需要对所采集的数据进行清洗、转换、聚合和分析等处理。经过处理和转换,数据将被转换为可用的格式,以便于后续的分析和使用,从而更好地理解数据[7]。其中,最主要的安全问题包括:敏感数据与非敏感数据难以分离,数据监管难度增大,重要信息容易泄露等。为了确保数据在数据准备阶段的安全性,数据隔离、数据脱敏和数据分类分级等安全治理技术被广泛应用。

数据使用阶段:这个阶段是数据全生命周期中最具挑战的一个环节,包含了数据的分析、共享和使用。其中,数据分析通过深入探索和分析数据,以发现其中隐藏的信息和趋势,从而体现数据价值,并为不同需求的人和组织提供相对应的服务。数据分析后,可以提供有用的策略,并被用于不同的场景,提供同等价值的信息输出。数据共享通过把数据分享给他人或组织,以促进知识共享和合作。在数据使用过程中,数据需要进行相关安全处理,例如防篡改或抵御攻击。综上可知,在数据使用阶段需要采取一系列安全技术来保障数据的机密性、完整性和可用性,可以采用的安全技术包括基于区块链的数据共享技术、同态加密、基于量子技术的数据加密等。

数据存储和销毁阶段:数据存储指将数据保存到硬盘、云存储等物理存储介质中。数据被存储后,需要保证其完整性和可靠性。数据销毁是指在数据不再需要时进行删除、封存、回档等操作,旨在对机密性数据或垃圾数据采取保护措施或消除措施。销毁的相关数据还要建立备份信息并严密保存,以备后续使用和查档。该阶段可采用的安全技术主要有审计日志、数据备份、访问控制等。

3 数据准备安全技术

3.1 数据隔离

数据隔离是指将不同类型或不同级别的数据分开,以确保敏感数据不被未经授权的用户或应用程序访问或泄漏。数据隔离可以应用于不同的场景,例如计算机系统、数据库、网络环境等。在计算机系统中,数据隔离通常涉及将不同用户或应用程序的数据分开,可以通过物理隔离、逻辑隔离等不同方式实现。物理隔离需要将不同的服务器或存储设备分开,每个设备只存储特定用户或应用程序的数据。逻辑隔离需要使用访问限制机制来确保每个用户只能访问其授权的数据。下面分别介绍物理隔离和逻辑隔离技术的应用实例。

防火墙技术是数据隔离中的一种物理隔离技术,它通过结合各种软件和硬件设备进行安全管理,在计算机内部网络和外部网络之间建立保护屏障,用于确保用户数据和信息安全。防火墙技术主要用于发现和处理计算机网络运行时可能存在的安全风险以及数据传输等问题。防火墙通过检查IP地址和端口号等几个字段来过滤网络流量从而实现保护数据[8]。目前主要的防火墙技术包括网络隔离、访问限制、数据过滤、应用隔离等,其作用如表1所示。

表1 防火墙技术
Table 1 Firewall technology

组成部分作用网络隔离对网络进行划分,不同网络之间通过防火墙实现物理隔离,避免不同网络之间的数据互相干扰和泄露。访问限制设置规则,限制不同用户或主机对网络资源的访问,从而实现访问限制和数据隔离。数据过滤根据指定的过滤规则,对进出网络的数据进行检查和过滤,从而防止恶意攻击和数据泄露。应用隔离对不同的应用程序进行隔离,避免恶意程序通过网络传播和攻击其他系统。

传统防火墙在配置和处理阶段都使用列表规则来调节网络流量。但是,使用列表规则配置防火墙可能会导致规则冲突,并降低防火墙的运行速度。为了克服这个问题,CHOMSIRI et al[9]提出了树规则防火墙。其树规则防火墙的图形用户接口被用来为用户创建无冲突的防火墙规则,将这些规则组织成树状结构,称为“树规则”。这些树规则稍后被转换为列表规则,这些规则具有无冲突的优点。之后在决策过程中利用列表规则验证数据包报头信息,核心防火墙将匹配最多报文的规则移到最上方。尽管树规则防火墙保证其规则集中没有冲突,并且运行速度比传统防火墙快,但是使用散列函数跟踪网络连接的状态会导致额外的计算开销。为了减少额外的计算开销,CHOMSIRI et al[9]提出了一种混合树规则防火墙。这种混合方案同时利用了树规则防火墙和传统的列表规则防火墙。应用该混合方案的机制在保障传统防火墙功能的同时,可以显著提高防火墙的运行速度。

Web应用程序是Internet上最常用的信息和服务交换平台。目前,信息通过社交网络和在线商务蓬勃发展。因此,除了计算机网络的数据安全之外,业界也更加关注Web应用程序数据的安全。Web应用程序同样也是数据的重要流通地点,针对Web应用程序的攻击层出不穷,保护Web应用程序的数据安全是当前数据安全治理的重要组成部分。VARTOUNI et al[10]提出了基于深度神经网络和并行特征融合的防火墙方法,该方法采用堆叠自编码器和深度信念网络(deep belief networks,DBN)作为特征学习方法,在训练阶段只使用正常数据进行分类,然后使用支持向量机、隔离森林和椭圆包络作为分类器。提出者测试了本方法的性能,结果表明,使用深度神经网络模型和并行特征融合模型,在合理的时间内具有更好的准确性和泛化性能。但由于DBN训练过程中需要进行无监督的逐层训练,计算资源和时间成本比较高。因此,WANG et al[11]构建了一个基于深度学习中卷积神经网络的云web应用防火墙系统。系统架构采用多服务器分布式架构。考虑到Web请求的实时性和用户的用户体验感,使用了高性能服务器框架Openers和高效卷积神经网络。卷积神经网络在保证识别率的同时,通过反向传播算法进行训练,提高了系统的运行效率。

云防火墙是防止恶意用户未经授权访问云资源[12]的主要安全屏障之一。目前针对云的防火墙技术大多数采用的是基于静态安全规则配置或简单的规则匹配,具有较低的灵活性,不能保证网络安全等问题。LI et al[13]提出一种基于可编程数据规划的数据状态防火墙,该防火墙通过设计有限状态机和状态表,实现数据包在数据平面上连接状态信息的提取、分析和记录,保证细粒度的访问控制并减少通信开销。LIU et al[14]为个人云客户提出了一个分散的云防火墙框架。研究了在云防火墙的加强保障下,如何动态分配资源,以优化资源配置成本,同时满足个别客户指定的服务质量要求。CARVALHO et al[15]为云防火墙提出了一个多维连续时间马尔可夫链模型,该模型考虑了合法和恶意数据流量的突发性和相关性特征。通过采用马尔可夫调制泊松过程和中断泊松过程,确定了云防火墙可能遭受可用性损失的工作负载条件。此外,还解释了合法和恶意数据流量的突发性和相关性可能会导致云防火墙的性能下降。最后,通过提出一个马尔可夫调制泊松过程驱动的负载平衡过程来设计一个弹性云防火墙,该过程动态地提供虚拟防火墙,同时满足服务水平协议规范。

入侵检测作为对防火墙的进一步扩展,可以帮助计算机防御网络攻击,加强系统的安全管理能力,并提高数据安全架构的完整性。入侵检测是通过从计算机网络系统中的几个关键点获取数据,并进行分析处理,根据分析结果搜索破坏安全的行为。入侵检测系统分为两种类型,一种是基于主机的入侵检测系统(host-based intrusion detection system,HIDS),另一种是网络入侵检测系统(network intrusion detection system,NIDS).MA et al[16]设计了一种基于入侵检测系统(intrusion detection system,IDS)的反馈变更规则防火墙,以实现对攻击的灵活检测。它结合了防火墙和入侵检测系统,使用入侵检测系统检测ICMP、TCP、UDP攻击。此外,为了突出防火墙的重要性,IDS所监控的数据会被自动分析并添加到防火墙的防御策略中。反馈变更规则的防火墙在提高系统的有效性和提高整个系统过滤攻击的效率方面起着至关重要的作用。VINAYAKUMAR et al[17]探讨了深度学习模型中的深度神经网络(deep neural networks,DNN),提出了一种基于高可扩展性框架的混合入侵检测报警系统,框架采用分布式深度学习模型和DNN来实时处理和分析超大规模的数据,以开发一种灵活有效的IDS来检测和分类不可预见或不可预测的网络攻击。SHONE et al[18]提出了基于无监督特征学习的新型非对称深度自编码器(non-symmetric deep auto-encoder,NDAE)方法,并在此基础上构建了基于堆叠NDAE和随机森林分类算法的入侵检测分类模型。该方法提升了预防攻击的准确性、精密度和召回率,同时减少了训练时间。最值得注意的是,堆叠NDAE模型的入侵检测方法相较于基于DBN的入侵检测方法,其模型的入侵检测准确性提高了5%,训练时间降低了98.81%.

针对现有的入侵检测方法会损害无线传感器网络的安全性和隐私性,无法实现安全数据传输的问题,ALZUBI et al[19]提出了基于深度学习的无线传感器网络入侵检测frechet-dirichlet模型。该模型引入广义弗雷歇双曲深度和迪利克雷安全(frechet hyperbolic deep and dirichlet secured,FHD-DS)数据通信模型,首先通过Frechet双曲线深度流量特征提取方法提取更多的相关网络活动和固有流量特征,然后利用提取的特征对异常或正常数据进行预测。其次,采用基于统计狄利克雷异常的入侵检测模型实现入侵发现,并通过评估Dirichlet分布以实现安全的数据传输,并有效检测传感器网络中的入侵。利用数据集对所提方法的入侵检测时间和数据传输速率等因素进行实验评估发现,广义FHD-DS数据通信方法在较短的时间内实现较高的入侵检测率。

逻辑隔离技术是指通过软件或配置等手段将不同的数据从逻辑上隔离开来,以确保它们之间的安全和完整性。下面将从信息泄露、云存储数据安全防护、软件攻击面等领域逐一介绍可采用的逻辑隔离技术。

MILBURN et al[20]提出了基于类型的数据隔离(type-based data isolation,TDI),如图2所示,可以减轻信息泄露。TDI将不同特征的内存对象隔离在不同的内存区域中,并使用高效的编译器工具将其约束到预期特征的区域。TDI中基于竞技场的设计将检测从负载转移到指针算术操作,实现了新的积极的推测感知性能优化,并消除了对点分析的需求。此外,TDI的特征管理灵活,提供了细粒度的数据隔离,消除了对注释的需要,其平均性能开销较小。

图2 TDI的高级概述
Fig.2 High-level overview of TDI

随着数据量的不断增大,传统的数据存储已经不能满足用户需求,云存储系统可以通过共享的服务器和磁盘池为多个租户提供服务来实现规模经济。这也导致了来自相同设备上不同租户的数据混合,针对云存储的数据安全防护变得尤为重要。由于该情况下唯一的保护是应用程序级别的保护,不足以使多租户的数据同时得到防护,一个漏洞就会威胁到所有租户的数据,并可能导致跨租户数据泄露,使云计算比专用物理资源的安全性低得多。为了提供接近物理隔离的安全性,同时允许完整的资源池,FACTOR et al[21]提出了多租户安全逻辑隔离(security logical isolation for multi-tenancy,SLIM).SLIM集成了一个完整的安全模型,提出了一组用于云存储系统中租户资源之间安全逻辑隔离的原则,以及一组用于实现该模型的机制。这种在多租户云存储系统中实现租户隔离的端到端方法,允许用户共享所有资源的同时,实现了租户权限的分离。

数据安全已成为信息时代的一个主要话题。多年来,软件攻击面一直是安全漏洞的主要领域。尽管已经对漏洞防护进行了很好的研究,但利用漏洞的攻击仍然广泛存在。鉴于这些攻击的持续性,ARTHUR et al[22]提出了一种新的数据安全方法,称为控制数据隔离,直接消除了问题的主要根源—间接控制流。它通过避免使用间接控制来消除潜在恶意运行时的数据和程序控制之间的联系。该研究已经证明,从源头处理控制流攻击不仅是可行的,而且对运行时性能的影响最小。控制数据隔离提供了高级别的安全性,同时减少了开销。通过直接处理控制流攻击,而不是减轻它们,可以大大减少整个软件的攻击面。

3.2 数据脱敏

数据脱敏是指在保留数据原始格式和属性特征的前提下,通过敏感规则对涉及个人隐私、商业机密以及技术秘密等敏感信息进行数据变形,实现对敏感隐私数据可靠保护的技术。数据敏感信息的识别是数据脱敏的前提,数据脱敏一般包括:确定脱敏规则与脱敏算法、制定脱敏方案、实施脱敏操作等过程。数据脱敏一般分为静态数据脱敏和动态数据脱敏,静态数据脱敏是在数据收集时对数据进行脱敏,以确保数据在整个处理过程中保持匿名或难以识别。例如,静态数据脱敏可以通过替换或删除敏感数据元素(如姓名、地址、电话号码等)来实现,这种方法可以保护数据隐私,但可能会降低数据的实用性。动态数据脱敏则是在数据处理时对数据进行脱敏,以确保敏感信息仅在需要时才被揭示。例如,在数据传输过程中,可以对数据进行动态脱敏,仅在数据到达目的地后才恢复原始值。这种方法可以保护数据隐私,并保留数据的实用性。这些技术的应用可以有效地降低数据泄露和滥用的风险,并确保数据隐私和安全性。数据脱敏策略应该具有可扩展性和灵活性,并可以根据不同的用户需求进行脱敏方案设计。根据敏感信息的数据类型和敏感程度搭配不同的脱敏方法,确保对敏感信息的保护,充分发挥数据的价值[23]

数据掩码方法属于静态数据脱敏技术,通过使用掩盖字符或通配符等符号,替换敏感信息来保护数据的隐私。例如,使用星号替代身份证号码中的部分数字,如“**19900101”.这种方法虽然简单易实现,允许对编码数据执行测试或分析任务,从而限制私人信息暴露给第三方系统或个人,但它们可能会导致信息泄露,因为它们保留了太多输入数据的格式,从而增加了攻击者猜测私人信息的机会[24]

数据屏蔽指的是使用特殊的技术对数据进行屏蔽,属于动态脱敏,以确保敏感信息无法被直接识别。与数据掩码技术相比,特别是当训练样本数量较大时,该方法具有较低的风险。PHAM et al[25]提出了一种用于隐私敏感学习的数据屏蔽技术。其主要思想是迭代地寻找被屏蔽数据,使得分类器上关于被屏蔽数据的似然梯度为零,在保证隐私保护的情况下屏蔽私有数据,同时确保在屏蔽数据上训练的分类器与在原始数据上训练的分类器相似,以保持可用性。而这种方法占用较多内存,迭代的次数与效率不成正比。

针对数据屏蔽会占用大量资源且某些替代方法不能从根本上解决数据丢失的问题,BI et al[26]提出基于模糊集的数据脱敏算法,使用模糊集对数据进行脱敏以后,数据只有很小的概率会被修复。与基于数据变形思想的数据脱敏方法相比,基于模糊集的脱敏方法具有较大优势。另外,由于模糊集具有很多种不同的隶属度函数,可以实现对脱敏算法的智能选择。

传统的数据脱敏方法可能会破坏相关信息,进而造成数据泄露的问题,XIANG et al[27]提出一种基于改进的Stackelberg生成对抗网络。该网络与普通的生成对抗网络相比,具备更多的发生器与训练器,同时引入一个具有N个鉴别器的特殊领导者。在网络开始训练时,鉴别器的输出结果接近于0,发生器的输出结果接近于1;在网络训练过程中,每个鉴别器都具备相同的权重,各自进行训练并做出判断,通过领导者汇集所有结果,并计算结果的平均值。随着每个鉴别器不断自我训练,模型效果会越来越理想,直至能够最大程度地区别实际数据与生成数据,即此时的鉴别器与生成器处于平衡状态。

3.3 数据分类分级

数据分类是从数据管理的角度出发,通过聚集具有相同属性或特征的信息,形成不同的类别,便于使用者操作和鉴别数据信息。数据分级是从数据安全的角度出发,按照信息的敏感程度或影响程度对数据信息进行分级。两者都可以更好地管理和保护数据资源。

传统的分类分级方法通常采用静态的分类体系,例如机密性等级分类、重要性等级分类、风险等级分类等。大规模数据存在动态性和多样性,数据的价值和敏感程度可能会随着时间、上下文和使用目的的变化而变化,静态分类体系无法灵活地应对这种变化。此外,大规模数据存在着交叉和关联的情况,不同数据之间可能存在复杂的关系,传统的分类分级方法往往只考虑单个数据项的分类,而忽略了数据之间的关联性,这导致其无法全面地评估和管理数据的安全风险。因此,新兴的数据分类分级方法应运而生。ZHAO et al[28]提出基于全局和局部颗粒化的知识粒度方法,在不改变原始数据的情况下实现长尾数据的层次分类。首先,提出者考虑到WordNet知识组织的层次结构,于是采用了全局粒化构造由粗到细的分类器,同时使用层次结构将一个大的分类任务从粗粒度到细粒度划分为几个子分类任务。其次,利用由细到粗的谱聚类造粒,根据尾类样本特征之间的相似性,构建尾类局部分类器。最后,全局分类器可以对输出概率高于阈值的测试样本进行初步分类。当测试样本的概率小于阈值时,使用尾部局部分类器进行进一步分类。但此方法在多视图特征融合策略的自适应阈值和局部优化成分方面有待提高和优化。为解决上述问题,ZHU et al[29]提出了传统卷积神经网络模型的一种变体,称为分支卷积神经网络(branch convolutional neural network,B-CNN)。沿着目标类的层次结构所对应的级联卷积层,B-CNN模型输出从粗粒度到细粒度的多个预测。同时引入了一种新的训练策略,称为分支训练策略,它以最小化损失平衡了先验知识的严格性和输出层上调整参数的自由性,拥有恰当的阈值和优化策略,其分类性能得到了明显的提升。

由于云中的数据具有不同的敏感级别,使用相同的算法对这些不同类型的数据进行加密可能会导致安全性或资源不足。因此,SUDARSA et al[30]提出了一种提高云计算中数据安全性的新方法,即先对数据按不同分类方法进行分类,然后将分类后的数据提交到基于类别的加密系统进行加密。该方法可以实现数据的高安全性,并在保证数据保密性的同时,优化计算成本和资源消耗。ZHANG et al[31]研究了GitHub存储库中关键字驱动的层次分类问题,提出者首先提出了一个以单词为中心的异构信息网络,通过学习其网络中的节点嵌入,获得了能够反映GitHub存储库数据集特有的多模态信号共现的单词,将结构化和非结构化数据联合建模。这个单一的关键单词可能反映了用户对类的部分知识,但无法很好地覆盖类分布。面对这一挑战,引入了关键字丰富模块,将单个类别的关键字扩展为单个类别的关键字集,同时保持关键字集的互斥性,从而建立分离边界。最后,因为分类算法最终需要在存储库上操作,为解决监管格式不匹配问题,将每个存储库表示为一个文档,提高了精确搜索性能和防攻击性能。

针对在云端共享数据受到安全威胁的问题,SINGH et al[32]提出基于部分重要数据分类的数据安全治理方法。该方法将数据分为低影响(数据丢失造成较小的影响)、适度影响(数据的丢失造成中度影响)与高影响(数据的丢失会造成较大的影响)三等级别。同时根据数据安全级别类型和要求的不同,设计具有不同权限的数据所有者,以及在效率、速度、能量等方面自适应的不同加密算法。此方法的鲁棒性较好,适用于云端数据。

4 数据使用安全技术

4.1 基于区块链的数据共享技术

将数据信息按照时间顺序链接而成的结构称为区块链,区块链采用分布式架构,通过节点之间的竞争记账产生新区块。区块用于存储数据信息,节点用于提供算力。数据一旦写入区块就不可篡改,所有区块信息数据公开透明。同时,区块链的链式结构便于信息数据的追溯,被广泛地应用于数据安全治理领域[33]。基于区块链的数据安全是通过去中心化、共识机制、加密算法、不可篡改性和智能合约等原理和机制来实现的,如表2所示。这些机制相互协作,确保数据的安全性、完整性和可信度。

表2 基于区块链的数据安全技术原理
Table 2 Principles of data security technology based on blockchain

原理机制描述去中心化区块链是一个分布式数据库,数据存储在网络的多个节点上,而不是集中存储在单一的中心服务器上。这种去中心化的特性使得数据更难被攻击或篡改,因为攻击者需要同时攻击网络中大多数节点才能成功修改数据。共识机制区块链网络使用共识机制来达成对数据的一致性。典型的共识机制包括工作量证明(Proof of Work,PoW)和权益证明(Proof of Stake,PoS).这些机制确保只有通过验证的节点才能创建新的区块或修改现有的区块,从而保护数据的完整性。加密算法区块链使用密码学技术来保护数据的机密性和完整性。数据在存储和传输过程中使用加密算法进行加密,以防止未经授权的访问和篡改。公钥加密和哈希函数是常用的加密算法,在区块链中起着重要的作用。不可篡改性区块链中的每个区块都包含一个哈希值,该哈希值由区块中的数据和先前区块的哈希值计算得出。如果任何一个区块的数据被篡改,其哈希值将发生变化,从而破坏了整个链的完整性。因此,一旦数据被写入区块链,就很难对其进行篡改,确保了数据的不可篡改性。智能合约智能合约是一种在区块链上执行的可编程代码。它们允许在没有第三方的情况下执行和验证合同,确保合约的自动执行,并确保合约中规定的条件得到满足。智能合约的使用可以增加数据的安全性和可信度。

针对数据安全治理在数据分享过程之中框架的防控能力与安全管理能力较弱的问题,YI et al[34]在数据安全治理中引入区块链技术,提出基于区块链的数据安全治理体系。该体系包括基于设备状态监控的数据可信采集模块、基于行为映射的数据行为存证模块、基于BitXMesh平台的数据安全共享交换模块和基于零知识证明的数据访问控制模块,并将数据安全治理框架分为应用层、资源层与服务层。该系统框架如图3所示。但区块链结构中的节点验证需要占用大量的内存,造成资源浪费。

图3 系统架构
Fig.3 System architecture

针对铁路货运数据治理过程中的数据安全问题,孟祥爱等[35]提出基于区块链技术的铁路货运数据治理策略。该策略将区块链的核心技术(共识机制、智能合约、加密算法等)与具体的货运场景结合,共同作用实现数据价值与安全同步。针对节点需要存储大量的验证信息,消耗较多资源,刘耀宗等[36]提出基于区块链的数据溯源可信查询方法。该方法结合区块链的去中心化,可追溯、安全可靠等优点,利用Merkle山脉数据结构存储数据信息,实现对验证信息存储空间的压缩。同时,通过接口调用封装通用模块,并利用轻节点存储信息,用于验证溯源信息的有效性。

4.2 同态加密

同态加密技术在保护隐私和安全性方面有很广泛的应用。同态加密是基于数学问题计算复杂性理论的密码学技术,通过对数据进行同态加密处理得到输出[37],从而保护隐私和安全性。同态加密技术分为全同态加密(fully homomorphic encryption,FHE)和半同态加密(partially homomorphic encryption,PHE)两种类型。全同态加密允许对加密后的数据进行任何计算,包括加法和乘法,而不需要解密密文。这种加密技术的实现是非常复杂的,需要使用高级的数学算法和高性能计算机。半同态加密允许对加密后的数据进行某些计算,如只支持加法或只支持乘法,但不支持同时进行加法和乘法的计算。这种加密技术的实现相对简单,比全同态加密更易于实现。

FHE虽然在20世纪70年代首次提出,但长期以来,FHE被认为是不可能或不切实际的。然而,由于基础理论的进步和通用硬件的改进,FHE变得越来越实用。2009年,CRAIG[38]突破性提出了第一个合理并且安全可行的FHE系统,这一系统基于理想格(ideal lattice)的假设,此方案的基本思想是一个自处理过程,称为自举过程,自举过程所关联的问题是同态加密方案中,密文是否可以被加密的私钥解密,自举过程以加密数据和加密私钥为输出,在密文下解密数据。在过去的十年里,FHE已经从一个理论概念变成了现实,性能提高了多达五个数量级。例如,密文之间的乘法时间从30 min下降到不到20 ms.虽然这仍比CPU上的IMUL指令慢了大约7个数量级,但这足以使许多应用程序上加载FHE成为现实。此外,SMART et al[39]在全同态加密方案中引入了SIMD(single instruction multiple data)编码,使得并行化同态加法和同态乘法成为可能,将数千个明文值编码为单个密文,以进一步提高吞吐量。这些进步使全同态加密的广泛应用成为可能。其中包括移动应用程序,FHE已被用于加密隐私保护健身应用程序[40]的后端,同时继续提供实时体验。在医疗领域,FHE已用于在大型数据集上实现保护隐私的基因组分析[41]应用程序。FHE甚至已被用于解决各种知名问题,如隐私集合求交问题[42](private set intersection),在运行时间上比以前的解决方案高出2倍。在机器学习领域,FHE已用于从线性和逻辑回归到加密神经网络推理[43]的任务,可用于运行隐私保护ML-asa-Service应用程序,例如,用于私人钓鱼电子邮件检测[44]。因此,人们对基于FHE的安全计算解决方案越来越感兴趣。

尽管完全同态加密技术已经取得了重大突破,适用场景更多、范围更广,但一般其计算开销比较大,且效率仍然远远低于半同态技术,且实现难度大,所以大多数研究者在研究中仍然选择半同态加密。QIU et al[45]提出了一种方案,该方案在不向服务提供商泄漏任何客户端信息的情况下,可训练出分布式客户端数据的线性回归模型。通过理论分析和数值实验,提出者验证了基于半同态加密的分布式数据隐私保护线性回归(privacy-preserving linear regression)算法的有效性、准确性和安全性。同时,结合数据屏蔽技术,特别是利用机器学习进行隐私保护任务中实现回归模块,其方案可以比大多数现有方案更有效。

在联邦学习的非对称加密算法中,假设相同的私钥被许多客户端共享,私钥泄露或恶意参与者访问其他参与者数据的可能性就会增加,从而削弱基于联邦学习的系统的隐私保护。因此,窃取一个客户端的私钥可以使参与联邦学习系统的所有客户端的数据隐私保护失效。为了克服这一漏洞,PARK et al[46]提出了一种保护隐私的联邦学习算法,该算法允许云服务器通过使用基于分布式密码系统的同态操作,将不同密钥加密的本地参数聚合在同一个基于联邦学习的系统中,从而更新全局模型参数,达到更好地隐私保护目的。

在医疗领域,患者的电子健康信息等敏感数据应该在传输到云端之前进行加密。而许多传统的加密方法只能用于保护云数据,无法对加密的数据进行计算。BOOMIJA et al[47]提出一种安全部分同态加密(secure partial homomorphic encryption,SPHE)算法来保护外包数据,并对密文进行乘除运算。该模型在存储患者的医疗记录时,医疗详细信息由提出的SPHE算法加密并上传。该方法利用密文的同态性对密文进行计算,具有较高的安全性。

4.3 基于量子技术的加密

随着量子技术的发展,传统的密码技术可轻易被量子技术破解而受到威胁。为解决这个问题,量子游走(quantum walks,QWs)被提出,它是一种通用的量子计算模型,具有固有的密码学特征,可用于构建高效的密码机制。

EL-LATIF et al[48]利用QWs的特点,构造了一种新的s-box方法,该方法在5G物联网分组密码技术中发挥了重要作用;并基于5G物联网技术和s-box机制及可控交替量子游走的应用,提出了一种新的鲁棒视频加密机制。在满足5G-IoT中各种文件加密需求的同时,提出者利用QWs的特点,又提出了一种新的5G-IoT模式下敏感文件安全传输的加密策略。对所提密码系统的分析和结果表明,该密码系统在密码性能方面具有较好的安全性和有效性。XU et al[49]提出了一种基于QWs的安全跨层认证框架。该框架对多域物理层资源进行随机哈希编码,对设备标识符进行安全编码和解码。同时采用基于QWs的隐私保护协议,可以在任意高级别上维护代码隐私。与经典计算机和量子计算机相比,它保持了很高的隐私和可伸缩性优势。WANG et al[50]提出了一种新的基于超混沌系统和量子旋转门的彩色量子图像加密算法。该方法首先对经典图像进行扩散,对四翼混沌系统生成的矩阵进行序列化,并与密钥和明文进行异或运算,得到半密文图像。然后,利用量子旋转方法对改进的新颖性增强量子表示模型量化的图像进行置乱操作,旋转角度由分段混沌映射生成的序列决定。实验结果证明该算法具有较高的安全性能。

量子密码学、量子信息处理和量子计算技术已被广泛应用在密码学的研究中。量子密码学的两个主要方向是量子密钥分发(quantum key distribution,QKD)和量子加密。与QKD的成功应用形成对比的是,量子加密算法的发展受限于不适合大多数通信需求的一次性密码本(one time pads,OTP)设计。HU et al[51]提出了一种non-OTP量子加密设计,利用量子技术来加密消息。该方法使用量子状态作为密文,创建状态的过程作为密钥,量子测量的统计性质以及状态创建过程的复杂性保证了固有的安全级别。然后,将混淆和扩散的概念从经典密码学引入到量子加密中,进一步提高了加密方法的鲁棒性。该方法本质上是non-OTP量子分组密码,与现有的方法相比,具有以下特点:复杂的密钥-密文关系(即混淆)和复杂的明文-密文关系(即扩散),多分组加密的操作模式设计。这些特性提供了关键的可重用性、防止窃听和标准密码分析攻击的保护。

5 数据存储与销毁安全技术

5.1 审计日志

在数据生命周期中,数据在存储过程中极有可能面临安全威胁。因此,需要对数据进行监控和审计,及时发现异常行为,并采取相应的措施进行应对。审计日志可以记录系统、应用程序、用户操作等信息,包括访问时间、访问者、访问操作、访问结果等,帮助企业或组织对数据的使用情况进行监控和分析,及时发现和防范安全威胁。

传统的集中式数据库用于存储基于数据交换的客户机-服务器模型的审计日志。客户机-服务器架构使审计日志容易受到单点故障的攻击,攻击者可以获取信息并更改审计日志条目,审计日志应该是安全的、防篡改的,并且有一个有效的防御系统可以保护它们。因此,笔者认为区块链可以在本质上填补审计日志管理中存在的安全规范之间的漏洞。PAWAR et al[52]提出基于权威证明(proof of authority,PoA)区块链的安全审计日志解决方案,即BlockAudit 2.0技术。它将审计日志中的数据聚合在一起,并在一个区块中创建带有时间戳的事务,使审计日志成为区块链式的数据结构。BlockAudit 2.0是一种可扩展且防篡改的系统,它提供了审计日志的基本设计特性和区块链的不可变属性,有助于拥有安全可靠的审计日志。

恶意软件是一种持续的威胁,并在不断发展。安全系统试图跟上恶意软件不断变化的步伐,随之而来的一个挑战便是操作系统上生成了大量日志,我们需要明确哪些信息有助于检测可能的恶意软件。RING et al[53]从审计日志事件中提取特征,并使用长短期记忆神经网络来捕获顺序效应,创建不同的特征子集,并通过分析附加信息挖掘出审计日志中可能存在的所有类型信息。

恶意代码往往具有系统调用特征、规范化代码特征、N-gram特征、控制流特征、指令序列特征和文件格式特征,恶意代码检测通过对各种敌对和入侵软件特征进行概括,来检测恶意软件。针对大量保存在虚拟云中的敏感医疗数据的攻击问题,CHOWDHURY et al[54]提出一种利用机器学习技术进行恶意代码检测和分类的有效方法。该方法通过检测恶意软件和攻击者的行为,提供定制的沙箱识别恶意软件,组织针对医疗记录的鱼叉式网络钓鱼攻击,并使用动态特征,实现高准确度的恶意软件检测。

5.2 数据备份

数据备份是一种常见的数据存储策略,它通过创建数据副本并将其存储在不同的位置或介质中,以保护数据免受意外删除、硬件故障、自然灾害或恶意攻击等因素的影响。数据备份可以帮助组织在数据丢失或损坏的情况下快速恢复数据,以确保业务连续性和数据完整性。因此,在数据安全治理中,备份是一项非常重要的任务。

鉴于多因素认证技术在数据备份中尤为重要,且应用较为广泛,所以首先着重就此技术进行分析。LIU et al[55]提出了一种基于多因素认证的以用户为中心的数据备份方案,如图4所示。用户首先生成一个对称密钥并将其分成3份,然后立即销毁该密钥,以避免密钥泄露。后续的认证中可以通过将分别存储在服务器、用户智能卡和笔记本电脑中的密钥组合起来,可以很容易地重构出密钥文件。即使智能卡或笔记本电脑丢失,密钥仍然可以通过使用密码和生物识别技术在服务器中恢复。该方案不仅达到了安全目标,而且具有较强的鲁棒性和实用性。

图4 LIU et al模型的设计
Fig.4 Design of the model by LIU and others

针对LIU et al[55]的方案无法抵抗离线密码猜测攻击、服务器模拟攻击、用户模拟攻击和生物识别攻击的问题,HU et al[56]提出了一种采用多因素认证的增强数据备份安全方案,该方案包括注册过程、认证过程、恢复过程和更新过程。用户通过安全的物理通道与智能卡通信,同时在开放通道与服务器间交互。本方案的优点聚焦于多因素认证,一方面,用户与智能卡之间的认证因子是用户密码、生物特征以及与用户密码和生物特征相关的随机值,而LIU et al[55]方案中的认证因子仅为用户密码。另一方面,用户通过服务器与用户交互获得的有效密码和生物特征来获得服务器的认证,从而保证了用户与智能卡/服务器之间的安全交互,并成功抵抗了LIU et al方案中提到的所有攻击,克服了上述安全威胁,安全性能得到提升。

灾难恢复中的容灾备份是指在远程位置建立两个或多个具有相同功能的系统,用于确保信息系统的正常运行以及业务的连续性,通过备份减少灾难造成的数据丢失。这些系统具有相互监控和切换功能,当一个系统因灾难而停止工作时,整个系统可以迅速迁移到另一个系统并继续运行。针对数据容灾备份机制存在技术门槛成本较高的问题,张先哲等[57]提出一种基于混合云的数据容灾备份机制。该机制基于政务云与本地机房的服务器资源,利用线下的备份系统将数据恢复至云上的业务系统,确保云上业务系统丢失数据的恢复,实现数据级的容灾备份;利用线下业务系统解决云上系统无法修复的情况,将数据恢复至线下的同时修改访问地址,实现应用级的容灾备份。

5.3 访问控制

访问控制是用于管理和限制用户或实体对计算机系统、网络、应用程序或数据的访问权限的技术。其目的是确保只有经过授权的用户或实体才能访问敏感信息和系统资源,从而保护数据安全。访问控制技术连接了系统和访问权限引擎并提供了简单独特的接口,通过用户身份权限,限制用户对某些信息数据的获取或某些具有控制功能的操作。

传统的访问控制方法包括自主访问控制、基于身份的访问控制和强制访问控制等。但这些方法都采用集中设计思想,存在单点故障、难以扩展、可靠性低、吞吐量低等缺点。随着大数据时代的到来和区块链技术的发展,去中心化、分散式存储模式进入了大众视野。分散式存储能够解决传统存储系统的单点故障问题。与集中式存储相比,分散式存储具有价格低、吞吐量高等优点。WANG et al[58]研究了去中心化存储系统的数据存储和共享方案,提出了一个将去中心化存储系统、以太坊区块链和基于属性的加密技术相结合的框架。在该框架中,数据所有者可以通过指定访问策略为数据用户分发密钥,并对共享数据进行加密,实现了对数据的细粒度访问控制。同时,基于以太坊区块链上的智能合约,实现了去中心化存储系统密文上的关键字搜索功能,解决了传统云存储系统中云服务器无法返回全部搜索结果或返回错误结果的问题。但是,他们的方案没有实现用户属性撤销和访问策略更新的功能。

如何高效地实现对加密数据的各种计算,同时灵活地控制对数据处理结果的访问,一直是一个具有挑战性的重要问题。DING et al[59]提出了一种具有灵活访问控制的隐私保护数据处理方案。该方案基于半同态加密,在数据服务提供商和计算方的合作下,实现了对外包加密数据的加、减、乘、符号获取、绝对、比较和相等检验等7项基本操作。此外,还设计了基于属性的同态加密的方案,以支持对加密数据处理结果的灵活访问控制。该方案的有效性和安全性达到了较高的水准。

随着智能设备数量的急剧增加,物联网近年来得到了越来越多的关注和快速发展。它通过现有的网络基础设施,有效地将物理世界与互联网集成在一起,方便智能设备之间的数据共享。然而,其复杂且大规模的网络结构给物联网系统带来了新的安全风险和挑战。为了保证数据的安全,传统的访问控制技术由于访问管理复杂、集中化缺乏可信度,不适合直接用于物联网系统的访问控制。DING et al[60]提出了一种基于属性的物联网系统访问控制方案,极大地简化了物联网系统的访问管理。他们使用区块链技术记录属性分布,避免单点故障和数据篡改,访问控制流程也进行了优化,以满足物联网设备的高效率和轻量化计算需求。安全性和性能分析表明,该方案能够有效抵抗多种攻击,可在物联网系统中有效实现。ZHANG et al[61]研究了物联网中的访问控制问题,并提出了一个基于智能合约的框架,该框架由多个访问控制合约(access control contracts,ACCs)、一个裁判合约和一个寄存器合约组成,以实现物联网系统的分布式、可授权的访问控制。每个ACC为一个主体-对象对提供一种访问控制方法,并根据预定义的策略实现静态访问权限验证,通过检查主体的行为实现动态访问权限验证。裁判合约通过接收来自ACC的错误行为报告、判断错误行为并返回相应的惩罚,来促进对ACC的动态验证,实现了一种错误行为判断方法。寄存器合约注册了访问控制、不当行为判断方法及其智能合约的信息,并提供了对这些方法进行管理的功能(如注册、更新和删除)。

6 挑战与展望

结合当前数据安全治理现状,分析得出目前数据安全治理领域仍面临的挑战如下:

1) 区块链技术与实际应用难以高效融合。在保护水印方面,确保水印信息的安全性和隐私保护是一个重要挑战。利用区块链保护水印时,可能涉及敏感数据或隐私信息的传输和存储,同时区块链技术本身在数据容量和性能方面存在一些限制。由于每个水印信息都会被写入区块链网络中,随着水印数量的增加,会导致区块链的数据量急剧增加,影响区块链的性能和可扩展性。在数据溯源方面,确保数据源的真实性和完整性,以及防止恶意数据篡改或伪造,是一个关键挑战。在区块链中存储和处理敏感数据,并同时保护用户的隐私,是数据安全治理的重要目标。

2) 数据违反权益的追责、违规规则的判定很难有效实现。在追责方面,难以准确追查数据违反权益的责任方,特别是在数据共享场景中,数据的流动和使用往往涉及多个参与方,追责过程中可能存在信息不对称、匿名性和法律管辖权等问题,数据滥用和违规二次使用往往涉及到法律和法规的约束。然而,目前针对数据滥用和违规二次使用的法律和法规尚不完善,对于新兴技术和复杂的数据治理场景缺乏明确的指导和规定。在大数据时代背景下,有效的数据滥用检测需要综合运用数据分析等技术,同时需要投入相应的人力和资源。

3) 挖掘数据质量本身存在不安全性。数据挖掘所使用的数据源可能存在可信性问题。如果数据源本身受到篡改、伪造或操纵,那么挖掘的结果可能会产生误导或错误的结论。因此,数据源的可信性是确保数据挖掘结果准确性和可靠性的基础。在数据挖掘过程中,可能涉及包含敏感信息的数据。如果不正确地处理和保护这些敏感数据,可能会导致隐私泄露。数据挖掘所使用的数据通常需要在存储、传输和处理过程中进行共享,如果安全措施不足,数据可能会被未经授权的人访问、窃取或滥用,数据挖掘结果可能被用于商业竞争、欺诈行为或其他非法活动。恶意的数据源或数据操作还可能导致数据的不一致性,从而影响挖掘的结果。数据挖掘算法可能受到数据本身的偏倚或歧视性影响,进而影响决策和结果的公正性和客观性。

针对以上挑战,未来的数据安全治理应该更加重视以下方面:

1) 更好地将区块链技术和实际应用相结合。区块链可以提供去中心化的存储方式,使水印数据能够被安全地存储和传输,避免单点故障和数据篡改的风险。通过智能合约和权限控制机制,可以实现对水印信息的访问和使用的精确控制,只有经过授权的用户才能查看或修改水印信息,确保数据的安全性和防止未经授权的使用。区块链技术可以用于建立去中心化的身份验证系统,确保参与者的身份和权限。这有助于防止未经授权的用户访问或篡改水印信息。在跨组织和跨边界的水印追溯上,区块链技术可以提供可追溯性,记录水印的使用和传播情况。通过区块链的不可篡改性和分布式特性,可以实现跨组织和跨边界的水印追溯,为版权保护提供更强大的工具。同时在数据溯源方面,区块链技术可以实现去中心化的数据溯源,将数据的来源和传输路径记录在不可篡改的区块链上。这将为数据安全治理提供更加透明和可信的溯源方式,防止数据篡改和不可信来源的数据传入。区块链技术还可以与其他数据安全和隐私保护技术结合,如差分隐私、同态加密和安全多方计算等,共同应用于数据溯源,这将进一步提升数据溯源的安全性和隐私保护能力。

2) 建立更加健全的数据追责机制,明确数据使用的责任和义务。通过区块链、智能合约等技术手段,实现数据使用过程的安全性,促进数据违反权益责任的追究。针对数据滥用和违规二次使用,制定明确的数据隐私保护法律、数据使用规范和数据共享协议,为数据安全治理提供法律依据和指导。还应进一步加强数据滥用的检测和监控,包括基于机器学习和人工智能的异常行为检测、数据访问控制和身份验证等。同时,进行数据滥用的风险评估和预警,及时发现并防止潜在的数据滥用。

3) 挖掘数据质量应安全、高效、合规合法。采用安全的传输协议和加密技术,保护数据在传输过程中的安全性。在数据存储方面,使用安全的存储设备和机制,加强对数据的访问权限和保护措施,防止未经授权的人员获取和篡改数据。确保数据源的可信性和完整性,对数据源进行认证和验证。使用可靠的数据采集和获取方法,确保数据的来源可追溯和可信。建立健全的数据治理框架,确保数据挖掘过程符合法律法规和合规性要求。制定明确的数据安全政策和操作规范,加强对数据质量和安全的管理,促进数据伦理和道德意识的培养,鼓励数据挖掘从业者遵循道德准则和行业规范,推动数据伦理和隐私权的研究和倡导,确保数据挖掘过程中的公正性、透明性和个人权益的保护。

4) 数据安全治理应不断创新。在数据隐私保护领域,研究人员将致力于开发创新的隐私保护技术、匿名化方法以及制定相应的隐私法律法规。在数据访问控制领域,需要设计更精细、灵活的访问控制策略,包括上下文感知的访问控制和跨组织数据共享的控制机制。另外,人工智能与机器学习在数据安全治理中的应用领域备受关注,包括利用机器学习方法进行威胁检测和预测、自动化安全决策和响应,以及智能化数据分类和分级等。最后,量子安全数据保护作为一个新兴的研究方向,致力于应对未来量子计算所带来的安全挑战,开发和应用量子安全的数据保护方法。这些研究方向的发展将推动数据安全治理的进一步完善,为组织和个人提供更全面的数据安全保护。

7 总结

数据安全治理作为近几年火热的一门技术,极大地提高了数据的安全与使用效率,有助于促进数字经济的发展,因而,数据安全治理技术受到极大的关注与研究。本文首先针对当前数据安全治理形势做了初步的研究和总结。其次,系统分析了大数据背景下的数据安全治理技术,包括:数据使用安全技术、数据准备安全技术、数据存储与销毁安全技术。最后,本文提出了当前数据安全治理领域面临的主要挑战,包括数据安全治理相关技术能力的不足、缺乏数据安全法律体系以及相关人才资源匮乏等,并就存在的问题提出了数据安全治理领域可能的机遇。

参考文献:

[1] DAVIS T A,WONG M L,PATERSON N M.The data security governance conundrum[J].Columbia Business Law Review,2015,2015(2):519-613.

[2] WU X H,YUE Y,GAO R B.Research on geological data security governance system[C]∥2022 International Conference on Computer Science: Information Engineering and Digital Economy,2022,103:67-74.

[3] SUN L Y,ZHANG,H Y,FANG C.Data security governance in the era of big data:status,challenges ,and prospects[J].Data Science and Management,2021,2:41-44.

[4] MASILELA L,NEL D.The role of data and information security governance in protecting public sector data and information assets in national government in South Africa[J].Africa’s Public Service Delivery and Performance Review,2021,9(1):10.

[5] WANG X R,LUO W,BAI X L,et al.Research on big data security and privacy risk governance[C]∥2021 International Conference on Big Data:Artificial Intelligence and Risk Management,Shanghai,China,2021:15-18.

[6] 胡国华.数据安全治理实践探索[J].信息安全研究,2021,7(10):915-921.

HU G H.Practical exploration of data security governance[J].Issue on Data Security,2021,7(10):915-921.

[7] TAO X H,ZHANG H H.Research on data security governance based on artificial intelligence technology[C]∥2021 International Conference on Big Data,Artificial Intelligence and Risk Management,Shanghai,China,2021:102-105.

[8] TOGAY C,KASIF A,CATAL C,et al.A firewall policy anomaly detection framework for reliable network security[J].IEEE Transactions on Reliability,2021,71:339-347.

[9] CHOMSIRI T,HE X,NANDA P,et al.Hybrid tree-ule firewall for high speed data transmission[J].IEEE Transactions on Cloud Computing,2020,8(4):1237-1249.

[10] VARTOUNI A M,TESHNEHLAB M,SEDIGHIAN S.Leveraging deep neural networks for anomaly-based web application firewall[J].IET Inormation Security,2019,13(4):352-361.

[11] WANG S H,LIU R H,GUO X,et al.Design of web application firewall system through convolutional neural network and deep learning[C]∥2022 International Conference on Computers:Information Processing and Advanced Education.Ottawa,ON,Canada,2022,454-457.

[12] SALAH K,CALYAM P,BOUTABA R.Analytical model for elastic scaling of cloud-based firewalls[J].IEEE Transactions on Network and Service Management,2017,14(1):136-146.

[13] LI J ,JIANG H,JIANG W,et al.SDN-based stateful firewall for cloud[C]∥IEEE Transactions on Network and Service Management.Baltimore,MD,USA,2020:157-161.

[14] LIU M,DOU W C,YU S,et al.A decentralized cloud firewall framework with resources provisioning cost optimization[J].IEEE Transactions on Parallel and Distributed Systems,2015,26(3):621-631.

[15] CARVALHO G H,WOUNGANG I,ANPALAGAN A.Cloud firewall under bursty and correlated data traffic:a theoretical analysis[J].IEEE Transactions on Cloud Computing,2020,10(3):1620-1633.

[16] MA X Y,FU X,LUO B,et al.A design of firewall based on feedback of intrusion detection system in cloud environment[C]∥2019 IEEE Global Communications Conference,Waikoloa,HI,USA,2019:1-6.

[17] VINAYAKUMAR R,ALAZAB M.SOMAN K.P,et al.Deep learning approach for intelligent intrusion detection system[J].IEEE Access,2019,7:41525-41550.

[18] SHONE N,NGC T N,PHAI V D,et al.A deep learning approach to network intrusion detection[J].IEEE Transactions on Emerging Topics in Computational Intelligence,2018,2(1):41-50.

[19] ALZUBI O A.A deep learning-based frechet and dirichlet model for intrusion detection in IWSN[J].Journal of Intelligent and Fuzzy Systems,2022,42(2):873-883.

[20] MILBURN A,KOUWE E V,GIUFFRIDA C.Mitigating information leakage vulnerabilities with type-based data isolation[C]∥2022 IEEE Symposium on Security and Privacy,San Francisco,CA,USA,2022:1049-1065.

[21] FACTOR,MICHAEL.In cloud storage[C]∥IEEE 29th Symposium on Mass Storage Systems and Technologies,2013:1-5.

[22] ARTHUR W,MEHNE B,DAS R,et al.Getting in control of your control flow with control-data isolation[C]∥2015 IEEE/ACM International Symposium on Code Generation and Optimization,2015:79-90.

[23] LI W,LI C.Research and design of a data desensitization system[J].Journal of Physics:Conference Series.IOP Publishing,2021,2010(1):n.pag.

[24] ASLANYAN Z,BOESGAARD M.Privacy analysis of format-preserving data-masking techniques[C]∥2019 12th CMI Conference on Cybersecurity and Privacy,Copenhagen,Denmark,2019:1-6.

[25] PHAM A T,GHOSH S,YEGNESWARAN V.Data masking with privacy guarantees[EB/OL].[2019-01-08].https:∥arxiv.org/pdf/1901.02185,pdf.

[26] BI T,CHEN X H,LI J,et al.Research on industrial data desensitization algorithm based on fuzzy set[C]∥2020 IEEE International Conference on Advances in Electrical Engineering and Computer Applications,Dalian,China,2020:1-5.

[27] XIANG N,ZHANG X T,DOU Y J,et al.High-end equipment data desensitization method based on improved stackelberg GAN[J].Expert Systems with Applications,2021,180:114989.

[28] ZHAO H,GUO S X,LIN Y J.Hierarchical classification of data with long-tailed distributions via global and local granulation[J].Information Sciences,2021,581:536-552.

[29] ZHU X Q,BAIN M.B-CNN:branch convolutional neural network for hierarchical classification[EB/OL].[2017-10-05].https:∥arxiv.org/pdf/1709.09890.pdf.

[30] SUDARSA D,PEDDADA V,YARAVA R K,et al.Enhanced data security through deep data classification in the cloud computing[J].International Journal of Emerging Trends in Engineering Research,2020,8(9):n.pag.

[31] ZHANG Y,XU F F,LI S,et al.HiGitClass:keyword-driven hierarchical classification of github repositories[J].2019 IEEE International Conference on Data Mining,2019:876-885.

[32] SINGH K P,RISHIWAL V,KUMAR P.Classification of data to enhance data security in cloud computing[C]∥2018 3rd International conference on internet of things:Smart innovation and usages,Bhimtal,India,2018:1-5.

[33] KUMAR A,SINGH A K,AHMAD I,et al.A novel decentralized blockchain architecture for the preservation of privacy and data security against cyberattacks in healthcare[J].Sensors,2022,22:n.pag.

[34] YI Z,YE J,ZHANG G C.A security governance architecture for military data based on blockchain[J].Information Security and Communications Privacy,2022(2):81-90.

[35] 孟祥爱,晋旭博,李许增.基于区块链技术的铁路货运数据治理策略[J].工业控制计算机,2021,34(7):124-125.

MENG X A,JIN X B,LI X Z.Railway freight data governance strategy based on blockchain[J].Industrial Control Computer,2021,34(7):124-125.

[36] 刘耀宗,刘云恒.基于区块链的RFID大数据安全溯源模型[J].计算机科学,2018,45(11A):367-368.

LIU Y Z,LIU Y H.Security provenance model for RFID big data based on blockchain[J].Computer Science,2018,45(11A):367-368.

[37] 雷飞.基于同态加密的密文域图像可逆数据隐藏研究[D].重庆:西南交通大学,2016.

[38] CRAIG G.A fully homomorphic encryption scheme[D].Palo Alto:Stanford University,2009.

[39] SMART N P,VERCAUTEREN F.Fully homomorphic SIMD operations[J].Designs,Codes and Cryptography,2014,71:57-81.

[40] MICROSOFT.Asure run.[EB/OL].[2019-05-11].https:∥github.com/microsoft/SEAL-Demo/tree/master/AsureRun.

[41] KIM M,HARMANCI A O,BOSSUAT J,et al.Ultra-fast homomorphic encryption models enable secure outsourcing of genotype imputation[J].BioRxiv,2020,12(11):1108-1120.

[42] CHEN H,HUANG Z C,LAINE K,et al.Labeled PSI from fully homomorphic encryption with malicious security[C]∥Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security,2018:1223-1237.

[43] DATHATHRI R,KOSTOVA B,SAARIKIVI O,et al.EVA:an encrypted vector arithmetic language and compiler for efficient homomorphic computation[C] ∥ Proceedings of the 41st ACM SIGPLAN Conference on Programming Language Design and Implementation,2020:546-561.

[44] CHOU E,GURURAJAN A,LAINE K,et al.Privacy-preserving phishing web page classification via fully homomorphic encryption[C]∥IEEE International Conference on Acoustics,Speech and Signal Processing,Barcelona,Spain,2020:2792-2796.

[45] QIU G W,GUI X L,ZHAO Y L.Privacy-preserving linear regression on distributed data by homomorphic encryption and data masking[J].IEEE Access,2020,8:107601-107613.

[46] PARK J,LIM H.Privacy-preserving federated learning using homomorphic encryption[J].Applied Sciences,2022:n.pag.

[47] BOOMIJA M D,RAJA S V.Securing medical data by role-based user policy with partially homomorphic encryption in AWS cloud[J].Soft Computing,2022,27(2023):559-568.

[48] EL-LATIF A A,ABD-EL-ATTY B,MAZURCZYK W,et al.Secure data encryption based on quantum walks for 5G internet of things scenario[J].IEEE Transactions on Network and Service Management,2020,17(1):118-131.

[49] XU D Y,YU K P,RITCEY J A.Cross-layer device authentication with quantum encryption for 5G enabled IIoT in Industry 4.0[J].IEEE Transactions on Industrial Informatics,2022,18(9):6368-6378.

[50] WANG X Y,SU Y N,LUO C,et al.Color image encryption algorithm based on hyperchaotic system and improved quantum revolving gate[J].Multimedia Tools and Applications,2022,81:13845-13865.

[51] HU,ZIXUAN,KAIS S.A quantum encryption design featuring confusion,diffusion,and mode of operation[J].Scientific Reports,2020,11:n.pag.

[52] PAWAR A,BARTHARE D,RAWAT N,et al.BlockAudit 2.0:PoA blockchain based solution for secure audit logs[C]∥2021 5th International Conference on Information Systems and Computer Networks,Mathura,India,2021:1-6.

[53] RING M,SCHL R D,WUNDERLICH S,et al.Malware detection on windows audit logs using LSTMs[J].Computer and Security,2021,109:102389.

[54] CHOWDHURY M,JAHAN S,ISLAM R,et al.Malware detection for healthcare data security[C]∥International Conference on Security and Privacy in Communication Systems,Springer,Cham,2018:407-416.

[55] LIU Y N,ZHONG Q,CHANG L,et al.A secure data backup scheme using multi-factor authentication[J].IET Information.Security,2016,11(5):250-255.

[56] HU H D,LIN C L,CHANG C,et al.Enhanced secure data backup scheme using multi-factor authentication[J].IET Information.Security,2019,13(6):649-658.

[57] 张先哲,马晓.基于混合云的数据容灾备份方案研究[J].网络安全技术与应用,2022(2):86-87.

ZHANG X Z,MA X.Research on data disaster recovery backup scheme based on hybrid cloud[J].Network Security Technology &Application,2022(2):86-87.

[58] WANG S P,ZHANG Y L,ZHANG Y L.A blockchain-based framework for data sharing with fine-grained access control in decentralized storage systems[J].IEEE Access,2018,6:38437-38450.

[59] DING W X,YAN Z,DENG R H.Privacy-preserving data processing with flexible access control[J].IEEE Transactions on Dependable and Secure Computing,2020,17:363-376.

[60] DING S,CAO J,LI C,et al.A novel attribute-based access control scheme using blockchain for IoT[J].IEEE Access,2019,7:38431-38441.

[61] ZHANG Y Y,KASAHARA S,SHEN Y L,et al.Smart contract-based access control for the internet of things[J].IEEE Internet of Things Journal,2018,6(2):1594-1605.

(编辑:贾丽红)

Baidu
map