摘 要
大数据环境下,海量数据呈现出主体多样化、处理活动复杂化的特点,数据除了面临传 统的安全威胁外,更要面临诸多新型安全威胁,传统的安全手段及体系已不能有效应对大数据环 境下的安全威胁。针对大数据的流转复杂、关联融合、蕴含价值等特点,提出了面向动态防御的 大数据防御模型。此外,研究了相关的大数据安全技术,这些技术能够构建大数据安全动态防御 体系,提供动态防御能力,促进大数据安全全面向动态、主动防御方向转变。
内容目录:
1 大数据安全风险分析
1.1 海量数据流转复杂化使得数据泄露风险增大
1.2 攻击手段多样化使得传统安全手段防护效果甚微
1.3 大数据价值高导致数据更易遭受攻击窃取
2 大数据安全需求分析
2.1 大数据体系化防护需求2.2 大数据安全综合治理需求
2.3 大数据智能化及动态化体系防护需求
3 大数据安全动态防御模型
4 大数据安全动态防御关键技术
4.1 数据资产可视化分级分类保护技术
4.1.1 数据分级保护策略自动化生成技术
4.1.2 敏感资产自动化发现技术
4.1.3 多场景数据资产威胁可视化分析处理技术
4.2 数据安全风险感知与协同防御技术
4.2.1 全态化防御信息采集及行为分析技术
4.2.2 数据安全风险智能识别技术
4.2.3 数据安全态势预测模型和评估指标体系
4.2.4 攻击评估与协同防御技术
4.3 数据安全服务增强技术
4.3.1 数据服务 Web 服务透明加固和细粒度参数 保护技术
4.3.2 安全配置自动生成、动态部署及监控技术
4.3.3 安全服务能力在线编排与重构、调整调度、 快速集成技术
4.4 数据安全能力综合评估技术
4.4.1 数据安全能力智能稽查技术
4.4.2 数据安全风险智能评估技术
4.5 数据安全风险追踪溯源技术
4.5.1 多源异构数据行为监控与全路径追踪溯源技术
4.5.2 数据安全风险根因分析技术
5 结 语
随着信息技术的快速发展,人类的生产生活与 信息技术交汇融合的程度也越来越深。在融合的过 程中,各类数据呈现指数级增长的特点。这些海量 数据在聚集的过程中,对经济发展、社会治理、人 民生活都产生了重大而深刻的影响。与此同时,数 据安全也成为事关国家安全和经济社会发展的重大 课题。《中华人民共和国数据安全法》的正式发布 标志着数据安全已经上升至国家战略高度,数据已经成为国家基础性战略资源,没有数据安全就没有 国家安全。
当前,各类海量数据呈现出主体多样化、处理 活动复杂化的特点。大数据环境下,数据除了面临 传统的安全威胁外,还要面临诸多新型安全威胁。 传统的安全手段及体系呈现出的单点、静态、被动 防护的特点已不能有效应对大数据环境下的安全威 胁。大数据的安全防御需要从大数据的流转复杂、 关联融合、蕴含价值等特点入手 ,面向攻击手段多样、攻击程序不断更新迭代的新型安全威胁,围 绕数据全生命周期提供动态防御能力。在这种背景 下,安全防御技术及体系需要从单点、静态、被动 防护向全面、动态、主动防护转变 。
1 大数据安全风险分析
大数据除了面临传统安全威胁以外,同时还要 面临新型的安全威胁。
1.1 海量数据流转复杂化使得数据泄露风险增大
随着信息化建设持续推进和技术不断发展,数 据呈现爆发式增长,同时各类应用系统也呈现出多 样化特点,使得数据的流转更加错综复杂,导致数 据暴露出更大的攻击面。此外,由于数据平台支撑 的业务应用多种多样,对外提供的服务接口千差万 别;因此,攻击者有机会通过服务接口攻击大数据 系统,而如何保证多种服务接口的安全也成为大数 据平台面临的极大挑战。
1.2 攻击手段多样化使得传统安全手段防护效果甚微
大数据在全生命周期过程中呈现出数据动态 化、密级多样化、权属复杂化、使用实时化、价值 最大化的特点,这些特点导致了大数据环境下的攻 击手段多样化。攻击程序不断更新迭代,使得大数 据在全生命周期过程中被窃取、被滥用、被篡改的 风险不断增大。传统的安全手段及体系呈现出单点、 静态防护的特点,在应对大数据环境下的安全威胁 时会出现防护效果不佳,甚至失效的情况,也为数 据安全威胁的追踪溯源带来了更大的挑战。
1.3 大数据价值高导致数据更易遭受攻击窃取
大数据经挖掘分析后能产生具有极高价值的数 据产品,这些产品能够为经济、社会、国家战略等 活动提供决策支撑;但与此同时,大数据产品极易 吸引内部非法人员的攻击窃取。这类攻击呈现出长 期潜伏、难以发现的特点,现有态势感知及应急处 置等协同防御手段无法有效应对此类威胁,更无法 有效发现未知威胁,使得高价值数据面临巨大的安 全风险。
2 大数据安全需求分析
2.1 大数据体系化防护需求
大数据系统及平台的可靠、安全运行是信息系统运行的重要基本保障,但也往往成为对手首要 攻击对象。数据对经济决策、社会治理、国家安全 等活动具有重大意义,其安全的重要性不言而喻。 近年来发生的由于内部管理不规范导致的斯诺登事 件, 美军士兵运动信息被收集导致美军事基地暴露, 剑桥数据分析公司恶意影响美国总统大选等,证明 网络空间对抗的日益常态化、高级化、复杂化,也 暴露出单纯使用漏洞移除、打补丁、访问控制、边 界防护等传统安全防护技术的网络空间静态防御难 以预防动态的内外部复杂攻击,需要积极探索大数 据安全动态化、体系化防御框架。
2.2 大数据安全综合治理需求
数据来源众多、密级不同,对不同级别数据的 管理和防护要求也不相同,为了高效安全使用多来 源、多种类、多密级海量数据,充分体现并发挥大 数据在各领域价值,需要对大数据进行综合安全治 理 [5-7]。大数据综合安全治理需要在分级分类基础 上,为数据添加属性标识,并根据数据属性进行细 粒度全生命周期安全防护。在体系化安全防护中, 首先,需制定数据安全防护基线,并对数据安全保 密能力进行评估;其次,针对数据共享、数据应用 等过程提供多层次安全保密服务,并制定针对不同 密级数据的安全防护策略;最后,针对任何可疑数 据行为,特别是内部行为提供追踪溯源能力。通过 大数据综合安全治理,可为大数据在全生命周期过 程中面临的安全威胁提供事前预防、事中发现、事 后溯源的体系化安全保密防御能力。
2.3 大数据智能化及动态化体系防护需求
随着云计算、大数据、人工智能等新技术的发 展, 针对大数据的攻击手段呈现出多样化、自动化、 智能化的特点。为有效应对新的攻击手段及新型安 全威胁,迫使安全防护手段必须向智能化、动态化 防护方向演进。数据在全生命周期流通过程中,访 问用户的身份、数据的权属关系、数据的访问行为 等都在动态发生变化;因此,安全防护系统需要对 用户身份和权限进行动态评估和识别,同时对数据 资产也要进行动态梳理,并对数据的访问行为进行 动态监控,实现大数据的智能化、动态化、体系化 安全防护。
3 大数据安全动态防御模型
基于以上对大数据安全风险的分析,面向大数据动态防御需求,围绕大数据全生命周期活动,通过数据分类分级, 构建“梳—管—控—监—评—溯” 的动态防御体系模型。在该模型中, 通过密码保密、 身份认证、数据安全标签、权限管控、日志审计、分级分类、行为分析、流量分析等数据安全支撑技术共同形成数据安全服务增强、数据分级分类保护、 数据追踪溯源、数据安全防护能力评估等一系列安 全防护能力,构建大数据动态防护体系,提供大数 据动态防御能力。
图 1 中的大数据动态防御模型是从大数据生命 周期和大数据平台两个维度全方位考虑动态安全防 护能力,其形成的动态防护流程如下文所述。
(1)对数据生产者、数据消费者、数据提供 者产生的数据进行梳理,重点是按照数据分类分级 标准对各类敏感数据资产进行梳理, 包括系统信息、 人员信息、业务信息等,让数据拥有者或管理者了 解自己数据的分布情况。
(2)在数据各类应用场景下, 根据数据等级、 用户防护需求,制定不同的数据安全防护策略,并将策略分发至各类安全防护设备,防护设备依据防 护策略对数据各种流程进行管控,在对各类数据流 程进行管控的过程中,应根据用户的权限和数据的 属性实施细粒度权限管控,细粒度权限管控应涉及 数据平台自身安全、数据源与数据平台间、数据平 台与业务应用系统间、业务应用系统与终端用户(数 据消费者)间等典型场景。
(3)对数据在生命周期各阶段的行为进行监 控,重点对异常数据资产进行监控,并提供数据安 全态势感知和态势展示。
(4)对数据行为监控过程中发现的异常行为 或威胁进行追踪溯源,将溯源结果和各类安全设备 反馈的安全策略执行情况进行综合分析,对数据安 全防护效能进行动态评估,并根据评估结果对安全 策略进行及时调整。
通过上述过程的循环执行, 持续进行数据梳理、 策略制定、流程管控、行为监控、溯源评估、态势 展现的动态防护过程,能够形成对数据实时可感、 可知、可视的动态防护能力。
图 1 大数据动态防御模型
4 大数据安全动态防御关键技术
4.1 数据资产可视化分级分类保护技术
近年来,越来越多的科技工作者开始了大数据 安全技术的研究,涉及到大数据自身安全和大数据 技术应用到安全两方面 ,本文提出的面向动态 防御的大数据安全技术涉及大数据自身安全,主要 包括以下 5 个技术路线。
针对海量数据及属性难维护、异构数据模型不 统一、安全威胁不直观、敏感数据资产可视能力不 足等问题, 数据资产可视化分级分类保护技术 [11-12] 根据数据分类分级标准,实现多来源、多种类、多 密级、多种安全保密防护要求以及不同网络环境的数据资产的综合管理能力,支撑数据综合安全治理 装备体系构建,满足数据在不同应用场景下多密级 安全保密策略的动态化、体系化管控需求。数据资 产可视化分级分类保护技术主要包括数据分级保护 策略自动化生成技术、敏感资产自动化发现技术、 多场景数据资产威胁可视化分析处理技术。
4.1.1 数据分级保护策略自动化生成技术
数据在多应用场景下,存在多密级的情况,不 同业务的安全防护需求在不同密级情况下要求也不 同。针对大数据的多源异构数据,利用数据安全标 识,在数据安全基线的基础上,构建统一数据安全 模型,自动生成安全防护策略,建立数据安全属性 与安全保密能力的连接关系,提供多层次安全防护 策略,实现自动化数据安全防护。
4.1.2 敏感资产自动化发现技术
基于数据分类分级标准,研究敏感数据属性 分类机制,统一敏感数据结构描述方法,建立统一 的敏感数据发现体系。此外,在统一发现体系基础 上,实现敏感数据资产及其属性和数据关系的自动 发现, 全面盘点敏感数据资产, 形成敏感数据地图。
4.1.3 多场景数据资产威胁可视化分析处理技术
研究海量异构数据信息在数据生命周期各阶段 不同场景下的威胁可视化呈现方式和操作方式,并 基于数据分类分级,将数据威胁与敏感数据自动关 联,实现敏感数据威胁的高效可视化管控,提升综 合安全治理决策效率。
4.2 数据安全风险感知与协同防御技术
面向大数据环境下的各类信息系统和业务系 统,通过数据采集、传输、存储、处理、交换和销 毁的各个环节存在的各种脆弱性和威胁,研究数据 安全风险智能感知、风险评估和协同防御技术 [13-15], 为大数据动态防御体系提供用于智能化决策的预警 信息并制定动态协同防御策略,有力支撑大数据动 态防御体系构建。数据安全风险感知与协同防御技 术主要包括全态化防御信息采集及行为分析技术、 数据安全风险智能识别技术、数据安全态势预测模 型和评估指标体系、攻击评估与协同防御技术。
4.2.1 全态化防御信息采集及行为分析技术
从多维度、全方位进行全态化数据收集,研究 大数据系统中软硬件、网络、业务多种类信息精准、高效、可动态调整采集方法;并基于采集的数据, 构建数据及网络流量的行为特征模型,通过数据通 信协议特征、访问行为与访问接口之间的关系,构 建流量分析模型和内容分析模型,通过特征学习、 关系学习等流量分析和内容识别手段发现隐藏在数 据流量中的安全威胁。
4.2.2 数据安全风险智能识别技术
首先,研究并建立一种形式化数据安全风险描 述模型,构建大数据环境下数据流经的环境安全风 险集;其次,基于粗糙集理论研究数据安全风险筛 选规则技术,从安全事件中学习规则,使获得的各 安全域的数据安全风险更加贴近真实情况,从而能 够准确实时地识别出数据安全风险。
4.2.3 数据安全态势预测模型和评估指标体系
研究大数据环境下安全态势数据采集和统一的 信息交互表示协议和标准、系统配置漏洞、运行环 境漏洞、目标代码漏洞及其关联环境漏洞,提出对 漏洞、违规操作、攻击行为的多维度监测识别手段。 研究态势量化评估和预测模型,利用机器深度学习 态势评估算法实现安全态势综合评估,基于攻击意 图推演实现态势趋势预测和预警。
4.2.4 攻击评估与协同防御技术
针对大数据环境下的恶意行为的攻击阶段、影 响范围、威胁程度进行智能化评估,并结合实际情 况制定相应的防御措施,分级别、分层次、分范围 地对大数据系统进行协同防御策略制定和分发,形 成围绕“网络—应用—平台—数据”的协同防御系 统,提供大数据系统网络“一处发现威胁,全网协 同防御”的能力。
4.3 数据安全服务增强技术
数据安全服务增强技术针对大数据场景下数据 安全服务面临的身份仿冒、越权访问、数据监听、 恶意攻击等问题,提升大数据服务的身份安全验证 能力和数据共享使用时的细粒度访问控制能力,提 供数据服务系统配置自动化处理、动态编排、动态 调整、快速集成等数据安全增强服务,保证各类敏 感数据的合理、安全、保密等共享使用。数据安全 服务增强技术主要包括数据服务 Web 服务透明加 固和细粒度参数保护技术,安全配置自动生成、动 态部署及监控技术, 安全服务能力在线编排与重构、 调整调度、快速集成技术。
4.3.1 数据服务 Web 服务透明加固和细粒度参数 保护技术
针对数据服务缺乏细粒度管控,数据服务缺乏 保护等问题, 研究大数据服务场景下的 Web 服务 透明化加固和参数级管控技术,实现对业务透明的 数据加密和参数粒度的数据安全管控。
4.3.2 安全配置自动生成、动态部署及监控技术
研究安全配置自动生成并将目标系统模型自动 转化为机器可识读的配置剧本以及安全配置的形式 化验证方法,确保配置高层语义满足一致性条件和 正确性、安全性要求。研究在编排器和控制器上将 高层安全配置剧本按照全局一致性和过渡一致性的 约束下执行配置指令及以及系统运行状态与抽象描 述一致性监控方法。
4.3.3 安全服务能力在线编排与重构、调整调度、 快速集成技术
面向服务节点应用场景的特定需要,通过对基 础安全服务按照一定模式流程的顺序关联调用,抑 或针对基础安全保密服务的模式化扩展,实现安全 服务节点安全服务能力在线编排、重构、调整调度 和快速集成。
4.4 数据安全能力综合评估技术
数据安全能力综合评估技术针对大数据环境下 的各类数据安全设备和大数据平台等对象实体,按 照数据安全动态防护的思路,以数据安全能力动态 评估与持续提升为目标,通过对各数据安全设备的 数据安全策略执行效果、大数据平台自身安全脆弱 性情况,以及数据生命周期重要环节过程控制情况 等进行稽查和评估,核实数据安全策略以及过程控 制等执行情况,判断各数据安全能力是否充分和有 效发挥,达到对各数据安全设备、大数据平台内生 的数据安全能力的“可视、可查、可审”的目的, 以及优化数据安全防护策略,为数据安全能力持续 改进、迭代提升提供支撑。数据安全能力综合评估 技术主要包括数据安全能力智能稽查技术、数据安 全风险智能评估技术。
4.4.1 数据安全能力智能稽查技术
研究数据安全设备的策略配置、安全配置等数 据安全配置基线的智能构建以及实时监控技术,并 构建数据安全综合监控模型。
4.4.2 数据安全风险智能评估技术
通过对大数据平台自身安全配置和安全漏洞进 行扫描,基于人工智能和机器学习对数据行为综合 关联分析,构建大数据安全能力智能评估模型,构 建智能评估体系。
4.5 数据安全风险追踪溯源技术
数据安全风险追踪溯源技术针对大数据环境下 的数据安全风险存在动态变化的新情况,对数据访 问行为监控、全路径追踪溯源以及安全风险根因分 析等技术开展研究,实现数据的风险追踪溯源,为 安全防御策略制定提供支撑,确保数据全生命周期 安全、可控。主要包括多源异构数据行为监控与全 路径追踪溯源技术、数据安全风险根因分析技术。
4.5.1 多源异构数据行为监控与全路径追踪溯源技术
研究各类数据形态的数据实体,及数据流转过 程中实体之间的依赖关系提取技术,构建数据分布 情况信息库、数据等级分布情况信息库、数据使用 情况信息库以及数据血缘关系库。以数据标签为基 础,将数据标签与数据结合并贯穿于数据整个生命 周期,利用大数据综合关联分析及机器学习对数据 行为进行分析并实行监管。数据追踪溯源是实现权 责分离、数据安全管控的重要基础,基于标识实现 数据全生命周期的唯一性,通过对结构化、非结构 化、半结构化的数据按照内容属性、安全属性、签 名属性等不同视角进行标注,对每个数据的跨域访 问进行全路径追踪溯源。
4.5.2 数据安全风险根因分析技术
根据数据流转、调用链等信息流勾勒数据流动 画像;利用强化学习、逆强化学习等算法建立根因 追溯模型;基于图搜索等根因追溯算法,进行根因 定位;构建安全风险根因追溯评估指标,对根因追 溯模型及算法准确性进行有效评估;研究基于数据 安全风险根因的主动防御系统联动机制,在发生安 全风险时能够及时采取对系统影响最小的应对措施 进行阻断。
5 结 语
本文在分析了大数据的安全风险和动态防御方 面安全需求的基础上,围绕数据全生命周期,给出 了面向动态防御的“梳—管—控—监—评—溯”大 数据安全防御模型,对模型的动态防护流程进行了说明并对模型中涉及的数据资产可视化分级分类保 护技术、数据安全风险感知与协同防御技术、数据 安全服务增强技术、数据安全能力综合评估技术以 及数据安全风险追踪溯源技术进行了讨论和研究。 本文提出的思路和方法体现了大数据安全体系化动 态防御的先进性和实用性,能够为相关的研究提供指导和借鉴。
引用本文: 许杰, 张锋军, 陈捷, 等 . 面向动态防御的大数据安全技术研究 [J]. 通信技术, 2021, 54(11):2551-2556.
作者简介 >>>
许 杰 , 男, 博 士, 高 级 工程师,主要研究方向为大数据安全、信息 安全;
张锋军, 男, 博士研究生,研究员级高工,主要研究方向为云计算和大 数据安全、信息系统智能管控技术;
陈 捷, 博士研究生, 研究员级高工, 主要研究方向为通信网络与信息安全;
李庆华 , 男, 学士, 高级工程师, 主要 研究方向为软件工程、云计算与大数据安全技术;
牛作元 ,男, 硕士, 高级工程师, 主要 研究方向为云计算与大数据安全;
石 凯 , 男, 硕士, 工程师, 主要研究 方向为云计算与大数据安全。
选自《通信技术》2021年第11期
文章来源:信息安全与通信保密杂志社