探讨数据资产盘点新思路
星期三, 七月 22, 2020
今年4月初,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》发布,数据作为一种新型生产要素写入文件。近些年来,从数字政府、数字社会的发展来看,“数据是核心资产”这一观念已达成共识,数据资产这一名词也被不断提及。
但其实,“数据资产”这一概念,目前并没有得到统一认识。
正如多年前,普遍存在“数据是新的石油”这一说法。但细细推敲,数据与“石油”(数据资产)之间还存在着一道“必经之路”:
其一、原油与石油的区别在于,原油从地下直接开采,不经处理,一般来说,原油是不可以直接使用,而石油经过提炼、加工和提纯之后,才能使用。对比数据来看,一般数据也是并不能直接使用,而是需要经过抽取、清洗、转换等工作才能使用,所以数据只能称为“原油”,而只有经过处理后的数据,才能称之为石油;
其二、从原油的处理过程来看,原油提纯加工不仅能得到石油,并且根据工艺不同,还能得到柴油、汽油和润滑油,这几类产品,其价值各有不同,所以同样对照数据来说,经过不同层次的提炼,所得到的数据资产价值也会不同。
对于数据资产的定义,笔者比较认同2019年6月中国信通院发布《数据资产管理实践白皮书4.0》中的,数据资产是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。
以目前政务数据共享交换业务为例:各地大数据局通过数据资源平台进行数据归集,但这些归集的数据并非天然的数据资产,只有进行数据资产盘点,了解数据代表的含义,剔除那些缺失值、异常值、重复数据等“脏数据”,才可称为“数据资产”。
在统一“数据资产”定义之后,我们以大数据局为例,理解政务数据的资产发现主要面临以下四个问题。
首先试想一个场景,甲乙丙三个人把全部家当都送给了你,你会怎么做?想必很多人首先要做的一件事,就是逐一检查,然后分门别类进行整理,遇到重要价值的物品妥善保管;遇到一般价值的物品归纳存放;遇到无用的物品进行舍弃,这整个过程就是“摸清家底”。
而政务数据共享交换这项业务中,也同样是各类单位与组织,会把数据资源集中到数据局的数据资源平台。那么对于大数据局来说,首先要做的一项工作就是进行资产发现,通过对资产的全面盘点,形成相应的数据资产地图,知道自己手里有什么之后,才能放心使用数据资产,资产发现的目的是要进行资产管理。
目前各地政务数据的共享交换业务,主要通过数据库或数据仓库方式实现,普遍以结构化数据为主。一般来说,可以通过定义IP地址段后,通过端口扫描的方式,发现各类数据库,表和字段,但在扫描之后,就需要人工介入,将系统名称关联为业务名称,这样才能达到理解,从目前市场产品来看,这类数据库-结构化的数据资产,是普遍都可以实现的。
在理清数据库这类结构化数据资产之后,马上面临的是半结构化与非结构化的数据资产。以六大基础信息资源库中的电子证照和空间地理两项为例,前者会存放大量图片类的非结构化数据,后者会存放.shp、.shx、.dbf等不同类型半结构化数据,这类非结构化数据资产的发现和归类,随着政务数据共享开放步伐的加快,相信也会逐渐纳入管理范围。
最后,从认识论来讲,主体与客体属于一对基本范畴,无论是结构化或是非结构化数据,都是客体,那么再理清所有客体之后,还需要梳理“人”这项主体的资产。在一般信息系统中,人通过“账号”的形式存在,所以资产发现还梳理系统中的账号与账号权限,可能包括类型有普通用户账号、运维操作账号、默认产生的机器账号以及最核心的特权账号。
前面提到,资产发现的目的是要进行资产管理,而资产管理就是让数据价值越来越大。从目前“数字政府”的业务角度来说,资产管理可以简单概括为三步目标,“可见”、“可懂”、“可用”,即首先数据使用者可以快速、准确找到自己关心的资产,然后通过完善的资产描述或标签,能无歧义的理解这些数据,最后可以放心的使用数据,避免出现数据不可用、不可信的沟通和管理成本。在整个过程中,资产发现就是实现了“可见”的作用,目的还是提升数据资产管理水平,提升数据价值。
从“摸清家底”这个例子中,可以看出其中伴随着一个判别分类的工作,而从数据安全角度来看,进行资产发现的下一步工作,就是要对数据的分类分级。只有针对不同等级、不同类别的数据,提供不同形式安全保护措施,资产安全防护才更有意义。在目前普遍支持资产扫描功能之后,更多的比拼是对于业务信息的理解与分类分级规则的设定。
用传统的方法对企业进行数据资产梳理,过程繁琐且耗费大量人力物力。由于无法明确组织单位究竟有哪些数据,数据存储的位置等,往往不能实现全局梳理;另一方面,由于组织内可能存在着数据字典缺失,标准不统一的问题,导致梳理工作难以顺利的开展下去。
对此,美创科技提供了暗数据发现和分类系统——能够对企业数据进行自动化挖掘和分析,自动识别数据格式和含义,对企业包含的数据资产进行快速盘点。
暗数据发现和分类系统致力于认识数据,通过模型匹配、数据统计和机器学习等技术手段,实现自动化捕获元数据、识别表格的类型、数据的语义内容和数据格式,并进一步分析表格之间的关联关系以及表格包含的业务信息。暗数据发现完成后会生成一份完整的分析报告,整个发现过程同时实现了数据口径统一、数据标准的建立。
杭州美创科技有限公司成立于2005年,是国内领先的数据安全和数据治理综合服务商,产品和解决方案涵盖数据安全、灾难备份、数据治理、智能运维四大领域,是IDC中国数据创新者、中国网络与信息安全百强企业。