一、数据架构核心要素
数据架构涉及数据模型、数据标准、数据质量、主数据、数据安全、元数据、数据分布等方面的管理,其中数据模型是重中之重。
二、数据模型
1、概念模型
概念模型不包含设计的细节,仅定义核心业务实体,实体之间的关联关系和相关的业务规则,概念模型不对实体的属性建模,简单来说即确定业务关系,例如一个公司主体,公司与部门,部门与职员,各主体信息与各主体之间的关联定义
2、逻辑模型
逻辑模型是概念模型的衍生,是由概念模型转换而来的,以概念模型设计为基础,细化实体属性与关系,即表设计,表、列的关系,主键与外键约束,数据变更规则,例如删除数据,需同时删除关系。
3、物理模型
物理模型主要是在统一的标砖要求下,表、字段、关系必须与逻辑模型一致,确定数据类型,精度、长度、确定约束、索引、统一数据编码及使用规则,即对应的表字段的类型,长度,索引的建立,数据存储的分区存储规则等。
三、数据质量
数据质量管理是指对从计划、获取、存储、共享、维护、应用、消亡所有生命周期阶段引发的各类数据质量问题进行识别、度量、监控、预警等一系列管理活动。
个人理解:数据质量主要是为了保证数据的一致性、唯一性、准确性、及时性、有效性、完整性,例如在实际中一些必填不能为空的字段存入了空值,可能带来代码或者业务的报错,导致系统的不可使用,可通过数据模型的建立严格规范各模型标准,提高数据质量。
四、数据标准
数据标准是一套由管理制度、管控流程、技术工具共同组成的标准体系,通过体系的数据定义、分类、记录格式、转换逻辑、编码方式来实现数据的标准化。细化到业务中,即字段的类型、长度、命名规范、编码规范等。
五、主数据
主数据是企业核心业务对象的关键数据资产,具有以下特征:
- 跨系统共享
- 高业务价值
- 严格的一致性要求
- 强完整性保障
- 可控的管理流程
六、数据安全
数据安全是“防护网”,需从技术、管理、合规三维度构建防御体系。数据安全涉及多方面,例如存储安全:关键信息加密、传输安全:接口加密、配置安全:nacos的关键配置,代码硬编码的密钥等,基础Jasypt客户端加密等。
七、元数据
元数据是描述数据模型结构和特性的,又分为结构元数据、业务元数据以及技术元数据。
结构元数据:定义数据模型的实体、属性、关系及约束。例如,逻辑模型中的“客户表包含姓名字段(VARCHAR(50))”即属于结构元数据。
业务元数据:解释模型的业务含义,如实体“客户”在业务中的定义范围、用途规则等。
技术元数据:描述物理实现细节,如表存储引擎(InnoDB)、索引类型(B+树)、分区策略、唯一ID等。
八、数据分布
从业务角度讲,数据分布代表着不同业务系统的数据,从技术角度讲,数据分布基于不同的应用模式不同的技术分布于不同的存储设备或者组件,数据存储方式一般分为关系型和非关系型存储,例如mysql与mongodb,从数据访问方式来看,数据分布又可理解为离线数据或者实时数据。
方式:关系型数据库为表格形式,非关系型为文档或图数据库
扩展:关系型纵向扩展,可提供处理能力,非关系为分布式,需要更多的数据服务器来分担负载
事务:关系型可支持事务,非关系部分也可支持事务,但在事务粒度上有较大差距,关系型支持多版本并发控制,并且可以支持跨表事务,非关系型无隔离性,不能支持复杂回滚。
| | |
---|---|---|
| 事务级(全成功/全失败) | 命令级(可能部分成功) |
| 支持四级隔离,通过锁/MVCC实现 | 弱隔离,依赖乐观锁或客户端控制 |
| 支持跨表操作、嵌套事务、保存点 | 仅限单文档/单键操作,跨操作需手动补偿 |
| 强一致性(ACID) | 最终一致性(BASE) |