编 辑:彭文华
来 源:大数据架构师
也是很奇怪的事情,最近几个彭友都不约而同地开始讨论非结构化数据治理的工作,难道是群体意识觉醒了?
大家知道,企业在刚开始做数据治理的时候,常规套路是起一个咨询项目,对现有的情况进行摸底,对已知问题提出解决思路,对未来进行规划。
在遇到结构化数据的时候,这个套路老彭已经很轻车熟路了,但是非结构化数据还真的不太熟悉。
之前做过,但都是“顺手为之”的建设逻辑,真正以非结构化数据为主,经验还有些匮乏。
幸好,老彭彭友圈足够大,非结构化数据治理的大佬也不少。一番请教和讨论下来,也有了一些成果,分享给各位彭友,仅供参考和学习。
如果您这边有更好的内容,还请推荐给老彭,不胜感激!
非结构化数据
一句话简单解释:数据分为结构化数据、半结构化数据和非结构化数据。结构化数据就是能按照数据模型表示的结构存储的数据,具体表现就是数据库中的表、字段、值。
非结构化数据就是无法提炼成数据模型,以结构化存储的数据,具体表现就是各种文档、视频、音频。
半结构化数据就是其中部分信息可以进行结构化存储,部分信息只能“揉成一团”放进开放性的字段里存储的数据,具体表现就是各种日志。
其