编 辑:彭文华
来 源:大数据架构师
彭友们好,我是老彭。最近遇到几个项目,都跟非结构化数据脱不开关系。
老彭刚毕业的时候,做的是数据库的活儿,那都是结构化数据。后来有了hadoop技术,可以用来处理物联网、互联网的半结构化数据。
真正做非结构化的场景还是比较少的,大多是在项目中选取一两个点给意思意思一下。
但是现在已经发展这么多年了,大多数企业结构化数据多少有些基础了,非结构化数据治理还是一片空白。今天就唠唠这个话题~~
非结构化数据
这里说的非结构化数据特指:
1、公文、研究报告等各种文档
2、监控视频等各种音视频
3、设计图等各种特殊文件
这些东西想想就很费劲。与数据库里的结构化数据不一样,这些数据的问题更严重。我们随便想想都能罗列几个出来:
1、没有统一存储(各种附件,各种微信传输)
2、没有统一标准(都是各自写的文件)
3、数据种类特别多(除了结构化的,都是非结构化、半结构化的)
4、法外之地,治理盲区(第一次知道处理非结构化数据的方法是TF/IDF词频统计,第一次知道非结构化应用是词云)
5、没人管,不知道怎