我们生活中的数据总体分为两种:结构化数据和非结构化数据。
结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。
非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。
半结构化数据,如XML,HTML,JSON 等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。
对结构化数据的搜索:如对数据库的搜索,用 SQL语句。再如对元数据的搜索,如利用windows搜索对文件名,类型,修改时间进行搜索等。
对非结构化数据的搜索:如利用 windows 的搜索也可以搜索文件内容,Linux 下的 grep命令,再如用Google 和百度可以搜索大量内容数据。