1、数据源
数据类型 | 数据源获取手段 |
---|---|
社交数据 | 爬虫 |
出行数据 | : |
消费数据 | 爬虫 |
房地产相关数据 | 爬虫 |
产品评论数据 | 爬虫 |
··· | |
··· |
2、通过建立算法模型,产生如下数据,算法可以使用Tensflow、Spark MLlib等。
3、数据类型
城市级别数据 | ||
---|---|---|
城市级别数据 | 人口、经济、交通、基础设施 | 这块数据过于牛,需要用到很多算法 |
人口移动数据 | 地铁通勤、专车以及出租车通勤 | 可以pass,了解一下即可 |
用户画像数据 | 用户消费画像、家庭画像 | 这一块可以大有作为 |
1、用户画像数据:用户消费画像 和 家庭画像
2、两个方向:租房数据报表开发 和 给用户画像打标签(spark流处理)、(备注:打标签流程)
3、消费行为:消费观念
职业
收入
喜好
4、 5-6种用户画像,提取标签规则 ---->简单的提取规则
5、用户画像 ---->给某些用户打标签----流式处理过程