大数据项目-----用户画像

本文探讨了数据源获取手段,如爬虫技术在社交、出行及消费数据收集中的应用,以及如何利用TensorFlow和SparkMLlib等工具建立算法模型。深入分析了不同数据类型,包括城市级别数据、人口移动数据和用户画像数据,并讨论了用户消费观念、职业、收入和喜好的消费行为。提出了基于流式处理的用户画像标签化方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、数据源

数据类型数据源获取手段
社交数据爬虫
出行数据:
消费数据爬虫
房地产相关数据爬虫
产品评论数据爬虫
···
···

2、通过建立算法模型,产生如下数据,算法可以使用Tensflow、Spark MLlib等。

3、数据类型

城市级别数据
城市级别数据人口、经济、交通、基础设施这块数据过于牛,需要用到很多算法
人口移动数据地铁通勤、专车以及出租车通勤可以pass,了解一下即可
用户画像数据用户消费画像、家庭画像这一块可以大有作为

在这里插入图片描述

1、用户画像数据:用户消费画像 和 家庭画像
2、两个方向:租房数据报表开发 和 给用户画像打标签(spark流处理)、(备注:打标签流程)
3、消费行为:消费观念 
		职业
		收入
		喜好
4、 5-6种用户画像,提取标签规则 ---->简单的提取规则
5、用户画像 ---->给某些用户打标签----流式处理过程
	
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值