SpringBoot vue 根据用户收藏表(有字段用户id、房间名)用协同过滤算法,给用户个性化推荐,不要用缓存
时间: 2025-07-11 13:43:53 浏览: 6
<think>好的,用户想要在SpringBoot和Vue项目中,基于用户收藏表(包含用户ID和房间名字段)实现协同过滤的个性化推荐,而且不要用缓存。我需要仔细分析这个需求,并给出可行的解决方案。
首先,用户提到的协同过滤算法,通常有两种:基于用户的和基于物品的。由于数据是用户收藏的房间,可能物品(房间)的数量相对用户来说较少,或者用户收藏的数据稀疏,可能需要考虑哪种方法更合适。不过这里用户没有具体说明,可能需要先确定使用哪种协同过滤。假设这里采用基于用户的协同过滤,因为用户收藏可能直接反映用户偏好。
接下来,数据准备方面,用户收藏表有用户ID和房间名,但需要将其转换为用户-物品的评分矩阵。因为收藏是隐式反馈,可以将每个用户对房间的收藏视为1分,未收藏的为0。这样构建一个二维矩阵,用户为行,房间为列,值表示是否收藏。
然后,计算用户之间的相似度。常用的方法有余弦相似度或皮尔逊相关系数。不过因为数据是0和1,余弦相似度可能更合适。例如,用户A和用户B共同收藏的房间越多,他们的相似度越高。
但是,用户量大的时候,计算所有用户之间的相似度会非常耗时,特别是没有缓存的情况下。每次请求都重新计算可能性能不够。可能需要优化,比如预先计算相似度矩阵,但用户要求不用缓存,所以可能需要每次实时计算,但这样可能不现实。或者限制计算的范围,比如只计算最近活跃的用户,但用户没说有活跃数据。这里可能需要进一步思考如何处理。
或者,采用基于物品的协同过滤。计算房间之间的相似度,然后根据用户收藏的房间推荐相似的房间。因为房间数量可能相对较少,计算物品相似度可能更高效。例如,房间A和房间B被很多用户同时收藏,那么它们相似度高。当用户收藏了房间A,就推荐相似度高的房间B、C等。
这样步骤可能是:
1. 从数据库获取所有用户收藏记录,构建物品-用户的矩阵,每个房间被哪些用户收藏。
2. 计算房间之间的相似度,比如使用余弦相似度。例如,对于房间i和j,计算它们的共同被收藏用户数,除以各自总收藏用户数的平方根的乘积。
3. 对于目标用户,找出他们收藏过的所有房间,然后找到与这些房间最相似的、用户还未收藏的房间,进行推荐。
这样实现可能更高效,因为物品数量可能比用户少,且相似度计算可以预先处理,但用户要求不用缓存,所以可能需要每次请求时实时计算?或者每次启动时计算一次?但这样对于实时更新可能有问题。
不过用户明确不要用缓存,所以可能需要每次请求时都实时计算物品相似度,但这在数据量大时会导致性能问题。比如,如果有1万个房间,计算相似度矩阵的时间复杂度是O(n²),可能会很慢。
或者,在用户请求推荐时,仅针对该用户已收藏的房间,实时计算这些房间与其他房间的相似度,然后聚合结果。例如,用户收藏了房间A、B,那么计算房间A与其他房间的相似度,房间B与其他房间的相似度,然后合并,去重,排序,取Top N。
这种方法可能可行,因为每个用户收藏的房间数量有限,假设每个用户收藏了10个房间,那么每次计算需要10次相似度计算,每次计算该房间与其他所有房间的相似度。但如果有N个房间,每次计算需要O(N)时间,10次就是O(10N),可能还是不够高效。
所以,这里可能需要权衡。如果数据量不大,可以接受实时计算;如果数据量大,可能需要优化,但用户不用缓存,所以可能需要其他方式,比如分批处理或者使用数据库的聚合查询。
或者,可以考虑使用基于用户的协同过滤,但同样面临计算用户相似度的开销问题。例如,用户A有N个用户需要比较,每个比较需要计算相似度,时间复杂度高。
可能用户的数据量较小,所以可以接受实时计算。那具体步骤如何?
假设采用基于物品的协同过滤:
步骤一:获取所有用户收藏数据,生成物品-用户矩阵。
步骤二:对于目标用户,获取其收藏的房间列表。
步骤三:对于每个收藏的房间,找到与之最相似的其他房间(未收藏的)。
步骤四:汇总这些房间,按相似度排序,推荐Top K。
但如何计算物品相似度?
例如,计算房间i和房间j的相似度可以用余弦相似度:
similarity(i,j) = (number of users who collected both i and j) / sqrt( (number of users collected i) * (number of users collected j) )
这需要统计每个房间的被收藏数,以及每对房间的共同被收藏数。
这可能需要大量的数据库查询,或者预先计算并存储这些统计值,但用户不允许用缓存,所以可能需要每次实时计算这些统计值?
这显然不现实,尤其是当数据量大时。比如,要计算两个房间的共同被收藏数,每次都要执行SQL查询:
SELECT COUNT(*) FROM user_favorites WHERE room_name IN (i, j) GROUP BY user_id HAVING COUNT(DISTINCT room_name) = 2;
这样的查询对于每个房间对来说,执行时间会很长,尤其是当房间数量多时。
所以,这里可能需要优化。用户要求不用缓存,但可能允许使用数据库的物化视图或者预存统计表?或者每次启动应用时计算一次,并存储在内存中?但用户可能认为这也是缓存,所以是否允许?
或者,用户只是不想用Redis等外部缓存,但允许应用内暂存数据?这需要进一步明确,但用户可能希望每次请求都实时从数据库计算,这样可能不可行。
或者,用户的数据量非常小,可以每次请求时都实时计算,例如用户数很少,房间数很少,那么可行。但如果是真实的应用场景,可能不太现实。
这可能意味着用户的需求存在矛盾,需要找到折中方案。例如,即使用户不允许用缓存,可能需要定期(比如每天)预计算物品相似度矩阵,并存储在数据库中,这样每次推荐时直接查询数据库中的相似度表,而不是实时计算。这样是否算缓存?用户可能认为存储到数据库是可以的,因为不算内存缓存。所以可能需要询问用户是否允许这样做,但根据问题描述,用户没有提到,可能需要假设可以。
但根据当前问题,用户明确说“不要用缓存”,可能指的是不依赖内存缓存如Redis,但允许使用数据库存储中间结果。或者,用户希望每次推荐都实时计算,而不存储任何中间数据。这可能需要明确,但假设用户希望实时计算,那么需要寻找高效的方法。
可能这时候,基于物品的协同过滤在实现上更可行,但必须找到高效计算相似度的方法。
另一种思路,使用数据库的聚合查询来快速计算共同收藏数。例如,对于每个房间i,可以预先统计每个房间j的共同收藏用户数,并存储在数据库中。但如何维护这张表?
例如,当用户收藏或取消收藏时,更新共同收藏数。这可能增加写操作的复杂度,但对于读操作来说,可以快速查询。
但这可能增加系统的复杂度,尤其是当房间数量多时,维护共同收藏数的表会变得非常庞大,因为如果有N个房间,共同收藏数的表会有N²行,这在N=1万时是1亿行,不可行。
所以这可能不现实。
那么回到问题,用户可能需要一个简化的实现,适用于小规模数据,而不考虑性能问题。例如,教学或小项目中的实现。
那么具体步骤:
1. 数据准备:查询所有用户收藏记录,构建用户-房间的矩阵,其中每个元素表示用户是否收藏了该房间。
2. 计算物品相似度:对于每个房间,计算它与其他房间的相似度,使用余弦相似度或杰卡德相似度。例如,杰卡德相似度为共同收藏用户数除以两个房间被收藏用户数的并集。
3. 对于目标用户,获取其收藏的房间列表,然后为每个收藏的房间找到最相似的Top N房间,合并这些房间,去除用户已经收藏的,然后按相似度排序,取Top K作为推荐。
具体实现:
在SpringBoot中,当处理推荐请求时:
a. 查询所有用户收藏记录,转换为一个Map<用户ID, Set<房间名>>,以及另一个Map<房间名, Set<用户ID>>。
这可能数据量大时会占用内存,但小数据量可以接受。
b. 对于目标用户,获取其收藏的房间集合。
c. 对于每个收藏的房间,计算该房间与其他所有房间的相似度。
d. 聚合所有相似房间,过滤已收藏的,按总相似度排序。
例如,对于每个候选房间,其总相似度是该房间与用户每个已收藏房间的相似度之和。
然后取总相似度最高的房间作为推荐。
但是,这样的计算在每次请求时都会遍历所有房间和用户的收藏,可能导致性能问题。如果用户收藏了M个房间,总共有N个房间,那么计算复杂度是O(M*N)。如果N是1万,M是10,那么每次请求需要10万次计算,可能较慢。
为了优化,可以考虑在数据库层面进行部分计算。例如,使用SQL查询找出与用户收藏房间共同收藏最多的其他房间。
例如,假设用户收藏了房间A、B、C,那么推荐那些被其他同时收藏A/B/C的用户收藏最多的房间,但排除用户已收藏的。
这类似于基于用户的协同过滤,但通过数据库查询实现。
具体来说,可以执行以下步骤:
1. 找出目标用户收藏的所有房间(例如房间A、B、C)。
2. 找出所有收藏了至少一个这些房间的其他用户。
3. 统计这些用户收藏的其他房间(排除用户已收藏的),按被收藏次数排序,取Top N。
这种方法更简单,可能更容易用SQL实现,而且不需要复杂的相似度计算。
例如,在SQL中:
假设表结构是user_favorites(user_id, room_name)。
步骤一:获取目标用户已收藏的房间列表:
SELECT room_name FROM user_favorites WHERE user_id = ?;
假设结果为A, B, C。
步骤二:找出所有收藏了A、B或C的其他用户:
SELECT DISTINCT user_id FROM user_favorites WHERE room_name IN (A,B,C) AND user_id != ?;
步骤三:找出这些用户收藏的房间,排除用户已收藏的,按出现次数排序:
SELECT f.room_name, COUNT(*) as cnt
FROM user_favorites f
WHERE f.user_id IN (上述步骤二的用户列表)
AND f.room_name NOT IN (A,B,C)
GROUP BY f.room_name
ORDER BY cnt DESC
LIMIT 10;
这种方法实际上是基于用户的协同过滤的简化版,寻找与目标用户有相似收藏行为的其他用户,然后聚合他们收藏的房间作为推荐。这种方法不需要计算相似度矩阵,而是通过统计频次来实现,可能更高效,尤其是在数据库层面利用索引和优化查询。
这可能是一个更实际的解决方案,尤其是当不允许使用缓存时,因为查询可以通过数据库优化,而不需要应用层进行复杂的计算。
因此,最终的实现步骤可能如下:
在SpringBoot后端:
1. 根据当前用户的ID,查询其收藏的房间列表。
2. 查询所有收藏过这些房间的其他用户的ID。
3. 查询这些用户收藏的其他房间(排除当前用户已收藏的),按收藏次数降序排列,取Top N作为推荐。
这种方法避免了复杂的相似度计算,利用数据库的聚合功能,可能更高效,尤其是当数据库有适当的索引(例如在user_id和room_name上建立索引)时。
对于Vue前端,只需调用后端提供的推荐接口,展示推荐列表即可。
可能的代码示例:
UserFavoriteRepository中定义查询方法:
@Query("SELECT DISTINCT f.userId FROM UserFavorite f WHERE f.roomName IN :roomNames AND f.userId != :userId")
List<Long> findUserIdsByFavoriteRooms(@Param("roomNames") List<String> roomNames, @Param("userId") Long userId);
@Query("SELECT f.roomName, COUNT(f) as cnt FROM UserFavorite f WHERE f.userId IN :userIds AND f.roomName NOT IN :excludedRooms GROUP BY f.roomName ORDER BY cnt DESC LIMIT :limit")
List<Object[]> findRecommendedRooms(@Param("userIds") List<Long> userIds, @Param("excludedRooms") List<String> excludedRooms, @Param("limit") int limit);
然后在Service层:
public List<String> recommendRooms(Long userId) {
List<String> userRooms = userFavoriteRepository.findByUserId(userId);
if (userRooms.isEmpty()) {
return Collections.emptyList(); // 或者返回热门推荐
}
List<Long> similarUserIds = userFavoriteRepository.findUserIdsByFavoriteRooms(userRooms, userId);
if (similarUserIds.isEmpty()) {
return Collections.emptyList();
}
List<Object[]> results = userFavoriteRepository.findRecommendedRooms(similarUserIds, userRooms, 10);
return results.stream().map(o -> (String) o[0]).collect(Collectors.toList());
}
这只是一个简化的示例,实际可能需要处理分页、性能优化等。例如,当similarUserIds过多时,可能导致IN查询效率低下,这时候可以分批次查询或限制用户数量。
此外,如果用户没有收藏任何房间,可能需要退回热门推荐或其他策略。
总结,用户的需求可以通过基于用户的协同过滤的简化版实现,利用数据库查询来统计相似用户的收藏行为,从而生成推荐,避免复杂的计算和缓存使用。这种方法在数据量不大时是可行的,且实现相对简单。</think>为了实现基于协同过滤的个性化推荐系统(SpringBoot + Vue),不使用缓存的情况下,可按照以下步骤实现:
---
### **一、数据结构准备**
**表结构示例**(user_favorites表):
```sql
CREATE TABLE user_favorites (
user_id BIGINT,
room_name VARCHAR(255),
PRIMARY KEY (user_id, room_name)
);
```
---
### **二、推荐逻辑设计**
#### **步骤 1:获取目标用户收藏列表**
```java
// SpringBoot JPA 查询
@Query("SELECT roomName FROM UserFavorite WHERE userId = :userId")
List<String> findUserFavoriteRooms(@Param("userId") Long userId);
```
#### **步骤 2:查找相似用户**
```sql
-- 查询收藏过目标用户房间的其他用户
SELECT DISTINCT user_id
FROM user_favorites
WHERE room_name IN (:userRooms) AND user_id != :userId;
```
#### **步骤 3:统计相似用户的未收藏房间**
```sql
-- 按收藏次数降序推荐
SELECT room_name, COUNT(*) AS cnt
FROM user_favorites
WHERE user_id IN (:similarUserIds)
AND room_name NOT IN (:userRooms)
GROUP BY room_name
ORDER BY cnt DESC
LIMIT 10;
```
---
### **三、SpringBoot 核心代码**
#### **1. Repository 层**
```java
public interface UserFavoriteRepository extends JpaRepository<UserFavorite, Long> {
// 查询用户收藏的房间
@Query("SELECT f.roomName FROM UserFavorite f WHERE f.userId = :userId")
List<String> findFavoriteRoomsByUserId(@Param("userId") Long userId);
// 查询相似用户ID
@Query("SELECT DISTINCT f.userId FROM UserFavorite f WHERE f.roomName IN :roomNames AND f.userId != :userId")
List<Long> findSimilarUserIds(@Param("roomNames") List<String> roomNames, @Param("userId") Long userId);
// 统计推荐房间
@Query(value = """
SELECT f.room_name AS roomName, COUNT(*) AS cnt
FROM user_favorites f
WHERE f.user_id IN :userIds
AND f.room_name NOT IN :excludedRooms
GROUP BY f.room_name
ORDER BY cnt DESC
LIMIT :limit""", nativeQuery = true)
List<Object[]> findRecommendedRooms(@Param("userIds") List<Long> userIds,
@Param("excludedRooms") List<String> excludedRooms,
@Param("limit") int limit);
}
```
#### **2. Service 层**
```java
@Service
@RequiredArgsConstructor
public class RecommendationService {
private final UserFavoriteRepository userFavoriteRepository;
public List<String> recommendRooms(Long userId) {
// 1. 获取用户收藏的房间
List<String> userRooms = userFavoriteRepository.findFavoriteRoomsByUserId(userId);
if (userRooms.isEmpty()) return getFallbackRecommendations();
// 2. 查找相似用户
List<Long> similarUserIds = userFavoriteRepository.findSimilarUserIds(userRooms, userId);
if (similarUserIds.isEmpty()) return getFallbackRecommendations();
// 3. 统计推荐结果
List<Object[]> results = userFavoriteRepository.findRecommendedRooms(similarUserIds, userRooms, 10);
return results.stream()
.map(row -> (String) row[0])
.collect(Collectors.toList());
}
// 备用推荐(如热门房间)
private List<String> getFallbackRecommendations() {
return List.of("热门房间A", "热门房间B");
}
}
```
---
### **四、Vue 前端调用**
```javascript
// 调用推荐接口
axios.get('/api/recommend', { params: { userId: 123 } })
.then(response => {
this.recommendedRooms = response.data;
});
```
---
### **五、优化与注意事项**
1. **索引优化**:
- 为 `user_id` 和 `room_name` 字段添加索引,加速查询。
```sql
CREATE INDEX idx_user ON user_favorites (user_id);
CREATE INDEX idx_room ON user_favorites (room_name);
```
2. **分页查询**:
- 若数据量较大,限制相似用户数量(如最多1000人)或分批次处理。
3. **冷启动问题**:
- 新用户或无收藏用户,推荐热门房间(通过 `COUNT(room_name) GROUP BY room_name` 实现)。
---
### **六、方案优缺点**
- **优点**:
- 完全依赖数据库,无需缓存或复杂算法。
- 实现简单,适合中小规模数据。
- **缺点**:
- 数据量大时查询性能下降,需分库分表或改用分布式计算(如Spark)。
- 实时性要求高时,需结合增量计算优化。
阅读全文
相关推荐


















