Apache PredictionIO机器学习分析：使用IPython Notebook进行数据探索-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00196/article/details/148392764

Apache PredictionIO机器学习分析：使用IPython Notebook进行数据探索

predictionio PredictionIO, a machine learning server for developers and ML engineers. 项目地址: https://gitcode.com/gh_mirrors/pred/predictionio

概述

Apache PredictionIO作为一个开源的机器学习服务器，为开发者提供了构建预测应用的完整工具链。在实际项目中，对收集的事件数据进行深入分析是优化模型性能的关键环节。本文将详细介绍如何利用IPython Notebook结合PySpark和Spark SQL对PredictionIO收集的数据进行交互式分析。

环境准备

基础软件要求

IPython Notebook：建议安装最新稳定版本，确保ipython命令可在终端直接调用
Apache Spark：需要配置好$SPARK_HOME环境变量
Python科学计算栈：包括NumPy、Matplotlib等基础库

数据准备

PredictionIO默认将事件数据以Parquet格式存储在指定位置，这种列式存储格式特别适合大规模数据分析。确保已按照标准流程收集了足够的事件数据。

IPython Notebook集成配置

启动命令

使用以下命令启动集成PySpark的IPython Notebook环境：

PYSPARK_DRIVER_PYTHON=ipython \
PYSPARK_DRIVER_PYTHON_OPTS="notebook --%pylab inline" \
$SPARK_HOME/bin/pyspark

此命令实现了：

指定IPython作为PySpark的交互式环境
自动加载Matplotlib支持
保持Spark上下文可用

常见问题解决

若遇到pylab相关错误，可尝试在Notebook的第一个单元格中手动添加：

%pylab inline

数据分析实战

初始化环境

在第一个单元格中执行以下初始化代码：

import pandas as pd
from pyspark.sql import SQLContext

# 将Spark Rows转换为Pandas DataFrame的实用函数
def rows_to_df(rows):
    return pd.DataFrame(map(lambda e: e.asDict(), rows))

# 初始化Spark SQL上下文
sqlc = SQLContext(sc)

# 加载Parquet格式的事件数据
rdd = sqlc.parquetFile("/tmp/movies")
rdd.registerTempTable("events")

基础统计分析

事件类型分布分析：

summary = sqlc.sql("""
    SELECT 
        entityType, event, targetEntityType, COUNT(*) AS c 
    FROM events 
    GROUP BY entityType, event, targetEntityType
""").collect()

rows_to_df(summary)

这段SQL查询将返回：

每种实体类型(eventType)的分布情况
不同事件类型(event)的计数
目标实体类型(targetEntityType)的关联统计

可视化分析

1. 事件分布饼图：

import matplotlib.pyplot as plt

count = map(lambda e: e.c, summary)
event = map(lambda e: "%s (%d)" % (e.event, e.c), summary)
colors = ['gold', 'lightskyblue']

plt.pie(count, labels=event, colors=colors, 
        startangle=90, autopct="%1.1f%%")
plt.axis('equal')
plt.show()

2. 评分分布分析：

ratings = sqlc.sql("""
    SELECT 
        properties.rating AS r, COUNT(*) AS c 
    FROM events 
    WHERE properties.rating IS NOT NULL 
    GROUP BY properties.rating 
    ORDER BY r
""").collect()

count = map(lambda e: e.c, ratings)
rating = map(lambda e: "%s (%d)" % (e.r, e.c), ratings)
colors = ['yellowgreen', 'plum', 'gold', 'lightskyblue', 'lightcoral']

plt.pie(count, labels=rating, colors=colors,
        startangle=90, autopct="%1.1f%%")
plt.axis('equal')
plt.show()

高级分析技巧

时间序列分析

time_series = sqlc.sql("""
    SELECT 
        date_format(from_unixtime(creationTime/1000), 'yyyy-MM-dd') AS day,
        COUNT(*) AS events
    FROM events
    GROUP BY day
    ORDER BY day
""").collect()

df = rows_to_df(time_series)
df.plot(x='day', y='events', kind='line')

用户行为路径分析

user_journey = sqlc.sql("""
    SELECT 
        entityId AS userId,
        collect_list(event) AS events
    FROM events
    GROUP BY entityId
    LIMIT 50
""").collect()

rows_to_df(user_journey)