More Related Content
PPTX
PDF
PDF
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」 PDF
SSII2020TS: 機械学習モデルの判断根拠の説明 〜 Explainable AI 研究の近年の展開 〜 PDF
一般化線形モデル (GLM) & 一般化加法モデル(GAM) PDF
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2 PDF
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩- PDF
ブレインパッドにおける機械学習プロジェクトの進め方 What's hot
PDF
(修正)機械学習デザインパターン(ML Design Patterns)の解説 PDF
PPTX
PPTX
PPTX
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」) PPTX
PDF
PPTX
パワポ版の落合先生流論文要旨のテンプレートを作ったので配布する PPTX
PDF
PPTX
機械学習をこれから始める人が読んでおきたい 特徴選択の有名論文紹介 PPTX
PPTX
PDF
Prophet入門【R編】Facebookの時系列予測ツール PDF
第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて PDF
深層生成モデルと世界モデル(2020/11/20版) PDF
PDF
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation) PPTX
PDF
Viewers also liked
PPTX
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 PDF
PDF
Python twitter data_150709 PDF
PDF
KEY
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門 PDF
PDF
Social network analysis & Big Data - Telecommunications and more PPTX
PPTX
PDF
SVM実践ガイド (A Practical Guide to Support Vector Classification) PDF
Big Data Analytics : A Social Network Approach PPT
Big Data: Social Network Analysis PDF
PDF
「Python言語」はじめの一歩 / First step of Python PDF
python-twitterを用いたTwitterデータ収集 PDF
PDF
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp PDF
Python 機械学習プログラミング データ分析ライブラリー解説編 PDF
Python東海Vol.5 IPythonをマスターしよう Similar to Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
PPTX
さくっとはじめるテキストマイニング(R言語) スタートアップ編 PDF
PDF
S02 t2 my_historyofpythonlearning PDF
PDF
PDF
PDF
PDF
第三回さくさくテキストマイニング勉強会 入門セッション PDF
PDF
第二回データサイエンティスト木曜勉強会20141016 PDF
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』 PDF
オープンデータで実現する作文測定分析のシステム構成 PPTX
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版 PDF
PDF
KEY
PDF
PDF
PDF
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係― PPTX
More from Hisao Soyama
PDF
People analyticsと社会ネットワーク分析 PDF
PDF
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~ PDF
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる PDF
PDF
PDF
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ- PDF
PDF
PDF
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
- 1.
- 2.
- 3.
- 4.
このスライドの目的
● とある元院生の修論体験記を通して
– Pythonのステマをする
– ソーシャルデータ分析に便利なツールを知る
– 実際のソーシャルデータ分析の流れを知る
● ただし自己流ですが
- 5.
修論の概要
● Twitterの分析
● リスト機能を使って自分とこの学生のアカウ
ントを抽出
● 2010年12月~2011年9月の期間、プロ
フィール、フォロワー、ツイート等を取得
- 6.
● スケールこのくらい
– アカウント数:1,631
– ツイート数:1,174,684
● このデータをもとにテキストマイニングやっ
たりクラスタリングしたりネットワーク分析
やったり
- 7.
下準備
● 研究テーマどうしよう?
– 適当にTwitter API叩いてたら楽しかったので、
適当にデータ取って分析でもするか
● 言語なにつかおう?
– Python!!!!
– 先生がPythonの人だったので
- 8.
データの収集
● Twitter APIからデータ取得
● 取り始める前に考えよう
– 闇雲に集めても意味ないよ!
– 分析対象は誰?何?
● ランダムサンプリングはあんま意味ない
– ネットワーク分析できないし……
– 対象となるトピック、コミュニティを絞ろう
- 9.
● 生のAPI叩くより、各言語のラッパー使った
方がお手軽
– PythonならTweepyがお勧めらしい
● ただし自分はラッパー使いませんでした
– BASIC認証からOAuth認証に完全移行した直後
で、まだ対応してなかった、、、
– urllib, urllib2, oauth2などでゴリゴリと
- 10.
Twitter APIの注意点
● 1時間に350回しかAPI叩けない
– 3垢作って回す
– 毎月1日にデータ取得した
– 日付変わると同時にスクリプト回す。昼前には終
わる
● よく落ちる(今は知らん)
● 仕様変わる(仕方ないけど)
- 11.
データの永続化
● 何も考えずにMySQLを使った
● 今やるなら絶対にMongoDB使う
– JSONでデータ取ってそのままぶち込むだけ。ス
キーマレス最高!!!
– MySQLだといちいちデータの形式に合わせてス
キーマ定義するのめんどい
- 12.
- 13.
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
分析するぞオラァ!!!!!
● まずはグラフ描くよね
– フォロー数、フォロワー数の分布
– 1ヶ月のツイート数
– こいつらの相関
● matplotlibを使いましょう
– Pythonのグラフ描画ライブラリ
- 21.
● テキストマイニングでもやるか
● ツイート内容でユーザー分類できたら面白い
よね
● MeCabで形態素解析
– ツイートを単語に区切る
● ユーザごとの名詞の使用頻度を算出
● k-meansでクラスタリング
- 22.
cluster 0 cluster 1 cluster 2 cluster 3
・・・(名詞) 私(名詞) 僕(名詞) 俺(名詞)
ゆう(動詞) わたし(名詞) 日本(名詞) ww(名詞)
俺(名詞) lt(名詞) ありがとうございます(名詞) 僕(名詞)
ラーメン(名詞) ありがとう(名詞) ブログ(名詞) マジ(名詞)
ちょっと(名詞) gt(名詞) 考える(動詞) www(名詞)
リアル(名詞) ちゃう(動詞) 本(名詞) at(名詞)
一橋(名詞) うち(名詞) 仕事(名詞) 飲む(動詞)
嘘(名詞) 食べる(動詞) 問題(名詞) やつ(名詞)
食べる(動詞) バイト(名詞) 学生(名詞) 誰(名詞)
まあ(副詞) ちゃん(名詞) 者(名詞) リア充(名詞)
円(名詞) がんばる(動詞) 性(名詞) 卒論(名詞)
とりあえず(副詞) かわいい(名詞) the(名詞) バイト(名詞)
わかる(動詞) ふる(動詞) ため(名詞) 食う(動詞)
なに(名詞) みんな(名詞) 読む(動詞) 君(名詞)
寝る(名詞) 好き(名詞) 書く(動詞) わかる(動詞)
大学(名詞) 楽しみ(名詞) 必要(名詞) 行く(名詞)
曲(名詞) 先輩(名詞) 会(名詞) 友達(名詞)
怖い(形容詞) 素敵(名詞) 話(名詞) やっぱ(副詞)
無い(形容詞) ほんとに(副詞) ところ(名詞) とく(動詞)
帰宅(名詞) こ(名詞) おれ(名詞) 奴(名詞)
- 23.
● MeCab-pythonで形態素解析
● PyClusterでクラスタリング
● どっちもCで書いてあるから実行早い!!
- 24.
- 25.
- 26.
- 27.
- 28.
本格的に分析しましょう
● 中間発表乗り切ったので、本腰入れて分析し
よう!!!
– 発表終わった直後にPS3買いに走ったのは内緒だぜぇ
● データクリーニングしないと
– ウチの学生じゃない垢含まれてる
– プロフィールでだいたい判別できるかな?
- 29.
● 正解データ100個ぐらい用意してベイズ分類
器でも作るか?
– 精度低そう
● たかだか2,000アカウントぐらいだし、手作
業でやっちゃえ!!!!
● 大量のプロフィールを「正解」「不正解」
「判別不能」に分類
● 2日ぐらいで終わったからよかったよね
- 30.
ゴールが見えてきたぞ!
● ユーザのクラスタリング
– 情報発信クラスタ
– 日常会話クラスタ(男)
– 日常会話クラスタ(女)
– 中間クラスタ
● 利用形態違うよねー
– 情報発信はRT多い、PC使う
– 日常会話は@多い、スマホ使う
- 32.
● 「片想い」に注目
– Facebookは対称
– Twitterは非対称
● 情報発信する人ほど、片想い/片想われの比
率が高い
– Twitterが情報発信によく使われるのって、関係
が非対称だからなのかなー
- 33.
● ネットワーク分析もやりましょう
– 利用目的違う人たちって、ネットワーク上の分布
も離れてるのかな?
● networkX!!!!!!
- 36.
● 情報発信する人たちはやや固まる傾向
– 他はバラバラ
● とはいえ、違う利用目的の人も活発に交流し
てるみたいだねー
- 37.
- 38.
vs. C, Java,...
● Pythonの方が覚えるのが楽チン
● コーディングも楽
● もちろん実行速度は遅いけど……
- 39.
vs. Ruby, Perl,...
● Pythonは分析系のライブラリが豊富
– Numpy, Scipy
– matplotlib
– NLTK
– networkX
● オライリーのいい感じの本はだいたいPython
- 41.
vs. R
● 最大のライバル!!!
– 向こうはライバルと思ってないだろうけど……
● 統計計算に特化してるだけあって、Rはすっ
ごく手軽に計算できる
- 42.
● でも、実はRって大規模データに向いてない
んだよね……
– メモリがすぐに溢れる
● Pythonの方がメモリの扱いはお上手な気がす
る
● Pythonだと API叩いてデータ収集→DBに保
存→分析→グラフ描く まで1つの言語でで
きる!!!
- 45.
- 46.
修士号取るまでが修論です
● TeXで書きました。Wordなんか使ってられ
るか
● 製本出して提出すれば、あとは最終試験ある
のみ!!
– 先生の前でプレゼンして質疑応答
– 先生優しいし、楽勝だろ(ホジ
- 47.
- 48.
- 49.
- 50.
結論
● Pythonは便利
● 日頃の行いが良くない人には報いが訪れる
– 神様っているんだね!!!
– 報いに備えてバックアップを
● 分析して終わり ではダメ
– 論文とか、報告書とか、企画書とか、ブログとか
- 51.
- 52.