さらば!
データサイエンティスト
PFIセミナー 2013/08/22
株式会社Preferred Infrastructure
リサーチャー&Jubatusチームリーダー
比戸 将平
自己紹介
 比戸将平(HIDO Shohei)
 TwitterID: @sla
 専門:データマイニング、機械学習
 経歴:
 2006-2012: IBM東京基礎研究所データ解析グループ
 機械学習(特に異常検知)のアルゴリズム研究開発
 お客様案件でデータ解析プロジェクトに従事
 2012-: 株式会社プリファードインフラストラクチャー
 大規模オンライン分散機械学習基盤Jubatusチームリーダー
 2013-: Preferred Infrastructure America, Inc.
 Chief Research Officer
2
IT Leaders様にインタビュー記事掲載:
数日間Google検索のトップにいた(?)
http://it.impressbm.co.jp/e/2013/08/01/5054
データサイエンティスト三部作・完結編
「さらば!データサイエンティスト」
 つくり方:データサイエンティストグループの構築
 つかい方:仕事を依頼する側のリテラシーの話
 今回は定義論もあるあるも活用方法も無し
Slideshareにて公開中
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
NHKクローズアップ現代で統計ブーム特集
 “統計学を使いこなす「データサイエンティスト」と呼
ばれる専門職は「最もセクシーな(魅力的な)職業」だ
として、多くの企業から引く手あまたの状況だ。”
http://www.nhk.or.jp/gendai/yotei/index_yotei_3375.html
Google Trendsによる検索人気度のMAX:
第2回時の3倍、第1回時の15倍
7
データサイエンティスト協会設立
→役割の定義と育成へ
http://www.datascientist.or.jp/
各社による育成ビジネス
http://www.albert2005.co.jp/release/archives/201307/29_120043.html
http://www.brainpad.co.jp/news/2013/pdf/0806.pdf
http://japan.emc.com/microsites/bigdata/why-big-data-datascientist.htm
関連本の相次ぐ出版:今年4月以降だけでこれだけ
育成、データ分析、統計推し、事例集、情シスの逆襲
現時点での決定版:
データサイエンティスト養成読本(今見た)
 広いトピックがコンパクトにかつ初歩には必要十分
 データ分析基礎編、データサイエンス、R、NumPy、
機械学習、Fluentd、マーケティング分析、SNS分析、SQL
 インストール方法、サンプルも豊富に載ってる
 データサイエンティストを目指すなら必読
本日のキーメッセージ
データサイエンティストは…
養成できません!!!
(そう簡単には)
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
ビッグデータ分析の導入:まだまだこれから
 IBMの2012年調査
 24%がまだビッグデータ活用について調査段階
 47%がビッグデータ活用方法について検討段階
 わずか6%が導入してビジネス価値を生み出している
 導入の困難さと効率化の困難さがやや混同されている
IBM Institute of Business Value “Analytics: The real-world use of big data”, 2013
ビッグデータ
解析
データ
アナリティクス
ビ
ッ
グ
デ
ー
タ
ビッグデータ分析の現状:ブラックボックス?
15
応用
利益最大化
コスト最小化
需要予測
故障予知
営業戦略最適化
パーソナライズ
マーケ最適化
データ
サイエンティスト
ビ
ッ
グ
デ
ー
タ
ビッグデータ処理系と解析ソフトウェアの組合せ
16
データサイエンティスト
ビッグデータ処理系
応用
利益最大化
コスト最小化
需要予測
故障予知
営業戦略最適化
パーソナライズ
マーケ最適化
大規模DB
解析ソフトウェア
ビッグデータ分析の導入と効率化における3つの壁
IT
1
2
3
 パターン1:ビジネスに結びつける組織・体制
 パターン2:データ収集と蓄積の基盤
 ☆パターン3:解析の手法とスキルと効果測定
壁パターン1:ビジネスに結びつける組織・体制
 経営陣による戦略決定、組織横断のチームづくり
 関係部門全てに対する負担要請と利害調整
 ビッグデータ分析の効果の公平な分配
壁パターン2:データ収集と蓄積の基盤
 データが収集されていない、組織内にはるが出て来ない
 蓄積するための統合ITインフラが用意されていない
 部門単位でコストをかけるにはリスクが高すぎる
…そこをなんとか…
機密情報だからなー
個人情報保護もあるし。
そんなデータないよ。
え?新しく取れ?
(面倒だな…)
データサイエンティスト
マネージャー
現場社員
壁パターン3:解析の手法とスキルと効果測定
 統計学が重要というコンセプトレベルでは皆同意
 一方でデータサイエンティストへの過度の期待
 「うちのビジネスをよく理解してくれて〜」
 「コミュニケーション能力とPM力高くて〜」
 「統計も機械学習の最新技術も全部わかってて〜」
 「PDCAサイクル回すの手伝ってくれて〜」
あー完璧なデータサイエンティスト
どっかにいないかな〜
上層部
データサイエンティスト
……………………
スキルの問題:教育によりある程度解決する見込み
 真実:完璧なデータサイエンティストは存在しない
Communication
Skill
Business
Understanding
Project
Management
第3の支え:進化した解析用ソフトウェア
今ほとんど触れられることのない部分
ビッグデータ分析
ビッグデータ
ITインフラ
統
計
学
デ
ー
タ
サ
イ
エ
ン
テ
ィ
ス
ト
進
化
し
た
解
析
用
ソ
フ
ト
現状使われているソフトウェア群
RDB / NoSQL Hadoop / SQL-like
Analytics
○○○出現以前のビッグデータ分析プロセス
[データサイエンティスト w/ Hadoop+R+Weka, 2013]
ビ
グ
デ
ー
タ
データサイエンティスト
ビッグデータ処理理系
需要予測
故障予知
パーソナライズ
マーケ最適化
⼤大規
模
DB
解析ソフトウェア
プログラム言語出現以前のプログラミング
[ENIAC, 1946]
出典:wikipedia.org
 急募!配線エンジニア
 設計書通りに壁の穴から穴へ配線を繋ぐだけの簡単なお仕事
 これからのコンピュータ時代に求められるスキルが身につきます!
解析ソフトウェアの進化:あまり考慮されていない
今後もこれからのツールがずっと使われるのか?
 Matlab: 1984-
 SPSS: 1988-
 Weka: 1993-
 GNU R: 1996-
 元のS言語は
1984-
RDB / NoSQL Hadoop / SQL-like
Analytics
統計リテラシーの向上と解析ツールの進歩により
データサイエンティスト不要のケースが増大
ビ
グ
デ
ー
タ
需要予測
故障予知
パーソナライズ
マーケ最適化
データ分析担当者
新たな分析ツール群
健全なビッグデータ分析を実現するために
 ビッグデータという言葉によって
データとミドルウェアだけに注目が
集まっている
 そこで解決できない課題を人力で何
とかしてくれるデータサイエンティ
ストの出現と、その理想像に関する
議論が盛んに行われている
 組織の意識変革や経営陣・マネジメ
ント層の統計リテラシー向上も重要
だが、その他の変化も見失ってはい
けない
解析ソフト
人
組織
データ
ミドルウェア
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
解析ソフトウェアの進化とは
 何が解析ソフトウェアをどう変えるのか
 メモリの大容量化→インメモリ処理のスケーラビリティ向上
 仮想化技術→面倒なデータ管理をユーザーから隠蔽
 ネットワークの高速化→処理結果を瞬時に伝送可能
 ブラウザ上GUIの進化→ブラウザからカンタンにに使えるUI
 クラウド→環境構築と性能増減のコストがほぼゼロに
 進化した解析ソフトウェアの特徵
 インメモリ動作:解析処理のインタラクティブ性を重視
 クラウド、SaaS化:データは向こう側に置いて結果だけ得る
 使いやすいUIに特化:ユーザーの敷居を出来る限り下げる
 シンプルな課金体系:無料トライアル+機能x月額料金
紹介する実例
 インタラクティブなデータ可視化ツール
 QlikView
 Tableau
 表形式データ加工ツール
 Fivetran
 カンタンに使える機械学習ツール
 bigML
 Bazil
 データサイエンティストのお助けツール
 MLbase
 maf
インタラクティブなデータ可視化(1/2)
QlikTech - QliKview (1996-)
 従来のBIツールとの違い:セルフサービス型
 データをインメモリで保持しビューをその場で変更可能
 複数の情報源を透過的に組合せ検索しながら深堀り・絞込み
 概要ムービー
インタラクティブなデータ可視化(2/2)
Tableau (2003-)
 VizQLという独自の可視化クエリ言語に基づいたシステム
 Amazon EC2で動作可能、クラウドサービスもリリース
 サンプルデモ
表形式データ加工ツール:
Fivetran (2013-)
 完全ブラウザベースで表形式データの処理を実行
 「ExcelとMatlabの間」→サンプルデモ
 独自の処理クエリを入力すると結果が次の表になる
 単なる変換から集計、時系列分析まで機能を拡張中
カンタンに使える機械学習ツール(1/2)
bigML (2012-)
 “Machine Learning for Everyone”
 決定木アルゴリズムによる学習&予測フローを固定化
 パラメータ調整や結果の表示を重視
 動作デモ
分析
担当者
テキスト ログ/履歴
Webブラウザ クラウド
予測要因 予測評価
数値データ
カンタンに使える機械学習ツール(2/2)
Preferred Infrastructure - Bazil (2013-)
 “Machine Learning for Everyone”
 決定木アルゴリズムによる学習&予測フローを固定化
 パラメータ調整や結果の表示を重視
 動作デモ
データサイエンティストのお助けツール(1/2)
UC Berkley - MLbase in BDAS(2013-)
 機械学習タスクの実行クエリを抽象的に記述
 アルゴリズムやパラメータを変更して分散実行
[Kraska+, CIDR2013]
データサイエンティストのお助けツール(2/2)
Preferred Infrastructure – maf (2013-)
 アルゴリズムやパラメータを変更して実行
 wafベース、設定から可視化(matplotlib)までを
pythonコードとして簡単に記述できる
解析ソフトウェアの変化がもたらすもの:
データサイエンティストの負担が減る
 今は非力でもソフトウェアの高性能化と抽象化が後押し
 不要になる:面倒なデータ管理や前処理の繰り返し
 自動化される:実験設定を変更しては再実行の試行錯誤
 敷居が下がる:一般ユーザーがExcelのようにこなせる仕事
従来のソフトウェア基盤 新しいソフトウェア基盤
BI
・例:Cognos、BusinessObjects
・DB上でのバッチ処理
・固定のビュー・ドリルダウン
・定型的なレポート中心
・例:QlikView、Tableau
・インメモリで高速処理
・自由に変更可能なビュー
・インタラクティブな分析
機械学習
・例:R、MATLAB
・任意の解析処理が実現可能
・専用スクリプトの記述が必要
・結果の解釈は重視されていない
・例:bigML、Bazil
・解析フローは固定、調整可
・スクリプト無し、設定のみ
・結果の可視化なども統合
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
まとめ
 ビッグデータ分析を効率化するためのソフトウェアが
必ずこれからどんどん市場に出てきます
 この解析ソフトウェアの進化は、データインフラの整
備、統計リテラシーの向上、組織的ビッグデータ戦略の
浸透、データサイエンティストの育成と並行して進みま
す
 重要なスキル、組織のIT戦略、ソフトウェア、ミドル
ウェア、ハードウェア、コンピュータアーキテクチャは
刷新サイクルはがそれぞれ異なります
 それを見極めるのが最先端を逃さないために重要です
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
作者のあとがき
 良くも悪くも全てはポジショントーク!
 データサイエンティストとして自分を高く売りたい人
 育成ビジネスで儲けたい研修サービス会社
 ブームに乗って関連本を売りたい出版社
 最終的にIT投資を増やして欲しいベンダー
 ネットでちょっとウケて目立ちたかった僕
ブームに乗せられるのではなく、乗る
 ビッグデータとかデータサイエンティストとかの言葉は
滅びるかもしれない
 けど以下の事実は不変
 収集できるデータの量、品質、種類が増える
 データ分析を支えるツールの使いやすさと計算能力が上がる
 経営陣、マネジメント層にデータ活用の意識が高まる
 これまでデータ活用で何かを成し遂げようとしたときに
障害となってきたデータ/ソフト/ハード/組織の壁が
どんどん低くなりつつある
 これらのハードルをギリギリで飛び越えて結果を出した
勇者のみがデータサイエンティストを名のれる!!
 まぁ観念論はこの辺にして、Excel作業に戻ろうか…
Have a
happy data scientist life!!
そんじゃーね!

More Related Content

PDF
データサイエンティストのつくり方
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
統計的因果推論への招待 -因果構造探索を中心に-
PDF
21世紀の手法対決 (MIC vs HSIC)
PPTX
社会心理学者のための時系列分析入門_小森
PPTX
統計分析
PDF
関数データ解析の概要とその方法
PPTX
画像処理基礎
データサイエンティストのつくり方
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
統計的因果推論への招待 -因果構造探索を中心に-
21世紀の手法対決 (MIC vs HSIC)
社会心理学者のための時系列分析入門_小森
統計分析
関数データ解析の概要とその方法
画像処理基礎

What's hot (20)

PPTX
ディープラーニングによる時系列データの異常検知
PDF
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
PDF
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
PPTX
MCMCでマルチレベルモデル
PDF
Deep Learningと画像認識   ~歴史・理論・実践~
PDF
2 3.GLMの基礎
PPTX
相関分析と回帰分析
PDF
2 4.devianceと尤度比検定
PPTX
Transformerを雰囲気で理解する
PDF
相関と因果について考える:統計的因果推論、その(不)可能性の中心
PDF
“機械学習の説明”の信頼性
PDF
機械学習によるデータ分析まわりのお話
PPTX
データサイエンス概論第一=2-1 データ間の距離と類似度
PPTX
データサイエンス概論第一=2-2 クラスタリング
PPTX
データサイエンス概論第一=1-2 データのベクトル表現と集合
PDF
単純ベイズ法による異常検知 #ml-professional
PDF
データ解析のための統計モデリング入門 1~2章
PDF
MICの解説
PDF
よくわかるフリストンの自由エネルギー原理
PDF
推薦アルゴリズムの今までとこれから
ディープラーニングによる時系列データの異常検知
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
MCMCでマルチレベルモデル
Deep Learningと画像認識   ~歴史・理論・実践~
2 3.GLMの基礎
相関分析と回帰分析
2 4.devianceと尤度比検定
Transformerを雰囲気で理解する
相関と因果について考える:統計的因果推論、その(不)可能性の中心
“機械学習の説明”の信頼性
機械学習によるデータ分析まわりのお話
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=1-2 データのベクトル表現と集合
単純ベイズ法による異常検知 #ml-professional
データ解析のための統計モデリング入門 1~2章
MICの解説
よくわかるフリストンの自由エネルギー原理
推薦アルゴリズムの今までとこれから
Ad

Similar to さらば!データサイエンティスト (20)

PDF
Jubatus Casual Talks #2 異常検知入門
PDF
プロダクトマネージャのお仕事
PDF
今年のKDDベストペーパーを実装・公開しました
PDF
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
PPTX
データ分析基盤を支えるエンジニアリング
PDF
課題解決エンジンを支えるデータ処理システムと利活用事例
PPTX
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
PDF
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
PDF
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
PDF
大規模サイトを支えるビッグデータプラットフォーム技術
PDF
2014/06/13 若手Webエンジニア交流会発表資料「博士課程の新卒エンジニアがデータ分析環境を作った話」
PDF
リクルートライフスタイル流!分析基盤との賢い付き合い方
PDF
構造化データをツールで簡単に分析
PPTX
WebDB Forum 2013
PDF
20190606_ml_and_buisiness
PPTX
People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
PDF
ビッグデータとクラウドソーシング
PDF
DBREから始めるデータベースプラットフォーム
PPTX
エッジヘビーコンピューティングと機械学習
PPTX
DevelopersIO 2024 FUKUOKA Day2(アクションにつながるダッシュボード設計)
Jubatus Casual Talks #2 異常検知入門
プロダクトマネージャのお仕事
今年のKDDベストペーパーを実装・公開しました
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
データ分析基盤を支えるエンジニアリング
課題解決エンジンを支えるデータ処理システムと利活用事例
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
大規模サイトを支えるビッグデータプラットフォーム技術
2014/06/13 若手Webエンジニア交流会発表資料「博士課程の新卒エンジニアがデータ分析環境を作った話」
リクルートライフスタイル流!分析基盤との賢い付き合い方
構造化データをツールで簡単に分析
WebDB Forum 2013
20190606_ml_and_buisiness
People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
ビッグデータとクラウドソーシング
DBREから始めるデータベースプラットフォーム
エッジヘビーコンピューティングと機械学習
DevelopersIO 2024 FUKUOKA Day2(アクションにつながるダッシュボード設計)
Ad

More from Shohei Hido (20)

PDF
CuPy: A NumPy-compatible Library for GPU
PDF
Deep Learning Lab 異常検知入門
PDF
NIPS2017概要
PDF
ディープラーニングの産業応用とそれを支える技術
PDF
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
PDF
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
PDF
Chainer GTC 2016
PDF
How AI revolutionizes robotics and automotive industries
PDF
NIPS2015概要資料
PDF
あなたの業務に機械学習を活用する5つのポイント
PPTX
PFIセミナー "「失敗の本質」を読む"発表資料
PDF
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
PDF
機械学習CROSS 後半資料
PDF
機械学習CROSS 前半資料
PDF
Jubatusが目指すインテリジェンス基盤
PDF
ICML2013読み会 開会宣言
PDF
ビッグデータはどこまで効率化できるか?
PDF
(道具としての)データサイエンティストのつかい方
PDF
FIT2012招待講演「異常検知技術のビジネス応用最前線」
PDF
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
CuPy: A NumPy-compatible Library for GPU
Deep Learning Lab 異常検知入門
NIPS2017概要
ディープラーニングの産業応用とそれを支える技術
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
Chainer GTC 2016
How AI revolutionizes robotics and automotive industries
NIPS2015概要資料
あなたの業務に機械学習を活用する5つのポイント
PFIセミナー "「失敗の本質」を読む"発表資料
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
機械学習CROSS 後半資料
機械学習CROSS 前半資料
Jubatusが目指すインテリジェンス基盤
ICML2013読み会 開会宣言
ビッグデータはどこまで効率化できるか?
(道具としての)データサイエンティストのつかい方
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"

Recently uploaded (7)

PDF
Working as an OSS Developer at Ruby Association Activity Report 2025
PDF
AIシステムのセキュリティ:脅威となりつつあるAIの現状と課題 [English] Security of AI Systems: The Current...
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
PDF
翔泳社 「C++ ゼロからはじめるプログラミング」対応 C++学習教材(三谷純)
PDF
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
Working as an OSS Developer at Ruby Association Activity Report 2025
AIシステムのセキュリティ:脅威となりつつあるAIの現状と課題 [English] Security of AI Systems: The Current...
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
翔泳社 「C++ ゼロからはじめるプログラミング」対応 C++学習教材(三谷純)
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。

さらば!データサイエンティスト