Upload
Download free for 30 days
Login
Submit search
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
17 likes
5,350 views
Yuya Unno
Read more
1 of 76
Download
Downloaded 54 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
More Related Content
PDF
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
PDF
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
PDF
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
PPTX
ディープラーニングで株価予測をやってみた
卓也 安東
PDF
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
PDF
大規模データ時代に求められる自然言語処理
Preferred Networks
PDF
深層学習フレームワークChainerの特徴
Yuya Unno
PDF
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Yuya Unno
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
ディープラーニングで株価予測をやってみた
卓也 安東
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
大規模データ時代に求められる自然言語処理
Preferred Networks
深層学習フレームワークChainerの特徴
Yuya Unno
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Yuya Unno
What's hot
(20)
PDF
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
PDF
rcast_20140411
Preferred Networks
PDF
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
PDF
自然言語処理紹介(就職編)
長岡技術科学大学 自然言語処理研究室
PDF
Jubatusにおける機械学習のテスト@MLCT
Yuya Unno
PDF
情報抽出入門 〜非構造化データを構造化させる技術〜
Yuya Unno
PDF
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
株式会社メタップスホールディングス
PDF
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno
PDF
Randomforestで高次元の変数重要度を見る #japanr LT
Akifumi Eguchi
PDF
Jubatusが目指すインテリジェンス基盤
Shohei Hido
PDF
ICML2013読み会 開会宣言
Shohei Hido
PDF
子供の言語獲得と機械の言語獲得
Yuya Unno
PDF
統計的係り受け解析入門
Yuya Unno
PDF
協調フィルタリング with Mahout
Katsuhiro Takata
PDF
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Yuya Unno
PDF
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
PDF
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Yuya Unno
PDF
ピーFIの研究開発現場
Yuya Unno
PDF
言語資源と付き合う
Yuya Unno
PDF
深層学習時代の自然言語処理
Yuya Unno
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
rcast_20140411
Preferred Networks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
自然言語処理紹介(就職編)
長岡技術科学大学 自然言語処理研究室
Jubatusにおける機械学習のテスト@MLCT
Yuya Unno
情報抽出入門 〜非構造化データを構造化させる技術〜
Yuya Unno
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
株式会社メタップスホールディングス
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno
Randomforestで高次元の変数重要度を見る #japanr LT
Akifumi Eguchi
Jubatusが目指すインテリジェンス基盤
Shohei Hido
ICML2013読み会 開会宣言
Shohei Hido
子供の言語獲得と機械の言語獲得
Yuya Unno
統計的係り受け解析入門
Yuya Unno
協調フィルタリング with Mahout
Katsuhiro Takata
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Yuya Unno
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Yuya Unno
ピーFIの研究開発現場
Yuya Unno
言語資源と付き合う
Yuya Unno
深層学習時代の自然言語処理
Yuya Unno
Similar to Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
(20)
PDF
20181120 ldp ai
Hiroshi Maruyama
PDF
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
cyberagent
PPTX
量子コンピュータのプログラミング・コンテスト体験記
Satoyuki Tsukano
PPTX
Py conkyushu2018
ssuseraac758
PDF
Completely understand smart_speaker
Toshiaki Endo
PDF
20181030 fun
Hiroshi Maruyama
PPTX
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
Kentaro Imai
PPTX
Lt 新竹涼太
yumi_chappy
PPTX
密度比推定による時系列データの異常検知
- Core Concept Technologies
PPTX
ディープラーニングによる時系列データの異常検知
Core Concept Technologies
PDF
深層学習と音響信号処理
Yuma Koizumi
PDF
LLM+LangChainで特許調査・分析に取り組んでみた
KunihiroSugiyama1
PDF
機械学習ゴリゴリ派のための数学とPython
Kimikazu Kato
PDF
bigdata2012nlp okanohara
Preferred Networks
PDF
35thwebmining_lt
Daisuke Amano
PDF
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
Preferred Networks
PPTX
Seclt dist 20200112
Shuntaro Ohno
PDF
Uec.R#3 YjdnJlpを使ってみた
Atsushi Hayakawa
PDF
マシンパーセプション研究におけるChainer活用事例
nlab_utokyo
PDF
中国のAI産業状況、スタートアップ情報リサーチ
YangnuoLiu
20181120 ldp ai
Hiroshi Maruyama
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
cyberagent
量子コンピュータのプログラミング・コンテスト体験記
Satoyuki Tsukano
Py conkyushu2018
ssuseraac758
Completely understand smart_speaker
Toshiaki Endo
20181030 fun
Hiroshi Maruyama
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
Kentaro Imai
Lt 新竹涼太
yumi_chappy
密度比推定による時系列データの異常検知
- Core Concept Technologies
ディープラーニングによる時系列データの異常検知
Core Concept Technologies
深層学習と音響信号処理
Yuma Koizumi
LLM+LangChainで特許調査・分析に取り組んでみた
KunihiroSugiyama1
機械学習ゴリゴリ派のための数学とPython
Kimikazu Kato
bigdata2012nlp okanohara
Preferred Networks
35thwebmining_lt
Daisuke Amano
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
Preferred Networks
Seclt dist 20200112
Shuntaro Ohno
Uec.R#3 YjdnJlpを使ってみた
Atsushi Hayakawa
マシンパーセプション研究におけるChainer活用事例
nlab_utokyo
中国のAI産業状況、スタートアップ情報リサーチ
YangnuoLiu
More from Yuya Unno
(20)
PDF
深層学習で切り拓くパーソナルロボットの未来
Yuya Unno
PDF
深層学習時代の自然言語処理ビジネス
Yuya Unno
PDF
ベンチャー企業で言葉を扱うロボットの研究開発をする
Yuya Unno
PDF
PFNにおけるセミナー活動
Yuya Unno
PDF
深層学習フレームワークChainerとその進化
Yuya Unno
PDF
進化するChainer
Yuya Unno
PDF
予測型戦略を知るための機械学習チュートリアル
Yuya Unno
PDF
深層学習による機械とのコミュニケーション
Yuya Unno
PDF
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Yuya Unno
PDF
Chainer, Cupy入門
Yuya Unno
PDF
NIP2015読み会「End-To-End Memory Networks」
Yuya Unno
PDF
Chainer入門と最近の機能
Yuya Unno
PDF
Chainerの使い方と自然言語処理への応用
Yuya Unno
PDF
GPU上でのNLP向け深層学習の実装について
Yuya Unno
PDF
企業における自然言語処理技術利用の最先端
Yuya Unno
PDF
「知識」のDeep Learning
Yuya Unno
PDF
自然言語処理@春の情報処理祭
Yuya Unno
PDF
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
Yuya Unno
PDF
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
Yuya Unno
PDF
表現学習時代の生成語彙論ことはじめ
Yuya Unno
深層学習で切り拓くパーソナルロボットの未来
Yuya Unno
深層学習時代の自然言語処理ビジネス
Yuya Unno
ベンチャー企業で言葉を扱うロボットの研究開発をする
Yuya Unno
PFNにおけるセミナー活動
Yuya Unno
深層学習フレームワークChainerとその進化
Yuya Unno
進化するChainer
Yuya Unno
予測型戦略を知るための機械学習チュートリアル
Yuya Unno
深層学習による機械とのコミュニケーション
Yuya Unno
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Yuya Unno
Chainer, Cupy入門
Yuya Unno
NIP2015読み会「End-To-End Memory Networks」
Yuya Unno
Chainer入門と最近の機能
Yuya Unno
Chainerの使い方と自然言語処理への応用
Yuya Unno
GPU上でのNLP向け深層学習の実装について
Yuya Unno
企業における自然言語処理技術利用の最先端
Yuya Unno
「知識」のDeep Learning
Yuya Unno
自然言語処理@春の情報処理祭
Yuya Unno
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
Yuya Unno
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
Yuya Unno
表現学習時代の生成語彙論ことはじめ
Yuya Unno
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
1.
Twitter分析のための リアルタイム分析基盤 株式会社Preferred Infrastructure 海野 裕也 (@unnonouno) 2013年5月18日 第4回Twitter研究会
2.
⾃自⼰己紹介 l 海野 裕也 (@unnonouno) l
プリファードインフラストラクチャー l 情報検索索、レコメンド l 機械学習・データ解析研究開発 l Jubatus l 分散オンライン機械学習フレームワーク l 専⾨門 l ⾃自然⾔言語処理理 l テキストマイニング 2
3.
本⽇日の概要 l Twitterのデータのリアルタイム処理理の紹介 l その裏裏で使われる、⼤大量量データのリアルタイム分析技術 を紹介します ※半分弊社の製品紹介になりますがご容赦ください 3
4.
l イントロ Project 311 l
リアルタイム分析を⽀支える技術 l リアルタイム検索索技術 l リアルタイム機械学習技術 4
5.
東⽇日本⼤大震災ビッグデータワークショップ Project 311 l 東⽇日本⼤大震災発⽣生後1週間のデータを元に、どのような サービスを開発できるか l
https://sites.google.com/site/prj311/ l 情報源は、Twitter、Google Trends、朝⽇日新聞記事など 5
6.
災害時に利利⽤用可能なサービスを提供する l 災害時には様々なメディアからの情報が錯綜した l Twitterなどを介してリアルタイムかつ⾝身近な情報が多く発信されたが、 必要な情報のみを集める⽅方法ができなかった l
実家がいわき市にある岡野原の個⼈人的な体験 l TVやラジオ経由の情報は原発や県・市単位の情報のみ l 原発の情報は⼤大事だが今⽇日のご飯・移動⼿手段を困っている⼈人も多い l ガソリンや⾷食料料はいつ/どこで配布するのか、避難できるのか l 各⼈人・各⽴立立場の⼈人にとって必要な情報が調べられるサービス l キーワード検索索では不不⼗十分 l 災害時だけではなく、平常時から利利⽤用可能なサービス l ユーザーに慣れてもらう、サービスも常時改善される 6
7.
提案サービス l 時間/話題/地域/キーワード毎に情報をフィルタリング l 個⼈人・組織が必要な情報を集められるようなサービスを作る l
twitter、新聞、TV、レスキューの情報を横断フィルタリング l テキスト情報から必要な情報は抽出 7 時間 軸 地域(全国都道府県市町村レベル) トピック (避難・⽣生活イ ンフラなど) 時間・トピック・地域 キーワードを指定して フィルタリング • 例 • 3/11 15:00 – 16:00 • 福島県いわき市平地区 • 生活インフラ
8.
システム概要図 8 Twitter NHK 朝⽇日新聞JCC
(TV) 震災に関係する情報のみフィルタリ ング 地域情報の抽出 要望トピックの抽出 情報フィルタリングエンジン + UI 地域情報は地名や駅名、 路路線名、ランドマーク名 から市町村レベルで推定 関連情報の抽出 トピックは本⽂文から推定 「避難, インフラ, ⾼高齢者, 医療療 」など 21トピック URLや内容のクラスタリ ングにより、関連情報を 抽出 ⽂文書分類器を震災関連 ハッシュタグを正解例例 にして学習し、分類
9.
デモ 9
10.
Twitterとその他のメディアの⽐比較 Twitter (CGM) 既存メディア 情報の鮮度度
直近 遅れる 情報の信頼度度 デマも拡散する 精査されている 情報の粒粒度度 局所的な情報 ⼤大域的な情報 情報の密度度 不不要な情報が殆ど 精査されている 10
11.
Twitterの良良さを活かすには? l 最新の情報を届ける l リアルタイムに情報にアクセスできるようにする l
個別の情報を整理理する l つぶやきに含まれる情報を抽出する l 細かく情報を整理理する l 有⽤用な情報だけをフィルタリングする l 情報の価値を判定する l デマに惑わされない l 情報の信頼度度の評価 l 情報の⾃自動整理理 11
12.
⼤大量量のデータで溺溺れない l 太平洋で砂⾦金金を探しているようなもの l 本当に欲しい情報は1%もないと思って良良い l
闇雲に探してもダメ、強⼒力力な武器が必要 12
13.
想像しているほど有⽤用なことはつぶやかれていない l いかにTwitterが⼤大量量でも、欲しい情報があるとは限らな い 13 ウチの製品の評判を調べたいんだよね! 御社の名前は⽉月に1回程度度しかつぶ やかれていませんが・・・ ・・・ ・・・
14.
必要な情報を⾒見見つけ出すにはどうすれば良良いか? l ⼤大量量の情報を効率率率的に精査する必要がある l ユーザーの欲しい情報だけに絞り込む l
事前に出来るだけ整理理しておく l 必要な情報は予め抜き出しておく l しかも、⼤大量量のデータを、リアルタイムに 14
15.
⼤大量量データから欲しい情報を得るための2つの技術 l 能動的な情報の取得 l ユーザーが興味のある情報を発⾒見見しにいく à
情報検索索技術 l 受動的な情報の整理理 l ユーザーの興味がありそうな情報を提⽰示する à 機械学習技術 15 データ
16.
Googleにみる2つの情報アクセス 16 フリーワードによる検索索機能 勝⼿手に画像やプロフィールを提⽰示
17.
Amazonにみる2つの情報アクセス 17 勝⼿手におすすめ商品を提⽰示 欲しい商品を検索索
18.
何故2つのアクセス⽅方式が必要なのか? l 能動型アクセス l ユーザー固有の要求を提⽰示できる l
必ずしもユーザーがニーズを理理解していない l 想像の範囲外の要求を出せない l 受動型アクセス l ユーザーは何もしなくても情報が⼊入ってくる l 想定外の情報も⼊入ってくる l ユーザーのきめ細かい要求を反映しづらい 18 両者には相補的な関係になっている
19.
先ほどのデモを⾒見見なおしてみる 19 Twitter NHK 朝⽇日新聞JCC
(TV) 震災に関係する情報のみフィルタリ ング 地域情報の抽出 要望トピックの抽出 情報フィルタリングエンジン + UI 関連情報の抽出 事前に情報 を自動整理 アドホックな 情報検索
20.
残りのスライドで2種類の技術について解説します l 能動的に情報を発⾒見見するための情報検索索技術 l 受動的に情報を整理理するための機械学習技術 20
21.
情報検索索技術 21
22.
情報検索索技術とは l 広義には、テキスト検索索や⽂文字列列検索索に限らない l ただし、テキストはユーザーが検索索要求を出しやすいた め、⾮非常に扱いやすい 22 情報検索(じょうほうけんさく)とは、コンピュータを 用いて大量のデータ群から目的に合致したものを取り出 すこと。検索の対象となるデータには文書や画像、音声、 映像、その他さまざまなメディアやその組み合わせとして 記録されたデータなどが含まれる。
23.
情報検索索の全体像 l 効率率率的な検索索をサポートするためのインデクシング l 能率率率を上げるためのインターフェース l
⼤大規模データを扱うための分散技術 l 情報を回収するためのクローリング 23
24.
情報検索索のコアの仕組み l 事前に検索索効率率率をあげるための情報を整理理しておく l 本の索索引を作るイメージ l
この整理理のおかげで効率率率的に検索索できるようになる 24 元データ インデックス
25.
テキスト全⽂文検索索におけるインデックス⽅方式の違い 転置ファイル N-gram Suffix
Array 辞書の必要 必要 不不要 不不要 漏漏れのない検索索 × ○ ○ 検索索速度度 ○ △ ○ インデックス構築速 度度 ○ ○ △ インデックスサイズ ○ × × HDD搭載 ○ △ × SSD搭載 ○ ○ ◎ 25 SSD利利⽤用時に最⼤大限の⼒力力を発揮
26.
SSDがストレージ・プロセッサ・ネットワークのト レードオフを⼤大きく変えた SSD (Crucial m4
256GB) HDD (Seagate ST2000DL003) Read 415MB/s 140MB/s Write 260MB/s 140MB/s 4K Read IOPS 40000 150 4K Write IOPS 50000 400 26 SSDの特性を活かすことで スケーラブル・⾼高性能・低 コストな検索索基盤を実現 x100 FAST!!
27.
余談:インデックスを⽤用いないとどうなるか? l 事前に整理理しないで、⾼高性能マシンや超⼤大量量マシンで愚 直に全部探す⽅方法もある l Hadoopなどはこうしたアプローチの⼀一種 l
効率率率が悪く、数万倍のコストがかかることも 27 元データ
28.
Twitter検索索と従来の記事検索索のどこが違うか? l 流流量量が膨⼤大 l 秒間数千〜~万というオーダーで⽂文書が増え続ける l
⽌止まることなく流流れ続ける l 常にデータを追加し続ける必要がある l 特にデータの鮮度度が重要で、直近のデータを探せる 必要がある l 原則追記だけで削除や更更新がほとんどない 28
29.
⼤大規模データ分析のリアルタイム化 l ⼤大規模データ分析のリアルタイム化に対するニーズは 急増中 l Hadoop
Summitにおいても、多くのセッションで“リアルタ イム”がテーマとなっている l Google Dremel, Google BigQueryが発表され、 Apache Drill, Cloudera Impala等が注⽬目を集めている l リアルタイム分析に必要とされる技術の複雑さは様々 l Jubatusによるリアルタイム機械学習 l ImpalaなどSQLベース、DWHの⼤大規模化 l 検索索技術をベースにしたアドホック分析 → Splunk、Solr Cloudなどを利利⽤用 29
30.
技術的な克服 l メモリとSSDのハイブリッド l オンメモリのサーバーと、SSDサーバーの併⽤用で、直近のデー タはオンメモリですぐさま検索索結果に反映できる l
⾼高頻度度の書き換えに弱いSSDを守る意味でも重要 l 追記に特化 l オンメモリサーバーにどんどん追記、古くなったらSSDに回す l あふれたら古いデータから順番に消していって、最新の重要な データだけを保持できるように 30
31.
Twitterの分析にはまず検索索を l 実際にTwitterのデータを解析するには、まず検索索 l 分析対したい事柄に対して検索索で当たりをつける l
この時点でデータが少なすぎたら要検討 l たとえ秒間数千件でも⽉月に1回しかつぶやかれないような内容も ある l 特にB2Cのサービス・製品、メディア、スポーツ、芸能系は⾔言 及が多いが、B2Bのサービスや製品は少ない 31
32.
クエリの⼯工夫での限界を知る l 途中で検索索クエリの限界に到達 l 表記揺れなどで検索索漏漏れがある l
多義語のフィルタリングができない(例例:PFI) l 検索索クエリではそもそも絞り込めない(例例:男性だけ探す) l データを細かく整理理するには機械の助けが必要 32 機械学習の登場
33.
機械学習技術 33
34.
機械学習とは l 経験(データ)によって賢くなるアルゴリズムの研究 l データから知識識・ルールを⾃自動獲得する l
データの適切切な表現⽅方法も獲得する l ⼈人⼯工知能の中で、⼈人が知識識やルールを 明⽰示的に与える⽅方法の限界から⽣生まれてきた 34 学習データ 分類モデル
35.
様々な分野に適⽤用可能 l データから有⽤用な規則、ルール、知識識、判断基準を抽出 l データがあるところならば、どこでも使える l
様々な分野の問題に利利⽤用可能 35 レコメンデー ションクラス タリング 分類、識識別 市場予測 評判分析 情報抽出 ⽂文字認識識 ロボット 画像解析 遺伝⼦子分析 検索索ランキン グ ⾦金金融 医療療診断 適用分野
36.
例例1:スパム判定 l メールがスパムが否かを⾃自動判定する l スパムキーワードの事前登録だとイタチごっこ l
GoogleのGmailでもスパム判定は機械学習が使われている 36 スパム 通常 新着メール
37.
例例2:商品推薦 l 過去の購買履履歴から類似ユーザーを探して、未購⼊入の商 品を推薦する 37 購買履履歴
38.
例例3:コンピュータ将棋・囲碁・チェス 38 http://blog.livedoor.jp/yss_fpga/archives/53897129.html 詳細は鶴岡慶雅先生のチュートリアル 「自然言語処理とAI」 l ゲームごとに機械学習の応⽤用⼿手法が次々に進歩 l
チェス・将棋、囲碁、ポーカー、etc. l 機械の性能改善以上に⼿手法の改善が⽬目覚ましい
39.
機械学習の⻑⾧長所 (1/4) データがあればすぐ試せる l 分類ルールを学習したい場合、正解事例例がいくつかあれ ば学習可能 l
質問:データがどれくらいあったらうまくいくのか? l 答え:正解事例例が1つしかなくても動く、多ければ精度度 は⾼高くなる l 以下のファクターで正解事例例はより多く必要とする l 問題の複雑さ l 正解事例例に含まれるノイズ量量 l 学習モデルの複雑さ l 実際は数⼗十から数百、⼈人⼿手で作れる規模が殆ど l すぐ試せる 39
40.
機械学習の⻑⾧長所 (2/4) メンテナンスフリー l 学習の元となるデータを与え続ければ最適化される l
ルールベースの場合、ルールをメンテナンスしなければ ならない l 時間経過とともに運⽤用コストが⼤大きくなり、例例外も次々と発⽣生 l ⼈人の引き継ぎや、システム統合が発⽣生した場合、メンテナンス は⾮非常に困難になる l 機械学習の場合は、ルールではなく、データをメンテナ ンスする必要がある l ⾃自由度度はルールベースより⾼高く、スケールする 40
41.
機械学習の⻑⾧長所 (3/4) 問題に対してスケールする l 問題のデータサイズを増やしたり、分類対象数を増やし たり、他の似た問題にも展開可能 l
ある部署でうまくいっていた⼿手法を他の部署や会社でも展開可 能 l 例例:ニュース記事の5カテゴリへの分類を次のように変 更更可能 l カテゴリ数を5から100に増やす l 分類対象をニュース以外にもブログやメールにも増やす 41
42.
機械学習の⻑⾧長所 (4/4) ⼈人や⼈人⼯工システムを凌凌駕する性能を出す l 速度度、網羅羅性、可⽤用性といった部分ではコンピュータが 凌凌駕する l
⼈人はルールや評価関数をうまく表現できない場合も多い l ⾔言語処理理・ゲーム・画像認識識・⾳音声認識識などは知識識表現が⼤大変 l ⼈人⼯工知能の研究分野では、知識識・ルール・評価関数を⼈人が明⽰示 的に与えることに限界があり、データからの獲得に⼒力力を⼊入れた l 箱庭的な問題だと精度度⾯面でも⼈人を凌凌駕する l 関係する特徴数が多い場合 l 医療療診断、広告最適化、スパム分類 l 評価関数が分からない場合: l コンピュータ将棋/囲碁/チェス、機械翻訳、⾳音声認識識42
43.
機械学習の世界の分類 l 問題設定に基づく分類 l 教師有学習
/ 教師無学習 / 半教師有学習 / 強化学習 など .. l 戦うドメインの違い l 特徴設計屋(各ドメイン毎に, NLP, Image, Bio, Music) l 学習アルゴリズム屋(SVM, xx Bayes, CW, …) l 理理論論屋(統計的学習理理論論、経験過程、Regret最⼩小化) l 最適化実装屋 l 好みの違い l Bayesian / Frequentist / Connectionist l [Non-|Semi-]Parametric 43 この⼆二つの問題設定だけは 知っておいてほしいので説明
44.
教師有り学習 l ⼊入⼒力力 x
に対して期待される出⼒力力 y を教える l 分析時には未知の x に対応する y を予測する l y がカテゴリの場合を分類問題、実数値の場合を回帰問 題と呼ぶ l 分類 l スパム判定、記事分類、属性推定、etc. l 回帰 l 電⼒力力消費予測、年年収予測、株価予測、etc. 44
45.
教師無し学習 l ⼊入⼒力力 x
をたくさん与えると何かしらの結果を返す l クラスタリング l 与えられたデータをまとめあげる l 異異常検知 l ⼊入⼒力力データが異異常かどうかを判定する 45
46.
安易易に教師なし学習に⾶飛びつかない! l どのような分類基準になるか予測できない l 分類結果の意味を解釈するのが難しい場合が有る l
できたクラスタに意味を割り当てるのは困難 46 問:下の図形を2つのクラスタに分けなさい
47.
Twitter分析に求められる機械学習は? l ⼤大量量データ処理理 l 秒間数千件のデータを捌くことができる l
データの増⼤大に耐えられるスケーラビリティー l リアルタイム性 l データが来たらすぐさま処理理できる 47 これからのビッグデータ解析に求められる特徴
48.
l NTT SIC*とPreferred
Infrastructureによる共同開発 l 2011年年10⽉月よりOSSで公開 http://jubat.us/ Jubatus 48 リアルタイム ストリーム 分散並列列 深い解析 * NTT研究所 サイバーコミュニケーション研究所 ソフトウェアイノベーションセンタ
49.
機械学習はスケーラブルかつリアルタイムに l Jubatusは2つの流流れを融合している 49 WEKA
1993-‐ SPSS 1988-‐ Mahout 2006-‐ Online ML alg. Structured Perceptron 2001 PA 2003, CW 2008 リアルタイム オンライン Batch 小規模 単体 大規模 分散並列 Jubatus 2011-‐
50.
バッチ学習 l 解析対象のデータが全てある 状態で解析を⾏行行う l 速度度が遅い l
データ全体の保持が必要 l 実装は⼀一般的に煩雑 l データを1つずつ受け取るた びに解析を⾏行行う l 速度度が速い l データを保持する必要がない l 実装は⼀一般的に単純 l 近年年急速に研究が進んでいる 50 オンライン学習 近年年の多くの場⾯面でオンライン学習を採⽤用
51.
宿題をためてからやる vs すぐやる 51
52.
「緩いモデル共有」による分散の仕組み l みんな個別に⾃自学⾃自習 l たまに勉強会で情報交換 l
⼀一⼈人で勉強するより効率率率がいいはず! 52 学習器
53.
Jubatusの機能概要 l Jubatusでは様々な分析⼿手法をサポート l 多値分類・回帰 l
統計 l 近傍探索索 l グラフ解析 l 外れ値検出 l これらを組合せることにより、多くの課題を解決が可能 l スパムフィルタ(メール分類) l 電⼒力力消費量量予測(回帰) l ユーザー属性推定(レコメンデーション) l ログからの異異常検知(外れ値検出) l 攻撃の標的になりやすいハブノードの発⾒見見(グラフの中⼼心性) 53
54.
情報検索索と機械学習を統合したリアルタイム分析基 盤 l ⼤大量量データを2つの側⾯面から整理理する l リアルタイムで⼤大量量の情報を検索索可能にする情報検索索エンジン l
リアルタイムに⼤大量量の情報を整理理する機械学習エンジン l 整理理されたデータの分析を⽀支える可視化機能 54 Sedue for BigData
55.
最初のデモもこの応⽤用です 55 フリーワードによる検索索機能 ⾃自動整理理されたタグ情報
56.
まとめ l 情報源としてのTwitterの可能性 l リアルタイムで粒粒度度の細かい情報源としての活⽤用ができる l
⼤大量量のデータから必要な情報を抜き出す技術が必要 l 情報検索索技術 l ユーザーの欲しい情報を⾒見見つけ出す技術 l 事前にどこまで情報を整理理できるかが肝 l 機械学習技術 l データの分類・整理理を⾃自動的に⾏行行う技術 l 急速にリアルタイム処理理、⼤大量量処理理の技術開発が進んでいる 56
57.
Twitterデータのフィルター・分析・検索索サービスの 紹介 l NTTデータがTwitterの全量量データ(Firehose)のフィル ター・分析・検索索サービスを提供 l https://nazuki-oto.com/twitter/ l
検索索と分析のエンジンとして弊社の技術を利利⽤用 57
58.
ご清聴ありがとうございました 58
59.
デモ予備⽤用スライド 59
60.
全体図 60 TV画⾯面の番組表をイメージ 各フィルタリング条件は選べる
61.
フィルタリング詳細結果 東京都・帰宅宅困難・3/12 4:00〜~5:00 61
62.
フィルタリング条件指定 62 フィルタリング条件はキーワード、場所、トピック、メディア から設定可能
63.
結果例例: 福島県いわき市・ガソリンスタンド・3/16 63
64.
結果例例: 東京都渋⾕谷区・被災者⽀支援・3/12 4:00〜~6:00 64
65.
今後の予定 l デモサービスをベースに実⽤用化・提供を⽬目指す l (再掲)災害時にいざ使おうとするとうまくいかない。 平常時からも使ってもらえるようなサービスを考える l
被災者や関係当局の話を聞き、何が必要であるかを絞る l システム側の技術的課題 l 全メディア情報をリアルタイムに分析して安定して提供できる 基盤 l 秒間1万tweet、秒間数百万〜~数千万の位置情報を処理理 l サンプリング/サマリではなく、細かい粒粒度度のまま提供可能 l 名寄せ・地域情報の推定(⾔言及位置、ユーザーの位置) 65
66.
その他 統計情報の考察 66
67.
0" 500" 1000" 1500" 2000" 2500" 3000" 2011'03'11'09:00:00" 2011'03'11'11:00:00" 2011'03'11'13:00:00" 2011'03'11'15:00:00" 2011'03'11'17:00:00" 2011'03'11'19:00:00" 2011'03'11'21:00:00" 2011'03'11'23:00:00" 2011'03'12'01:00:00" 2011'03'12'03:00:00" 2011'03'12'05:00:00" 2011'03'12'07:00:00" 2011'03'12'09:00:00" 2011'03'12'11:00:00" 2011'03'12'13:00:00" 2011'03'12'15:00:00" 2011'03'12'17:00:00" 2011'03'12'19:00:00" 2011'03'12'21:00:00" 2011'03'12'23:00:00" 2011'03'13'01:00:00" 2011'03'13'03:00:00" 2011'03'13'05:00:00" 2011'03'13'07:00:00" 2011'03'13'09:00:00" 2011'03'13'11:00:00" 2011'03'13'13:00:00" 2011'03'13'15:00:00" 2011'03'13'17:00:00" 2011'03'13'19:00:00" 2011'03'13'21:00:00" 2011'03'13'23:00:00" 2011'03'14'01:00:00" 2011'03'14'03:00:00" 2011'03'14'05:00:00" 2011'03'14'07:00:00" 2011'03'14'09:00:00" 2011'03'14'11:00:00" 2011'03'14'13:00:00" 2011'03'14'15:00:00" 2011'03'14'17:00:00" 2011'03'14'19:00:00" 2011'03'14'21:00:00" 2011'03'14'23:00:00" 2011'03'15'01:00:00" 2011'03'15'03:00:00" 2011'03'15'05:00:00" 2011'03'15'07:00:00" 2011'03'15'09:00:00" 2011'03'15'11:00:00" 2011'03'15'13:00:00" 2011'03'15'15:00:00" 2011'03'15'17:00:00" 2011'03'15'19:00:00" 2011'03'15'21:00:00" 2011'03'15'23:00:00" 2011'03'16'01:00:00" 2011'03'16'03:00:00" 2011'03'16'05:00:00" 2011'03'16'07:00:00" 2011'03'16'09:00:00" 2011'03'16'11:00:00" 2011'03'16'13:00:00" 2011'03'16'15:00:00" 2011'03'16'17:00:00" 2011'03'16'19:00:00" 2011'03'16'21:00:00" 2011'03'16'23:00:00" 2011'03'17'01:00:00" 2011'03'17'03:00:00" 2011'03'17'05:00:00" 2011'03'17'07:00:00" 2011'03'17'09:00:00" 2011'03'17'11:00:00" 2011'03'17'13:00:00" 2011'03'17'15:00:00" 2011'03'17'17:00:00" 2011'03'17'19:00:00" 2011'03'17'21:00:00" 2011'03'17'23:00:00" 2011'03'18'01:00:00" 2011'03'18'03:00:00" 2011'03'18'05:00:00" 2011'03'18'07:00:00" ! 都市圏に関する⾔言及は、殆どの発⾔言が帰宅宅困難者が発⽣生し た3/11 15:00〜~25:00に集中
67 都市圏に関しての⾔言及数 (渋⾕谷区、新宿区、台東区)
68.
68 0" 500" 1000" 1500" 2000" 2500" 3000" 2011'03'11'09:00:00" 2011'03'11'11:00:00" 2011'03'11'13:00:00" 2011'03'11'15:00:00" 2011'03'11'17:00:00" 2011'03'11'19:00:00" 2011'03'11'21:00:00" 2011'03'11'23:00:00" 2011'03'12'01:00:00" 2011'03'12'03:00:00" 2011'03'12'05:00:00" 2011'03'12'07:00:00" 2011'03'12'09:00:00" 2011'03'12'11:00:00" 2011'03'12'13:00:00" 2011'03'12'15:00:00" 2011'03'12'17:00:00" 2011'03'12'19:00:00" 2011'03'12'21:00:00" 2011'03'12'23:00:00" 2011'03'13'01:00:00" 2011'03'13'03:00:00" 2011'03'13'05:00:00" 2011'03'13'07:00:00" 2011'03'13'09:00:00" 2011'03'13'11:00:00" 2011'03'13'13:00:00" 2011'03'13'15:00:00" 2011'03'13'17:00:00" 2011'03'13'19:00:00" 2011'03'13'21:00:00" 2011'03'13'23:00:00" 2011'03'14'01:00:00" 2011'03'14'03:00:00" 2011'03'14'05:00:00" 2011'03'14'07:00:00" 2011'03'14'09:00:00" 2011'03'14'11:00:00" 2011'03'14'13:00:00" 2011'03'14'15:00:00" 2011'03'14'17:00:00" 2011'03'14'19:00:00" 2011'03'14'21:00:00" 2011'03'14'23:00:00" 2011'03'15'01:00:00" 2011'03'15'03:00:00" 2011'03'15'05:00:00" 2011'03'15'07:00:00" 2011'03'15'09:00:00" 2011'03'15'11:00:00" 2011'03'15'13:00:00" 2011'03'15'15:00:00" 2011'03'15'17:00:00" 2011'03'15'19:00:00" 2011'03'15'21:00:00" 2011'03'15'23:00:00" 2011'03'16'01:00:00" 2011'03'16'03:00:00" 2011'03'16'05:00:00" 2011'03'16'07:00:00" 2011'03'16'09:00:00" 2011'03'16'11:00:00" 2011'03'16'13:00:00" 2011'03'16'15:00:00" 2011'03'16'17:00:00" 2011'03'16'19:00:00" 2011'03'16'21:00:00" 2011'03'16'23:00:00" 2011'03'17'01:00:00" 2011'03'17'03:00:00" 2011'03'17'05:00:00" 2011'03'17'07:00:00" 2011'03'17'09:00:00" 2011'03'17'11:00:00" 2011'03'17'13:00:00" 2011'03'17'15:00:00" 2011'03'17'17:00:00" 2011'03'17'19:00:00" 2011'03'17'21:00:00" 2011'03'17'23:00:00" 2011'03'18'01:00:00" 2011'03'18'03:00:00" 2011'03'18'05:00:00" 2011'03'18'07:00:00" 津波の被害が⼤大きかった地域は、 津波報道があった直後や、その後 も継続して⾔言及は多くみられた 津波の被害が⼤大きな地域についての⾔言及数 (⽯石巻市、⼤大船渡市、気仙沼市、多賀城市、 南相⾺馬市、相⾺馬市)
69.
69 津波の被害が⼤大きかった地域については、津波報道があっ た直後および、その後も継続して話題は多くあった 0" 500" 1000" 1500" 2000" 2500" 3000" 2011'03'11'09:00:00" 2011'03'11'11:00:00" 2011'03'11'13:00:00" 2011'03'11'15:00:00" 2011'03'11'17:00:00" 2011'03'11'19:00:00" 2011'03'11'21:00:00" 2011'03'11'23:00:00" 2011'03'12'01:00:00" 2011'03'12'03:00:00" 2011'03'12'05:00:00" 2011'03'12'07:00:00" 2011'03'12'09:00:00" 2011'03'12'11:00:00" 2011'03'12'13:00:00" 2011'03'12'15:00:00" 2011'03'12'17:00:00" 2011'03'12'19:00:00" 2011'03'12'21:00:00" 2011'03'12'23:00:00" 2011'03'13'01:00:00" 2011'03'13'03:00:00" 2011'03'13'05:00:00" 2011'03'13'07:00:00" 2011'03'13'09:00:00" 2011'03'13'11:00:00" 2011'03'13'13:00:00" 2011'03'13'15:00:00" 2011'03'13'17:00:00" 2011'03'13'19:00:00" 2011'03'13'21:00:00" 2011'03'13'23:00:00" 2011'03'14'01:00:00" 2011'03'14'03:00:00" 2011'03'14'05:00:00" 2011'03'14'07:00:00" 2011'03'14'09:00:00" 2011'03'14'11:00:00" 2011'03'14'13:00:00" 2011'03'14'15:00:00" 2011'03'14'17:00:00" 2011'03'14'19:00:00" 2011'03'14'21:00:00" 2011'03'14'23:00:00" 2011'03'15'01:00:00" 2011'03'15'03:00:00" 2011'03'15'05:00:00" 2011'03'15'07:00:00" 2011'03'15'09:00:00" 2011'03'15'11:00:00" 2011'03'15'13:00:00" 2011'03'15'15:00:00" 2011'03'15'17:00:00" 2011'03'15'19:00:00" 2011'03'15'21:00:00" 2011'03'15'23:00:00" 2011'03'16'01:00:00" 2011'03'16'03:00:00" 2011'03'16'05:00:00" 2011'03'16'07:00:00" 2011'03'16'09:00:00" 2011'03'16'11:00:00" 2011'03'16'13:00:00" 2011'03'16'15:00:00" 2011'03'16'17:00:00" 2011'03'16'19:00:00" 2011'03'16'21:00:00" 2011'03'16'23:00:00" 2011'03'17'01:00:00" 2011'03'17'03:00:00" 2011'03'17'05:00:00" 2011'03'17'07:00:00" 2011'03'17'09:00:00" 2011'03'17'11:00:00" 2011'03'17'13:00:00" 2011'03'17'15:00:00" 2011'03'17'17:00:00" 2011'03'17'19:00:00" 2011'03'17'21:00:00" 2011'03'17'23:00:00" 2011'03'18'01:00:00" 2011'03'18'03:00:00" 2011'03'18'05:00:00" 2011'03'18'07:00:00" 原発に近い地域の話題数は⽇日々⼤大きくなっていった 福島原発に近い地域についての⾔言及数 (いわき市、南相⾺馬市、相⾺馬市)
70.
70 津波 0" 5000" 10000" 15000" 20000" 25000" 30000" 35000" 40000" 45000" 50000" 2011(03(11(09:00:00" 2011(03(11(11:00:00" 2011(03(11(13:00:00" 2011(03(11(15:00:00" 2011(03(11(17:00:00" 2011(03(11(19:00:00" 2011(03(11(21:00:00" 2011(03(11(23:00:00" 2011(03(12(01:00:00" 2011(03(12(03:00:00" 2011(03(12(05:00:00" 2011(03(12(07:00:00" 2011(03(12(09:00:00" 2011(03(12(11:00:00" 2011(03(12(13:00:00" 2011(03(12(15:00:00" 2011(03(12(17:00:00" 2011(03(12(19:00:00" 2011(03(12(21:00:00" 2011(03(12(23:00:00" 2011(03(13(01:00:00" 2011(03(13(03:00:00" 2011(03(13(05:00:00" 2011(03(13(07:00:00" 2011(03(13(09:00:00" 2011(03(13(11:00:00" 2011(03(13(13:00:00" 2011(03(13(15:00:00" 2011(03(13(17:00:00" 2011(03(13(19:00:00" 2011(03(13(21:00:00" 2011(03(13(23:00:00" 2011(03(14(01:00:00" 2011(03(14(03:00:00" 2011(03(14(05:00:00" 2011(03(14(07:00:00" 2011(03(14(09:00:00" 2011(03(14(11:00:00" 2011(03(14(13:00:00" 2011(03(14(15:00:00" 2011(03(14(17:00:00" 2011(03(14(19:00:00" 2011(03(14(21:00:00" 2011(03(14(23:00:00" 2011(03(15(01:00:00" 2011(03(15(03:00:00" 2011(03(15(05:00:00" 2011(03(15(07:00:00" 2011(03(15(09:00:00" 2011(03(15(11:00:00" 2011(03(15(13:00:00" 2011(03(15(15:00:00" 2011(03(15(17:00:00" 2011(03(15(19:00:00" 2011(03(15(21:00:00" 2011(03(15(23:00:00" 2011(03(16(01:00:00" 2011(03(16(03:00:00" 2011(03(16(05:00:00" 2011(03(16(07:00:00" 2011(03(16(09:00:00" 2011(03(16(11:00:00" 2011(03(16(13:00:00" 2011(03(16(15:00:00" 2011(03(16(17:00:00" 2011(03(16(19:00:00" 2011(03(16(21:00:00" 2011(03(16(23:00:00" 2011(03(17(01:00:00" 2011(03(17(03:00:00" 2011(03(17(05:00:00" 2011(03(17(07:00:00" 2011(03(17(09:00:00" 2011(03(17(11:00:00" 2011(03(17(13:00:00" 2011(03(17(15:00:00" 2011(03(17(17:00:00" 2011(03(17(19:00:00" 2011(03(17(21:00:00" 2011(03(17(23:00:00" 2011(03(18(01:00:00" 2011(03(18(03:00:00" 2011(03(18(05:00:00" 2011(03(18(07:00:00" トピック毎の⾔言及数 初期は津波と⽣生命維持についての話題 3/12 以降は、⽣生命維持、放射能、⽣生活インフラの話題 が多くみられた
71.
0" 5000" 10000" 15000" 20000" 25000" 30000" 35000" 40000" 45000" 50000" 2011(03(11(09:00:00" 2011(03(11(11:00:00" 2011(03(11(13:00:00" 2011(03(11(15:00:00" 2011(03(11(17:00:00" 2011(03(11(19:00:00" 2011(03(11(21:00:00" 2011(03(11(23:00:00" 2011(03(12(01:00:00" 2011(03(12(03:00:00" 2011(03(12(05:00:00" 2011(03(12(07:00:00" 2011(03(12(09:00:00" 2011(03(12(11:00:00" 2011(03(12(13:00:00" 2011(03(12(15:00:00" 2011(03(12(17:00:00" 2011(03(12(19:00:00" 2011(03(12(21:00:00" 2011(03(12(23:00:00" 2011(03(13(01:00:00" 2011(03(13(03:00:00" 2011(03(13(05:00:00" 2011(03(13(07:00:00" 2011(03(13(09:00:00" 2011(03(13(11:00:00" 2011(03(13(13:00:00" 2011(03(13(15:00:00" 2011(03(13(17:00:00" 2011(03(13(19:00:00" 2011(03(13(21:00:00" 2011(03(13(23:00:00" 2011(03(14(01:00:00" 2011(03(14(03:00:00" 2011(03(14(05:00:00" 2011(03(14(07:00:00" 2011(03(14(09:00:00" 2011(03(14(11:00:00" 2011(03(14(13:00:00" 2011(03(14(15:00:00" 2011(03(14(17:00:00" 2011(03(14(19:00:00" 2011(03(14(21:00:00" 2011(03(14(23:00:00" 2011(03(15(01:00:00" 2011(03(15(03:00:00" 2011(03(15(05:00:00" 2011(03(15(07:00:00" 2011(03(15(09:00:00" 2011(03(15(11:00:00" 2011(03(15(13:00:00" 2011(03(15(15:00:00" 2011(03(15(17:00:00" 2011(03(15(19:00:00" 2011(03(15(21:00:00" 2011(03(15(23:00:00" 2011(03(16(01:00:00" 2011(03(16(03:00:00" 2011(03(16(05:00:00" 2011(03(16(07:00:00" 2011(03(16(09:00:00" 2011(03(16(11:00:00" 2011(03(16(13:00:00" 2011(03(16(15:00:00" 2011(03(16(17:00:00" 2011(03(16(19:00:00" 2011(03(16(21:00:00" 2011(03(16(23:00:00" 2011(03(17(01:00:00" 2011(03(17(03:00:00" 2011(03(17(05:00:00" 2011(03(17(07:00:00" 2011(03(17(09:00:00" 2011(03(17(11:00:00" 2011(03(17(13:00:00" 2011(03(17(15:00:00" 2011(03(17(17:00:00" 2011(03(17(19:00:00" 2011(03(17(21:00:00" 2011(03(17(23:00:00" 2011(03(18(01:00:00" 2011(03(18(03:00:00" 2011(03(18(05:00:00" 2011(03(18(07:00:00" 71 全てのトピック毎の⾔言及数 プライバシー/乳幼児/医療療/安否確認/放射能/気象情報/ 津波/⽣生命維持/⽣生活インフラ/⽣生活・くらし/衛⽣生/被災者 ⽀支援/⾷食⽣生活/⾼高齢者/障害者
72.
全⽂文検索索技術の⽐比較 72
73.
転置ファイル Inverted File Indexing l
各単語毎に、どの⽂文書に出現したかを記録 l ⻑⾧長所 シンプル、速い、分散処理理しやすい l 短所 検索索漏漏れが⽣生じる フレーズ検索索が苦⼿手 東京 10 15 16 20 21 22 東寺 10 15 …. 文書番号を記録
74.
l ⻑⾧長さN(=2,3)の部分⽂文字列列を単語とみなし転置ファイ ルを構築 l ⻑⾧長所 漏漏れがない、シンプル l
短所 索索引が⼤大きい ⾮非常に遅くなる場合もあ る 東京都庁に今日… 東京都 京都庁 都庁に 庁に今 0 1 2 3 102 150 出現位置を記録 N-gram⽅方式
75.
接尾辞配列列 Suffix
Arrays (SA) l 全接尾辞を辞書式順序でソートした結果 l ⻑⾧長所 漏漏れがない、どんなクエリでも⾼高速 l 短所 索索引が⼤大きい、構築に時間がかかる abracadabra$ 11 $ 10 a$ 7 abra$ 0 abracadabra$ 3 acadabra$ 5 adabra$ 8 bra$ 1 bracadabra$ 4 cadabra$ 6 dabra$ 0 abracadabra$ 1 bracadabra$ 2 racadabra$ 3 acadabra$ 4 cadabra$ 5 adabra$ 6 dabra$ 7 abra$ ・・・ dabra = dabra$ 辞書式 順序 ソート 出現位置(先頭位置からのオフセット) 例:dabraを検索する 1. 配列 SA の大きさは 11 なので配列インデックス の中心値 5 から検索 2. SA[5] = 8 、この 8 は “abracadabra” の “bra” の 出現位置を指している 3. 検索クエリの "dabra" と "bra" を比較すると "dabra" の方が辞書式順で大きい 4. よって検索範囲は SA[5] から SA[11] の間に絞 り込まれる 5. SA[5] と SA[11] の間 → SA[8] = 6 6. SA[8] = 6 の 6 は “abracadabra” の dabra に 一致。よって dabra の出現位置は 6 と判明
76.
圧縮接尾辞配列列(CSA) l 接尾辞配列列の機能はそのままに、コンパクトに保存 (テキストサイズと同程度度) l 接尾辞配列列をさらに変換し圧縮 l
検索索対象テキスト⾃自⾝身の情報も同時に保持 l スニペットも索索引から復復元できる l 実装は難しい l Sedueは圧縮接尾辞配列列を搭載した初の商⽤用検索索エンジン
Download