SlideShare a Scribd company logo
The Hadoop UI
Sho / Romain - October 2013
Cloudera Meetup Tokyo
http://www.cloudera.co.jp/jpevents/cwt2013/
Welcome !
自己紹介

•  嶋内 翔(しまうち しょう)
•  2011年4月にClouderaの最初の日本人社員と
• 
• 
• 

して入社
テクニカルサポート業務をメインに、日本に
おける技術に関係する業務全般を担当
email: sho@cloudera.com
twitter: @shiumachi
Romain Rigaux
今日のアジェンダ

•  Hueって何?
•  デモ: Hue で何ができるの?
•  Hue の将来
Hueって何?

•  Hadoopを使いやすくするためのWebUI

•  色々なHadoopエコシステムの集合体
•  (e.g. Hive, Pig, Impala, Oozie, Solr, Sqoop, HBase...)
View from 30 000 feet
Ecosystem
Hueの目的

•  Hadoop初心者が触るのに最適
•  色々な角度からプラットフォームを扱い、
• 

慣れ親しむ
誰もがビッグデータ処理をできるようにす
る
Hue is Open Source
Community
hue-user@
Hue and Django

Apps = Django apps
Core = Libs and main UI
Hue has a lot
of Frontend
Drag

JQuery, Bootstraps
KnockOut, CSS…
Drag & Drop, UX
Hue アプリケーション(1) ファイルブラウザ
ファイルブラウザ
ファイルのアップロード
ファイルの閲覧
ファイルの編集も可能
Hue アプリケーション(2) Beeswax
Beeswaxとは

•  HiveのWebインタフェース
•  以下の操作を実行可能
o  サンプルファイルからテーブルを作成(Metastore
Manager に統合)
o  クエリの保存・実行
o  テーブル内のデータの閲覧
クエリの実行
クエリの保存・管理
Hue アプリケーション(3) Impala Query Editor
ImpalaもHive同様にクエリ実行可能
Hue アプリケーション(4) Pig Editor
Pig も Hue から実行可能
Hue アプリケーション(5) Metastore Manager
Hive/Pig/Impala共通のテーブル管理
ファイルから新しいテーブルを作成
ファイルから新しいテーブルを作成
ファイルから新しいテーブルを作成
Hue アプリケーション(6) Oozie Editor
Oozieとは

•  MapReduceやHiveなどのジョブのワークフ
• 

ローを管理するツール
HueのWebインタフェースから作成・管理可
能
ワークフローの管理
ワークフローの作成
ドラッグ&ドロップが可能	
  
マウス操作だけでワークフ
ローが作成できる	
  
コーディネータ管理

ワークフローを定期実行を設定するための機能	
  
実行日ごとに出力先を変えたり、同時に実行可能な数
を指定することができる	
  
Hue アプリケーション(7) Sqoop
Sqoopのジョブを作成する
Sqoop ジョブの管理
Hue アプリケーション(8) Cloudera Search
Apache Solr

•  オープンソースの検索システム
•  キーワード検索や属性検索により、Googleの
• 

ような検索システムを構築可能
ClouderaではSearchとして2013年6月から提
供開始
o  MapReduceによるインデックス作成
o  Flumeによる高速インデックス更新
o  HDFS上の非構造データをそのまま検索可能

42
Cloudera Search アーキテクチャ
ストリーミングで	
  
インデックスを更新	
  

インデックスを分散保持	
  

Webサーバ等の	
  
ログを生成するサーバ	
  

携帯端末の	
  
通信ログ	
  

Hadoop	
  

バッチ処理で	
  
インデックス更新	
  
Webインタフェース	
  

43
検索結果
コレクションエディタ
(1) スニペットビジュアルエディタ
コレクションエディタ
(2) ファセット設定
コレクションエディタ(3) ソート
コレクションエディタ(4) ハイライト
インデックス設定
Hue アプリケーション(9) HBase App
HBase も Hue から操作可能
Hueで何ができる?
Demo !
More!

gethue.tumblr.com/tagged/tutorial
What's next
in Hue?
Roadmap

•  3.0 : October
o 
o 
o 
o 
o 

UI の再設計
Google docs っぽいインタフェースに
YARN
ZooKeeper app
? (コミュニティ次第)

•  3.5 : February 2014
o 
o 
o 

アプリケーション間連携
グラフ
? (コミュニティ次第)
Hue 1 - CDH3
Hue 2 - CDH
Hue 2.5 - CDH4.4
Hue 3 - CDH5

New design
New top navigation bar
Hue 3 - New document model

●  Home (like Google Drive)
●  Unified sharing permissions
●  Tags
Links

•  gethue.com
o 
o 
o 

Videos, Hadoop Tutorials
Demo VM
CDH package

•  @gethue
•  hue-user@
o 
o 

Help
Contributors

More Related Content

PDF
YugabyteDBを使ってみよう - part2 -(NewSQL/分散SQLデータベースよろず勉強会 #2 発表資料)
PDF
MongoDB概要:金融業界でのMongoDB
PDF
20191115-PGconf.Japan
PDF
YugabyteDBの実行計画を眺める(NewSQL/分散SQLデータベースよろず勉強会 #3 発表資料)
PDF
ビッグデータ処理データベースの全体像と使い分け
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PPTX
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
YugabyteDBを使ってみよう - part2 -(NewSQL/分散SQLデータベースよろず勉強会 #2 発表資料)
MongoDB概要:金融業界でのMongoDB
20191115-PGconf.Japan
YugabyteDBの実行計画を眺める(NewSQL/分散SQLデータベースよろず勉強会 #3 発表資料)
ビッグデータ処理データベースの全体像と使い分け
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)

What's hot (20)

PDF
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
PDF
PostgreSQLアーキテクチャ入門
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
PPTX
Amazon Athena で実現する データ分析の広がり
PDF
PostgreSQL のイケてるテクニック7選
PDF
Apache Hadoop YARNとマルチテナントにおけるリソース管理
PPTX
ビッグデータ処理データベースの全体像と使い分け
2018年version
PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
PPTX
MongoDBが遅いときの切り分け方法
PPTX
がっつりMongoDB事例紹介
PPTX
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
PPTX
マイクロサービスにおける 結果整合性との戦い
PPTX
Hadoop -NameNode HAの仕組み-
PDF
SQL大量発行処理をいかにして高速化するか
PPTX
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
ストリーム処理を支えるキューイングシステムの選び方
PPTX
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
PDF
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
PDF
ブレソルでテラバイト級データのALTERを短時間で終わらせる
PDF
Apache Impalaパフォーマンスチューニング #dbts2018
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
PostgreSQLアーキテクチャ入門
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
Amazon Athena で実現する データ分析の広がり
PostgreSQL のイケてるテクニック7選
Apache Hadoop YARNとマルチテナントにおけるリソース管理
ビッグデータ処理データベースの全体像と使い分け
2018年version
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
MongoDBが遅いときの切り分け方法
がっつりMongoDB事例紹介
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
マイクロサービスにおける 結果整合性との戦い
Hadoop -NameNode HAの仕組み-
SQL大量発行処理をいかにして高速化するか
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
ストリーム処理を支えるキューイングシステムの選び方
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
ブレソルでテラバイト級データのALTERを短時間で終わらせる
Apache Impalaパフォーマンスチューニング #dbts2018
Ad

More from Cloudera Japan (20)

PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
PPTX
機械学習の定番プラットフォームSparkの紹介
PPTX
HDFS Supportaiblity Improvements
PDF
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
PDF
HBase Across the World #LINE_DM
PDF
Cloudera のサポートエンジニアリング #supennight
PDF
Train, predict, serve: How to go into production your machine learning model
PDF
Apache Kuduを使った分析システムの裏側
PDF
Cloudera in the Cloud #CWT2017
PDF
先行事例から学ぶ IoT / ビッグデータの始め方
PPTX
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
PDF
How to go into production your machine learning models? #CWT2017
PDF
Apache Kudu - Updatable Analytical Storage #rakutentech
PPTX
Hue 4.0 / Hue Meetup Tokyo #huejp
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
PDF
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
PDF
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
PDF
Cloud Native Hadoop #cwt2016
PDF
大規模データに対するデータサイエンスの進め方 #CWT2016
PDF
#cwt2016 Apache Kudu 構成とテーブル設計
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
機械学習の定番プラットフォームSparkの紹介
HDFS Supportaiblity Improvements
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
HBase Across the World #LINE_DM
Cloudera のサポートエンジニアリング #supennight
Train, predict, serve: How to go into production your machine learning model
Apache Kuduを使った分析システムの裏側
Cloudera in the Cloud #CWT2017
先行事例から学ぶ IoT / ビッグデータの始め方
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
How to go into production your machine learning models? #CWT2017
Apache Kudu - Updatable Analytical Storage #rakutentech
Hue 4.0 / Hue Meetup Tokyo #huejp
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloud Native Hadoop #cwt2016
大規模データに対するデータサイエンスの進め方 #CWT2016
#cwt2016 Apache Kudu 構成とテーブル設計
Ad

Hue勉強会 20131008