Recommended
PDF
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
PDF
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
PDF
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
PDF
データの見える化で進めるデータドリブンカンパニー #devsumiC
PDF
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
PPTX
PPT
Hadoop ~Yahoo! JAPANの活用について~
PDF
「Data Infrastructure at Scale 」#yjdsw4
PPTX
PPTX
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
PDF
PDF
大規模HDFS & ErasureCoding#yjdsw3
PDF
PDF
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
PPTX
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
PPTX
PDF
分散システム処理モデルの課題および展望#yjdsw3
PPTX
ビッグデータ処理データベースの全体像と使い分け
2018年version
PDF
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
PPTX
niconicoにおける継続的なデータ活用のためのHadoop運用事例
PDF
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
PDF
Apache Hadoopを利用したビッグデータ分析基盤
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
PDF
PDF
db tech showcase2019オープニングセッション @ 森田 俊哉
PDF
Lunch & Learn, AWS NoSQL Services
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
PDF
「新しいおうち探し」のためのAIアシスト検索 #yjtc
PDF
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
More Related Content
PDF
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
PDF
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
PDF
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
PDF
データの見える化で進めるデータドリブンカンパニー #devsumiC
PDF
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
PPTX
PPT
Hadoop ~Yahoo! JAPANの活用について~
PDF
「Data Infrastructure at Scale 」#yjdsw4
What's hot
PPTX
PPTX
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
PDF
PDF
大規模HDFS & ErasureCoding#yjdsw3
PDF
PDF
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
PPTX
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
PPTX
PDF
分散システム処理モデルの課題および展望#yjdsw3
PPTX
ビッグデータ処理データベースの全体像と使い分け
2018年version
PDF
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
PPTX
niconicoにおける継続的なデータ活用のためのHadoop運用事例
PDF
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
PDF
Apache Hadoopを利用したビッグデータ分析基盤
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
PDF
PDF
db tech showcase2019オープニングセッション @ 森田 俊哉
PDF
Lunch & Learn, AWS NoSQL Services
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
More from Yahoo!デベロッパーネットワーク
PDF
「新しいおうち探し」のためのAIアシスト検索 #yjtc
PDF
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
PDF
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
PDF
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
PDF
継続的なモデルモニタリングを実現するKubernetes Operator
PDF
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
PDF
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
PDF
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
PDF
PDF
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
PDF
Persistent-memory-native Database High-availability Feature
PDF
サイエンス領域におけるMLOpsの取り組み #yjtc
PDF
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
PDF
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PDF
PDF
eコマースと実店舗の相互利益を目指したデザイン #yjtc
PDF
PDF
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
PDF
オンプレML基盤on Kubernetes パネルディスカッション
PDF
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
Recently uploaded
PDF
[2025 Rakuten Technology Conference] Daybreak for AI Agents
PDF
論文紹介:InternVideo2: Scaling Foundation Models for Multimodal Video Understanding
PDF
Mixture-of-Personas Language Models for Population Simulation
PDF
Multiple Object Tracking as ID Prediction
PDF
Data Scaling Laws for End-to-End Autonomous Driving
PDF
【ツールテクノ】会社説明会資料2026年度版.pdf/月10時間までの学習を勤務時間として計上可能!
PDF
TransitReID: Transit OD Data Collection with Occlusion-Resistant Dynamic Pass...
PDF
ニューラルプロセッサによるAI処理の高速化と、未知の可能性を切り拓く未来の人工知能
PDF
AI開発の最前線を変えるニューラルネットワークプロセッサと、未来社会における応用可能性
PDF
膨大なデータ時代を制する鍵、セグメンテーションAIが切り拓く解析精度と効率の革新
PDF
論文紹介: "Locality-Aware Zero-Shot Human-Object Interaction Detection" "Disentan...
PDF
SIG-AUDIO 2025 Vol.04 インタラクティブミュージック勉強会 ダレカレの音ができるまで
PDF
SIG-AUDIO 2025 Vol.04 インタラクティブミュージック勉強会 インタラクティブミュージックの書き方
大規模サイトを支えるビッグデータプラットフォーム技術 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. Yahoo! JAPANのHadoopについて – 目次
Privileged and Confidential 20
1. Yahoo! JAPANのHadoop構成
2. Yahoo! JAPANのHadoop規模
3. Yahoo! JAPANのHadoopの特色
4. チューニング事例
5. 機材の選び方
6. 今後の展望
21. 22. Yahoo! JAPANのHadoop構成 – クラスタ
Privileged and Confidential 22
本番系:2クラスタ
Production
Cluster1
開発系:6クラスタ
Production
Cluster2
開発系は本番と比べると非常に小さいクラスタ
次期投入バージョンの検証なども実施
23. 24. 25. 26. 27. 28. Stormについて
Privileged and Confidential 28
Stormとは?
Twitter社がOSSとして公開している、
分散ストリーム処理プラットフォーム
(リアルタイムに)逐次流れてくるデータを
即時に処理していこうという仕組み。
Yahoo! JAPANでの活用例
・各ページのリンクのクリック速報
・広告改善のための一次データ加工
・スマートフォンアプリのエラー速報 など
29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. マルチテナントでうまく回すために
Privileged and Confidential 41
・利用者による一定の自治
・リソースキャパシティの定期的な見直し
・スケジューラ設定のチューニング
先の可視化グラフをユーザに見せ、
空いている時間帯を自ら選んでもらう。
部署毎に利用できるリソースの量に違いを持たせる。
利用率などを見て定期的に見直し。
Job同士のリソースの分け方に最適値はない。
トライアンドエラーで最も良いものを探し続ける。
42. 43. 44. 45. チューニングの一例 – 気をつける項目の一例
Privileged and Confidential 45
気をつける項目の一例
・個別のノード(計算ノード側)
・CPU(特にwaitIO)
・Memory
・Disk(IObusy, queue)
・LoadAverage
・インターフェーストラフィック
・システム全体(スイッチ、マスタノード等)
・スイッチトラフィック
・マスタノードリソース(CPU, Mem, etc…)
個別のノードの指標に集中しすぎると、
システム全体のデグレに気付かない可能性がある
46. 47. 48. 49. Yahoo! JAPANで使っている機材の一例
Privileged and Confidential 49
メモリ : 64GB
CPU : 12コア24スレッド
ディスク : 3TB × 4ディスク
Yahoo! JAPANでも当初それに倣い構成を計画
ディスクIOがネックになると言うのがHadoopのセオリー
定期的な計測により、ディスクを重視しない(CPU重視)
のYahoo! JAPANの現在に合った構成に
処理に応じた適切な構成を選択する必要がある
50. 51. 52. 今後の展開の一つのケースとして
Privileged and Confidential 52
Hadoop-2.xの導入
単一障害点(SPOF)であったNameNodeの可用性が向上
より信頼のおけるシステムへ
・NameNode-HA
・YARN
JobTrackerというSPOFのあったアーキテクチャを改良
全くJobが動かせなくなる可能性を低減
MapReduceのみならない多様なフレームワークの可能性
※YARNの安定にはもう少し時間がかかりそうですが
53. 54. 55. 56. 57. 58.