SlideShare a Scribd company logo
Mapping Dataflow with
Synapse Analytics Lake Database
具体的ユースケースデモ付き
Microsoft MVP for Data Platform 2021
永田 亮磨
Twitter:@ryomaru0825
Linkedin:ryoma-nagata-0825
Qiita:qiita.com/ryoma-nagata
1. Lake Databaseとは
2. 各種機能紹介
1. データベースデザイナー
2. Map Dataツール
3. 使いどころなどの整理
4. デモ - 映画評価データ分析
AGENDA
• データレイク内にERモデルを適用し、効率的に分析を進める機能
Synapse Analytics Lake Databaseとは
https://docs.microsoft.com/ja-jp/azure/synapse-analytics/database-designer/concepts-lake-database
②レイクデータベースでモデル
を定義(Out)
④AI/BIに連携
①データソース
システムから抽出/読込
(In)
③連携データとモデルをマッピング
変換(ETL)
• GUIでデータレイク上にラップされるERモデルをデザイン
• 業界用モデルテンプレートを利用するなどして効率的にモデリング
• ERモデル設定:主キー、外部キー、説明などのメタデータ
• データレイク設定:パーティション、ファイル形式(csv/parquet)
データベースデザイナー
業界用モデルテンプレート選択
• GUIでデータレイク上にラップされるERモデルをデザイン
• 業界用モデルテンプレートを利用するなどして効率的にモデリング
• ERモデル設定:主キー、外部キー、説明などのメタデータ
• データレイク設定:パーティション、ファイル形式(csv/parquet)
データベースデザイナー
カスタムテーブルの作成
• Map Dataツール(Public Preview)
• レイクデータベースと連携対象ファイルのマッピングを指定し、マッピングデータフロー開発を支援する
機能
• 簡単な処理であれば、複数のデータフローを一括で作成できる
レイクデータベースへのデータ投入方法
• https://docs.microsoft.com/ja-jp/azure/synapse-analytics/database-designer/overview-map-data
レイクデータベース定義 データソースとレイクデータベーステーブルのマッピング設定
• できること:
• レイクデータベース上のテーブルは、SQL/Sparkアクセス可能となる(データレイク上にあるにもかかわらず
• 定義したリレーションシップはPower BI に反映される
• マッピングデータフローとの親和性が高く、データベース上のテーブル全体の処理を迅速に作成できる
• 注意点:
• 現状はレイクデータベースでのCRUD操作は不可(Delta Lake未対応)
したがって、ETLは全件orパーティション単位のバッチ処理が必要。レコード単位の更新はできない(データレイクらしい世界観)
• 専用SQL Poolのテーブルは作成できない(あくまでデータレイク上のDBです
• 日本語のテンプレートはなし
同じく日本語テーブル名、列名は定義不可
• 定義をエクスポートできない
• 使いどころ:
• データソースシステムの定義に近いものをテンプレートから選択
• →テーブルの関連や、型をテンプレから流用して、迅速にデータレイク上のデータを活用可能な状態に
• 新規のデータモデルを設計する
• →いわゆるデータマート的なテーブルに。Power BI にデータ型とリレーションシップが反映されるので、プロトタイプが即作れる
レイクデータベース使いどころの整理
デモ - 映画評価データの分析
実装イメージ
元のデータ レポートイメージ
分析用
データモデル
変換処理

More Related Content

PDF
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
PDF
統計情報のリセットによるautovacuumへの影響について(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
Data platformdesign
PDF
PostgreSQLの運用・監視にまつわるエトセトラ
PDF
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
PDF
ビッグデータ処理データベースの全体像と使い分け
PDF
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
PPTX
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
統計情報のリセットによるautovacuumへの影響について(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
Data platformdesign
PostgreSQLの運用・監視にまつわるエトセトラ
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
ビッグデータ処理データベースの全体像と使い分け
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)

What's hot (20)

PPTX
ビッグデータ処理データベースの全体像と使い分け
2018年version
PDF
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
PDF
データ分析を支える技術 DWH再入門
PPTX
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PPTX
Databricksを初めて使う人に向けて.pptx
PDF
DMBOKをベースにしたデータマネジメント
PDF
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
PDF
Delta Lake with Synapse dataflow
PDF
Azure Synapse Analytics 専用SQL Poolベストプラクティス
PPTX
マルチクラウドDWH(Snowflake)のすすめ
PDF
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
PDF
まずやっとくPostgreSQLチューニング
PPTX
SQLチューニング入門 入門編
PPTX
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PPTX
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
PDF
Microsoft Azure Storage 概要
PDF
MesonでPostgreSQLをビルドしてみよう!(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
PPTX
PostgreSQLモニタリングの基本とNTTデータが追加したモニタリング新機能(Open Source Conference 2021 Online F...
PDF
マイクロサービス化設計入門 - AWS Dev Day Tokyo 2017
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
ビッグデータ処理データベースの全体像と使い分け
2018年version
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
データ分析を支える技術 DWH再入門
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
Databricksを初めて使う人に向けて.pptx
DMBOKをベースにしたデータマネジメント
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Delta Lake with Synapse dataflow
Azure Synapse Analytics 専用SQL Poolベストプラクティス
マルチクラウドDWH(Snowflake)のすすめ
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
まずやっとくPostgreSQLチューニング
SQLチューニング入門 入門編
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
Microsoft Azure Storage 概要
MesonでPostgreSQLをビルドしてみよう!(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLモニタリングの基本とNTTデータが追加したモニタリング新機能(Open Source Conference 2021 Online F...
マイクロサービス化設計入門 - AWS Dev Day Tokyo 2017
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
Ad

Similar to Synapse lakedatabase (20)

PDF
Azure Purview Linage for Dataflow/Spark
PDF
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
PDF
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
PDF
ドメイン駆動設計入門
PDF
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
PDF
Deep Dive into Spark SQL with Advanced Performance Tuning
PDF
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
PPTX
Microsoft Ignite Fall 2021 Data Platform Update Topics
PDF
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
PPTX
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
PPTX
Powering Performance: メルセデス・ベンツにおけるDatabricksとQlikのリアルなユースケース
PDF
Developers.IO 2019 Effective Datalake
PPTX
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
PPTX
Azure Antenna AI 概要
PDF
講演資料「Azure AI Update Ignite Fall 2021を振り返ろう!」
PDF
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
PDF
【de:code 2020】 PostgreSQL もスケールさせよう! - Hyperscale (Citus) -
PPTX
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
PDF
2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning
PDF
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Azure Purview Linage for Dataflow/Spark
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
ドメイン駆動設計入門
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
Deep Dive into Spark SQL with Advanced Performance Tuning
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
Microsoft Ignite Fall 2021 Data Platform Update Topics
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Powering Performance: メルセデス・ベンツにおけるDatabricksとQlikのリアルなユースケース
Developers.IO 2019 Effective Datalake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
Azure Antenna AI 概要
講演資料「Azure AI Update Ignite Fall 2021を振り返ろう!」
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
【de:code 2020】 PostgreSQL もスケールさせよう! - Hyperscale (Citus) -
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Ad

More from Ryoma Nagata (9)

PDF
Power Query Online
PDF
Paas_Security_Part1
PDF
Databricks の始め方
PDF
Azure DevOps CICD Azure SQL / Data Factory
PDF
Ignite update databricks_stream_analytics
PPTX
BigData Architecture for Azure
PPTX
道徳経営実践講座
PPTX
Delta lakesummary
PDF
20190517 Spark+AI Summit2019最新レポート
Power Query Online
Paas_Security_Part1
Databricks の始め方
Azure DevOps CICD Azure SQL / Data Factory
Ignite update databricks_stream_analytics
BigData Architecture for Azure
道徳経営実践講座
Delta lakesummary
20190517 Spark+AI Summit2019最新レポート

Synapse lakedatabase