SlideShare a Scribd company logo
45分でわかる
             PostgreSQLの仕組み

                   2012/10/17
               SRA OSS, Inc. Japan
                     山田 努
              tsutomu@sraoss.co.jp

2012/10/17    Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   1
序:目次
   各サーバプロセス
   クライアント/サーバ通信
   データ格納、ストレージ上の記録方式
   SQL実行
   トランザクション処理
   トランザクションログとリカバリ、レプリケーション



2012/10/17   Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   2
プロセス構成
 postmaterがメイン
 常駐支援プロセス
      一部設定に依存                 postmaster
                                                                                    postgres
 接続要求に応じて                       startup
                                                                                    postgres
  子プロセスを起動                     writer        wal writer           checkpointer


                               archiver           stats collector        logger
                               wal receiver                                       wal sender
                               autovacuum launcher                       autovacuum worker

2012/10/17   Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.                    3
各プロセスの役割
 プロセス
 postmaster            PostgreSQLの親プロセス。接続を待ち受けるプロセス。
 postgres              個々のクライアントの要求を処理するプロセス。
 writer                共有バッファをディスクに書き出すプロセス。
 wal writer            WAL書き込みを行うプロセス。
 checkpointer          CHECKPOINT処理を行うプロセス。(9.2)
 archiver              WALログをアーカイブするプロセス。
 logger                PostgreSQLのログをファイルへ書き出すプロセス。
 stats collector       統計情報を収集するプロセス。
 autovacuum launcher   不要領域を監視するプロセス。
 autovacuum worker     自動VACUUMを実行するプロセス。複数起動することがある。
 wal sender            WALをスタンバイサーバへ転送するプロセス。
 wal receiver          WALをマスターサーバから受信するプロセス。
プロセス間通信
 signalによる通知(INT,TERM,USR1)
      Windows版はEvent を使う
      latch (9.1~) pipeを使ってsignalを捉える仕組み
 SysV IPC
      共有メモリ
      セマフォ
 localhost udp
      statistic collecter


2012/10/17         Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   5
クライアント/サーバ
 ソケット通信(tcp/stream)
      unix domain
      IPv4,v6
 接続要求を受けてから fork() する
      ユーザ認証は、子プロセス側で行なわれる
      pg_hba.conf




2012/10/17      Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   6
通信プロトコル
 プロトコルバージョン3.0
 認証
 キャンセルキー
      別の接続経路を使って、中止依頼を送信する
 簡易問い合わせ、SQL文字列で送信
 拡張問い合わせ、PREPAREとEXECUTE
      parse/bind/excute
 notice バックエンドからの通知

2012/10/17      Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   7
データベースクラスタ
 データベースクラスタ
      ファイルシステムに記録されるデータ一式
              initdbコマンドで作成される
      プロセスの集合体
              postmasterプロセス他 (前述)
 データベースクラスタで共有される情報
      ロール、データベース
      global/ ディレクトリ = pg_globalテーブルスペース



2012/10/17            Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   8
プロセスとデータベースクラスタ
                    データベースクラスタ
  initdb     生成
 コマンド
                                             テンプレート
                  template0     template1    データベース
postmaster
 プロセス

             対応       userdb1      userdb2    postgres
 postgres
 プロセス                                        データベース
             対応
 postgres         postgres user1    user2 ロール
 プロセス
データ格納
 ファイルシステム上の1ディレクトリ
      ディレクトリ構成
              global/
                   pg_control …
                base/数字(データベース)/数字(リレーション)
                pg_clog/
                pg_xlog/16進数24桁(トランザクションログ)
                pg_tblspc/シンボリックリンク(テーブルスペース)
                *.conf (設定ファイル)



2012/10/17                Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   10
テーブルデータ
 リレーション単位(テーブル、インデックス)
      pg_class.relfilenode, oidで管理
              pg_filenode.map, pg_relation_filenode()
      1ファイル 1GBに分割
      TOAST (The Oversized-Attribute Storage
       Technique)
 _fsm (Free Space Map),_vm (Visibility Map)
      タプルが見える = 有効である = VACUUM不要
      index only scanでも利用

2012/10/17              Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   11
ブロック構造
 タプル(行)データはブロック単位で管理
         テーブルファイル
                                              ctid = (1, 1)
                                                pd_linp[0]            ctid = (1, 2)         ctid = (1, 3)
   8kB       0ページ                  PageHeaderData                          pd_linp[1]            pd_linp[2]
                                pd_linp[3]           …                           pd_linp[n]
   8kB       1ページ           ctid = (1, 4)                                   ctid = (1, n + 1)

                                                                                         pd_lower
   8kB       2ページ                                            フリースペース
                                                             フリースペース

                                                     pd_upper
              …
                                                                              タプルn                 …
                                タプル3                 タプル2                  タプル1                 特殊データ
   8kB       nページ
             nページ
                                                                   pd_special
      ページサイズは最大32kB


2012/10/17            Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.                               12
VACUUM
 追記型アーキテクチャ
   世代管理
   トランザクションID周回問題
 不要領域の回収
 HOT (Heap Only Tuple)
   更新内容を同じページ内に記録してリンクを作る。インデッ
    クスの更新を不要にする。適時不要領域の回収が可能。
   fill factor
SQL実行処理
 parse
      prepare/bind
 rewrite
 planner/optimizer
 executer




2012/10/17       Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   14
パース、リライト
 パースツリー
   デバックログ
     debug_print_parse / debug_print_rewritten /
      debug_print_plan
 SQLの書き換え(rewrite)
   pg_rules (pg_rewrite)
   pg_views
最適化処理
 optimizer
      ルールによるクエリ書き換え
      FROM JOINの組合せ、順序
 コスト計算
      スキャン方法の選択
      ANALYZEによる統計情報
 ヒント句はない
      設定パラメータの影響も少ない


2012/10/17    Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   16
executor
 プランに従って、データの参照・更新を行なう
 共有バッファの管理




                ページ
  エグゼキュータ
                       対応する   ブロック
                       ページが
                       既にあれば
            共有バッファメ    ブロックは テーブルファイル
  クライアント    モリ         読まない
データ書き込み
 更新はトランザクションログと共有バッファに行なう

          エグゼキュータ
           データ変更
                                     非同期書き込み
   変更01
             (1)   (2)               クラッシュしたら
   変更02                       ページ    トランザクションログ
   変更03                              から復旧
                                                  ブロック


トランザクションログ               共有バッファメモリ
(pg_xlog)
トランザクション隔離と同時実行
 MVCC (MultiVersion Concurrency Control)
  多版型同時実行制御
 追記型
      トランザクションIDを使った管理
 タプルは特殊なカラムを持っている
      xmin,xmax,cmin,cmax
      作られた時、消された時、その操作をしたトランザクション
              コマンドID (ex) CURSOR FETCHで見えるか見えないか



2012/10/17           Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   19
コミットログ
 pg_clog/
   トランザクションの状態
   実行中 / COMMITED / ABORTED

 参考文献
   Mvcc Unmasked - Bruce Momjian
     January, 2012
     http://momjian.us/main/writings/pgsql/mvcc.pdf
トランザクションログ
 pg_xlog/
 WAL (write ahead log)
      何を実行したかの記録
              バッファに対する変更内容を記録
              XLogInsert()
      確実に記録するために同期書き込み
              複数の実行バックエンドのための処理が入る
              共有バッファの更新前に処理される(共有バッファの同期は後述)




2012/10/17         Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   21
リカバリ
 recoveryモード
      プログラム起動時の初期処理
 WALファイルを元に再実行(replay)
      standbyモードやreplicationは、常時リカバリ状態になっ
       ている




2012/10/17    Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   22
同期処理
 共有バッファの更新内容をディスクへ書き込む
 checkpoint
      過去のトランザクションログが不要になる
              WALのリサイクル
              WALが不足すると強制checkpoint
              最後のcheckpoint以降の更新がクラッシュリカバリに必要
 共有バッファが不足した時は随時書き出す
 バックグラウンド書き込み
      writerプロセス

2012/10/17          Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   23
レプリケーション
 streaming replication
      ネットワーク経由でWALを受信
      非同期・同期

 詳しくは、別のところで…




2012/10/17   Copyright © 2012 SRA OSS, Inc. Japan All rights reserved.   24
終り
 各項目についての解説は他にも色々とありますので
  、探してみて下さい。
 他データベースでの各処理の仕組みと比較するのも
  良いだろう。


     ご静聴ありがとうございました。

More Related Content

What's hot (20)

PPTX
世の中のPostgreSQLエンジニアのpsql設定(第34回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
PostgreSQLの運用・監視にまつわるエトセトラ
NTT DATA OSS Professional Services
 
PPTX
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
使ってみませんか?pg_hint_plan
NTT DATA OSS Professional Services
 
PPTX
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
オンライン物理バックアップの排他モードと非排他モードについて(第15回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
Memoizeの仕組み(第41回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PPTX
PostgreSQLのfull_page_writesについて(第24回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
明日から使えるPostgre sql運用管理テクニック(監視編)
kasaharatt
 
PDF
今秋リリース予定のPostgreSQL11を徹底解説
Masahiko Sawada
 
PDF
PostgreSQLバックアップの基本
Uptime Technologies LLC (JP)
 
PDF
PostgreSQL: XID周回問題に潜む別の問題
NTT DATA OSS Professional Services
 
PDF
PlaySQLAlchemy: SQLAlchemy入門
泰 増田
 
PDF
ヤフー発のメッセージキュー「Pulsar」のご紹介
Yahoo!デベロッパーネットワーク
 
PPTX
PostgreSQL 14 モニタリング新機能紹介(PostgreSQL カンファレンス #24、2021/06/08)
NTT DATA Technology & Innovation
 
PPTX
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
NTT DATA Technology & Innovation
 
PPTX
SageMaker Neoの可能性について - 第3回 Amazon SageMaker 事例祭り+体験ハンズオン
tomohiro kato
 
PDF
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
Yahoo!デベロッパーネットワーク
 
PDF
Apache Arrow - データ処理ツールの次世代プラットフォーム
Kouhei Sutou
 
PPTX
Slurmのジョブスケジューリングと実装
Ryuichi Sakamoto
 
世の中のPostgreSQLエンジニアのpsql設定(第34回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PostgreSQLの運用・監視にまつわるエトセトラ
NTT DATA OSS Professional Services
 
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
使ってみませんか?pg_hint_plan
NTT DATA OSS Professional Services
 
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
オンライン物理バックアップの排他モードと非排他モードについて(第15回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
Memoizeの仕組み(第41回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PostgreSQLのfull_page_writesについて(第24回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
明日から使えるPostgre sql運用管理テクニック(監視編)
kasaharatt
 
今秋リリース予定のPostgreSQL11を徹底解説
Masahiko Sawada
 
PostgreSQLバックアップの基本
Uptime Technologies LLC (JP)
 
PostgreSQL: XID周回問題に潜む別の問題
NTT DATA OSS Professional Services
 
PlaySQLAlchemy: SQLAlchemy入門
泰 増田
 
ヤフー発のメッセージキュー「Pulsar」のご紹介
Yahoo!デベロッパーネットワーク
 
PostgreSQL 14 モニタリング新機能紹介(PostgreSQL カンファレンス #24、2021/06/08)
NTT DATA Technology & Innovation
 
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
NTT DATA Technology & Innovation
 
SageMaker Neoの可能性について - 第3回 Amazon SageMaker 事例祭り+体験ハンズオン
tomohiro kato
 
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
Yahoo!デベロッパーネットワーク
 
Apache Arrow - データ処理ツールの次世代プラットフォーム
Kouhei Sutou
 
Slurmのジョブスケジューリングと実装
Ryuichi Sakamoto
 

Similar to C16 45分でわかるPostgreSQLの仕組み by 山田努 (20)

PDF
PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)
Uptime Technologies LLC (JP)
 
PDF
プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009
Ryota Watabe
 
PDF
MongoDB Configパラメータ解説
Shoken Fujisaki
 
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
 
PPT
YAPC::Asia 2008 Tokyo - Pathtraq - building a computation-centric web service
Kazuho Oku
 
PDF
PostgreSQLアーキテクチャ入門(INSIGHT OUT 2011)
Uptime Technologies LLC (JP)
 
PPT
プロとしてのOracleアーキテクチャ入門 ~番外編~
ryouta watabe
 
PDF
PostgreSQL安定運用のコツ2009 @hbstudy#5
Uptime Technologies LLC (JP)
 
KEY
Web Operations and Perl kansai.pm#14
Masahiro Nagano
 
PDF
20130329 rtm3
openrtm
 
PDF
PostgreSQLアーキテクチャ入門
Uptime Technologies LLC (JP)
 
PDF
LINEのMySQL運用について
LINE Corporation
 
PDF
SQL Azure のシームレスな管理
junichi anno
 
PDF
PostgreSQL 12の話
Masahiko Sawada
 
PDF
C12 AlwaysOn 可用性グループとデータベースミラーリングのIO特製の比較 by 多田典史
Insight Technology, Inc.
 
PDF
Kyoto Tycoon Guide in Japanese
Mikio Hirabayashi
 
PDF
Nginx
Soichi Takamura
 
PDF
20101018 JJUG CCC10 WindowsAzure
Shinichiro Isago
 
PDF
RとSQLiteで気軽にデータベース作成
弘毅 露崎
 
PDF
PostgreSQLレプリケーション(pgcon17j_t4)
Kosuke Kida
 
PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)
Uptime Technologies LLC (JP)
 
プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009
Ryota Watabe
 
MongoDB Configパラメータ解説
Shoken Fujisaki
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
 
YAPC::Asia 2008 Tokyo - Pathtraq - building a computation-centric web service
Kazuho Oku
 
PostgreSQLアーキテクチャ入門(INSIGHT OUT 2011)
Uptime Technologies LLC (JP)
 
プロとしてのOracleアーキテクチャ入門 ~番外編~
ryouta watabe
 
PostgreSQL安定運用のコツ2009 @hbstudy#5
Uptime Technologies LLC (JP)
 
Web Operations and Perl kansai.pm#14
Masahiro Nagano
 
20130329 rtm3
openrtm
 
PostgreSQLアーキテクチャ入門
Uptime Technologies LLC (JP)
 
LINEのMySQL運用について
LINE Corporation
 
SQL Azure のシームレスな管理
junichi anno
 
PostgreSQL 12の話
Masahiko Sawada
 
C12 AlwaysOn 可用性グループとデータベースミラーリングのIO特製の比較 by 多田典史
Insight Technology, Inc.
 
Kyoto Tycoon Guide in Japanese
Mikio Hirabayashi
 
20101018 JJUG CCC10 WindowsAzure
Shinichiro Isago
 
RとSQLiteで気軽にデータベース作成
弘毅 露崎
 
PostgreSQLレプリケーション(pgcon17j_t4)
Kosuke Kida
 
Ad

More from Insight Technology, Inc. (20)

PDF
グラフデータベースは如何に自然言語を理解するか?
Insight Technology, Inc.
 
PDF
Docker and the Oracle Database
Insight Technology, Inc.
 
PDF
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Insight Technology, Inc.
 
PDF
事例を通じて機械学習とは何かを説明する
Insight Technology, Inc.
 
PDF
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
Insight Technology, Inc.
 
PDF
MBAAで覚えるDBREの大事なおしごと
Insight Technology, Inc.
 
PDF
グラフデータベースは如何に自然言語を理解するか?
Insight Technology, Inc.
 
PDF
DBREから始めるデータベースプラットフォーム
Insight Technology, Inc.
 
PDF
SQL Server エンジニアのためのコンテナ入門
Insight Technology, Inc.
 
PDF
Lunch & Learn, AWS NoSQL Services
Insight Technology, Inc.
 
PDF
db tech showcase2019オープニングセッション @ 森田 俊哉
Insight Technology, Inc.
 
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
Insight Technology, Inc.
 
PDF
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
Insight Technology, Inc.
 
PPTX
難しいアプリケーション移行、手軽に試してみませんか?
Insight Technology, Inc.
 
PPTX
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Insight Technology, Inc.
 
PPTX
そのデータベース、クラウドで使ってみませんか?
Insight Technology, Inc.
 
PPTX
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
Insight Technology, Inc.
 
PDF
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
Insight Technology, Inc.
 
PPTX
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Insight Technology, Inc.
 
PPTX
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
Insight Technology, Inc.
 
グラフデータベースは如何に自然言語を理解するか?
Insight Technology, Inc.
 
Docker and the Oracle Database
Insight Technology, Inc.
 
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Insight Technology, Inc.
 
事例を通じて機械学習とは何かを説明する
Insight Technology, Inc.
 
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
Insight Technology, Inc.
 
MBAAで覚えるDBREの大事なおしごと
Insight Technology, Inc.
 
グラフデータベースは如何に自然言語を理解するか?
Insight Technology, Inc.
 
DBREから始めるデータベースプラットフォーム
Insight Technology, Inc.
 
SQL Server エンジニアのためのコンテナ入門
Insight Technology, Inc.
 
Lunch & Learn, AWS NoSQL Services
Insight Technology, Inc.
 
db tech showcase2019オープニングセッション @ 森田 俊哉
Insight Technology, Inc.
 
db tech showcase2019 オープニングセッション @ 石川 雅也
Insight Technology, Inc.
 
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
Insight Technology, Inc.
 
難しいアプリケーション移行、手軽に試してみませんか?
Insight Technology, Inc.
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Insight Technology, Inc.
 
そのデータベース、クラウドで使ってみませんか?
Insight Technology, Inc.
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
Insight Technology, Inc.
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
Insight Technology, Inc.
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Insight Technology, Inc.
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
Insight Technology, Inc.
 
Ad

Recently uploaded (9)

PDF
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
 
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2025_報告会資料_渡辺さ...
IGDA Japan SIG-Audio
 
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
 
PDF
マルチAIエージェントの産業界での実践に向けたオープンソース活動の展望 - Japan Regional User Group (RUG) Meet-Up
Kosaku Kimura
 
PDF
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2024_報告会資料_増野さ...
IGDA Japan SIG-Audio
 
PDF
API認可を支えるKeycloakの基本と設計の考え方 ~ OAuth/OIDCによるAPI保護のベストプラクティス ~
Hitachi, Ltd. OSS Solution Center.
 
PDF
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
 
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
 
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2025_報告会資料_渡辺さ...
IGDA Japan SIG-Audio
 
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
 
マルチAIエージェントの産業界での実践に向けたオープンソース活動の展望 - Japan Regional User Group (RUG) Meet-Up
Kosaku Kimura
 
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2024_報告会資料_増野さ...
IGDA Japan SIG-Audio
 
API認可を支えるKeycloakの基本と設計の考え方 ~ OAuth/OIDCによるAPI保護のベストプラクティス ~
Hitachi, Ltd. OSS Solution Center.
 
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
 

C16 45分でわかるPostgreSQLの仕組み by 山田努

  • 1. 45分でわかる PostgreSQLの仕組み 2012/10/17 SRA OSS, Inc. Japan 山田 努 [email protected] 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 1
  • 2. 序:目次  各サーバプロセス  クライアント/サーバ通信  データ格納、ストレージ上の記録方式  SQL実行  トランザクション処理  トランザクションログとリカバリ、レプリケーション 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 2
  • 3. プロセス構成  postmaterがメイン  常駐支援プロセス  一部設定に依存 postmaster postgres  接続要求に応じて startup postgres 子プロセスを起動 writer wal writer checkpointer archiver stats collector logger wal receiver wal sender autovacuum launcher autovacuum worker 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 3
  • 4. 各プロセスの役割  プロセス postmaster PostgreSQLの親プロセス。接続を待ち受けるプロセス。 postgres 個々のクライアントの要求を処理するプロセス。 writer 共有バッファをディスクに書き出すプロセス。 wal writer WAL書き込みを行うプロセス。 checkpointer CHECKPOINT処理を行うプロセス。(9.2) archiver WALログをアーカイブするプロセス。 logger PostgreSQLのログをファイルへ書き出すプロセス。 stats collector 統計情報を収集するプロセス。 autovacuum launcher 不要領域を監視するプロセス。 autovacuum worker 自動VACUUMを実行するプロセス。複数起動することがある。 wal sender WALをスタンバイサーバへ転送するプロセス。 wal receiver WALをマスターサーバから受信するプロセス。
  • 5. プロセス間通信  signalによる通知(INT,TERM,USR1)  Windows版はEvent を使う  latch (9.1~) pipeを使ってsignalを捉える仕組み  SysV IPC  共有メモリ  セマフォ  localhost udp  statistic collecter 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 5
  • 6. クライアント/サーバ  ソケット通信(tcp/stream)  unix domain  IPv4,v6  接続要求を受けてから fork() する  ユーザ認証は、子プロセス側で行なわれる  pg_hba.conf 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 6
  • 7. 通信プロトコル  プロトコルバージョン3.0  認証  キャンセルキー  別の接続経路を使って、中止依頼を送信する  簡易問い合わせ、SQL文字列で送信  拡張問い合わせ、PREPAREとEXECUTE  parse/bind/excute  notice バックエンドからの通知 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 7
  • 8. データベースクラスタ  データベースクラスタ  ファイルシステムに記録されるデータ一式  initdbコマンドで作成される  プロセスの集合体  postmasterプロセス他 (前述)  データベースクラスタで共有される情報  ロール、データベース  global/ ディレクトリ = pg_globalテーブルスペース 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 8
  • 9. プロセスとデータベースクラスタ データベースクラスタ initdb 生成 コマンド テンプレート template0 template1 データベース postmaster プロセス 対応 userdb1 userdb2 postgres postgres プロセス データベース 対応 postgres postgres user1 user2 ロール プロセス
  • 10. データ格納  ファイルシステム上の1ディレクトリ  ディレクトリ構成  global/  pg_control …  base/数字(データベース)/数字(リレーション)  pg_clog/  pg_xlog/16進数24桁(トランザクションログ)  pg_tblspc/シンボリックリンク(テーブルスペース)  *.conf (設定ファイル) 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 10
  • 11. テーブルデータ  リレーション単位(テーブル、インデックス)  pg_class.relfilenode, oidで管理  pg_filenode.map, pg_relation_filenode()  1ファイル 1GBに分割  TOAST (The Oversized-Attribute Storage Technique)  _fsm (Free Space Map),_vm (Visibility Map)  タプルが見える = 有効である = VACUUM不要  index only scanでも利用 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 11
  • 12. ブロック構造  タプル(行)データはブロック単位で管理 テーブルファイル ctid = (1, 1) pd_linp[0] ctid = (1, 2) ctid = (1, 3) 8kB 0ページ PageHeaderData pd_linp[1] pd_linp[2] pd_linp[3] … pd_linp[n] 8kB 1ページ ctid = (1, 4) ctid = (1, n + 1) pd_lower 8kB 2ページ フリースペース フリースペース pd_upper … タプルn … タプル3 タプル2 タプル1 特殊データ 8kB nページ nページ pd_special ページサイズは最大32kB 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 12
  • 13. VACUUM  追記型アーキテクチャ  世代管理  トランザクションID周回問題  不要領域の回収  HOT (Heap Only Tuple)  更新内容を同じページ内に記録してリンクを作る。インデッ クスの更新を不要にする。適時不要領域の回収が可能。  fill factor
  • 14. SQL実行処理  parse  prepare/bind  rewrite  planner/optimizer  executer 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 14
  • 15. パース、リライト  パースツリー  デバックログ  debug_print_parse / debug_print_rewritten / debug_print_plan  SQLの書き換え(rewrite)  pg_rules (pg_rewrite)  pg_views
  • 16. 最適化処理  optimizer  ルールによるクエリ書き換え  FROM JOINの組合せ、順序  コスト計算  スキャン方法の選択  ANALYZEによる統計情報  ヒント句はない  設定パラメータの影響も少ない 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 16
  • 17. executor  プランに従って、データの参照・更新を行なう  共有バッファの管理 ページ エグゼキュータ 対応する ブロック ページが 既にあれば 共有バッファメ ブロックは テーブルファイル クライアント モリ 読まない
  • 18. データ書き込み  更新はトランザクションログと共有バッファに行なう エグゼキュータ データ変更 非同期書き込み 変更01 (1) (2) クラッシュしたら 変更02 ページ トランザクションログ 変更03 から復旧 ブロック トランザクションログ 共有バッファメモリ (pg_xlog)
  • 19. トランザクション隔離と同時実行  MVCC (MultiVersion Concurrency Control) 多版型同時実行制御  追記型  トランザクションIDを使った管理  タプルは特殊なカラムを持っている  xmin,xmax,cmin,cmax  作られた時、消された時、その操作をしたトランザクション  コマンドID (ex) CURSOR FETCHで見えるか見えないか 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 19
  • 20. コミットログ  pg_clog/  トランザクションの状態  実行中 / COMMITED / ABORTED  参考文献  Mvcc Unmasked - Bruce Momjian  January, 2012  http://momjian.us/main/writings/pgsql/mvcc.pdf
  • 21. トランザクションログ  pg_xlog/  WAL (write ahead log)  何を実行したかの記録  バッファに対する変更内容を記録  XLogInsert()  確実に記録するために同期書き込み  複数の実行バックエンドのための処理が入る  共有バッファの更新前に処理される(共有バッファの同期は後述) 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 21
  • 22. リカバリ  recoveryモード  プログラム起動時の初期処理  WALファイルを元に再実行(replay)  standbyモードやreplicationは、常時リカバリ状態になっ ている 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 22
  • 23. 同期処理  共有バッファの更新内容をディスクへ書き込む  checkpoint  過去のトランザクションログが不要になる  WALのリサイクル  WALが不足すると強制checkpoint  最後のcheckpoint以降の更新がクラッシュリカバリに必要  共有バッファが不足した時は随時書き出す  バックグラウンド書き込み  writerプロセス 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 23
  • 24. レプリケーション  streaming replication  ネットワーク経由でWALを受信  非同期・同期  詳しくは、別のところで… 2012/10/17 Copyright © 2012 SRA OSS, Inc. Japan All rights reserved. 24
  • 25. 終り  各項目についての解説は他にも色々とありますので 、探してみて下さい。  他データベースでの各処理の仕組みと比較するのも 良いだろう。 ご静聴ありがとうございました。