Pelajari cara mereplikasi data dari database sumber ke set data BigQuery menggunakan Datastream.
Untuk mengikuti panduan langkah demi langkah tugas ini langsung di Google Cloud konsol, klik Pandu saya:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Datastream API.
- Pastikan Anda memiliki peran Admin Datastream yang ditetapkan ke akun pengguna Anda.
Jika Anda ingin membuat konfigurasi konektivitas pribadi untuk jaringan VPC standar atau bersama, Anda harus menyelesaikan prasyarat tambahan. Untuk mengetahui informasi selengkapnya, lihat Membuat konfigurasi konektivitas pribadi.
Persyaratan
Datastream menawarkan berbagai opsi sumber, opsi tujuan, dan metode konektivitas jaringan.
Dalam panduan memulai ini, kami mengasumsikan bahwa Anda mereplikasi data dari database Cloud SQL untuk PostgreSQL ke BigQuery. Untuk database sumber, Anda harus dapat mengonfigurasi instance database agar menerima koneksi dari alamat IP publik Datastream.
Karena kami tidak dapat mengetahui secara spesifik lingkungan Anda, kami tidak dapat memberikan langkah-langkah mendetail mengenai konfigurasi jaringan Anda.
Untuk panduan memulai ini, Anda akan memilih IP allowlisting sebagai metode konektivitas jaringan. Daftar IP yang diizinkan adalah fitur keamanan yang sering digunakan untuk membatasi dan mengontrol akses ke data di database sumber Anda hanya untuk pengguna terpercaya. Anda dapat menggunakan daftar IP yang diizinkan untuk membuat daftar alamat IP atau rentang IP terpercaya yang dapat digunakan oleh pengguna dan layanan Cloud lainnya seperti Datastream untuk mengakses data ini. Untuk menggunakan daftar IP yang diizinkan, Anda harus membuka database Cloud SQL sumber ke koneksi masuk dari Datastream.
Membuat profil koneksi
Dengan membuat profil koneksi, Anda menyimpan beberapa informasi dasar tentang sumber dan tujuan di Datastream. Kemudian, Anda dapat menggunakan kembali informasi ini di beberapa aliran.
Dalam panduan memulai ini, Anda akan memilih PostgreSQL sebagai jenis profil untuk profil koneksi sumber, dan BigQuery sebagai jenis profil untuk profil koneksi tujuan. Datastream menggunakan informasi dalam profil koneksi untuk terhubung ke database sumber dan ke BigQuery.
Membuat profil koneksi sumber untuk database PostgreSQL
Buka halaman Profil koneksi untuk Datastream di Konsol Google Cloud .
Klik BUAT PROFIL.
Di halaman Create a connection profile, klik jenis profil PostgreSQL (karena Anda ingin membuat profil koneksi sumber untuk database PostgreSQL).
Berikan informasi berikut di bagian Tentukan setelan koneksi pada halaman Buat profil PostgreSQL:
- Masukkan
My Source Connection Profile
sebagai Nama profil koneksi untuk database sumber Anda. - Biarkan ID profil koneksi yang dibuat otomatis.
Pilih Region tempat profil koneksi akan disimpan.
Masukkan Detail koneksi:
- Di kolom Hostname or IP, masukkan nama host atau alamat IP publik yang dapat digunakan Datastream untuk terhubung ke database PostgreSQL sumber. Anda memberikan alamat IP publik karena daftar IP yang diizinkan akan digunakan sebagai metode konektivitas jaringan untuk panduan memulai ini.
- Di kolom Port, masukkan nomor port yang dicadangkan untuk database sumber. Untuk database PostgreSQL, port default biasanya adalah
5432
. - Masukkan Nama Pengguna dan Sandi untuk mengautentikasi database sumber Anda.
- Di kolom Database, masukkan nama yang mengidentifikasi instance database. Untuk database PostgreSQL, biasanya
postgres
.
- Masukkan
Di bagian Tentukan setelan koneksi, klik LANJUTKAN. Bagian Tentukan metode konektivitas di halaman Buat profil PostgreSQL aktif.
Pilih metode jaringan yang ingin Anda gunakan untuk membangun konektivitas antara database sumber dan Datastream. Untuk panduan memulai ini, gunakan menu drop-down Metode konektivitas untuk memilih IP allowlisting sebagai metode jaringan.
Konfigurasi database sumber Anda untuk mengizinkan koneksi masuk dari alamat IP publik Datastream yang muncul.
Di bagian Tentukan metode konektivitas, klik LANJUTKAN. Bagian Uji profil koneksi di halaman Buat profil PostgreSQL aktif.
Klik RUN TEST untuk memverifikasi bahwa database PostgreSQL sumber dan Datastream dapat saling berkomunikasi.
Pastikan status "Pengujian berhasil" muncul.
Jika pengujian gagal, Anda dapat mengatasi masalah tersebut di bagian alur yang sesuai, lalu kembali untuk menguji ulang. Lihat halaman Mendiagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah.
Klik BUAT.
Membuat profil koneksi tujuan untuk BigQuery
Buka halaman Profil koneksi untuk Datastream di Konsol Google Cloud .
Klik BUAT PROFIL.
Di halaman Buat profil koneksi, klik jenis profil BigQuery (karena Anda ingin membuat profil koneksi tujuan untuk BigQuery).
Berikan informasi berikut di halaman Buat profil BigQuery:
- Masukkan
My Destination Connection Profile
sebagai Nama profil koneksi untuk layanan BigQuery tujuan Anda. - Biarkan ID profil koneksi yang dibuat otomatis.
- Pilih Region tempat profil koneksi akan disimpan.
- Masukkan
Klik BUAT.
Setelah membuat profil koneksi sumber untuk database PostgreSQL dan profil koneksi tujuan untuk BigQuery, Anda dapat menggunakannya untuk membuat aliran.
Membuat stream
Di bagian ini, Anda akan membuat aliran untuk mereplikasi data dari database PostgreSQL sumber ke BigQuery.
Pembuatan stream mencakup:
- Menentukan setelan untuk streaming.
- Memilih profil koneksi yang Anda buat untuk database sumber Anda (profil koneksi sumber). Untuk panduan memulai ini, profil koneksi sumbernya adalah My Source Connection Profile.
- Mengonfigurasi informasi tentang database sumber untuk aliran dengan menentukan properti replikasi, serta tabel dan skema dalam database sumber yang Datastream:
- Dapat ditransfer ke tujuan.
- Dilarang ditransfer ke tujuan.
- Menentukan apakah Datastream akan mengisi ulang data historis, serta mengalirkan perubahan yang sedang berlangsung ke tujuan, atau hanya mengalirkan perubahan pada data.
- Memilih profil koneksi yang Anda buat untuk BigQuery (profil koneksi tujuan). Untuk panduan memulai ini, profil koneksi tujuan adalah My Destination Connection Profile.
- Mengonfigurasi informasi tentang tujuan untuk aliran, seperti mengonfigurasi set data BigQuery.
- Memvalidasi streaming.
Menentukan setelan untuk streaming
Buka halaman Streams untuk Datastream di Konsol Google Cloud .
Klik BUAT ALIRAN DATA.
Berikan informasi berikut di panel Define stream details pada halaman Create stream:
- Masukkan
My Stream
sebagai Nama aliran data. - Tetap gunakan ID Aliran Data yang dibuat otomatis.
- Dari menu Region, pilih region tempat Anda membuat profil koneksi sumber.
- Dari menu Jenis sumber, pilih jenis profil PostgreSQL.
- Dari menu Destination type, pilih jenis profil BigQuery.
- Masukkan
Tinjau prasyarat yang diperlukan yang dibuat secara otomatis guna mencerminkan cara lingkungan Anda harus disiapkan untuk streaming. Prasyarat ini mencakup cara mengonfigurasi database sumber dan cara mengonfigurasi BigQuery.
Klik LANJUTKAN. Panel Tentukan profil koneksi PostgreSQL di halaman Buat stream akan muncul.
Menentukan informasi tentang profil koneksi sumber
Dari menu Profil koneksi sumber, pilih profil koneksi sumber untuk database PostgreSQL.
Klik RUN TEST untuk memverifikasi bahwa database sumber dan Datastream dapat saling berkomunikasi.
Jika pengujian gagal, masalah yang terkait dengan profil koneksi akan muncul. Lihat halaman Mendiagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah. Lakukan perubahan yang diperlukan untuk memperbaiki masalah, lalu uji ulang.
Klik LANJUTKAN. Panel Konfigurasi sumber aliran data di halaman Buat aliran data akan muncul.
Mengonfigurasi informasi tentang database sumber untuk aliran data
Berikan nama Slot replikasi dan Publikasi untuk database sumber Anda. Slot replikasi dan publikasi dibuat saat mengonfigurasi database PostgreSQL.
Gunakan menu Objek yang akan disertakan untuk menentukan tabel dan skema di database sumber yang akan direplikasi Datastream ke BigQuery. Menu hanya dimuat jika database Anda memiliki hingga 5.000 objek.
Untuk panduan memulai ini, Anda ingin Datastream mentransfer semua tabel dan skema. Oleh karena itu, pilih Semua tabel dari semua skema dari menu.
Klik LANJUTKAN. Panel Tentukan profil koneksi BigQuery di halaman Buat aliran akan muncul.
Pilih profil koneksi tujuan
Dari menu Destination connection profile, pilih profil koneksi tujuan untuk BigQuery.
Klik LANJUTKAN. Panel Konfigurasi tujuan aliran data di halaman Buat aliran data akan muncul.
Mengonfigurasi informasi tentang tujuan untuk aliran data
Pilih opsi Set data untuk setiap skema, sehingga Datastream akan otomatis membuat set data di BigQuery untuk setiap skema dalam database sumber.
Pilih Jenis lokasi tempat set data akan dibuat di BigQuery. Meskipun lokasi ini tidak harus sama dengan region tempat aliran Datastream dibuat, sebaiknya simpan semua resource, serta set data, di region yang sama untuk pengoptimalan biaya dan performa.
Setel Prefix ke
quickstart-
. Datastream akan menambahkan string ini ke awal setiap set data yang dibuatnya di BigQuery.Biarkan nilai di Mode penulisan streaming ditetapkan ke Gabungkan. Dengan cara ini, tabel di BigQuery tetap disinkronkan dengan sumber.
Biarkan nilai di menu drop-down Tentukan batas keusangan data ditetapkan ke 15 menit. BigQuery menggunakan nilai ini untuk memutuskan seberapa usang data Anda saat dikueri.
Klik LANJUTKAN. Panel Tinjau detail aliran data dan buat di halaman Buat aliran data akan muncul.
Buat aliran data
Verifikasi detail tentang aliran serta profil koneksi sumber dan tujuan yang akan digunakan aliran untuk mentransfer data dari database PostgreSQL sumber ke BigQuery.
Klik RUN VALIDATION untuk memvalidasi aliran data. Dengan memvalidasi aliran, Datastream akan memeriksa apakah sumber dikonfigurasi dengan benar, memvalidasi apakah aliran dapat terhubung ke sumber dan tujuan, serta memverifikasi konfigurasi end-to-end aliran.
Setelah semua pemeriksaan validasi lulus, klik BUAT.
Dalam dialog Buat aliran?, klik BUAT.
Mulai streaming
Di bagian sebelumnya pada panduan memulai, Anda telah membuat stream, tetapi belum memulainya. Anda dapat melakukannya sekarang.
Untuk panduan memulai ini, Anda akan membuat dan memulai aliran secara terpisah jika proses pembuatan aliran menimbulkan peningkatan beban pada database sumber. Untuk menunda pemuatan tersebut, Anda membuat aliran data tanpa memulainya, lalu memulai aliran data saat pemuatan dapat dilakukan.
Dengan memulai aliran data, Datastream dapat mentransfer data, skema, dan tabel dari database sumber ke tujuan.
Buka halaman Streams untuk Datastream di Konsol Google Cloud .
Centang kotak di sebelah kiri streaming yang ingin Anda mulai. Untuk panduan memulai ini, namanya adalah My Stream.
Klik MULAI.
Pada dialog, klik MULAI. Status streaming berubah dari
Not started
menjadiStarting
, lalu menjadiRunning
.Setelah memulai aliran, Anda dapat memverifikasi bahwa Datastream mentransfer data dari database sumber ke tujuan.
Memverifikasi streaming
Di bagian ini, Anda akan mengonfirmasi bahwa Datastream mentransfer data dari semua tabel database PostgreSQL sumber Anda ke BigQuery.
Buka halaman Streams untuk Datastream di Konsol Google Cloud .
Klik streaming yang Anda buat. Untuk panduan memulai ini, namanya adalah My Stream.
Di halaman Detail streaming, klik link yang muncul di bawah kolom Jalur penulisan tujuan. BigQuery Studio akan terbuka di tab terpisah.
Pastikan Anda melihat set data dan tabel yang merepresentasikan skema dan tabel database PostgreSQL sumber Anda.
Klik salah satu tabel untuk melihat pratinjau data Anda.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
- Gunakan konsol Google Cloud untuk menghapus project, aliran dan profil koneksi Datastream, serta set data BigQuery Anda.
Dengan membersihkan resource yang Anda buat di Datastream, resource tersebut tidak akan menghabiskan kuota dan Anda tidak akan ditagih pada masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.
Menghapus project Anda
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk panduan memulai ini.
Di Konsol Cloud, buka halaman Manage resources.
Dalam daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Menghapus aliran data
Buka halaman Streams untuk Datastream di Konsol Google Cloud .
Klik aliran yang ingin Anda hapus. Untuk panduan memulai ini, namanya adalah My Stream.
Klik JEDA.
Pada dialog, klik JEDA.
Di panel Status aliran pada halaman Detail aliran, pastikan status aliran adalah
Paused
.Klik HAPUS.
Dalam dialog, masukkan
Delete
di kolom teks, lalu klik HAPUS.
Menghapus profil koneksi
Buka halaman Profil koneksi untuk Datastream di Konsol Google Cloud .
Centang kotak untuk setiap profil koneksi yang ingin Anda hapus. Untuk panduan memulai cepat ini, centang kotak My Source Connection Profile dan My Destination Connection Profile.
Klik HAPUS.
Dalam dialog, klik HAPUS.
Menghapus set data BigQuery Anda
Buka halaman BigQuery Studio di Konsol Google Cloud .
Perluas node project tempat Anda membuat panduan memulai ini.
Untuk setiap set data yang ingin Anda hapus, klik menu Lihat tindakan, lalu klik Hapus.
Dalam dialog, masukkan
delete
di kolom teks, lalu klik HAPUS.
Langkah berikutnya
- Pelajari Datastream lebih lanjut.
- Coba sendiri fitur Google Cloud lainnya. Lihat panduan memulai kami.
- Pelajari cara menggunakan tabel change data capture di BigQuery.