Sumber batch database

Halaman ini memberikan panduan tentang cara mengonfigurasi plugin sumber batch Database di Cloud Data Fusion.

Anda dapat menggunakan sumber umum ini setiap kali Anda perlu membaca dari database. Misalnya, Anda dapat menggunakannya untuk membuat snapshot harian tabel database umum dan menulis output ke BigQuery.

Mengonfigurasi plugin

  1. Buka antarmuka web Cloud Data Fusion dan klik Studio.
  2. Pastikan Data Pipeline - Batch dipilih (bukan Real-Time).
  3. Di menu Source, klik Database.
  4. Untuk mengonfigurasi plugin, arahkan kursor ke node plugin, lalu klik Properties.
  5. Masukkan properti berikut. Untuk mengetahui informasi selengkapnya tentang setiap properti, lihat Properti.

    1. Masukkan Label untuk node database—misalnya, database tables.
    2. Masukkan detail koneksi. Anda dapat menyiapkan koneksi baru satu kali, atau koneksi yang sudah ada dan dapat digunakan kembali.

      Koneksi baru

      Untuk menambahkan koneksi satu kali ke database, ikuti langkah-langkah berikut:

      1. Tetap nonaktifkan Gunakan koneksi.
      2. Masukkan properti koneksi berikut:
        1. Di kolom nama driver JDBC, masukkan nama driver, jika ada. Jika tidak, biarkan Tidak ada plugin JDBC dipilih.
        2. Di kolom Connection string, masukkan string koneksi JDBC, termasuk nama database.
        3. Opsional: jika database Anda memerlukan autentikasi, masukkan kredensial nama pengguna dan sandi database.
        4. Opsional: jika driver JDBC Anda memerlukan konfigurasi tambahan, di kolom Connection arguments, masukkan argumen nilai kunci untuk koneksi.

      Koneksi yang dapat digunakan kembali

      Untuk menggunakan kembali koneksi yang ada, ikuti langkah-langkah berikut:

      1. Aktifkan Gunakan koneksi.
      2. Klik Jelajahi koneksi.
      3. Pilih koneksi.

      4. Opsional: jika koneksi tidak ada dan Anda ingin membuat koneksi baru yang dapat digunakan kembali, klik Tambahkan koneksi dan lihat langkah-langkah di tab Koneksi baru di halaman ini.

    3. Opsional: untuk menguji konektivitas, klik Dapatkan skema. Skema ini digunakan sebagai pengganti skema apa pun yang ditampilkan dari kueri. Skema ini harus cocok dengan skema yang ditampilkan dari kueri, kecuali bahwa Anda dapat menandai kolom sebagai nullable dan dapat berisi subset kolom.

    4. Di kolom Import query, masukkan kueri SELECT untuk mengimpor data dari tabel yang ditentukan—misalnya, select id, name, email, phone from users;.

    5. Opsional: di kolom Kueri pembatas, masukkan nilai minimum dan maksimum yang akan dibaca—misalnya, SELECT * FROM table WHERE $CONDITIONS.

    6. Opsional: di kolom Split-by field name, masukkan nama kolom yang menghasilkan pemisahan.

    7. Opsional: di kolom Jumlah bagian yang akan dibuat, masukkan angka—misalnya, 2.

    8. Opsional: di kolom Ukuran pengambilan, masukkan angka—misalnya, 1000.

    9. Opsional: masukkan Advanced properties, seperti mengubah huruf besar/kecil nama kolom.

  6. Opsional: klik Validasi dan perbaiki error yang ditemukan.

  7. Klik Close. Properti disimpan dan Anda dapat terus mem-build pipeline data di Cloud Data Fusion Studio.

Properti

Properti Makro diaktifkan Wajib Deskripsi
Label Tidak Ya Nama node di pipeline data Anda.
Menggunakan koneksi Tidak Tidak Jelajahi koneksi ke sumber. Jika Gunakan koneksi dipilih, Anda tidak perlu memberikan kredensial.
Koneksi Ya Ya Nama koneksi yang akan digunakan. Jika Gunakan koneksi dipilih, kolom ini akan muncul. Informasi database dan tabel disediakan oleh koneksi.
Nama driver JDBC Ya Ya Driver JDBC yang akan digunakan.
Default-nya adalah Tidak ada plugin JDBC.
String koneksi Ya Ya String koneksi JDBC, termasuk nama database.
Username Ya Tidak Identitas pengguna untuk terhubung ke database. Diperlukan untuk database yang memerlukan autentikasi. Opsional untuk database yang tidak memerlukan autentikasi.
Password Ya Tidak Sandi yang akan digunakan untuk terhubung ke database yang ditentukan. Diperlukan untuk database yang memerlukan autentikasi. Opsional untuk database yang tidak memerlukan autentikasi.
Argumen koneksi Ya Tidak Daftar pasangan tag/nilai string arbitrer sebagai argumen koneksi. Untuk driver JDBC yang memerlukan konfigurasi tambahan, argumen ini diteruskan ke driver JDBC sebagai argumen koneksi dalam format berikut: key1=value1;key2=value.
Nama referensi Tidak Ya Nama yang secara unik mengidentifikasi sumber ini untuk metadata silsilah dan anotasi. Biasanya, ini adalah nama tabel atau tampilan.
Dapatkan skema Tidak Tidak Skema kumpulan data yang dihasilkan oleh sumber. Ini digunakan sebagai pengganti skema yang ditampilkan oleh kueri. Skema ini harus cocok dengan skema yang ditampilkan dari kueri, kecuali bahwa skema ini memungkinkan Anda menandai kolom sebagai nullable dan dapat berisi subset kolom.
Mengimpor kueri Ya Ya Kueri SELECT untuk mengimpor data dari tabel yang ditentukan. Anda dapat menentukan jumlah kolom arbitrer yang akan diimpor, atau mengimpor semua kolom menggunakan *. Kueri harus berisi string $CONDITIONS. Misalnya, SELECT * FROM table WHERE $CONDITIONS. String $CONDITIONS diganti dengan batas kolom splitBy yang ditentukan di kolom Kueri pembatas. String $CONDITIONS tidak diperlukan jika kolom Jumlah pemisahan ditetapkan ke 1.
Kueri pembatas Ya Tidak Kueri pembatas yang menampilkan nilai minimum dan maksimum dari kolom pemisahan. Misalnya, SELECT MIN(id),MAX(id) FROM table. Tidak diperlukan jika jumlah pemisahan ditetapkan ke 1.
Pisahkan menurut nama kolom Ya Tidak Nama kolom yang digunakan untuk membuat pemisahan. Tidak diperlukan jika jumlah pemisahan yang akan dihasilkan ditetapkan ke 1.
Jumlah pemisahan yang akan dihasilkan Ya Tidak Jumlah pemisahan yang akan dibuat.
Defaultnya adalah 1.
Ukuran pengambilan Ya Tidak Jumlah baris yang akan diambil sekaligus per bagian. Ukuran pengambilan yang lebih besar dapat menyebabkan impor yang lebih cepat, dengan konsekuensi penggunaan memori yang lebih tinggi.
Defaultnya adalah 1000.
Mengaktifkan commit otomatis Tidak Tidak Apakah akan mengaktifkan commit otomatis untuk kueri yang dijalankan oleh sumber ini. Tetapkan ini ke False kecuali jika Anda menggunakan driver JDBC yang menyebabkan error saat operasi commit dijalankan.
Defaultnya adalah False.
Kasus nama kolom Ya Tidak Menetapkan huruf besar/kecil nama kolom yang ditampilkan dari kueri. Anda dapat memilih huruf besar atau kecil. Secara default, atau untuk input lainnya, nama kolom tidak diubah dan huruf besar/kecil yang ditampilkan dari database akan digunakan. Menetapkan properti ini memberikan prediktabilitas kapitalisasi nama kolom di berbagai database, tetapi dapat menyebabkan konflik nama kolom jika beberapa nama kolom sama saat kasus diabaikan.
Default-nya adalah Tidak ada perubahan.
Tingkat isolasi transaksi Ya Tidak Tingkat isolasi transaksi untuk kueri yang dijalankan oleh sink ini. Untuk informasi selengkapnya, lihat setTransactionIsolation(). Driver JDBC Phoenix menampilkan pengecualian jika database Phoenix tidak mengaktifkan transaksi dan kolom ini ditetapkan ke true. Untuk pengemudi seperti itu, tetapkan kolom ini ke TRANSACTION_NONE.
Default-nya adalah TRANSACTION_SERIALIZABLE.
Pola yang akan diganti Tidak Tidak Pola yang akan diganti dalam nama kolom di tabel (biasanya digunakan dengan properti Replace with). Jika properti Replace with tidak ditetapkan, pola akan dihapus dari nama kolom.
Ganti dengan Tidak Tidak String yang diganti dalam nama kolom di tabel. Anda juga harus mengonfigurasi kolom Pola yang akan diganti.
Skema output Tidak Tidak Menentukan skema yang dihasilkan. Hanya kolom yang ditentukan dalam skema yang disertakan dalam data output.

Praktik terbaik

Periksa apakah plugin yang lebih spesifik tersedia untuk database Anda. Misalnya, jika Anda memiliki sumber database Oracle, gunakan plugin sumber batch database Oracle karena dirancang untuk berfungsi dengan skema Oracle.

Langkah selanjutnya