Data Benchmarkpada Google Big Querydan Elasticsearch
Data Benchmarkpada Google Big Querydan Elasticsearch
net/publication/354166121
Article in Jurnal Nasional Teknik Elektro dan Teknologi Informasi (JNTETI) · August 2021
DOI: 10.22146/jnteti.v10i3.1745
CITATION READS
1 426
3 authors:
SEE PROFILE
All content following this page was uploaded by Nisrina Akbar Rizky Putri on 17 September 2021.
ISSN 2301 – 4156 Nisrina Akbar Rizky Putri: Data Benchmark pada Google ...
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 10, No. 3, Agustus 2021 197
time dan bersifat scalable, yang berarti dapat melakukan lima aktivitas berbeda, yaitu pengujian dengan kueri tingkat
penyesuaian tergantung pada kebutuhan pengguna dan rendah, yaitu “select”; pengujian dengan kueri tingkat
sistemnya [8]. Elasticsearch memiliki kueri dengan level menengah, yaitu “group”; lalu pengujian dengan kueri tingkat
rendah yang berbasis RESTful. Konsep yang dimiliki adalah tinggi, yaitu “join”. Pada pengujian keempat dan kelima
dapat mengasumsikan index sebagai database dengan tipe dan digunakan kueri tingkat rendah, tetapi dilakukan peningkatan
dokumen menjadi record atau row, sedangkan mapping sebanyak dua dan empat kali lipat pada core processor-nya.
diasumsikan seperti table skema. Elastic.co dapat mengimpor Penelitian lainnya melakukan evaluasi dan perbandingan
data dengan jenis CSV ataupun JSON dan biasanya kinerja pada Twitter River dan Logstash. Data yang digunakan
Elasticsearch akan langsung melakukan konversi teks menjadi dalam penelitian ini merupakan data cuitan yang didapatkan
dengan crawling dengan jumlah berkisar 60.000 cuitan.
suatu istilah yang digunakan untuk menyaring karakter-
Parameter yang diamati adalah beban proses CPU, penggunaan
karakter yang tidak diperlukan, sehingga data secara langsung
RAM, penggunaan disk, jumlah masukan data Twitter ke
disaring. Dengan menggunakan Kibana sebagai alat visualisasi,
Elasticsearch, dan jumlah input field Twitter ke Elasticsearch
Elasticsearch dapat diandalkan sebagai alat yang mampu [12].
menganalisis suatu data. Baik Elasticsearch diinstal secara Telah dilakukan juga penelitian yang membandingkan
lokal ataupun dengan masa empat belas hari percobaan dari kinerja pada basis data NoSQL, yaitu Elasticsearch dan
Elastic.co, disediakan beberapa fitur yang dapat dicoba dalam CouchDB, dengan menggunakan sampel dataset yang terdiri
menganalisis dan memvisualisasi data. atas 20.000 dokumen [13]. Pengujian dilakukan dengan cara
Kedua platform di atas mampu menganalisis dan insertion, selection, updation, dan deletion pada data
memvisualisasikan data cuitan. Dengan melakukan suatu sampelnya. Hasil yang didapatkan setelah dilakukan observasi
perbandingan kinerja di antara Google BigQuery dan adalah Elasticsearch membutuhkan lebih banyak waktu
Elasticsearch dengan menggunakan data cuitan tersebut, dibandingkan CouchDB pada perintah insert, update, dan
dilakukan benchmark pada kedua platform. Benchmark delete data. Akan tetapi, dalam melakukan selection data,
merupakan suatu proses yang digunakan untuk mengukur dan kinerja dari Elasticsearch jauh lebih efisien.
membandingkan kinerja terhadap sebuah aktivitas, sehingga Penelitian lain mengenai benchmark dilakukan pada data
suatu organisasi atau perusahaan mencapai tingkat kinerja yang mengenai meteorologi dan oseanografi (MOData) dengan cara
diinginkan. Benchmark sebenarnya dapat diklasifikasikan mengetahui waktu respons suatu indeks dan nonindeks dengan
berdasarkan hal yang sedang atau akan diklasifikasikan. Secara menggunakan tiga model kueri yang diujikan dengan
konseptual, benchmark bertujuan untuk menghasilkan beban menggunakan Hive. Tipe kueri yang diujikan pertama adalah
kerja suatu aplikasi dan uji kemampuan dari suatu proses “SELECT WHERE” serta tipe kedua “SELECT JOIN” dan
dataset untuk menampilkan atau menunjukkan hasil evaluasi “SELECT GROUP BY” [14].
[9]. Benchmark sendiri dapat diklasifikasikan berdasarkan hal Penelitian selanjutnya melakukan perbandingan pada
yang sedang atau akan diklasifikasikan. Pengelompokan ini Amazon Web Service dan Microsoft Azure Cloud Platform
dibagi menjadi benchmark pada perangkat keras atau perangkat untuk High Performance Computing (HPS) [15]. Kedua
lunak. Pada makalah ini disinggung mengenai benchmark pada platform tersebut dibandingkan untuk mengetahui kinerja pada
perangkat lunak, yang di dalamnya terdapat subkategori, yaitu kedua HPC benchmark, yaitu HPC Challenge (HPPC) dan
application software, yang membandingkan suatu kinerja dan High-Performance Conjugate Gradient (HPCG). Kedua
fungsi spesifik suatu aplikasi; sistem perangkat lunak, yaitu benchmark merupakan tes dari beberapa aspek dari sistem
membandingkan kinerja dan fungsi dari perangkat lunak; dan kinerja pada komputer, termasuk pada kecepatan komputasi,
service applications dan micro-benchmark, yang mengukur memory bandwidth, dan network bandwidth.
kinerja paling kecil dan spesifik [10].
Berdasarkan latar belakang tersebut, dengan melakukan II. METODOLOGI
crawling data pada Twitter yang didapatkan dari
http://netlytic.org/, yang memiliki jumlah sekitar 5.000 cuitan A. Crawling Data
mengandung tagar #COVID19 dan #coronavirus, makalah ini Dalam makalah ini, data didapatkan dari http://netlytic.org/.
membandingkan kinerja platform Google BigQuery dan Website tersebut mampu melakukan crawling data pada
Elasticsearch. Benchmarking data dilakukan untuk beberapa media sosial dan juga dapat melakukan pengelolaan
menghasilkan atau mengetahui beban kerja suatu platform dan menggunakan dataset pribadi. Pada makalah ini dibutuhkan
uji kemampuan dalam memproses suatu dataset untuk data berupa cuitan dari Twitter. Crawling dilakukan dengan
menampilkan atau menunjukkan hasil evaluasi yang memiliki menggunakan akun pribadi yang akan mencari berdasarkan
guna [9]. keyword sesuai dengan kebutuhan, lalu dapat dilakukan filter
Beberapa penelitian yang berkaitan dengan topik mengenai berdasarkan bahasa atau sumber dan target dari cuitan dengan
benckmark telah dilakukan. Salah satunya adalah pengujian batas maksimal 2.500 cuitan yang dapat dikenai proses
pada dataset yang berisikan status Twitter dalam jumlah crawling.
100.000 dan 3.000.000 baris status dengan menggunakan Data yang didapatkan pada makalah ini merupakan data
Hadoop 2, Spark, dan Presto [11]. Pengujian dilakukan dengan yang dicuitkan pada tanggal 23 Maret 2021, dengan dilakukan
suatu proses dari kueri dari model yang sudah ditentukan untuk crawling sebanyak dua kali; dalam satu kali crawling
mengetahui waktu responsnya. Pengujian dilakukan dalam didapatkan 2.500 cuitan. Data didapatkan dengan pencarian
Nisrina Akbar Rizky Putri: Data Benchmark pada Google ... ISSN 2301 – 4156
198 Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 10, No. 3, Agustus 2021
ISSN 2301 – 4156 Nisrina Akbar Rizky Putri: Data Benchmark pada Google ...
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 10, No. 3, Agustus 2021 199
E. Alat dan Bahan dengan total tiga puluh kolom. Pengujian pertama dilakukan
untuk membandingkan Google BigQuery dan Elasticsearch
Spesifikasi laptop yang digunakan dalam pengujian ini
dalam mengelola suatu kueri. Sebelumnya, pada Google
adalah sebagai berikut.
BigQuery dibuat tabel dengan cara mengimpor data CSV
• Intel(R) Core (TM) i3-2310M CPU @ 2.10GHz 2.10GHz secara lokal dengan besar file maksimal 10 MB. Jika ukuran
• Sistem operasi 64-bit melebihi 10 MB, dilakukan impor melalui GCS yang tidak
• Memori 4GB(RAM) memiliki batas maksimal dalam ekspor data. Elasticsearch
• 5.000 cuitan dari Twitter yang mengandung tagar mengimpor data secara lokal dengan batas maksimal tepatnya
#COVID19 dan #coronavirus. 1.024 MB.
Gbr. 1 dan Gbr. 2 merupakan hasil pengolahan kueri pada
III. HASIL DAN PEMBAHASAN kedua platform. Hasil yang diambil adalah query time, yang
Pada tahapan crawling data, hasil yang didapatkan adalah merupakan waktu yang dibutuhkan dalam pengelolaan kueri,
5.000 cuitan yang memiliki tagar #COVID19 dan #coronavirus dan total time, yang merupakan waktu keseluruhan permintaan
Nisrina Akbar Rizky Putri: Data Benchmark pada Google ... ISSN 2301 – 4156
200 Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 10, No. 3, Agustus 2021
ISSN 2301 – 4156 Nisrina Akbar Rizky Putri: Data Benchmark pada Google ...
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 10, No. 3, Agustus 2021 201
Nisrina Akbar Rizky Putri: Data Benchmark pada Google ... ISSN 2301 – 4156
202 Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 10, No. 3, Agustus 2021
ISSN 2301 – 4156 Nisrina Akbar Rizky Putri: Data Benchmark pada Google ...
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 10, No. 3, Agustus 2021 203
Wiley, 2014. Twitter River and Logstash Performances as Elasticsearch Inputs for
[7] O. Dawelbeit dan R. McCrindle, “Efficient Dictionary Compression for Social Media Analysis of Twitter,” Proc. 2015 Int. Conf. Inf. Commun.
Processing RDF Big Data Using Google BigQuery,” Proc. 2016 IEEE Technol. Syst. ICTS 2015, 2016, hal. 181–186.
Glob. Commun. Conf. (GLOBECOM 2016), 2016, hal. 1–6. [13] S. Gupta dan R. Rani, “A Comparative Study of Elasticsearch and
[8] V.A. Zamfir, M. Carabas, C. Carabas, dan N. Tapus, “Systems CouchDB Document Oriented Databases,” Proc. Int. Conf. Inven.
Monitoring and Big Data Analysis Using the Elasticsearch System,” Comput. Technol. (ICICT 2016), 2016, hal. 1–4.
Proc. - 2019 22nd Int. Conf. Control Syst. Comput. Sci. (CSCS 2019), [14] A.U. Abdullahi, R. Ahmad, dan N.M. Zakaria, “Big data: Performance
2019, hal. 188–193. Profiling of Meteorological and Oceanographic Data on Hive,” Proc.
[9] Y.C. Tay, “Data Generation for Application-Specific Benchmarking,” 2016 3rd Int. Conf. Comput. Inf. Sci. (ICCOINS 2016), 2016, hal. 203–
Proc. VLDB Endow., Vol. 4, No. 12, hal. 1470–1473, 2011. 208.
[10] A. Bog, Benchmarking Transaction and Analytical Processing Systems. [15] C. Kotas, T. Naughton, dan N. Imam, “A Comparison of Amazon Web
Cham, Switzerland: Springer, 2014. Services and Microsoft Azure Cloud Platforms for High Performance
Computing,” 2018 IEEE Int. Conf. Consum. Electron. (ICCE 2018),
[11] D.O. Baskoro, Big Data Benchmark pada Hadoop 2, Spark, dan Presto
Menggunakan Metode Perbandingan Waktu Respon Query, Skripsi, 2018, hal. 1–4.
Universitas Gadjah Mada, Yogyakarta, Indonesia, 2015.
[12] P.P.I. Langi, Widyawan, W. Najib, dan T.B. Aji, “An Evaluation of
Nisrina Akbar Rizky Putri: Data Benchmark pada Google ... ISSN 2301 – 4156
View publication stats