10 April 2017 | 23:19
Irfani Sahnur
Experienced Software Architect
Cara Cepat Menganalisa Data Tokoh Terpopuler
Google BigQuery merupakan sebuah layanan dari Google Cloud Platform yang berguna untuk mengolah data dalam jumlah besar dengan cara cepat dan mudah.

 

 

 

Ada sejumlah cara untuk melakukan analisis data dan memvisualisasikannya. Salah satunya dengan menggunakan layanan Google Cloud Platform, yaitu Google Bigquery. Dengan menggunakan layanan ini, pengolahan data bisa dilakukan dengan mudah dan cepat. Bahkan, untuk memvisualisasikannya juga tidak sulit dilakukan karena layanan ini terkoneksi dengan Tableau datasource.

Namun, sebelum melakukan analisa data, Anda harus terdaftar terlebih dahulu di Google Cloud Platform. Selanjutnya mengaktifkan layanan Google BigQuery dengan mengikuti panduannya. Setelah semua tahapan panduan diikuti, untuk langkah awal, kita perlu menetapkan terlebih data apa yang ingin dicari. 

Sebagai uji coba penggunaan layanan ini, saya ingin mengetahui tokoh-tokoh terpopuler di Wikipedia. Untuk itu, saya mengajukan pertanyaan melalui Google BigQuery sebagai berikut:

Siapakah tokoh-tokoh terpopuler di Wikipedia berbahasa Indonesia sepanjang Juli 2016?

Setelah pertanyaan ditetapkan, kita memasuki tahapan analisis data.

  1. Menyiapkan dataset

Dataset bersumber dari dataset publik. Google menyediakan dataset publik dengan ukuran jumbo. Mengingat pertanyaannya terkait dengan tokoh terpopuler, maka sumber dataset yang disiapkan berasal dari Wikipedia yang memiliki artikel dengan beragam kategori. Dari beragam kategori tersebut, kemudian disaring (filter) berdasarkan data terkait tokoh-tokoh publik. Hanya dalam dua detik, data tokoh-tokoh tersebut akan tersaji. Dataset ini berisi mengenai nama tokoh, hari dan total request.

  1. Pengolahan dataset

Untuk pengolahan dataset dilakukan dengan menggunakan layanan Google Cloud Platform, yaitu Google BigQuery. Ini merupakan sebuah layanan jasa Data Warehouse atau gudang data yang cepat, murah dan mampu menampung unlimited amount of data. Pengolahan data BigQuery menggunakan bahasa semacam SQL dengan beberapa tambahan fitur yang disebut BQL. Kelebihannya, dapat memproses data dengan cepat. Query, filter dan order miliaran baris data bisa dilakukan hanya dalam beberapa detik.

  1. Visualisasi data

Untuk visualisasi data, saya menggunakan Tableau datasource yang juga terkoneksi langsung  ke Google BigQuery. Chart dari miliaran data wikipedia langsung akan ditampilkan Tableau secara interaktif hanya dalam hitungan detik. Chart ini menggambarkan sejumlah data sebagai berikut:

  • Top 10 Tokoh Terpopuler Wikipedia pada Juli 2016.
  • Data lebih detail mengenai pergerakan request per harinya di bulan Juli 2016. 

 

  1. Hasil analisis dan visualisasi

Dari hasil analisis data dan visualisasi tersebut, terlihat bahwa grafik peningkatan Cristiano Ronaldo terjadi mulai awal bulan hingga mencapai puncaknya ketika Portugal memenangi juara Euro 2016. Saat itu, Ronaldo ditarik keluar karena cedera, justru dianggap sebagai pahlawan inspirasi kemenangan Portugal atas Perancis.

Begitu pula dengan tokoh-tokoh pasangan Fethullah Gulen dan Erdogan. Grafik kedua tokoh tersebut mengalami kenaikan bertepatan dengan peristiwa kudeta di Turki yang berhasil digagalkan pemerintah dan menganggap Fethullah Gulen sebagai dalangnya. Yang tidak kalah menarik adalah Jokowi dan Sri Mulyani. Keduanya juga ditempatkan berdampingan sebagai tokoh terpopuler oleh Wikipedia.

Berikut ini tahapan detail proses analisis data dengan Google BigQuery

 ***

Muhammad Irfani Sahnur adalah seorang Software Architect yang berpengalaman lebih dari 9 tahun di industri teknologi informasi dan komunikasi (ICT). Kini alumnus Software Engineering dari Binus University ini bekerja sebagai ICT Planning & Integration Specialist di PT Antam (Persero) Tbk.

 

Naskah ini diterbitkan melalui kerjasama antara Katadata dengan Data Science Indonesia