Data is a new currency. Kalimat tersebut akhir-akhir ini santer diperbincangkan dikaitkan dengan gerakan transformasi digital, mengisyaratkan betapa bernilainya data bagi sebuah langkah strategis bisnis. Namun jika dirunut, urgensi pemanfaatan data sebenarnya tak lain muncul dari komoditas data itu sendiri sebagai objek digital. Saat ini data bisa diperoleh dari mana saja, dari perangkat komputasi yang sehari-hari digunakan, dari penggunaan komputer, ponsel, kamera, hingga perangkat berbasis sensor yang terpasang di dinding.
Tren tersebut menghadirkan dua jabatan baru dalam lini teknologi, yakni Data Engineer dan Data Scientist. Data Engineer memiliki tugas utama untuk menemukan cara dalam menangkap, mengumpulkan dan memadatkan sebuah data dari sumbernya. Domain pekerjaannya termasuk membangun dan mengelola sebuah sistem yang menjadi produsen data, hingga data-data tersebut berada di dalam sebuah tempat untuk dikelola lebih lanjut.
Sedangkan Data Scientist memiliki misi mengolah data tersebut menghasilkan pengetahuan yang bernilai dan dapat diaplikasikan. Sehingga dapat disimpulkan, bahwa Data Science merupakan sebuah proses memproduksi pengetahuan data (data insight). Adapun karakteristik dari pengetahuan data tersebut ialah sebuah simpulan yang dapat dilaksanakan (actionable), memberikan simpulan atau prediksi yang dapat dimengerti untuk beragam kebutuhan spesifik.
Dasar ilmu Data Science
Untuk menjadi seorang Data Scientist diperlukan pemahaman tentang beberapa hal, yakni kemampuan analisis menggunakan konsep matematika dan statistik, kemampuan pemrograman untuk pengolahan data, dan pemahaman pada subjek spesifik pada bidang bisnis yang digeluti. Karena menangani kebutuhan di bidang tertentu, Data Scientist sering direpresentasikan pada sebuah istilah yang lebih rinci, misalnya ad-tech data scientist, political analyst, head of banking digital analyst dan sebagainya.
Terkait dengan dasar ilmu, matematika menjadi penting sebagai landasan metode deterministik untuk operasi perhitungan kuantitatif (numerik). Aplikasinya dalam Data Science untuk membangun model keputusan, menyusun prakiraan hingga memperhitungkan sebuah prediksi. Memahami dasar kalkulus dan aljabar linier menjadi porsi wajib saat seseorang ingin memulai terjun ke dalam analisis data. Karena keduanya teori paling fundamental yang akan banyak digunakan.
Pemahaman tentang metode statistik digunakan sebagian besar untuk memahami tentang makna data, termasuk untuk melakukan validasi hipotesis dari pengetahuan yang dihasilkan data, menyimulasikan skenario, hingga membantu penyusunan sebuah prakiraan. Wajib hukumnya untuk memahami ilmu statistik dasar. Dalam penerapannya, konsep matematika dan statistika berjalan beriringan, mengharuskan pengelolanya jeli menyisipkan formula sesuai dengan pemrosesan data yang dibutuhkan.
Kemampuan pemrograman atau coding –setidaknya tingkat dasar—juga harus dimiliki. Kode yang dituliskan nantinya akan digunakan untuk menginstruksikan komputer dalam memanipulasi, menganalisis dan memvisualisasikan data yang telah dirapikan.
Kegiatan mengelola data
Sumber data sangat beragam, implikasinya data yang dihimpun juga bervariasi. Dalam standar data digital, setidaknya tipikal data tersebut terbagi ke dalam tiga jenis:
- Data terstruktur (structured data); yakni data yang sudah dikelola, diproses dan dimanipulasi dalam RDBMS (Relational Database Management System). Misalnya data tabel hasil masukan formulir pendaftaran di sebuah layanan web.
- Data tidak terstruktur (unscructured data); yakni berupa data mentah yang baru didapat dari beragam jenis aktivitas dan belum disesuaikan ke dalam format basis data. Misalnya berkas video yang didapat dari kamera.
- Data semi terstruktur (semistructured data); yakni berupa data yang memiliki struktur, misalnya berupa tag, akan tetapi belum sepenuhnya terstruktur dalam sistem basis data. Misalnya data yang memiliki keseragaman tag, namun memiliki isian yang berbeda didasarkan pada karakteristik pengisi.
Data Engineer bertugas untuk menyelaraskan ketiga tipe data tersebut, termasuk di dalamnya mengatur skema data. Mengapa merapikan data tersebut menjadi tugas penting? Ketika berbicara data dengan ukuran yang sangat besar, efisiensi perlu dilakukan dalam arsitektur data, tujuannya untuk memberikan kemudahan sekaligus kecepatan dalam pengelolaan serta akses data. Bagi Data Scientist, salah satu validitas data juga ditentukan dari seberapa relevan sumber data yang dimiliki, baik sebagai pelengkap ataupun pembanding.
Sementara itu, kegiatan analisis data dilakukan dengan bahasa Python atau R untuk memanipulasi data dan menggunakan SQL untuk melakukan query (termasuk membuat relasi) pada sumber data. Coding dilakukan kala sumber data telah menjadi ekstensi berkas yang siap diolah. Secara universal terdapat empat format umum yang dapat diterima hampir semua sistem analisis data, yaitu Comma-separated Values (CSV), Scripts (*.py, *.ipynb, *.r dll), berkas aplikasi tabel (*.xlsx, *.qgs dll), dan berkas pemrograman web (*.html, *.svg dll).
Keluaran Data Science untuk siapa saja
Salah satu keterampilan yang wajib dimiliki seorang Data Scientist adalah komunikasi, baik secara lisan atau tertulis. Seluruh pengetahuan dari data harus disampaikan dengan baik, tanpa kemampuan komunikasi yang benar, maka kebutuhan tersebut tidak akan tersalurkan. Kemampuan komunikasi termasuk di dalamnya menjelaskan berbagai unsur yang kompleks sehingga mudah untuk dipahami oleh pengguna data, termasuk ketika membuat visualisasi grafik dan narasi.
Perkembangan operasi bisnis digital yang sangat masif saat ini pada akhirnya membuat Data Science tidak hanya dilaksanakan oleh perusahaan besar saja, akan tetapi startup digital pun memandangnya sebagai sebuah bagian penting untuk mendampingi keputusan strategi bisnis. Sebagai ilustrasi, beberapa contoh penerapan Data Science dalam bisnis di antaranya untuk membantu sistem bisnis secara keseluruhan, tujuannya untuk meningkatkan ROI (Return of Investment) dengan memberikan gambaran tentang aktivitas terukur.
Contoh lagi untuk membantu pemasaran bisnis. Dari data yang histori yang telah terhimpun, sebuah pengetahuan dapat dibuat untuk menghasilkan analisis prediktif mengidentifikasi strategi apa saja yang efektif dijalankan, sehingga pemasar dapat mengeliminasi berbagai jenis tindakan yang tidak memberikan banyak dampak bagi performa penjualan. Di lain sisi, berbagai strategi baru sangat mungkin ditemukan dengan melihat tren data yang ada. Dan masih banyak contoh model implementasi lainnya termasuk untuk production-costs optimization, pricing model optimization, recommendation engine, fraud detection, dll.
–
Baca juga: