You are here

Mulai Dari mana?

Saya masih baru didalam big data ini, jadi baiknya saya mulai dari mana?

Makasih banyak pak

Klo menurut saya :
1. pelajari konsep atau pengetahuan dasar ttg big data, seperti
- apa itu big data
- teknologinya
- masalah seperti apa yg bisa dipecahkan dgn teknologi tersebut, karena tidak semua masalah akan efiesien menggunakan teknologi big data
- ikuti contoh-contoh kasus dan tutorial yg banyak di internet
2. cari use case atau masalah yg ingin dipecahkan. dimengerti domain bisnis atau pengetahuan dasarnya. dievaluasi apakah tepat jika menggunakan pendekatan big data
3. pelajari datanya, (yg pasti datanya harus punya dulu atau tahu dimana berada). petakan data sumber dengan domain bisnis atau bidang pengetahuan dasarnya.
4. buat solusinya, bisa dilihat apakah perlu pengetahuan khusus lainnya seperti statistik atau lainnya
5. dikerjakan
6. jangan ragu untuk bertanya
7. share pengalamannya ke komunitas, supaya orang lain bisa belajar

Saya juga masih baru dalam hal ini dan masih belajar, tapi mungkin kalau boleh saya ikut urun pendapat tentang kira-kira enaknya belajar dari mana dulu.

Mungkin pendapat saya kurang tepat, karena memang juga masih sangat-sangat pemula, mohon dimaklumi..

Saya asumsikan disini kita ingin mulai belajar dari nol..

Sebelum memulai, nampaknya salah satu prasyarat yang perlu diingat adalah: "hindari terjebak jargon dan istilah-istilah", khususnya untuk yang benar-benar memulai dari nol sama sekali.

Hal ini karena istilah-istilah atau jargon akan sering kita temukan saling silang di berbagai sumber bacaan atau tutorial terkait hal ini, contohnya: big data, machine learning, python, spark, data ingestion, stack, dan sebagainya.

Istilah atau jargon bisa saja secara konteks membicarakan konsep, aplikasi/penerapan teknologi analisis, bahasa pemrograman, produk yang dapat dipakai dalam menerapkan teknologi big data, salah satu layer/"lapisan" yang biasanya ada dalam arsitektur big data, kerangka "tumpukan" layer/lapisan yang diperlukan untuk menjalankan aplikasi big data, dan sebagainya.

Saya sendiri mulai belajar dengan cara searching di google jika saya tidak paham tentang jargon/istilah tertentu, dengan kata kunci sederhana misalnya: "apa itu machine learning", "apa itu spark", "what is data ingestion layer", "big data architecture", dan sebagainya.

Dari penelusuran awal saya dalam mencoba belajar mandiri tentang big data analysis, ada beberapa skill set yang perlu dibangun kalau kita ingin belajar big data analysis, paling tidak:

a. Statistik, konsep tentang data, dan metode/teknik analisisnya (termasuk pengertian tentang apa itu klasifikasi, prediksi, dsb, serta model-model klasifikasi dan prediksi yang ada dan biasa dipakai);

b. Pemrograman, termasuk software, tools, library/modul (semacam add ons/extension/plugin) apa saja yang bisa digunakan untuk membantu kita dalam analisis big data; (kalau pendapat saya pribadi, bahasa pemrograman yang cukup mudah dipelajari pertama kali untuk keperluan ini adalah "python", atau "R")

c. Pemahaman mengenai TCP/IP secukupnya dan penerapannya dalam pemrograman, mengenal server - client, cara membuka socket dan melakukan koneksi atau request dalam program, mengenal konsep localhost, melakukan koneksi terhadap API (Application Programming Interface), dsb;

d. Pengalaman dalam menggunakan Command Line Interface (CLI)/DOS/Shell sehari-hari akan sangat membantu kita dalam mencoba belajar analisis big data;

e. Cari dan baca artikel-artikel jurnal ataupun artikel populer terkait big data, machine learning, teknologi yang berada di baliknya, maupun tutorial tentang teknik analisis big data yang ada di internet. Banyak sumber bacaan gratis yang mengandung ilmu yang sangat berharga yang bisa diunduh dengan mudah.

Kalau hal-hal di atas sudah dilakukan (urutan tidak menjadi masalah, lebih baik dipelajari dan dipraktekkan secara paralel), boleh mulai gabung dengan Kaggle misalnya, untuk sekedar belajar bagaimana para ahli Machine Learning mengolah ber-giga bytes data dengan membaca dan mencoba memahami "kernel-kernel" yang mereka buat (sepertinya memang masih belum masuk kategori big data karena belum menyentuh angka Terra atau Petabytes).

Setelah itu mungkin baru agak lebih masuk di akal saat membaca dokumentasi Apache Spark (salah satu framework untuk big data) misalnya, dan lebih mudah dalam menginstallnya, setup, dan memakainya misalnya untuk mengumpulkan streaming data dari Twitter Streaming API dan melakukan analisis-analisis selanjutnya.

Semoga jawaban sederhana ini dapat membantu! :)