Bab 2 Landasan Teori Pengertian Data (R. Kelly Rainer, 2011) Data, menunjuk pada deskripsi dasar akan benda, event, aktivitas, dan transaksi yang terdokumentasi, terklasifikasi,dan tersimpan tetapi tidak terorganisasi untuk dapat memberikan suatu arti yang spesifik. Berdasarkan pengertian di atas, data merupakan hal paling mendasar yang dibutuhkan perusahaan yang dapat diperoleh dari proses-proses operasional sehari-hari maupun sumber-sumber luar yang akan diolah menurut keinginan perusahaan. Pengertian Information (R. Kelly Rainer, 2011) Information, merupakan data yang telah terorganisir agar dapat memberikan arti dan nilai kepada penerima. Berdasarkan pengertian di atas, hasil penyusunan dan transformasi data yang dapat memberikan makna baru kepada data tersebut. Pengertian Knowledge (R. Kelly Rainer, 2011) Terdiri dari data atau informasi yang telah terorganisasi dan proses untuk memberikan pemahaman, pengalaman, dan pembelajaran, serta keahlian terhadap problema bisnis yang sedang dihadapi. Berdasarkan pengertian di atas, knowledge menjadi sarana bagi para manajer untuk membuat keputusan - keputusan yang crucial dan berdampak besar bagi perusahaan, dimana kesalahan atau kecacatan dalam knowledge dapat memberikan dampak buruk bagi perusahaan. Pengertian Extract, Tranform, Load (ETL) (immon liad DWH) (H.Inmon, 2005) ETL, proses memasukkan data, mengintergrasikan dan menempatkannya dalam data warehouse. Berdasarkan pengertian tersebut, ETL adalah proses mengubah raw data sebelum masuk kedalam data warehouse.
1
2 Pengertian Data Warehouse (R. Kelly Rainer, 2011) Data Warehouse adalah repository dari data-data yang bersifat historical yang terorganisir berdasarkan subjek yang digunakan untuk mendukung pengambilan keputusan. Data warehouse memiliki beberapa karakter dasar seperti. Diatur oleh business dimension or subject dimana data disusun berdasarkan subjeknya dan memiliki informasi yang relevan dengan pemgambilan keputusan dan analisis data.consistent yaitu data memliki bentuk yang sama disetiap atau disemua database. Historical, data yang ada merupakan data yang tersimpan dan terkumupl dalam waktu yang lama yang digunakan untuk forecasting dan perbandingan untuk meliat tingakt laju suatu perusahaan. Use only analytical processing menggunakan analytical processing yang berguna unutk mengakumulasi data-data yang ada. Multidimensional, data warehouse menyimpan data dalam lebih dari dua dimensi seperti data cube. Data warehouse merupakan bagian penting dalam struktur / arsitektur suatu BI karena posisinya sebagai tempat penyimpanan data- data yang telah terorganisasi dan yang telah memiliki makna, maka harus memilki struktur data desain yang baik yang dapat mensupport pengambilan data-data dan informasi secara akurat dan cepat dari dalam data warehouse itu sendiri. Pengertian Big Data Menurut (Eaton, Dirk, Tom, George, & Paul) Big Data merupakan istilah yang berlaku untuk informasi yang tidak dapat diproses atau dianalisis menggunakan alat tradisional. Menurut (Dumbill, 2012) , Big Data adalah data yang melebihi proses kapasitas dari kovensi sistem database yang ada. Data terlalu besar dan terlalu cepat atau tidak sesuai dengan struktur arsitektur database yang ada. Untuk mendapatkan nilai dari data, maka harus memilih jalan altenatif untuk memprosesnya. Berdasarkan pengertian para ahli di atas, dapat disimpulkan bahwa Big Data adalah data yang memiliki volume besar sehingga tidak dapat diproses menggunakan alat tradisional biasa dan harus menggunakan cara dan alat baru untuk mendapatkan nilai dari data ini.
2
Bab 3
Pembahasan 3.1 Big Data Setiap hari, kita menciptakan 2,5 triliun byte data - begitu banyak bahwa 90% dari data di dunia saat ini telah dibuat dalam dua tahun terakhir saja. Data ini berasal dari mana-mana, sensor digunakan untuk mengumpulkan informasi iklim, posting ke situs media sosial, gambar digital dan video, catatan transaksi pembelian, dan sinyal ponsel GPS untuk beberapa nama. Data ini adalah big data. Big Data mengacu pada dataset yang ukurannya diluar kemampuan dari database software tools untuk meng-capture, menyimpan,me-manage dan menganalisis. Definisi ini sengaja dibuat subjective agar mampu digabungkan oleh definisi Big Data yang masi belum ada baku. Ukuran big data sekitar beberapa lusin TeraByte sampai ke beberapa PetaByte tergantung jenis Industri Isi dari Big Data adalah Transaksi+interaksi dan observasi atau bisa di bilang segalanya yang berhubungan dengan jaringan internet, jaringan komunikasi, dan jaringan satelit
(Connolly, 2012)
3
Big Data dapat juga didefinisikan sebagai sebuah masalah domain dimana teknologi tradisional seperti relasional database tidak mampu lagi untuk melayani. Big data lebih dari hanya masalah ukuran, itu adalah kesempatan untuk menemukan wawasan dalam jenis baru dan muncul data dan konten, untuk membuat bisnis Anda lebih gesit, dan menjawab pertanyaan yang sebelumnya dianggap di luar jangkauan Anda. Big data dapat di artikan kedalam 9 karakter (IBM) menurut responden sehingga disimpulkan oleh IBM, Big data adalah data yang memiliki scope informasi yang sangat besar, model informasi yang real-time, memiliki volume yang besar, dan berasalkan social media data jadi dapat disimpulkan bahwa Big data adalah dataset yang memiliki volume besar dan salah satu isinya berdasarkan social media data, dan informasi dari Big data selalu yang terbaru (latestdata) sehingga model informasi nya real-time, dan scope informasi nya tidak terfocus pada industri-indrustri kecil saja atau industri-indrustri besar saja melainkan semuanya baik industry kecil maupun besar.
(IBM)
3.2 Dimensi -Dimensi Big Data Ada 3 dimensi awal dalam Big Data yaitu 3V: Volume, Variety dan Velocity
4
(www.ibm.com/2012bigdatastudy)
Volume perusahaan tertimbun dengan data yang terus tumbuh dari semua jenis sektor, dengan mudah mengumpulkan terabyte bahkan petabyteinformasi.
Mengubah 12 terabyte Tweet dibuat setiap hari ke dalam peningkatan sentimen analisis produk. Mengkonvert 350 milliar pembacaan tahunan untuk lebih baik dalam memprediksi kemampuan beli pasar. Mungkin karakteristik ini yang paling mudah dimengerti karena besarnya data. Volume juga mengacu pada jumlah massa data, bahwa organisasi berusaha untuk memanfaatkan data untuk meningkatkan pengambilan keputusan yang banyak perusahaan di banyak negara. Volume data juga terus meningkat dan belum pernah terjadi sampai sethinggi ini sehingga tidak dapat diprediksi jumlah pasti dan juga ukuran dari data sekitar lebih kecil dari petabyte sampai zetabyte. Dataset big data sekitar 1 terabyte sampai 1 petabyte perperusahaan jadi jika big data digabungkan dalam sebuah organisasi / group perusahaan ukurannya mungkin bisa sampai zetabyte dan jika hari ini jumlah data sampai 1000 zetabyte, besok pasti akan lebih tinggi dari 1000 zetabyte.
Variety Volume data yang banyak tersebut bertambah dengan kecepatan yang begitu cepat sehingga sulit bagi kita untuk mengelola hal tersebut. Kadang-kadang 2 menit sudah menjadi terlambat. Untuk proses dalam waktu sensitif seperti penangkapan penipuan, data yang besar harus digunakan sebagai aliran ke dalam perusahaan Anda untuk memaksimalkan nilainya.
Meneliti 5 juta transaksi yang dibuat setiap hari untuk mengidentifikasi potensi penipuan 5
Menganalisis 500 juta detail catatan panggilan setiap hari secara real-time untuk memprediksi gejolak pelanggan lebih cepat. Berbagai jenis data dan sumber data. Variasi adalah tentang mengelolah kompleksitas beberapa jenis data, termasuk structured data, unstructured data dan semi-structured data. Organisasi perlu mengintegrasikan dan menganalisis data dari array yang kompleks dari kedua sumber informasi Traditional dan non traditional informasi, dari dalam dan luar perusahaan. Dengan begitu banyaknya sensor, perangkat pintar (smart device) dan teknologi kolaborasi sosial, data yang dihasilkan dalam bentuk yang tak terhitung jumlahnya, termasuk text, web data, tweet, sensor data, audio, video, click stream, log file dan banyak lagi.
Velocity : Big Data adalah setiap jenis data - data baik yang terstruktur maupun tidak terstruktur seperti teks, data sensor, audio, video, klik stream, file log dan banyak lagi. Wawasan baru ditemukan ketika menganalisis kedua jenis data ini bersama-sama.
Memantau 100 video masukan langsung dari kamera pengintai untuk menargetkan tempat tujuan. Mengeksploitasi 80% perkembangan data dalam gambar, video, dan dokumen untuk meningkatkan kepuasan pelanggan.
Data dalam gerak. Kecepatan di mana data dibuat, diolah dan dianalisis terus menerus. Berkontribusi untuk kecepatan yang lebih tinggi adalah sifat penciptaan data secara real-time, serta kebutuhan untuk memasukkan streaming data ke dalam proses bisnis dan dalam pengambilan keputusan. Dampak Velocity latency, jeda waktu antara saat data dibuat atau data yang ditangkap, dan ketika itu juga dapat diakses. Hari ini, data terus-menerus dihasilkan pada kecepatan yang mustahil untuk sistem tradisional untuk menangkap, menyimpan dan menganalisis. Jenis tertentu dari data harus dianalisis secara real time untuk menjadi nilai bagi bisnis.
3.3 Dimensi Ketidakpastian data
6
(IBM) Dalam industri untuk meningkatan sebuah data lebih berkualitas dibutuhkan dimensi ke empat yaitu Veracity, pencantuman Veracity dapat menekankan pengelolahan dan penanganan untuk suatu ketidakpastian yang melekat dalam beberapa jenis data.
Veracity 1 dari 3 pemimpin bisnis tidak mempercayai informasi yang mereka gunakan untuk membuat keputusan. Bagaimana Anda dapat bertindak atas informasi yang anda tidak percaya? Membangun kepercayaan atas big data menghadirkan tantangan besar sebagai variasi dan sumber untuk pertumbuhan perusahaan. ketidakpastian data. Veracity mengacu pada tingkat keandalan yang terkait dengan jenis tertentu dari data. Berjuang untuk kualitas data yang tinggi merupakan syarat big data penting dan tantangan, tapi bahkan metode pembersihan data yang terbaik tidak dapat menghapus ketidakpastian yang melekat pada beberapa data, seperti cuaca, ekonomi, atau aktual keputusan membeli pelanggan masa depan. Kebutuhan untuk mengakui dan merencanakan ketidakpastian adalah dimensi data besar yang telah diperkenalkan sebagai eksekutif berusaha untuk lebih memahami dunia di sekitar mereka. Beberapa data tidak pasti, misalnya: sentimen dan kebenaran pada manusia, sensor GPS memantul antara pencakar langit Manhattan, cuaca kondisi-kondisi, faktor ekonomi, dan masa depan. Ketika berhadapan dengan jenis data, tidak ada metode pembersihan data dapat memperbaiki untuk semua itu. Namun, meski ketidakpastian, data masih mengandung informasi yang berharga. Kebutuhan untuk mengakui dan menerima ketidakpastian ini
7
merupakan ciri dari data.Uncertainty besar memanifestasikan dirinya dalam data besar dalam banyak cara. Sekarang dalam skeptisisme yang mengelilingi data yang dibuat dalam lingkungan manusia seperti jaringan sosial, dalam ketidaktahuan bagaimana masa depan akan terungkap dan bagaimana orangorang, alam atau kekuatan pasar yang tak terlihat akan bereaksi terhadap variabilitas dari dunia di sekitar mereka. Untuk mengelola ketidakpastian, analis perlu menciptakan konteks sekitar data. Salah satu cara untuk mencapai ini adalah melalui data fusion, di mana menggabungkan beberapa sumber yang kurang dapat diandalkan menciptakan lebih akurat dan berguna point data, seperti komentar sosial ditambahkan ke geospasial informasi lokasi. Cara lain untuk mengelola ketidakpastian adalah melalui matematika canggih yang mencakup hal itu, seperti teknik optimasi yang kuat dan pendekatan fuzzy logic. Manusia secara alami, tidak menyukai ketidakpastian, tetapi hanya mengabaikannya dapat menciptakan lebih banyak masalah daripada ketidakpastian itu sendiri. Dalam era big data, eksekutif akan perlu pendekatan dimensi ketidakpastian berbeda. Mereka akan perlu untuk mengakuinya, menerimanya dan menentukan. 3.4 Arsitektur Big Data
Traditional Information Architecture Capabilities Untuk memahami level aspek arsitektur yang tinggi dari Big Data, sebelumnya harus memahami arsitektur informasi logis untuk data yang terstruktur. Pada gambar di bawah ini menunjukkan dua sumber data yang menggunakan teknik integrasi (ETL / Change Data Capture) untuk mentransfer data ke dalam DBMS data warehouse atau operational data store, lalu menyediakan bermacammacam variasi dari kemampuan analisis untuk menampilkan data. Beberapa kemampuan analisis ini termasuk,; dashboards, laporan, EPM/BI Applications, ringkasan dan query statistic, interpretasi semantic untuk data tekstual, dan alat visualisasi untuk data yang padat. Informasi utama dalam prinsip arsitektur ini termasuk cara memperlakukan data sebagai asset melalui nilai, biaya, resiko, waktu, kualitas dan akurasi data.
(Sun & Heller, 2012, p. 11)
Adding Big Data Capabilities Mendefinisikan kemampuan memproses untuk big data architecture, diperlukan beberapa hal yang perlu dilengkapi; volume, percepatan, variasi, dan nilai yang menjadi tuntutan. Ada strategi teknologi yang berbeda untuk real-time dan keperluan batch processing. Untuk real-time, menyimpan data nilai kunci, seperti NoSQL, memungkinkan untuk performa tinggi, dan pengambilan data berdasarkan indeks. Untuk batch processing, digunakan teknik yang dikenal sebagai Map Reduce, memfilter data berdasarkan pada data yang spesifik pada strategi penemuan. Setelah data yang difilter ditemukan, maka akan dianalisis
8
secara langsung, dimasukkan ke dalam unstructured database yang lain, dikirimkan ke dalam perangkat mobile atau digabungkan ke dalam lingkungan data warehouse tradisional dan berkolerasi pada data terstruktur.
(Sun & Heller, 2012, p. 11) Sebagai tambahan untuk unstructured data yang baru, ada dua kunci perbedaan untuk big data. Pertama, karena ukuran dari data set, raw data tidak dapat secara langsung dipindahkan ke dalam suatu data warehouse. Namun, setelah proses Map Reduce ada kemungkinan akan terjadi reduksi hasil dalam lingkungan data warehouse sehingga dapat memanfaatkan pelaporan business intelligence, statistik, semantik, dan kemampuan korelasi yang biasa. Akan sangat ideal untuk memiliki kemampuan analitik yang mengkombinasikan perangkat BI bersamaan dengan visualisasi big data dan kemampuan query. Kedua, untuk memfasilitasi analisis dalam laingkungan Hadoop, lingkungan sandbox dapat dibuat. Untuk beberapa kasus, big data perlu mendapatkan data yang terus berubah dan tidak dapat diperkirakan, untuk menganilisis data tersebut, dibutuhkan arsitektur yang baru. Dalam perusahaan retail, contoh yang bagus adalah dengan menangkap jalur lalu lintas secara real-time dengan maksud untuk memasang iklan atau promosi toko di tempat strategis yang dilewati banyak orang, mengecek peletakan barang dan promosi, mengamati secara langsung pergerakan dan tingkah laku pelanggan. Dalam kasus lain, suatu analisis tidak dapat diselesaikan sampai dihubungkan dengan data perusahaan dan data terstruktur lainnya. Sebagai contohnya, analisis perasaan pelanggan, mendapatkan respon positif atau negatif dari social media akan memiliki suatu nilai, tetapi dengan mengasosiasikannya dengan segala macam pelanggan (paling menguntungkan atau bahkan yang paling tidak menguntungkan) akan memberikan nilai yang lebih berharga. Jadi, untuk memenuhi kebutuhan yang diperlukan oleh big data BI adalah konteks dan pemahaman. Menggunakan kekuatan peralatan statistikal dan semantik akan sangat memungkinkan untuk dapat memprediksikan kemungkinan – kemungkinan di masa depan.
An Integrated Information Architecture Salah satu tantangan yang diteliti dalam pemakaian Hadoop dalam perusahaan adalah kurangnya integrasi dengan ekosistem BI yang ada. Saat ini BI tradisional dan ekosistem big data terpisah dan menyebabkan analis data terintegrasi mengalami kebingungan. Sebagai hasilnya, hal ini tidaklah siap untuk digunakan oleh pengguna bisnis dan eksekutif biasa.
9
Pengguna big data yang pertama kali mencoba menggunakan, seringkali menulis kode khusus untuk memindahkan hasil big data yang telah diproses kembali ke dalam database untuk dibuat laporan dan dianalisa. Pilihan – pilihan ini mungkin tidak layak dan ekonomis untuk perusahaan IT. Pertama, karena menyebabkan penyebaran salah satu data dan standar yang berbeda, sehingga arsitekturnya mempengaruhi ekonomi IT. Big data dilakukan secara independen untuk menjalankan resiko investasi yang redundan, sebagai tambahannya, banyak bisnis yang sama sekali tidak memiliki staff dan ketrampilan yang dibutuhkan untuk pengembangan pekerjaan yang khusus. Pilihan yang paling tepat adalah menggabungkan hasil big data ke dalam data warehouse. Kekuatan informasi ada dalam kemampuan untuk asosiasi dan korelasi. Maka yang dibutuhkan adalah kemampuan untuk membawa sumber data yang berbeda-beda, memproses kebutuhan bersama – sama secara tepat waktu dan analisis yang berharga.
(Sun & Heller, 2012, p. 13) Ketika bermacam – macam data telah didapatkan, data tersebut dapat disimpan dan diproses ke dalam DBMS tradisional, simple files, atau sistem cluster terdistribusi seperti NoSQL dan Hadoop Distributed File System (HDFS). Secara arsitektur, komponen kritikal yang memecah bagian tersebut adalah layer integrasi yang ada di tengah. Layer integrasi ini perlu untuk diperluas ke seluruh tipe data dan domain, dan menjadi jembatan antara data penerimaan yang baru dan tradisional, dan pengolahan kerangka. Kapabilitas integrasi data perlu untuk menutupi keseluruhan spektrum dari kecepatan dan frekuensi. Hal tersebut diperlukan untuk menangani kebutuhan ekstrim dan volume yang terus bertambah banyak. Oleh karena itu diperlukan teknologi yang memungkinkan untuk mengintegrasikan Hadoop / Map Reduce dengan data warehouse dan data transaksi. Layer berikutnya digunakan untuk Load hasil reduksi dari big data ke dalam data warehouse untuk analisis lebih lanjut. Diperlukan juga kemampuan untuk mengakses data terstruktur seperti informasi profil pelanggan ketika memproses dalam big data untuk mendapatkan pola seperti mendeteksi aktivitas yang mencurigakan.
10
Hasil pemrosesan data akan dimasukkan ke dalam ODS tradisional, data warehouse, dan data marts untuk analisis lebih lanjut seperti data transaksi. Komponen tambahan dalam layer ini adalah Complex Event Processing untuk menganalisa arus data secara real-time. Layer business intelligence akan dilengkapi dengan analisis lanjutan, dalam analisis database statistik, dan visualisasi lanjutan, diterapkan dalam komponen tradisional seperti laporan, dashboards, dan query. Pemerintahan, keamanan, dan pengelolaan operasional juga mencakup seluruh spektrum data dan lanskap informasi pada tingkat enterprise. Dengan arsitektur ini, pengguna bisnis tidak melihat suatu pemisah, bahkan tidak sadar akan perbedaan antara data transaksi tradisional dan big data. Data dan arus analisis akan terasa mulus tanpa halangan ketika dihadapkan pada bermacam – macam data dan set informasi, hipotesis, pola analisis, dan membuat keputusan. 3.5 Big Data for development Big Data untuk keperluan development berkaitan dengan, tetapi berbeda dari, 'tradisional Data pembangunan '(misalnya data survei, statistik resmi), dan sektor swasta dan media mainstream menyebutnya 'Big Data’.
Big Data untuk sumber Pengembangan umumnya memiliki beberapa / semua fitur ini: 1. Digitally generated data yang dihasilkan secara digital (sebagai lawan yang didigitalkan manual), dan dapat disimpan dengan menggunakan rangkaian satu dan nol, dan dengan demikian dapat dimanipulasi oleh komputer 2. Passively produced Data ini merupakan data yang dihasilkan atau produk dari kehidupan kita sehari-hari atau interaksi dengan jasa digital. 3. Automatically collected Data-data yang terbentuk dari data-data operasional dan transaksi yang dikumpulkan dan telah diproses (ETL) dan si simpan kedalam data mart 4. Geographically or temporally trackable Data –data yang menunjukan lokasi atau posisi, misalnya data lokasi ponsel atau durasi waktu panggilan 5. Continuously analysed informasi yang relevan dengan kesejahteraan manusia dan pembangunan dan dapat dianalisis secara real-time 3.6 Pengunaan Big Data dalam perusahaan
IT logs Analytics Penyimpanan Log jangka panjang, digunakan untuk analisa proses sistem yang sedang berjalan untuk mencegah dan menaggulangi kegagalan dalam sistem, mengunakan hasil analisa log untuk menemukan
11
dan mentukan secara pasti kegagalan apa yang terjadi didalam sistem, menyiapkan langkah-langkah pasti yang dapat digunakan sebagai solusi masalah sistem.
Fraud Detection Pattern Banyak digunakan dalam Bidang keuangan atau dimana saja transaksi finasial terlibat, Memaksimalkan pengunaan data-data yang ada untuk memberikan kemampuan unutk mendeteksi fraud ketika transaksi sedang berlangsung The Social Media Pattern Pengunaan Big data untuk analisa media social dan sentiment pelangan, memberikan kemampuan bagi perusahan untuk mengetahui keinginan customer secara luas, mendapatkan feedback secara langsung, dan mengenali langsung dampak sentimen terhadap penjualan, serta efektivitas dan penerimaan pelangan terhadap pemasaran yang dilakukan. The Call centere Mantra Penyimpanan hasil perbincangan atau laporan customer dalam bentuk text yang kemudian digunakan sebagai data untuk analisa masalah yang dihadapai customer, memberikan kemampuan bagi perusahaan untuk memberikan tanggapan yang cepat maupun secara langsung terhadap masalah yang dihadapi customer, serta kemampuan unutk mendeteksi penurunan loyalitas customer dikarenakan masalah dan ketidakpuasaan. Risk: Patterns for Modeling and Management Memberikan kempuaan pengunaan data secara penuh dan analisis dalam pemodelan resiko dan menejemen resiko untuk memberikan pengetahuan akan resiko dan penanggulangannya secara tepat dan langsung Big data and The Energy Sector Memberikan kemampuan penyimpanan dan pemrosesan data secara langsung dari berbagai sumber(sensor), analisa dan kemudahan dalam pengenalan noise untuk memisahkannya dari signal.
3.7 Membangun Big Data Platform Seperti data pergudangan, toko web atau platform TI, infrastruktur untuk data yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan semua komponen platform data yang besar, penting untuk diingat bahwa tujuan akhir adalah untuk dengan mudah mengintegrasikan data yang besar dengan data perusahaan Anda untuk memungkinkan Anda untuk melakukan analisis mendalam pada set data gabungan. Infrastructure Requirements
12
Requirement dalam big data infrastruktur :
data acquisition, data organization data analysis
Data acquisition Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur pada hari-hari sebelum big data. Karena big data mengacu pada aliran data dengan kecepatan yang lebih tinggi dan ragam yang bervariasi, infrastruktur yang diperlukan untuk mendukung akuisisi data yang besar harus disampaikan secara perlahan, dapat diprediksi baik di dalam menangkap data dan dalam memprosesnya secara cepat dan sederhana, dapat menangani volume transaksi yang sangat tinggi , sering dalam lingkungan terdistribusi, dan dukungan yang fleksibel, struktur data dinamis. Database NoSQL sering digunakan untuk mengambil dan menyimpan big data. Mereka cocok untuk struktur data dinamis dan sangat terukur. Data yang disimpan dalam database NoSQL biasanya dari berbagai variasi/ragam karena sistem dimaksudkan untuk hanya menangkap semua data tanpa mengelompokkan dan parsing data. Sebagai contoh, database NoSQL sering digunakan untuk mengumpulkan dan menyimpan data media sosial. Ketika aplikasi yang digunakan pelanggan sering berubah, struktur penyimpanan dibuat tetap sederhana. Alih-alih merancang skema dengan hubungan antar entitas, struktur sederhana sering hanya berisi kunci utama untuk mengidentifikasi titik data, dan kemudian wadah konten memegang data yang relevan. Struktur sederhana dan dinamis ini memungkinkan perubahan berlangsung tanpa reorganisasi pada lapisan penyimpanan. Data Organization Dalam istilah Data pergudangan klasik, pengorganisasian data disebut integrasi data. Karena ada volume/jumlah data yang sangat besar, ada kecenderungan untuk mengatur data pada lokasi penyimpanan aslinya, sehingga menghemat waktu dan uang dengan tidak memindah-midahkan data dengen volume yang besar. Infrastruktur yang diperlukan untuk mengatur data yang besar harus mampu mengolah dan memanipulasi data di lokasi penyimpanan asli. Biasanya diproses didalam batch untuk memproses data yang besar, beragam format, dari tidak terstruktur menjadi terstruktur. Apache Hadoop adalah sebuah teknologi baru yang memungkinkan volume data yang besar untuk diatur dan diproses sambil menjaga data pada cluster penyimpanan data asli. Hadoop Distributed File System (HDFS) adalah sistem penyimpanan jangka panjang untuk log web misalnya. Log web ini berubah menjadi perilaku browsing dengan menjalankan program MapReduce di cluster dan menghasilkan hasil yang dikumpulkan di dalam cluster yang sama. Hasil ini dikumpulkan kemudian dimuat ke dalam sistem DBMS relasional. Data Analysis Karena data tidak selalu bergerak selama fase organisasi, analisis ini juga dapat dilakukan dalam lingkungan terdistribusi, di mana beberapa data akan tinggal di mana data itu awalnya disimpan dan diakses secara transparan dari sebuah data warehouse. Infrastruktur yang diperlukan untuk menganalisis data
13
yang besar harus mampu mendukung analisis yang lebih dalam seperti analisis statistik dan data mining, pada data dengan jenis yang beragam dan disimpan dalam sistem yang terpisah, memberikan waktu respon lebih cepat didorong oleh perubahan perilaku; dan mengotomatisasi keputusan berdasarkan model analitis. Yang paling penting, infrastruktur harus mampu mengintegrasikan analisis pada kombinasi data yang besar dan data perusahaan tradisional. Wawasan baru datang bukan hanya dari analisis data baru, tapi dari menganalisisnya dalam konteks yang lama untuk memberikan perspektif baru tentang masalah lama. Misalnya, menganalisis data persediaan dari mesin penjual otomatis cerdas dalam kombinasi dengan acara kalender untuk tempat di mana mesin penjual otomatis berada, akan menentukan kombinasi produk yang optimal dan jadwal pengisian untuk mesin penjual otomatis.
3.8 Tantangan dalam pemanfaatan Big Data Dalam usaha pemanfaatan Big Data dapat terdapat banyak hambatan dan tantangan, beberapa hal diantaranya berhubungan dengan data dimana melibatkan acquisition, sharing dan privasi data, serta dalam analisis dan pengolahan data
Privasi Privasi merupakan isu yang paling sensitif, dengan konseptual, hukum, dan teknologi, Privasi dapat dipahami dalam arti luas sebagai usaha perusahaan untuk melindungi daya saing dan konsumen mereka. Data-data yang digunakan / disimpan sebagai big data
Access dan sharing Akses terhadap data, baik data lama maupun data baru dapat menjadi hambatan dalam mendapatkan data untuk big data, terlebih pada data lama dimana data- data tersimpan dalam bentuk – bentuk yang berbeda-beda dan beragam ataupun dalam bentuk fisik, akses terhadap data baru juga membutuhkan usaha yang lebih kerana diperlukannya izin dan lisensi untuk mengakses data-data non-public secara legal.
Analisis Bekerja dengan sumber data baru membawa sejumlah tantangan analitis. relevansi dan tingkat keparahan tantangan akan bervariasi tergantung pada jenis analisis sedang dilakukan, dan pada jenis keputusan yang akhirnya akan bisa diinformasikan oleh data. Tergantung dari jenis data terdapat 3 kategori dalam analisis data
o Penentuan gambaran yang benar Masalah ini biasanya ditemukan dalam penanganan unstructured usergenerated text-based data dimana data yang didapatkan belum tentu benar karena data atau sumber yang salah. o Interpreting Data Kesalahan –kesalahan seperti Sampling selection bias merupakan hal yang sering ditemukan dimana data yang ada tidak dapat digunakan untuk mepresentasikan semua populasi yang ada, dan apophenia, melihat adanya 14
pola walaupun tidak benar-benar ada dikarenakan jumlah data yang besar, dan kesalahan dalam menginterpreasikan hubungan dalam data. o Defining and detecting anomalies tantangan sensitivitas terhadap spesifisitas pemantauansistem. Sensitivitas mengacu pada kemampuan sistem pemantauan untuk mendeteksi semua kasus sudah diatur untuk mendeteksi sementara spesifisitas mengacu pada kemampuannya untuk mendeteksi hanya kasus-kasus yang relevan. kegagalan untukmencapai hasil yang terakhir "Tipe I kesalahan keputusan", juga dikenal sebagai "positif palsu"; kegagalanuntuk mencapai mantan "Type II error", atau "negatif palsu." Kedua kesalahan yang tidak diinginkan ketika mencoba untuk mendeteksi malfungsi atau anomali, bagaimanapun didefinisikan, untuk berbagai alasan. Positif palsu merusak kredibilitas sistem sementara negatif palsu dilemparkan ragu pada relevansinya. Tapi apakah negatif palsu lebih atau kurang bermasalah daripada positif palsu tergantung pada apa yang sedang dipantau, dan mengapa itu sedang dipantau.
Methods and techniques A brief description of select completed or ongoing projects that are about developing new big data methods and techniques are described below. If you need further information, please contact us. Probabilistic graphical modeling This funded research is about developing probabilisitic models to understand complex domains with large amounts of uncertainty. This involves the development of methods and algorithms for representation, inference and learning using probabilistic graphical models, e.g., Bayesian networks and Markov networks. Developed techniques are applied to solve real world problems such as heterogeneous data integration, imbalanced data learning, and big data learning. Mining Twitter data: From content to connections Microblogging has quickly grown as the avatar of social interaction. Though many websites like FriendFeed, Dailybooth, and Tumblr support microblogging, Twitter is the most favored microblogging platform. With 500 million registered users, more than 400 million tweets are posted every day. Twitter’s ability to propagate real-time information to a wide set of users makes it a potential system for disseminating vital information. About our Twitter database and infrastructure at WSU: We collect streaming data from the Twitter’s firehose API. This gives us about 10 percent of the entire Twitter data. We obtain about 5GB of data and about 19 million tweets each day. Since our data is extremely “big and growing”, we have established a complete distributed database that can perform parallel queries through the API. Our setup is designed to greatly minimize the query time for big data processing. We have designed our system to retrieve and analyze a wide array of information from the Twitter data such as retweet network, Follower and friends network, Twitter Lists, Geo-location based statistics, Topic modeling on Tweets, etc. Recent Work Location-specific tweet detection and topic summarization in Twitter: We developed a novel framework to identify and summarize tweets that are specific to a particular geo-graphical
15
location. Our new weighting scheme called Location Centric Word Co-occurrence (LCWC) uses the content of the tweets and the network information of the “twitterers” to identify tweets that are location-specific. Using our approach, the topics that are specific to a particular location of interest are summarized and presented to the end-users. In our analysis, we found that (a) top trending tweets from a location are poor descriptors of location-specific tweets, (b) ranking the tweets based on users’ geo-location cannot ascertain the location specificity of the tweets, and (c) the users’ network information plays an important role in determining the location-specific characteristics of the tweets. Low-rank approximation-based spectral clustering for big data analytics Spectral clustering is a well-known graph-theoretic approach of finding natural groupings in a given dataset. Today, digital data are accumulated at a faster than ever speed in various fields, such as the Web, science, engineering, biomedicine, and real-world sensing. It is not uncommon for a dataset to contain tens of thousands of samples and/or features. Spectral clustering generally becomes infeasible for analyzing these big data. In this project, we propose a Low-rank Approximation-based Spectral (LAS) clustering for big data analytics. By integrating low-rank matrix approximations, i.e., the approximations to the affinity matrix and its subspace, as well as those for the Laplacian matrix and the Laplacian subspace, LAS gains great computational and spatial efficiency for processing big data. In addition, we propose various fast sampling strategies to efficiently select data samples. From a theoretical perspective, we mathematically prove the correctness of LAS, and provide the analysis of its approximation error, and computational complexity. Addressing big data challenges in genome sequencing and RNA interaction prediction 1. Single-cell genome sequencing: Enormous progress towards ubiquitous DNA sequencing has now brought a whole new realm of exciting applications within reach, one of which is genomic analysis at single-cell resolution. Singlecell genome sequencing holds great promise for various areas of biology including environmental biology, studying a myriad of uncultivable environmental bacteria ranging from the human body to the oceans, and tumor phylogenetics. The Algorithmic Biology Lab (ABL) has developed two singlecell genome assembly tools, Velvet-SC and HyDA, that can process terabyte large DNA sequencing data sets. We do not call that Big Data, even though some researchers may consider one DNA sequencing data set big. Big Data challenges emerge when we have to deal with a sample that often contains millions and sometimes billions of single cells. Our key observation is the redundancy in a sample, as many cells are biological replicates. Funded by NSF ABI, our group works on compressive sensing algorithms to extract all the genomes in a sample with minimal sequencing cost and computational effort. The size of such data can reach a few petabytes. 2. RNA structure and RNA-RNA interaction prediction: RNA has found a new key role in the research arena after astonishing discoveries of regulatory mechanisms of non-coding RNAs in the late 90's. The importance of those discoveries was recognized when the Noble prize was awarded in 2006, only a few years after, to Andrew Fire and Craig Mello for their discovery of RNA interference - gene silencing by double-stranded RNA. The ABL develops RNA secondary structure and RNA-RNA interaction prediction algorithms. Although the input data sets are RNA sequences which are not large, our O(n^6) running-time and O(n^4)-memory algorithms have to deal with several hundred gigabytes of memory space for small RNA sequences. Therefore, the intermediary data that is generated by the algorithm, along the way from sequence data to structure or interaction information, poses Big Data challenges. For instance, machine learning algorithms and mining folding pathways from such intermediary data sets need deep computational tricks, e.g. topology-preserving dimensionality reduction, to become tractable on today's machines.
16
Detecting qualitative changes in living systems Currently, early detection of complex diseases is achieved only after the physiological traits of the phenotype are present. For instance, in the case of cancer, when the tumor is already present. Qualitative changes detected at the genomic level can help prevent the evolution of complex diseases right at the onset. Instead of detecting the presence of cancer, we aim to detect the departure from the healthy state. The big data challenge here comes from the added need to monitor and continuously analyze the expression levels of 30,000 genes and more than 100,000 proteins over many time points, leading to a major data explosion. Results on several model organisms using simulated and real data show that our method can accurately detect intervals when the biological system (i.e.: cell) changes from one qualitative state to another. To the best of our knowledge, this would be the first tool able to pinpoint, using high-throughput transcriptome data and signaling pathways, a moment in time when a system significantly changes its state in a qualitative way.
Definisi dari data scientist atau data science itu sendiri masih belum jelas. Secara umum, data science berarti pengambilan wawasan atau pengetahuan dari jumlah data yang sangat besar, baik yang terstruktur mau pun yang tidak terstruktur. Menurut Peter Sugiapranata, Sales Director untuk SAS Indonesia, terdapat kesenjangan antara TI, data, dan bisnis, dan menurut Peter, data scientist adalah orang yang menjembatani ketiga aspek tersebut. Lebih jauh lagi Peter menjabarkan syarat-syarat yang harus dimiliki oleh seorang data scientist, yaitu memiliki kemampuan untuk mengolah, mengeksplor, menguak, menginvestigasi, dan memvisualisasikan data. Data scientist mampu menguraikan hasil analisa dan mengkomunikasikannya kepada para pengambil keputusan tentang bagaimana hasil analisa yang diperoleh dapat diaplikasikan pada berbagai area bisnis. Apa sebenarnya yang memotivasi datamining dan mengapa data mining begitu penting ? Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna. Data mining adalah kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan. Dimana langkah-langkah untuk melakukan data mining adalah sebagai berikut :
17
– Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration (di mana sumber data yang terpecah dapat disatukan) – Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database) – Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi) – Data mining (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data) – Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik) – Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kpada user). Arsitektur dari data mining yang khas memiliki beberapa komponen utama yaitu : – Database, data warehouse, atau tempat penyimpanan informasi lainnya. – Server database atau data warehouse. – Knowledge base – Data mining engine. – Pattern evolution module. – Graphical user interface.
18
Ada beberapa jenis data dalam data mining yaitu : – Relation Database : Sebuah sistem database, atau disebut juga database management system (DBMS), mengandung sekumpulan data yang saling berhubungan, dikenal sebagai sebuah database, dan satu set program perangkat lunak untuk mengatur dan mengakses data tersebut. – Data Warehouse : Sebuah data warehouse merupakan sebuah ruang penyimpaan informasi yang terkumpul dari beraneka macam sumber, disimpan dalam skema yang menyatu, dan biasanya terletak pada sebuah site. Kemudian pola seperti apa yang dapat ditambang ? Kegunaan data mining adalah untuk menspesifikasikan pola yang harus ditemukan dalam tugas data mining. Secara umum tugas data mining dapat diklasifikasikan ke dalam dua kategori: deskriptif dan prediktif. Tugas menambang secara deskriptif adalah untuk mengklasifikasikan sifat umum suatu data di dalam database. Tugas data mining secara prediktif adalah untuk mengambil kesimpulan terhadap data terakhir untuk membuat prediksi. Konsep/Class Description Data dapat diasosiasikan dengan pembagian class atau konsep. Untuk contohnya, ditoko All Electronics, pembagian class untuk barang yang akan dijual termasuk komputer dan printer, dan konsep untuk konsumen adalah big Spenders dan budget Spender. Hal tersebut sangat berguna untuk menggambarkan pembagian class secara individual dan konsep secara ringkas, laporan ringkas, dan juga pengaturan harga. Deskripsi suatu class atau konsep seperti itu disebut class/concept descripition. Association Analysis Association analysis adalah penemuan association rules yang menunjukkan nilai kondisi suatu attribute yang terjadi bersama-sama secara terus-menerus dalam memmberikan set data. Association analysis secara luas dipakai untuk market basket atau analisa data transaksi. Klasifikasi dan Predikasi Klasifikasi dan prediksi mungkin perlu diproses oleh analisis relevan, yang berusaha untuk mengidentifikasi atribut-atribut yang tidak ditambahkan pada proses klasifikasi dan prediksi. Atribut-atribut ini kemudian dapat di keluarkan. Cluster Analysis Tidak seperti klasifikasi dan prediksi, yang menganalisis objek data dengan kelas yang terlabeli, clustering menganalisis objek data tanpa mencari keterangan pada label kelas yang diketahui. Pada umumnya, label kelas tidak ditampilkan di dalam latihan data simply, karena mereka tidak tahu bagaimana memulainya. Clustering dapat digunakan untuk menghasilkan label-label. Outlier Analysis § Outlier dapat dideteksi menggunakan test yang bersifat statistik yang mengambil sebuah distribusi atau probabilitas model untuk data, atau menggunakan langkah-langkah jarak jauh di mana objek yang penting jauh dari cluster lainnya dianggap outlier.
19
§ Sebuah database mungkin mengandung objek data yang tidak mengikuti tingkah laku yang umum atau model dari data. data ini disebut outlier. Evolution Analysis Data analisa evolusi menggambarkan ketetapan model atau kecenderungan objek yang memiliki kebiasaan berubah setiap waktu. Meskipun ini mungkin termasuk karakteristik, diskriminasi, asosiasi, klasifikasi, atau clustering data berdasarkan waktu, kelebihan yang jelas seperti analisa termasuk analisa data time-series, urutan atau pencocockkan pola secara berkala, dan kesamaan berdasarkan analisa data. Untuk melakukan data mining yang baik ada beberapa persoalan utama yaitu menyangkut metodologi mining dan interaksi user, performance dan perbedaan tipe database. Hal inilah yang sering kali dihadapi disaat kita ingin melakukan data mining.
Tahapan dalam melakukan data mining salah satunya adalah preprosesing data.
Pengertian data preparation Data Preparation atau bisa disebut juga dengan data preprocessing adalah suatu proses/langkah yang dilakukan untuk membuat data mentah menjadi data yang berkualitas(input yang baik untuk data mining tools). Mengapa data perlu di-preprocessing? Karena dalam data mentah masih terdapat data yang : 1.
incomplete, yaitu data yang kekurangan nilai atribut atau hanya mengandung agregat data (contoh : address = " "). 2. noisy, yaitu data yang masih mengandung error dan outliers (contoh : salary = -10). 3. inconsistent, yaitu data yang mengandung discrepansi dalam code dan nama atau singkatnya datanya tidak konsisten (contoh : dulu rating = 1,2,3 sekarang a,b,c). Beberapa hal yang perlu diperhatikan untuk mendapatkan data yang baik adalah : – Accuracy – Completeness – Consistency – Timeliness – Value added – Interpretability – Accessibility – Contextual – Representational
Mengapa harus dilakukan data preparation?
1.
Jika data masukan tidak berkualitas, maka hasil data mining juga tidak akan berkualitas. 2. Keputusan yang berkualitas pasti berasal/berdasarkan data yang berkualitas. 3. Data Warehouse membutuhkan integrasi yang konsisten dari data yang berkualitas. 4. Jangan sampai terjadi Garbage In Garbage Out. Dalam data mining terdapat banyak tool pemodelan. Setiap tool memiliki kelebihan dan kekurangan masing-masing. Tool bisa saja sensitif terhadap tipe data, noise, dan missing value. Jadi suatu data bisa dikatakan berkualitas atau tidak tergantung nantinya mau dimodelkan dengan tool yang mana. Suatu data bisa dikatakan berkualitas untuk suatu tool, tapi belum tentu berkualitas untuk tool yang lain.
20
Langkah-Langkah dalam data preparation : 1. Data Cleaning Dalam data cleaning yang akan kita lakukan antara lain mengisi missing value, mengidentifikasi outlier, menangani data noise, mengoreksi data yang tidak konsisten, dan menyelesaikan masalah redudansi data akibat integrasi data. 2. Data Integration Data integration adalah suatu langkah untuk menggabungkan data dari beberapa sumber. Data integration hanya dilakukan jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari 1 tempat). Langkah yang dilakukan antara lain mengintegrasikan skema, mengidentifikasi masalah entitas, dan mendeteksi sekaligus menyelesaikan konflik pada nilai data. 3. Data Transformation Data transformation yaitu mengubah suatu data supaya diperoleh data yang lebih berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data (smoothing), meng-agregasi data, generalisasi data, normalisasi data, dan pembentukan atribut/fitur. 4. Data Reduction Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah data. Yang akan dilakukan antara lain agregasi data cube, reduksi dimensi, diskretisasi, dan kompresi data.
5. Data diskretisasi: Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data numerik.
Contoh Studi Kasus Penggunaan Analisis Big Data Dalam implementasinya, penerapan analisis big data cocok untuk berbagai bidang bisnis. Berikut ini beberapa contoh studi kasus penggunaannya : 1. Lembaga keuangan dapat menggunakan analisis big data agar cepat mengidentifikasi potensi penipuan sebelum menjadi besar efeknya, sehingga meminimalkan resiko kerugian secara finansial. 2. Pemerintahan dapat manfaatkan analisis big data untuk meningkatkan keamanan negara dengan mampu mendeteksi, mencegah dan melawan serangan cyber. 3. Industri kesehatan dapat menggunakan analisis terhadap big data untuk meningkatkan layanan perawatan pasien dan menemukan cara yang lebih baik untuk mengelola sumber daya dan personil. 4. Perusahaan telekomunikasi dapat memanfaatkan analisis big data untuk mencegah churn pelanggan, dan juga merencanakan cara terbaik untuk mengoptimalkan jaringan nirkabel baik yang baru maupun yang sudah ada. 5. Marketing dapat menggunakan big data untuk melakukan analisis sentimen untuk mengetahui tingkat kepuasan pelanggan terhadap produk dan layanan yang dipasarkan.
21
6. Perusahaan asuransi dapat menggunakan analisis big data untuk mengkategorikan pengajuan asuransi yang dapat segera diproses, dan mana yang perlu divalidasi dengan dilakukan kunjungan oleh agen asuransi. 7. Perusahaan ritel dapat menggunakan informasi dari social media seperti Facebook, Twitter, Google+ yang disimpan dengan teknologi big data, yang selanjutnya digunakan untuk menganalisis bagaimana perilaku, persepsi pelanggan terhadap suatu produk atau brand dari perusahan. Solusi big data yang ditawarkan pada umumnya menggunakan kerangka kerja (framework) Hadoop dan beberapa tools pendukung lainnya seperti HBase, Pig, Hive, Mapreduce, Oozie, Zookeeper, HCatalog, Avro, Sqoop. Yang memungkinkan pengguna untuk menyimpan, mengelola dan menganalisa data dari berbagai sumber, di mana data tersebut dapat diakses oleh para analis bisnis, data scientist dan pengguna/praktisi TI. Solusi big data tersebut adapula yang secara arsitektur dikombinasikan dengan teknologi yang sudah biasa untuk keperluan analisis dan visualisasi data, seperti Data Warehouse dan Business Intellegent (BI). Dengan menggunakan tools visualisasi tersebut akan lebih menarik dan mudah dalam penyediaan reporting dari hasil analisis. Berikut ini beberapa jenis metode atau teknik dalam melakukan analisis big data : 1. Analisis Teks, merupakan proses menganalisis data teks (unstructured-data) seperti blog, email, forum, tweet, forum dan bentuk lainnya. 2. Data Mining, merupakan suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dari sekumpulan besar data dengan menggunakan teknik pengenalan pola seperti statisik dan matematika 3. Machine Learning 4. Analisis Prediksi (Predictive Analytics) 5. Analisis Statistik 8. NLP (Natural Language Processing)
22