Big Data dapat juga didefinisikan sebagai sebuah masalah domain dimana teknologi
tradisional seperti relasional database
tidak mampu lagi untuk melayani.
Big data lebih dari hanya masalah
ukuran, itu adalah kesempatan untuk menemukan wawasan dalam jenis baru dan
muncul data dan konten, untuk membuat bisnis Anda lebih gesit, dan menjawab
pertanyaan yang sebelumnya dianggap di luar jangkauan Anda.
Big
data dapat di artikan
kedalam 9 karakter (IBM) menurut responden
sehingga disimpulkan oleh IBM, Big data adalah data yang memiliki scope
informasi yang sangat besar, model informasi yang real-time, memiliki volume
yang besar, dan berasalkan social media data jadi dapat disimpulkan bahwa Big
data adalah dataset yang memiliki volume besar dan salah satu isinya
berdasarkan social media data, dan informasi dari Big data selalu yang terbaru
(latestdata) sehingga model informasi nya real-time, dan scope informasi nya
tidak terfocus pada industri-indrustri kecil saja atau industri-indrustri besar
saja melainkan semuanya baik industry kecil maupun besar.
(IBM)
3.2 Dimensi -Dimensi Big Data
Ada 3 dimensi awal dalam Big Data yaitu 3V:
Volume, Variety dan Velocity
·
Volume
perusahaan tertimbun dengan data
yang terus tumbuh dari semua jenis sektor, dengan mudah mengumpulkan terabyte
bahkan petabyte-informasi.
Ø
Mengubah 12 terabyte Tweet dibuat
setiap hari ke dalam peningkatan sentimen analisis produk.
Ø
Mengkonvert 350 milliar pembacaan tahunan
untuk lebih baik dalam memprediksi kemampuan beli pasar.
Mungkin karakteristik ini yang paling mudah
dimengerti karena besarnya data. Volume juga mengacu pada jumlah massa data,
bahwa organisasi berusaha untuk memanfaatkan data untuk meningkatkan pengambilan
keputusan yang banyak perusahaan di banyak negara. Volume data juga terus
meningkat dan belum pernah terjadi sampai sethinggi ini sehingga tidak dapat
diprediksi jumlah pasti dan juga ukuran dari data sekitar lebih kecil dari
petabyte sampai zetabyte. Dataset big data sekitar 1 terabyte sampai 1 petabyte
perperusahaan jadi jika big data digabungkan dalam sebuah organisasi / group
perusahaan ukurannya mungkin bisa sampai zetabyte dan jika hari ini jumlah data
sampai 1000 zetabyte, besok pasti akan lebih tinggi dari 1000 zetabyte.
·
Variety
Volume data yang banyak tersebut
bertambah dengan kecepatan yang begitu cepat sehingga sulit bagi kita untuk
mengelola hal tersebut. Kadang-kadang 2 menit sudah menjadi terlambat. Untuk
proses dalam waktu sensitif seperti penangkapan penipuan, data yang besar harus
digunakan sebagai aliran ke dalam perusahaan Anda untuk memaksimalkan nilainya.
Ø
Meneliti 5 juta transaksi yang
dibuat setiap hari untuk mengidentifikasi potensi penipuan
Ø
Menganalisis 500 juta detail catatan
panggilan setiap hari secara real-time untuk memprediksi gejolak pelanggan
lebih cepat.
Berbagai jenis
data dan sumber data. Variasi adalah tentang mengelolah kompleksitas beberapa
jenis data, termasuk structured data, unstructured data dan semi-structured
data. Organisasi perlu mengintegrasikan dan menganalisis data dari array yang
kompleks dari kedua sumber informasi Traditional dan non traditional informasi,
dari dalam dan luar perusahaan. Dengan begitu banyaknya sensor, perangkat
pintar (smart device) dan teknologi kolaborasi sosial, data yang dihasilkan
dalam bentuk yang tak terhitung jumlahnya,
termasuk text, web data, tweet, sensor data, audio, video, click stream,
log file dan banyak lagi.
·
Velocity
:
Big Data adalah
setiap jenis data - data baik yang terstruktur maupun tidak terstruktur seperti
teks, data sensor, audio, video, klik stream, file log dan banyak lagi. Wawasan
baru ditemukan ketika menganalisis kedua jenis data ini bersama-sama.
·
Memantau 100 video masukan langsung
dari kamera pengintai untuk menargetkan tempat tujuan.
·
Mengeksploitasi 80% perkembangan
data dalam gambar, video, dan dokumen untuk meningkatkan kepuasan pelanggan.
Data
dalam gerak. Kecepatan di mana data dibuat, diolah dan dianalisis terus
menerus. Berkontribusi untuk kecepatan yang lebih tinggi adalah sifat
penciptaan data secara real-time, serta kebutuhan untuk memasukkan streaming
data ke dalam proses bisnis dan dalam pengambilan keputusan. Dampak Velocity
latency, jeda waktu antara saat data dibuat atau data yang ditangkap, dan ketika itu juga dapat
diakses. Hari ini, data terus-menerus dihasilkan pada kecepatan yang mustahil
untuk sistem tradisional untuk menangkap, menyimpan dan menganalisis. Jenis
tertentu dari data harus dianalisis secara real time untuk menjadi nilai bagi
bisnis.
3.3 Dimensi Ketidakpastian data
(IBM)
Dalam industri untuk meningkatan sebuah data
lebih berkualitas dibutuhkan dimensi ke empat yaitu Veracity, pencantuman
Veracity dapat menekankan pengelolahan dan penanganan untuk suatu
ketidakpastian yang melekat dalam beberapa jenis data.
Veracity
1 dari 3 pemimpin bisnis tidak mempercayai informasi yang
mereka gunakan untuk membuat keputusan. Bagaimana Anda dapat bertindak atas informasi
yang anda tidak percaya? Membangun kepercayaan atas big data menghadirkan tantangan besar sebagai variasi dan sumber
untuk pertumbuhan perusahaan.
ketidakpastian data.
Veracity mengacu pada tingkat keandalan yang terkait dengan jenis tertentu dari
data. Berjuang untuk kualitas data yang tinggi merupakan syarat big data
penting dan tantangan, tapi bahkan metode pembersihan data yang terbaik tidak
dapat menghapus ketidakpastian yang melekat pada beberapa data, seperti cuaca,
ekonomi, atau aktual keputusan membeli pelanggan masa depan. Kebutuhan untuk
mengakui dan merencanakan ketidakpastian adalah dimensi data besar yang telah
diperkenalkan sebagai eksekutif berusaha untuk lebih memahami dunia di sekitar
mereka.
Beberapa data tidak pasti,
misalnya: sentimen dan kebenaran pada manusia, sensor GPS memantul antara
pencakar langit Manhattan, cuaca kondisi-kondisi, faktor ekonomi, dan masa
depan. Ketika berhadapan dengan jenis data, tidak ada metode pembersihan data
dapat memperbaiki untuk semua itu. Namun, meski ketidakpastian, data masih
mengandung informasi yang berharga. Kebutuhan untuk mengakui dan menerima
ketidakpastian ini merupakan ciri dari data.Uncertainty besar memanifestasikan
dirinya dalam data besar dalam banyak cara. Sekarang dalam skeptisisme yang
mengelilingi data yang dibuat dalam lingkungan manusia seperti jaringan sosial,
dalam ketidaktahuan bagaimana masa depan akan terungkap dan bagaimana
orang-orang, alam atau kekuatan pasar yang tak terlihat akan bereaksi terhadap
variabilitas dari dunia di sekitar mereka.
Untuk mengelola ketidakpastian, analis perlu
menciptakan konteks sekitar data. Salah satu cara untuk mencapai ini adalah
melalui data fusion, di mana menggabungkan beberapa sumber yang kurang dapat
diandalkan menciptakan lebih akurat dan berguna point data, seperti komentar
sosial ditambahkan ke geospasial informasi lokasi. Cara lain untuk mengelola
ketidakpastian adalah melalui matematika canggih yang mencakup hal itu, seperti
teknik optimasi yang kuat dan pendekatan fuzzy logic. Manusia secara alami,
tidak menyukai ketidakpastian, tetapi hanya mengabaikannya dapat menciptakan
lebih banyak masalah daripada ketidakpastian itu sendiri. Dalam era big data,
eksekutif akan perlu pendekatan dimensi ketidakpastian berbeda. Mereka akan perlu
untuk mengakuinya, menerimanya dan menentukan.
3.4 Arsitektur Big Data
Traditional
Information Architecture Capabilities
Untuk memahami level aspek
arsitektur yang tinggi dari Big Data, sebelumnya harus memahami arsitektur
informasi logis untuk data yang terstruktur. Pada gambar di bawah ini
menunjukkan dua sumber data yang menggunakan teknik integrasi (ETL / Change Data Capture) untuk mentransfer
data ke dalam DBMS data warehouse atau operational data store, lalu menyediakan
bermacam-macam variasi dari kemampuan analisis untuk menampilkan data. Beberapa
kemampuan analisis ini termasuk,; dashboards, laporan, EPM/BI Applications,
ringkasan dan query statistic, interpretasi semantic untuk data tekstual, dan
alat visualisasi untuk data yang padat. Informasi utama dalam prinsip
arsitektur ini termasuk cara memperlakukan data sebagai asset melalui nilai,
biaya, resiko, waktu, kualitas dan akurasi data.
(Sun & Heller, 2012, p. 11)
Adding Big
Data Capabilities
Mendefinisikan
kemampuan memproses untuk big data
architecture, diperlukan beberapa hal yang perlu dilengkapi; volume,
percepatan, variasi, dan nilai yang menjadi tuntutan. Ada strategi teknologi
yang berbeda untuk real-time dan
keperluan batch processing. Untuk real-time, menyimpan data nilai kunci,
seperti NoSQL, memungkinkan untuk performa tinggi, dan pengambilan data
berdasarkan indeks. Untuk batch processing, digunakan teknik yang dikenal
sebagai Map Reduce, memfilter data
berdasarkan pada data yang spesifik pada strategi penemuan. Setelah data yang
difilter ditemukan, maka akan dianalisis secara langsung, dimasukkan ke dalam
unstructured database yang lain, dikirimkan ke dalam perangkat mobile atau
digabungkan ke dalam lingkungan data warehouse tradisional dan berkolerasi pada
data terstruktur.
(Sun & Heller, 2012, p. 11)
Sebagai
tambahan untuk unstructured data yang baru, ada dua kunci perbedaan
untuk big data. Pertama, karena ukuran dari data set, raw data tidak dapat
secara langsung dipindahkan ke dalam suatu data warehouse. Namun, setelah
proses Map Reduce ada kemungkinan akan terjadi reduksi hasil dalam lingkungan
data warehouse sehingga dapat memanfaatkan pelaporan business intelligence,
statistik, semantik, dan kemampuan korelasi yang biasa. Akan sangat ideal untuk
memiliki kemampuan analitik yang mengkombinasikan perangkat BI bersamaan dengan
visualisasi big data dan kemampuan query. Kedua, untuk memfasilitasi analisis
dalam laingkungan Hadoop, lingkungan sandbox dapat dibuat.
Untuk beberapa
kasus, big data perlu mendapatkan data yang terus berubah dan tidak dapat
diperkirakan, untuk menganilisis data tersebut, dibutuhkan arsitektur yang
baru. Dalam perusahaan retail, contoh yang bagus adalah dengan menangkap jalur
lalu lintas secara real-time dengan maksud untuk memasang iklan atau promosi
toko di tempat strategis yang dilewati banyak orang, mengecek peletakan barang
dan promosi, mengamati secara langsung
pergerakan dan tingkah laku pelanggan.
Dalam kasus
lain, suatu analisis tidak dapat diselesaikan sampai dihubungkan dengan data
perusahaan dan data terstruktur lainnya. Sebagai contohnya, analisis perasaan
pelanggan, mendapatkan respon positif atau negatif dari social media akan
memiliki suatu nilai, tetapi dengan mengasosiasikannya dengan segala macam
pelanggan (paling menguntungkan atau bahkan yang paling tidak menguntungkan)
akan memberikan nilai yang lebih berharga. Jadi, untuk memenuhi kebutuhan yang
diperlukan oleh big data BI adalah konteks dan pemahaman. Menggunakan kekuatan
peralatan statistikal dan semantik akan sangat memungkinkan untuk dapat
memprediksikan kemungkinan – kemungkinan di masa depan.
An Integrated
Information Architecture
Salah satu
tantangan yang diteliti dalam pemakaian Hadoop dalam perusahaan adalah
kurangnya integrasi dengan ekosistem BI yang ada. Saat ini BI tradisional dan
ekosistem big data terpisah dan menyebabkan analis data terintegrasi mengalami
kebingungan. Sebagai hasilnya, hal ini tidaklah siap untuk digunakan oleh
pengguna bisnis dan eksekutif biasa.
Pengguna big
data yang pertama kali mencoba menggunakan, seringkali menulis kode khusus
untuk memindahkan hasil big data yang telah diproses kembali ke dalam database
untuk dibuat laporan dan dianalisa. Pilihan – pilihan ini mungkin tidak layak
dan ekonomis untuk perusahaan IT. Pertama, karena menyebabkan penyebaran salah
satu data dan standar yang berbeda, sehingga arsitekturnya mempengaruhi ekonomi
IT. Big data dilakukan secara independen untuk menjalankan resiko investasi
yang redundan, sebagai tambahannya, banyak bisnis yang sama sekali tidak
memiliki staff dan ketrampilan yang dibutuhkan untuk pengembangan pekerjaan
yang khusus.
Pilihan yang
paling tepat adalah menggabungkan hasil big data ke dalam data warehouse.
Kekuatan informasi ada dalam kemampuan untuk asosiasi dan korelasi. Maka yang
dibutuhkan adalah kemampuan untuk membawa sumber data yang berbeda-beda,
memproses kebutuhan bersama – sama secara tepat waktu dan analisis yang
berharga.
(Sun & Heller, 2012, p. 13)
Ketika
bermacam – macam data telah didapatkan, data tersebut dapat disimpan dan
diproses ke dalam DBMS tradisional, simple files, atau sistem cluster
terdistribusi seperti NoSQL dan Hadoop Distributed File System (HDFS).
Secara
arsitektur, komponen kritikal yang memecah bagian tersebut adalah layer
integrasi yang ada di tengah. Layer integrasi ini perlu untuk diperluas ke
seluruh tipe data dan domain, dan menjadi jembatan antara data penerimaan yang
baru dan tradisional, dan pengolahan kerangka. Kapabilitas integrasi data perlu
untuk menutupi keseluruhan spektrum dari kecepatan dan frekuensi. Hal tersebut
diperlukan untuk menangani kebutuhan ekstrim dan volume yang terus bertambah
banyak. Oleh karena itu diperlukan teknologi yang memungkinkan untuk
mengintegrasikan Hadoop / Map Reduce dengan data warehouse dan data transaksi.
Layer
berikutnya digunakan untuk Load hasil
reduksi dari big data ke dalam data warehouse untuk analisis lebih lanjut.
Diperlukan juga kemampuan untuk mengakses data terstruktur seperti informasi
profil pelanggan ketika memproses dalam big data untuk mendapatkan pola seperti
mendeteksi aktivitas yang mencurigakan.
Hasil
pemrosesan data akan dimasukkan ke dalam ODS tradisional, data warehouse, dan
data marts untuk analisis lebih lanjut seperti data transaksi. Komponen
tambahan dalam layer ini adalah Complex Event Processing untuk menganalisa arus
data secara real-time. Layer business intelligence akan dilengkapi dengan analisis lanjutan,
dalam analisis database statistik, dan visualisasi lanjutan, diterapkan dalam
komponen tradisional seperti laporan, dashboards, dan query. Pemerintahan,
keamanan, dan pengelolaan operasional juga mencakup seluruh spektrum data dan
lanskap informasi pada tingkat enterprise.
Dengan
arsitektur ini, pengguna bisnis tidak melihat suatu pemisah, bahkan tidak sadar
akan perbedaan antara data transaksi tradisional dan big data. Data dan arus
analisis akan terasa mulus tanpa halangan ketika dihadapkan pada bermacam –
macam data dan set informasi, hipotesis, pola analisis, dan membuat keputusan.
3.5 Big Data for development
Big Data untuk keperluan development
berkaitan dengan, tetapi berbeda dari, 'tradisional Data pembangunan '(misalnya
data survei, statistik resmi), dan sektor swasta dan media mainstream
menyebutnya 'Big Data’.
Big Data untuk sumber Pengembangan umumnya memiliki beberapa / semua
fitur ini:
1. Digitally
generated
data yang dihasilkan secara digital (sebagai
lawan yang didigitalkan manual), dan dapat disimpan dengan menggunakan
rangkaian satu dan nol, dan dengan demikian dapat dimanipulasi oleh komputer
2. Passively
produced
Data
ini merupakan data yang dihasilkan atau produk dari kehidupan kita sehari-hari
atau interaksi dengan jasa digital.
3. Automatically
collected
Data-data yang terbentuk dari data-data
operasional dan transaksi yang dikumpulkan dan telah diproses (ETL) dan si simpan
kedalam data mart
4. Geographically or temporally trackable
Data –data yang menunjukan lokasi atau
posisi, misalnya data lokasi ponsel atau durasi waktu panggilan
5. Continuously analysed
informasi yang relevan dengan kesejahteraan
manusia dan pembangunan dan dapat dianalisis secara real-time
3.6 Pengunaan Big Data dalam
perusahaan
Ø
IT logs Analytics
Penyimpanan Log jangka panjang, digunakan untuk analisa
proses sistem yang sedang berjalan untuk mencegah dan menaggulangi kegagalan
dalam sistem, mengunakan hasil analisa log untuk menemukan dan mentukan secara
pasti kegagalan apa yang terjadi didalam sistem, menyiapkan langkah-langkah
pasti yang dapat digunakan sebagai solusi masalah sistem.
Ø
Fraud Detection Pattern
Banyak
digunakan dalam Bidang keuangan atau dimana saja transaksi finasial terlibat,
Memaksimalkan pengunaan data-data yang ada untuk memberikan kemampuan unutk
mendeteksi fraud ketika transaksi sedang berlangsung
Ø
The Social Media Pattern
Pengunaan
Big data untuk analisa media social dan sentiment pelangan, memberikan
kemampuan bagi perusahan untuk mengetahui keinginan customer secara luas,
mendapatkan feedback secara langsung, dan mengenali langsung dampak sentimen
terhadap penjualan, serta efektivitas dan penerimaan pelangan terhadap
pemasaran yang dilakukan.
Ø
The Call centere Mantra
Penyimpanan
hasil perbincangan atau laporan customer dalam bentuk text yang kemudian
digunakan sebagai data untuk analisa masalah yang dihadapai customer,
memberikan kemampuan bagi perusahaan untuk memberikan tanggapan yang cepat
maupun secara langsung terhadap masalah yang dihadapi customer, serta kemampuan
unutk mendeteksi penurunan loyalitas customer dikarenakan masalah dan
ketidakpuasaan.
Ø
Risk: Patterns for
Modeling and Management
Memberikan
kempuaan pengunaan data secara penuh dan analisis dalam pemodelan resiko dan
menejemen resiko untuk memberikan pengetahuan akan resiko dan penanggulangannya
secara tepat dan langsung
Ø
Big data and The Energy Sector
Memberikan kemampuan
penyimpanan dan pemrosesan data secara langsung dari berbagai sumber(sensor),
analisa dan kemudahan dalam pengenalan noise
untuk memisahkannya dari signal.
3.7 Membangun Big Data Platform
Seperti data pergudangan,
toko web atau platform TI, infrastruktur untuk data yang besar memiliki
kebutuhan yang unik. Dalam mempertimbangkan semua komponen platform data yang
besar, penting untuk diingat bahwa tujuan akhir adalah untuk dengan mudah
mengintegrasikan data yang besar dengan data perusahaan Anda untuk memungkinkan
Anda untuk melakukan analisis mendalam pada set data gabungan.
Infrastructure Requirements
Requirement dalam big
data infrastruktur :
·
data
acquisition,
·
data
organization
·
data
analysis
Data acquisition
Tahap akuisisi adalah salah
satu perubahan besar dalam infrastruktur pada hari-hari sebelum big data. Karena big data mengacu pada aliran data dengan kecepatan yang lebih
tinggi dan ragam yang bervariasi, infrastruktur yang diperlukan untuk mendukung
akuisisi data yang besar harus disampaikan secara perlahan, dapat diprediksi
baik di dalam menangkap data dan dalam memprosesnya secara cepat dan sederhana,
dapat menangani volume transaksi yang sangat tinggi , sering dalam lingkungan
terdistribusi, dan dukungan yang fleksibel, struktur data dinamis.
Database NoSQL sering digunakan untuk mengambil dan
menyimpan big data. Mereka cocok
untuk struktur data dinamis dan sangat terukur. Data yang disimpan dalam
database NoSQL biasanya dari berbagai variasi/ragam karena sistem dimaksudkan
untuk hanya menangkap semua data tanpa mengelompokkan dan parsing data.
Sebagai contoh, database NoSQL sering digunakan untuk
mengumpulkan dan menyimpan data media sosial. Ketika aplikasi yang digunakan
pelanggan sering berubah, struktur penyimpanan dibuat tetap sederhana. Alih-alih
merancang skema dengan hubungan antar entitas, struktur sederhana sering hanya
berisi kunci utama untuk mengidentifikasi titik data, dan kemudian wadah konten
memegang data yang relevan. Struktur sederhana dan dinamis ini memungkinkan
perubahan berlangsung tanpa reorganisasi pada lapisan penyimpanan.
Data Organization
Dalam istilah Data
pergudangan klasik, pengorganisasian data disebut integrasi data. Karena ada
volume/jumlah data yang sangat besar, ada kecenderungan untuk mengatur data
pada lokasi penyimpanan aslinya, sehingga menghemat waktu dan uang dengan tidak
memindah-midahkan data dengen volume yang besar. Infrastruktur yang diperlukan untuk
mengatur data yang besar harus mampu mengolah dan memanipulasi data di lokasi
penyimpanan asli. Biasanya diproses didalam batch
untuk memproses data yang besar, beragam format, dari tidak terstruktur
menjadi terstruktur.
Apache Hadoop adalah sebuah
teknologi baru yang memungkinkan volume data yang besar untuk diatur dan
diproses sambil menjaga data pada cluster penyimpanan data asli. Hadoop
Distributed File System (HDFS) adalah sistem penyimpanan jangka panjang untuk
log web misalnya. Log web ini berubah menjadi perilaku browsing dengan
menjalankan program MapReduce di cluster dan menghasilkan hasil yang
dikumpulkan di dalam cluster yang sama. Hasil ini dikumpulkan kemudian dimuat
ke dalam sistem DBMS relasional.
Data Analysis
Karena data tidak selalu
bergerak selama fase organisasi, analisis ini juga dapat dilakukan dalam
lingkungan terdistribusi, di mana beberapa data akan tinggal di mana data itu
awalnya disimpan dan diakses secara transparan dari sebuah data warehouse.
Infrastruktur yang diperlukan untuk menganalisis data yang besar harus mampu
mendukung analisis yang lebih dalam seperti analisis statistik dan data mining,
pada data dengan jenis yang beragam dan disimpan dalam sistem yang terpisah,
memberikan waktu respon lebih cepat didorong oleh perubahan perilaku; dan
mengotomatisasi keputusan berdasarkan model analitis. Yang paling penting, infrastruktur
harus mampu mengintegrasikan analisis pada kombinasi data yang besar dan data
perusahaan tradisional. Wawasan baru datang bukan hanya dari analisis data
baru, tapi dari menganalisisnya dalam konteks yang lama untuk memberikan
perspektif baru tentang masalah lama.
Misalnya, menganalisis data persediaan dari mesin
penjual otomatis cerdas dalam kombinasi dengan acara kalender untuk tempat di
mana mesin penjual otomatis berada, akan menentukan kombinasi produk yang
optimal dan jadwal pengisian untuk mesin penjual otomatis.
3.8 Tantangan
dalam pemanfaatan Big Data
Dalam
usaha pemanfaatan Big Data dapat
terdapat banyak hambatan dan tantangan, beberapa hal diantaranya berhubungan
dengan data dimana melibatkan acquisition, sharing dan privasi data, serta
dalam analisis dan pengolahan data
Ø
Privasi
Privasi merupakan isu yang
paling sensitif, dengan konseptual, hukum, dan teknologi, Privasi dapat
dipahami dalam arti luas sebagai usaha perusahaan untuk melindungi daya saing
dan konsumen mereka. Data-data yang digunakan / disimpan sebagai big data
Ø
Access
dan sharing
Akses terhadap data, baik
data lama maupun data baru dapat menjadi hambatan dalam mendapatkan data untuk
big data, terlebih pada data lama dimana data- data tersimpan dalam bentuk –
bentuk yang berbeda-beda dan beragam ataupun dalam bentuk fisik, akses terhadap
data baru juga membutuhkan usaha yang lebih kerana diperlukannya izin dan
lisensi untuk mengakses data-data non-public secara legal.
Ø
Analisis
Bekerja dengan sumber data
baru membawa sejumlah tantangan analitis. relevansi dan tingkat keparahan
tantangan akan bervariasi tergantung pada jenis analisis sedang dilakukan, dan
pada jenis keputusan yang akhirnya akan bisa diinformasikan oleh data.
Tergantung dari jenis data
terdapat 3 kategori dalam analisis data
o
Penentuan gambaran yang benar
Masalah ini biasanya
ditemukan dalam penanganan unstructured
user-generated text-based data dimana data yang didapatkan belum tentu
benar karena data atau sumber yang salah.
o
Interpreting Data
Kesalahan –kesalahan seperti Sampling selection bias
merupakan hal yang sering ditemukan dimana data yang ada tidak dapat digunakan
untuk mepresentasikan semua populasi yang ada, dan apophenia, melihat adanya
pola walaupun tidak benar-benar ada dikarenakan jumlah data yang besar, dan
kesalahan dalam menginterpreasikan hubungan dalam data.
o Defining and detecting anomalies
tantangan sensitivitas terhadap
spesifisitas pemantauansistem. Sensitivitas mengacu pada kemampuan sistem
pemantauan untuk mendeteksi semua kasus sudah diatur untuk mendeteksi sementara
spesifisitas mengacu pada kemampuannya untuk mendeteksi hanya kasus-kasus yang
relevan. kegagalan untukmencapai hasil yang terakhir "Tipe I kesalahan
keputusan", juga dikenal sebagai "positif palsu"; kegagalanuntuk
mencapai mantan "Type II error", atau "negatif palsu."
Kedua kesalahan yang tidak diinginkan ketika mencoba untuk mendeteksi malfungsi
atau anomali, bagaimanapun didefinisikan, untuk berbagai alasan. Positif palsu
merusak kredibilitas sistem sementara negatif palsu dilemparkan ragu pada
relevansinya. Tapi apakah negatif palsu lebih atau kurang bermasalah daripada
positif palsu tergantung pada apa yang sedang dipantau, dan mengapa itu sedang
dipantau.
Dapat
disimpulkan bahwa big data sudah mulai dimanfaatkan dan akan sangat berguna
untuk dipahami lebih dalam untuk mengimbangi perkembangan jaman ke arah
teknologi dan analisis yang lebih praktis.