Pengertian Big Data ~ Cuma blog buat gw sharing, nyari kesenengan, dan ngabisin waktu

BAB 1
Pendahuluan

Latar Belakang

Perkembangan jaman hingga saat ini sangat berdampak besar terhadap kehidupan sekarang. Salah satu hal yang berubah adalah cara menggunakan data. Hal tersebut sangat dipengaruhi oleh perkembangan teknologi, karena dapat dilihat sekarang penggunaan tiap individu terhadap data sudah sangat tinggi, hampir semua orang memiliki data dalam setiap perangkatnya (komputer / laptop, smartphone, flashdisk, harddisk eksternal, dll) yang jika dijumlahkan akan menjadi besar sekali. Hal ini dipengaruhi juga dengan mudahnya tiap individu untuk mendapatkan data yang diinginkannya (film, musik, games, dll) melalui internet. Internet menghubungkan tiap individu di seluruh dunia dengan mudah tanpa memperdulikan jarak / lokasi dan waktu. Sekarang dengan terjadinya perkembangan teknologi, data menjadi hal yang penting dalam menjalankan berbagai hal, beberapa diantaranya; mengetahui tren pasar, mengetahui keinginan konsumen saat ini, meningkatkan hasil penjualan, dll. Hasil perubahan ini sangatlah besar, data pun diolah dengan lebih terkomputerisasi sehingga penyimpanan beberapa data dapat menghemat tempat dalam kantor perusahaan dengan cara penyimpanan softcopy. Data yang tersimpan ini lama kelamaan menjadi sangat banyak dan besar sehingga semakin susah untuk digunakan, hal tersebut disebut big data. Dengan perkembangan sekarang, big data ini sudah dapat diolah dan digunakan lagi, bahkan memberikan hasil yang lebih baik karena mencakup pengolahan data yang ada di dalam social media.

Dengan perkembangan data inilah big data muncul dan saat ini mulai berkembang. Penggunaannya pun semakin luas, hingga mencakup social media, sehingga dapat menganalisa tren pasar dengan melihat sentimen analisis pelanggan melalui social media. Dengan perkembangan saat ini, ada baiknya untuk memahami lebih dalam mengenai big data, sehingga dapat dimanfaatkan dengan lebih maksimal.

Bab 2

Landasan Teori

Pengertian Data

(R. Kelly Rainer, 2011) Data, menunjuk pada deskripsi dasar akan benda, event, aktivitas, dan transaksi yang terdokumentasi, terklasifikasi,dan tersimpan tetapi tidak terorganisasi untuk dapat memberikan suatu arti yang spesifik.

Berdasarkan pengertian di atas, data merupakan hal paling mendasar yang dibutuhkan perusahaan yang dapat diperoleh dari proses-proses operasional sehari-hari maupun sumber-sumber luar yang akan diolah menurut keinginan perusahaan.

Pengertian Information

(R. Kelly Rainer, 2011) Information, merupakan data yang telah terorganisir agar dapat memberikan arti dan nilai kepada penerima.

Berdasarkan pengertian di atas, hasil penyusunan dan transformasi data yang dapat memberikan makna baru kepada data tersebut.

Pengertian Knowledge

(R. Kelly Rainer, 2011) Terdiri dari data atau informasi yang telah terorganisasi dan proses untuk memberikan pemahaman, pengalaman, dan pembelajaran, serta keahlian terhadap problema bisnis yang sedang dihadapi.

Berdasarkan pengertian di atas, knowledge menjadi sarana bagi para manajer untuk membuat keputusan - keputusan yang crucial dan berdampak besar bagi perusahaan, dimana kesalahan atau kecacatan dalam knowledge dapat memberikan dampak buruk bagi perusahaan.

Pengertian Extract, Tranform, Load (ETL) (immon liad DWH)

(H.Inmon, 2005) ETL, proses memasukkan data, mengintergrasikan dan menempatkannya dalam data warehouse.

Berdasarkan pengertian tersebut, ETL adalah proses mengubah raw data sebelum masuk kedalam data warehouse.

Pengertian Data Warehouse

(R. Kelly Rainer, 2011) Data Warehouse adalah repository dari data-data yang bersifat historical yang terorganisir berdasarkan subjek yang digunakan untuk mendukung pengambilan keputusan. Data warehouse memiliki beberapa karakter dasar seperti. Diatur oleh business dimension or subject dimana data disusun berdasarkan subjeknya dan memiliki informasi yang relevan dengan pemgambilan keputusan dan analisis data.consistent yaitu data memliki bentuk yang sama disetiap atau disemua database. Historical, data yang ada merupakan data yang tersimpan dan terkumupl dalam waktu yang lama yang digunakan untuk forecasting dan perbandingan untuk meliat tingakt laju suatu perusahaan. Use only analytical processing menggunakan analytical processing yang berguna unutk mengakumulasi data-data yang ada. Multidimensional, data warehouse menyimpan data dalam lebih dari dua dimensi seperti data cube.

Data warehouse merupakan bagian penting dalam struktur / arsitektur suatu BI karena posisinya sebagai tempat penyimpanan data- data yang telah terorganisasi dan yang telah memiliki makna, maka harus memilki struktur data desain yang baik yang dapat mensupport pengambilan data-data dan informasi secara akurat dan cepat dari dalam data warehouse itu sendiri.

Pengertian Big Data

Menurut (Eaton, Dirk, Tom, George, & Paul) Big Data merupakan istilah yang berlaku untuk informasi yang tidak dapat diproses atau dianalisis menggunakan alat tradisional.

Menurut (Dumbill, 2012) , Big Data adalah data yang melebihi proses kapasitas dari kovensi sistem database yang ada. Data terlalu besar dan terlalu cepat atau tidak sesuai dengan struktur arsitektur database yang ada. Untuk mendapatkan nilai dari data, maka harus memilih jalan altenatif untuk memprosesnya.

Berdasarkan pengertian para ahli di atas, dapat disimpulkan bahwa Big Data adalah data yang memiliki volume besar sehingga tidak dapat diproses menggunakan alat tradisional biasa dan harus menggunakan cara dan alat baru untuk mendapatkan nilai dari data ini.

Bab 3

Pembahasan

3.1 Big Data

Setiap hari, kita menciptakan 2,5 triliun byte data - begitu banyak bahwa 90% dari data di dunia saat ini telah dibuat dalam dua tahun terakhir saja. Data ini berasal dari mana-mana, sensor digunakan untuk mengumpulkan informasi iklim, posting ke situs media sosial, gambar digital dan video, catatan transaksi pembelian, dan sinyal ponsel GPS untuk beberapa nama. Data ini adalah big data.

Big Data mengacu pada dataset yang ukurannya diluar kemampuan dari database software tools untuk meng-capture, menyimpan,me-manage dan menganalisis. Definisi ini sengaja dibuat subjective agar mampu digabungkan oleh definisi Big Data yang masi belum ada baku. Ukuran big data sekitar beberapa lusin TeraByte sampai ke beberapa PetaByte tergantung jenis Industri

Isi dari Big Data adalah Transaksi+interaksi dan observasi atau bisa di bilang segalanya yang berhubungan dengan jaringan internet, jaringan komunikasi, dan jaringan satelit
bigdata_diagram

(Connolly, 2012)

Big Data dapat juga didefinisikan sebagai sebuah masalah domain dimana teknologi tradisional seperti relasional database tidak mampu lagi untuk melayani.

Big data lebih dari hanya masalah ukuran, itu adalah kesempatan untuk menemukan wawasan dalam jenis baru dan muncul data dan konten, untuk membuat bisnis Anda lebih gesit, dan menjawab pertanyaan yang sebelumnya dianggap di luar jangkauan Anda.

Big data dapat di artikan kedalam 9 karakter (IBM) menurut responden sehingga disimpulkan oleh IBM, Big data adalah data yang memiliki scope informasi yang sangat besar, model informasi yang real-time, memiliki volume yang besar, dan berasalkan social media data jadi dapat disimpulkan bahwa Big data adalah dataset yang memiliki volume besar dan salah satu isinya berdasarkan social media data, dan informasi dari Big data selalu yang terbaru (latestdata) sehingga model informasi nya real-time, dan scope informasi nya tidak terfocus pada industri-indrustri kecil saja atau industri-indrustri besar saja melainkan semuanya baik industry kecil maupun besar.

(IBM)

3.2 Dimensi -Dimensi Big Data

Ada 3 dimensi awal dalam Big Data yaitu 3V: Volume, Variety dan Velocity

(www.ibm.com/2012bigdatastudy)

· Volume

perusahaan tertimbun dengan data yang terus tumbuh dari semua jenis sektor, dengan mudah mengumpulkan terabyte bahkan petabyte-informasi.

Ø Mengubah 12 terabyte Tweet dibuat setiap hari ke dalam peningkatan sentimen analisis produk.

Ø Mengkonvert 350 milliar pembacaan tahunan untuk lebih baik dalam memprediksi kemampuan beli pasar.

Mungkin karakteristik ini yang paling mudah dimengerti karena besarnya data. Volume juga mengacu pada jumlah massa data, bahwa organisasi berusaha untuk memanfaatkan data untuk meningkatkan pengambilan keputusan yang banyak perusahaan di banyak negara. Volume data juga terus meningkat dan belum pernah terjadi sampai sethinggi ini sehingga tidak dapat diprediksi jumlah pasti dan juga ukuran dari data sekitar lebih kecil dari petabyte sampai zetabyte. Dataset big data sekitar 1 terabyte sampai 1 petabyte perperusahaan jadi jika big data digabungkan dalam sebuah organisasi / group perusahaan ukurannya mungkin bisa sampai zetabyte dan jika hari ini jumlah data sampai 1000 zetabyte, besok pasti akan lebih tinggi dari 1000 zetabyte.

· Variety

Volume data yang banyak tersebut bertambah dengan kecepatan yang begitu cepat sehingga sulit bagi kita untuk mengelola hal tersebut. Kadang-kadang 2 menit sudah menjadi terlambat. Untuk proses dalam waktu sensitif seperti penangkapan penipuan, data yang besar harus digunakan sebagai aliran ke dalam perusahaan Anda untuk memaksimalkan nilainya.

Ø Meneliti 5 juta transaksi yang dibuat setiap hari untuk mengidentifikasi potensi penipuan

Ø Menganalisis 500 juta detail catatan panggilan setiap hari secara real-time untuk memprediksi gejolak pelanggan lebih cepat.

Berbagai jenis data dan sumber data. Variasi adalah tentang mengelolah kompleksitas beberapa jenis data, termasuk structured data, unstructured data dan semi-structured data. Organisasi perlu mengintegrasikan dan menganalisis data dari array yang kompleks dari kedua sumber informasi Traditional dan non traditional informasi, dari dalam dan luar perusahaan. Dengan begitu banyaknya sensor, perangkat pintar (smart device) dan teknologi kolaborasi sosial, data yang dihasilkan dalam bentuk yang tak terhitung jumlahnya, termasuk text, web data, tweet, sensor data, audio, video, click stream, log file dan banyak lagi.

· Velocity :

Big Data adalah setiap jenis data - data baik yang terstruktur maupun tidak terstruktur seperti teks, data sensor, audio, video, klik stream, file log dan banyak lagi. Wawasan baru ditemukan ketika menganalisis kedua jenis data ini bersama-sama.

· Memantau 100 video masukan langsung dari kamera pengintai untuk menargetkan tempat tujuan.

· Mengeksploitasi 80% perkembangan data dalam gambar, video, dan dokumen untuk meningkatkan kepuasan pelanggan.

Data dalam gerak. Kecepatan di mana data dibuat, diolah dan dianalisis terus menerus. Berkontribusi untuk kecepatan yang lebih tinggi adalah sifat penciptaan data secara real-time, serta kebutuhan untuk memasukkan streaming data ke dalam proses bisnis dan dalam pengambilan keputusan. Dampak Velocity latency, jeda waktu antara saat data dibuat atau data yang ditangkap, dan ketika itu juga dapat diakses. Hari ini, data terus-menerus dihasilkan pada kecepatan yang mustahil untuk sistem tradisional untuk menangkap, menyimpan dan menganalisis. Jenis tertentu dari data harus dianalisis secara real time untuk menjadi nilai bagi bisnis.

3.3 Dimensi Ketidakpastian data

(IBM)

Dalam industri untuk meningkatan sebuah data lebih berkualitas dibutuhkan dimensi ke empat yaitu Veracity, pencantuman Veracity dapat menekankan pengelolahan dan penanganan untuk suatu ketidakpastian yang melekat dalam beberapa jenis data.

Veracity

1 dari 3 pemimpin bisnis tidak mempercayai informasi yang mereka gunakan untuk membuat keputusan. Bagaimana Anda dapat bertindak atas informasi yang anda tidak percaya? Membangun kepercayaan atas big data menghadirkan tantangan besar sebagai variasi dan sumber untuk pertumbuhan perusahaan.

ketidakpastian data. Veracity mengacu pada tingkat keandalan yang terkait dengan jenis tertentu dari data. Berjuang untuk kualitas data yang tinggi merupakan syarat big data penting dan tantangan, tapi bahkan metode pembersihan data yang terbaik tidak dapat menghapus ketidakpastian yang melekat pada beberapa data, seperti cuaca, ekonomi, atau aktual keputusan membeli pelanggan masa depan. Kebutuhan untuk mengakui dan merencanakan ketidakpastian adalah dimensi data besar yang telah diperkenalkan sebagai eksekutif berusaha untuk lebih memahami dunia di sekitar mereka.
Beberapa data tidak pasti, misalnya: sentimen dan kebenaran pada manusia, sensor GPS memantul antara pencakar langit Manhattan, cuaca kondisi-kondisi, faktor ekonomi, dan masa depan. Ketika berhadapan dengan jenis data, tidak ada metode pembersihan data dapat memperbaiki untuk semua itu. Namun, meski ketidakpastian, data masih mengandung informasi yang berharga. Kebutuhan untuk mengakui dan menerima ketidakpastian ini merupakan ciri dari data.Uncertainty besar memanifestasikan dirinya dalam data besar dalam banyak cara. Sekarang dalam skeptisisme yang mengelilingi data yang dibuat dalam lingkungan manusia seperti jaringan sosial, dalam ketidaktahuan bagaimana masa depan akan terungkap dan bagaimana orang-orang, alam atau kekuatan pasar yang tak terlihat akan bereaksi terhadap variabilitas dari dunia di sekitar mereka.

Untuk mengelola ketidakpastian, analis perlu menciptakan konteks sekitar data. Salah satu cara untuk mencapai ini adalah melalui data fusion, di mana menggabungkan beberapa sumber yang kurang dapat diandalkan menciptakan lebih akurat dan berguna point data, seperti komentar sosial ditambahkan ke geospasial informasi lokasi. Cara lain untuk mengelola ketidakpastian adalah melalui matematika canggih yang mencakup hal itu, seperti teknik optimasi yang kuat dan pendekatan fuzzy logic. Manusia secara alami, tidak menyukai ketidakpastian, tetapi hanya mengabaikannya dapat menciptakan lebih banyak masalah daripada ketidakpastian itu sendiri. Dalam era big data, eksekutif akan perlu pendekatan dimensi ketidakpastian berbeda. Mereka akan perlu untuk mengakuinya, menerimanya dan menentukan.

3.4 Arsitektur Big Data

Traditional Information Architecture Capabilities

Untuk memahami level aspek arsitektur yang tinggi dari Big Data, sebelumnya harus memahami arsitektur informasi logis untuk data yang terstruktur. Pada gambar di bawah ini menunjukkan dua sumber data yang menggunakan teknik integrasi (ETL / Change Data Capture) untuk mentransfer data ke dalam DBMS data warehouse atau operational data store, lalu menyediakan bermacam-macam variasi dari kemampuan analisis untuk menampilkan data. Beberapa kemampuan analisis ini termasuk,; dashboards, laporan, EPM/BI Applications, ringkasan dan query statistic, interpretasi semantic untuk data tekstual, dan alat visualisasi untuk data yang padat. Informasi utama dalam prinsip arsitektur ini termasuk cara memperlakukan data sebagai asset melalui nilai, biaya, resiko, waktu, kualitas dan akurasi data.

oea-big-data-guide big data architecture figure 1

(Sun & Heller, 2012, p. 11)

Adding Big Data Capabilities

Mendefinisikan kemampuan memproses untuk big data architecture, diperlukan beberapa hal yang perlu dilengkapi; volume, percepatan, variasi, dan nilai yang menjadi tuntutan. Ada strategi teknologi yang berbeda untuk real-time dan keperluan batch processing. Untuk real-time, menyimpan data nilai kunci, seperti NoSQL, memungkinkan untuk performa tinggi, dan pengambilan data berdasarkan indeks. Untuk batch processing, digunakan teknik yang dikenal sebagai Map Reduce, memfilter data berdasarkan pada data yang spesifik pada strategi penemuan. Setelah data yang difilter ditemukan, maka akan dianalisis secara langsung, dimasukkan ke dalam unstructured database yang lain, dikirimkan ke dalam perangkat mobile atau digabungkan ke dalam lingkungan data warehouse tradisional dan berkolerasi pada data terstruktur.

oea-big-data-guide big data architecture figure 2

(Sun & Heller, 2012, p. 11)

Sebagai tambahan untuk unstructured data yang baru, ada dua kunci perbedaan untuk big data. Pertama, karena ukuran dari data set, raw data tidak dapat secara langsung dipindahkan ke dalam suatu data warehouse. Namun, setelah proses Map Reduce ada kemungkinan akan terjadi reduksi hasil dalam lingkungan data warehouse sehingga dapat memanfaatkan pelaporan business intelligence, statistik, semantik, dan kemampuan korelasi yang biasa. Akan sangat ideal untuk memiliki kemampuan analitik yang mengkombinasikan perangkat BI bersamaan dengan visualisasi big data dan kemampuan query. Kedua, untuk memfasilitasi analisis dalam laingkungan Hadoop, lingkungan sandbox dapat dibuat.

Untuk beberapa kasus, big data perlu mendapatkan data yang terus berubah dan tidak dapat diperkirakan, untuk menganilisis data tersebut, dibutuhkan arsitektur yang baru. Dalam perusahaan retail, contoh yang bagus adalah dengan menangkap jalur lalu lintas secara real-time dengan maksud untuk memasang iklan atau promosi toko di tempat strategis yang dilewati banyak orang, mengecek peletakan barang dan promosi, mengamati secara langsung pergerakan dan tingkah laku pelanggan.

Dalam kasus lain, suatu analisis tidak dapat diselesaikan sampai dihubungkan dengan data perusahaan dan data terstruktur lainnya. Sebagai contohnya, analisis perasaan pelanggan, mendapatkan respon positif atau negatif dari social media akan memiliki suatu nilai, tetapi dengan mengasosiasikannya dengan segala macam pelanggan (paling menguntungkan atau bahkan yang paling tidak menguntungkan) akan memberikan nilai yang lebih berharga. Jadi, untuk memenuhi kebutuhan yang diperlukan oleh big data BI adalah konteks dan pemahaman. Menggunakan kekuatan peralatan statistikal dan semantik akan sangat memungkinkan untuk dapat memprediksikan kemungkinan – kemungkinan di masa depan.

An Integrated Information Architecture

Salah satu tantangan yang diteliti dalam pemakaian Hadoop dalam perusahaan adalah kurangnya integrasi dengan ekosistem BI yang ada. Saat ini BI tradisional dan ekosistem big data terpisah dan menyebabkan analis data terintegrasi mengalami kebingungan. Sebagai hasilnya, hal ini tidaklah siap untuk digunakan oleh pengguna bisnis dan eksekutif biasa.

Pengguna big data yang pertama kali mencoba menggunakan, seringkali menulis kode khusus untuk memindahkan hasil big data yang telah diproses kembali ke dalam database untuk dibuat laporan dan dianalisa. Pilihan – pilihan ini mungkin tidak layak dan ekonomis untuk perusahaan IT. Pertama, karena menyebabkan penyebaran salah satu data dan standar yang berbeda, sehingga arsitekturnya mempengaruhi ekonomi IT. Big data dilakukan secara independen untuk menjalankan resiko investasi yang redundan, sebagai tambahannya, banyak bisnis yang sama sekali tidak memiliki staff dan ketrampilan yang dibutuhkan untuk pengembangan pekerjaan yang khusus.

Pilihan yang paling tepat adalah menggabungkan hasil big data ke dalam data warehouse. Kekuatan informasi ada dalam kemampuan untuk asosiasi dan korelasi. Maka yang dibutuhkan adalah kemampuan untuk membawa sumber data yang berbeda-beda, memproses kebutuhan bersama – sama secara tepat waktu dan analisis yang berharga.

oea-big-data-guide big data architecture figure 3

(Sun & Heller, 2012, p. 13)

Ketika bermacam – macam data telah didapatkan, data tersebut dapat disimpan dan diproses ke dalam DBMS tradisional, simple files, atau sistem cluster terdistribusi seperti NoSQL dan Hadoop Distributed File System (HDFS).

Secara arsitektur, komponen kritikal yang memecah bagian tersebut adalah layer integrasi yang ada di tengah. Layer integrasi ini perlu untuk diperluas ke seluruh tipe data dan domain, dan menjadi jembatan antara data penerimaan yang baru dan tradisional, dan pengolahan kerangka. Kapabilitas integrasi data perlu untuk menutupi keseluruhan spektrum dari kecepatan dan frekuensi. Hal tersebut diperlukan untuk menangani kebutuhan ekstrim dan volume yang terus bertambah banyak. Oleh karena itu diperlukan teknologi yang memungkinkan untuk mengintegrasikan Hadoop / Map Reduce dengan data warehouse dan data transaksi.

Layer berikutnya digunakan untuk Load hasil reduksi dari big data ke dalam data warehouse untuk analisis lebih lanjut. Diperlukan juga kemampuan untuk mengakses data terstruktur seperti informasi profil pelanggan ketika memproses dalam big data untuk mendapatkan pola seperti mendeteksi aktivitas yang mencurigakan.

Hasil pemrosesan data akan dimasukkan ke dalam ODS tradisional, data warehouse, dan data marts untuk analisis lebih lanjut seperti data transaksi. Komponen tambahan dalam layer ini adalah Complex Event Processing untuk menganalisa arus data secara real-time. Layer business intelligence akan dilengkapi dengan analisis lanjutan, dalam analisis database statistik, dan visualisasi lanjutan, diterapkan dalam komponen tradisional seperti laporan, dashboards, dan query. Pemerintahan, keamanan, dan pengelolaan operasional juga mencakup seluruh spektrum data dan lanskap informasi pada tingkat enterprise.

Dengan arsitektur ini, pengguna bisnis tidak melihat suatu pemisah, bahkan tidak sadar akan perbedaan antara data transaksi tradisional dan big data. Data dan arus analisis akan terasa mulus tanpa halangan ketika dihadapkan pada bermacam – macam data dan set informasi, hipotesis, pola analisis, dan membuat keputusan.

3.5 Big Data for development

Big Data untuk keperluan development berkaitan dengan, tetapi berbeda dari, 'tradisional Data pembangunan '(misalnya data survei, statistik resmi), dan sektor swasta dan media mainstream menyebutnya 'Big Data’.

Big Data untuk sumber Pengembangan umumnya memiliki beberapa / semua fitur ini:

1. Digitally generated

data yang dihasilkan secara digital (sebagai lawan yang didigitalkan manual), dan dapat disimpan dengan menggunakan rangkaian satu dan nol, dan dengan demikian dapat dimanipulasi oleh komputer

2. Passively produced

Data ini merupakan data yang dihasilkan atau produk dari kehidupan kita sehari-hari atau interaksi dengan jasa digital.

3. Automatically collected

Data-data yang terbentuk dari data-data operasional dan transaksi yang dikumpulkan dan telah diproses (ETL) dan si simpan kedalam data mart

4. Geographically or temporally trackable

Data –data yang menunjukan lokasi atau posisi, misalnya data lokasi ponsel atau durasi waktu panggilan

5. Continuously analysed

informasi yang relevan dengan kesejahteraan manusia dan pembangunan dan dapat dianalisis secara real-time

3.6 Pengunaan Big Data dalam perusahaan

Ø IT logs Analytics

Penyimpanan Log jangka panjang, digunakan untuk analisa proses sistem yang sedang berjalan untuk mencegah dan menaggulangi kegagalan dalam sistem, mengunakan hasil analisa log untuk menemukan dan mentukan secara pasti kegagalan apa yang terjadi didalam sistem, menyiapkan langkah-langkah pasti yang dapat digunakan sebagai solusi masalah sistem.

Ø Fraud Detection Pattern

Banyak digunakan dalam Bidang keuangan atau dimana saja transaksi finasial terlibat, Memaksimalkan pengunaan data-data yang ada untuk memberikan kemampuan unutk mendeteksi fraud ketika transaksi sedang berlangsung

Ø The Social Media Pattern

Pengunaan Big data untuk analisa media social dan sentiment pelangan, memberikan kemampuan bagi perusahan untuk mengetahui keinginan customer secara luas, mendapatkan feedback secara langsung, dan mengenali langsung dampak sentimen terhadap penjualan, serta efektivitas dan penerimaan pelangan terhadap pemasaran yang dilakukan.

Ø The Call centere Mantra

Penyimpanan hasil perbincangan atau laporan customer dalam bentuk text yang kemudian digunakan sebagai data untuk analisa masalah yang dihadapai customer, memberikan kemampuan bagi perusahaan untuk memberikan tanggapan yang cepat maupun secara langsung terhadap masalah yang dihadapi customer, serta kemampuan unutk mendeteksi penurunan loyalitas customer dikarenakan masalah dan ketidakpuasaan.

Ø Risk: Patterns for Modeling and Management

Memberikan kempuaan pengunaan data secara penuh dan analisis dalam pemodelan resiko dan menejemen resiko untuk memberikan pengetahuan akan resiko dan penanggulangannya secara tepat dan langsung

Ø Big data and The Energy Sector

Memberikan kemampuan penyimpanan dan pemrosesan data secara langsung dari berbagai sumber(sensor), analisa dan kemudahan dalam pengenalan noise untuk memisahkannya dari signal.

3.7 Membangun Big Data Platform

Seperti data pergudangan, toko web atau platform TI, infrastruktur untuk data yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan semua komponen platform data yang besar, penting untuk diingat bahwa tujuan akhir adalah untuk dengan mudah mengintegrasikan data yang besar dengan data perusahaan Anda untuk memungkinkan Anda untuk melakukan analisis mendalam pada set data gabungan.

Infrastructure Requirements

Requirement dalam big data infrastruktur :

· data acquisition,

· data organization

· data analysis

Data acquisition

Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur pada hari-hari sebelum big data. Karena big data mengacu pada aliran data dengan kecepatan yang lebih tinggi dan ragam yang bervariasi, infrastruktur yang diperlukan untuk mendukung akuisisi data yang besar harus disampaikan secara perlahan, dapat diprediksi baik di dalam menangkap data dan dalam memprosesnya secara cepat dan sederhana, dapat menangani volume transaksi yang sangat tinggi , sering dalam lingkungan terdistribusi, dan dukungan yang fleksibel, struktur data dinamis.

Database NoSQL sering digunakan untuk mengambil dan menyimpan big data. Mereka cocok untuk struktur data dinamis dan sangat terukur. Data yang disimpan dalam database NoSQL biasanya dari berbagai variasi/ragam karena sistem dimaksudkan untuk hanya menangkap semua data tanpa mengelompokkan dan parsing data.

Sebagai contoh, database NoSQL sering digunakan untuk mengumpulkan dan menyimpan data media sosial. Ketika aplikasi yang digunakan pelanggan sering berubah, struktur penyimpanan dibuat tetap sederhana. Alih-alih merancang skema dengan hubungan antar entitas, struktur sederhana sering hanya berisi kunci utama untuk mengidentifikasi titik data, dan kemudian wadah konten memegang data yang relevan. Struktur sederhana dan dinamis ini memungkinkan perubahan berlangsung tanpa reorganisasi pada lapisan penyimpanan.

Data Organization

Dalam istilah Data pergudangan klasik, pengorganisasian data disebut integrasi data. Karena ada volume/jumlah data yang sangat besar, ada kecenderungan untuk mengatur data pada lokasi penyimpanan aslinya, sehingga menghemat waktu dan uang dengan tidak memindah-midahkan data dengen volume yang besar. Infrastruktur yang diperlukan untuk mengatur data yang besar harus mampu mengolah dan memanipulasi data di lokasi penyimpanan asli. Biasanya diproses didalam batch untuk memproses data yang besar, beragam format, dari tidak terstruktur menjadi terstruktur.

Apache Hadoop adalah sebuah teknologi baru yang memungkinkan volume data yang besar untuk diatur dan diproses sambil menjaga data pada cluster penyimpanan data asli. Hadoop Distributed File System (HDFS) adalah sistem penyimpanan jangka panjang untuk log web misalnya. Log web ini berubah menjadi perilaku browsing dengan menjalankan program MapReduce di cluster dan menghasilkan hasil yang dikumpulkan di dalam cluster yang sama. Hasil ini dikumpulkan kemudian dimuat ke dalam sistem DBMS relasional.

Data Analysis

Karena data tidak selalu bergerak selama fase organisasi, analisis ini juga dapat dilakukan dalam lingkungan terdistribusi, di mana beberapa data akan tinggal di mana data itu awalnya disimpan dan diakses secara transparan dari sebuah data warehouse. Infrastruktur yang diperlukan untuk menganalisis data yang besar harus mampu mendukung analisis yang lebih dalam seperti analisis statistik dan data mining, pada data dengan jenis yang beragam dan disimpan dalam sistem yang terpisah, memberikan waktu respon lebih cepat didorong oleh perubahan perilaku; dan mengotomatisasi keputusan berdasarkan model analitis. Yang paling penting, infrastruktur harus mampu mengintegrasikan analisis pada kombinasi data yang besar dan data perusahaan tradisional. Wawasan baru datang bukan hanya dari analisis data baru, tapi dari menganalisisnya dalam konteks yang lama untuk memberikan perspektif baru tentang masalah lama.

Misalnya, menganalisis data persediaan dari mesin penjual otomatis cerdas dalam kombinasi dengan acara kalender untuk tempat di mana mesin penjual otomatis berada, akan menentukan kombinasi produk yang optimal dan jadwal pengisian untuk mesin penjual otomatis.

3.8 Tantangan dalam pemanfaatan Big Data

Dalam usaha pemanfaatan Big Data dapat terdapat banyak hambatan dan tantangan, beberapa hal diantaranya berhubungan dengan data dimana melibatkan acquisition, sharing dan privasi data, serta dalam analisis dan pengolahan data

Ø Privasi

Privasi merupakan isu yang paling sensitif, dengan konseptual, hukum, dan teknologi, Privasi dapat dipahami dalam arti luas sebagai usaha perusahaan untuk melindungi daya saing dan konsumen mereka. Data-data yang digunakan / disimpan sebagai big data

Ø Access dan sharing

Akses terhadap data, baik data lama maupun data baru dapat menjadi hambatan dalam mendapatkan data untuk big data, terlebih pada data lama dimana data- data tersimpan dalam bentuk – bentuk yang berbeda-beda dan beragam ataupun dalam bentuk fisik, akses terhadap data baru juga membutuhkan usaha yang lebih kerana diperlukannya izin dan lisensi untuk mengakses data-data non-public secara legal.

Ø Analisis

Bekerja dengan sumber data baru membawa sejumlah tantangan analitis. relevansi dan tingkat keparahan tantangan akan bervariasi tergantung pada jenis analisis sedang dilakukan, dan pada jenis keputusan yang akhirnya akan bisa diinformasikan oleh data.

Tergantung dari jenis data terdapat 3 kategori dalam analisis data

o Penentuan gambaran yang benar

Masalah ini biasanya ditemukan dalam penanganan unstructured user-generated text-based data dimana data yang didapatkan belum tentu benar karena data atau sumber yang salah.

o Interpreting Data

Kesalahan –kesalahan seperti Sampling selection bias merupakan hal yang sering ditemukan dimana data yang ada tidak dapat digunakan untuk mepresentasikan semua populasi yang ada, dan apophenia, melihat adanya pola walaupun tidak benar-benar ada dikarenakan jumlah data yang besar, dan kesalahan dalam menginterpreasikan hubungan dalam data.

o Defining and detecting anomalies

tantangan sensitivitas terhadap spesifisitas pemantauansistem. Sensitivitas mengacu pada kemampuan sistem pemantauan untuk mendeteksi semua kasus sudah diatur untuk mendeteksi sementara spesifisitas mengacu pada kemampuannya untuk mendeteksi hanya kasus-kasus yang relevan. kegagalan untukmencapai hasil yang terakhir "Tipe I kesalahan keputusan", juga dikenal sebagai "positif palsu"; kegagalanuntuk mencapai mantan "Type II error", atau "negatif palsu." Kedua kesalahan yang tidak diinginkan ketika mencoba untuk mendeteksi malfungsi atau anomali, bagaimanapun didefinisikan, untuk berbagai alasan. Positif palsu merusak kredibilitas sistem sementara negatif palsu dilemparkan ragu pada relevansinya. Tapi apakah negatif palsu lebih atau kurang bermasalah daripada positif palsu tergantung pada apa yang sedang dipantau, dan mengapa itu sedang dipantau.

BAB 4

Penutup

Simpulan

Dapat disimpulkan bahwa big data sudah mulai dimanfaatkan dan akan sangat berguna untuk dipahami lebih dalam untuk mengimbangi perkembangan jaman ke arah teknologi dan analisis yang lebih praktis.

Saran

- Mempelajari lebih dalam mengenai big data, karena hal ini akan sangat berguna bagi perusahaan, dimana perusahaan jaman sekarang mulai mempelajari tren pasar dan pola hidup konsumen.

- Dalam penerapannya, perusahaan akan membutuhkan orang yang khusus dalam bidang data mining, karena hal ini cukup rumit dan diperlukan orang yang paham cara untuk menggunakan data.

Cuma blog buat gw sharing, nyari kesenengan, dan ngabisin waktu

Menu

Cari disini

Tuesday, February 7, 2017

Pengertian Big Data

0 comments:

Post a Comment