Artificial Intelligence Image Classification with Orange Chapter One

BAB I
PENDAHULUAN 



1.1 LATAR BELAKANG 

    Menurut (Irwandani, 2016) perkembangan pengguna internet di Indonesia terbilang sangat pesat. Dalam 5 tahun terakhir, jumlah pengguna internet di Indonesia naik sebesar 430 %. Indonesia berada di peringkat kedua setelah Filipina dalam hal pesatnya pertumbuhan pengguna internet di dunia. Hingga November 2015 pengguna internet telah mencapai 88,1 juta orang atau sekitar 34 % dari total jumlah penduduk Indonesia. Pesatnya perkembangan tersebut dipengaruhi oleh semakin populernya penggunaan sosial media di kalangan masyarakat.

    Laporan dari We Are Sosial, sebuah badan yang meneliti tentang sosial media, menyebutkan bahwa jumlah pengguna internet sampai Januari 2015 adalah 7.210 milyar pengguna dan pengguna sosial media yang aktif berjumlah 2.078 milyar user. Pengguna sosial media ini mencapai 29% dari populasi penduduk dunia. Dari laporan tersebut juga tertulis bahwa di Indonesia sendiri terdapat 28% pengguna aktif sosial media dari populasi total (sekitar 72 juta pengguna). Per Januari 2015, sosial media yang paling banyak digunakan di seluruh dunia adalah Facebook (sekitar 1.366 juta pengguna), di ikuti oleh Qzone (sosial media di China), Google+, Instagram, Twitter, dan Tumblr. Fenomena yang terjadi di Indonesia agak sedikit berbeda, sosial media yang paling banyak digunakan adalah Facebook, Twitter, Google+, LinkedIn, Instagram, dan Pinterest (Wijanto, 2015). Hal ini ditandai dengan posting data menyangkut keseharian, bisnis, status, gambar, bahkan info terupdate lebih mudah ditemukan di kedua sosial media tersebut. 

    Sosial media kini menjadi tempat sebagai perbincangan publik. Topik pembicaraan dalam sosial yang beragam menjadi hal unik tersendiri untuk diteliti. Dimana dari topik yang mereka bicarakan menghasilkan opini - opini yang sebagian besar juga mengandung opini sentimen. Contohnya topik viral yang sering dibicarakan saat ini adalah digital payment yang merupakan hasil analisis kebutuhan prilaku manusia dan menghasilkan inovasi baru berupa sebuah alat pembayaran digital. Saat ini banyak jenis digital payment yang telah di kenal masyarakat dua dari mereka adalah T-cash dan Go-Pay, keduanya sama – sama digital payment yang memiliki jumlah pengguna yang banyak saat ini. 

    Analisis Sentimen atau Sentiment analysis adalah riset komputasional dari opini, sentimen dan emosi yang diekpresikan secara tekstual (Zulfa & Winarko, 2017). Akan tetapi data bisa saja sangat banyak oleh karena itulah penelitian ini memanfaatkan text mining yang tujuannya untuk dapat mengektraksi text sentimen dan juga menentukan trending topik. Dalam melakukan sentiment analist sendiri penelitian ini menggunakan Orange Data Mining. Tools ini adalah mesin belajar open source dan visualisasi data untuk pemula dan ahli. Alur kerja analisis data yang interaktif dengan toolbox yang banyak (―Orange – Data Mining Fruitful & Fun, ‖ t.t.). Orange Data Mining bekerja dengan bahasa pemrograman phyton (―Orange Data Mining Library — Orange Data Mining Library 3 documentation, ‖ t.t.). Pada dasarnya target analisis sentimen adalah untuk temukan pendapat, umpan balik atau ulasan, dan kemudian mengidentifikasi sentimen yang ingin mereka ekspresikan dan kemudian mengklasifikasikan polarity disana yaitu positif, negatif atau neutral (Wu., dkk., (2011) dalam (Anshuman dkk., 2017). Maka dari itu untuk dapat mendapatkan class sentimen tersebut, penelitian ini menggunakan metode analisis vader: Lexicon- and RuleBased Sentiment Analysis. Metode ini menentukan class sentimen berdasarkan lexicon (a library), dengan metode analisis vader, analisis sentimen akan menghasilkan Output score untuk beberapa kategori (negatif, positif, neutral) dan menambahkan score sentimen total yang disebut compound (combined score) dimana negative score untuk negative sentiment, positive untuk positive, 0 adalah neutral (―Sentiment Analysis — Orange3 Text Mining documentation,‖ t.t.). Hal tersebut untuk mengetahui perbandingan analisis sentimen pengguna T-cash dan Gopay disosial media. 


1.1.1 Sejarah Data Science 

    Semua berawal dari John Tukey yang pada tahun 1962 menulis pergeseran dan perkembangan dunia statistik. 13 Beliau berkata “… as I have watched mathematical statistics evolve, I have had cause to wonder and to doubt…I have come to feel that my central interest is in data analysis…”. Tukey menjelaskan bahwa gabungan ilmu statistik dan ilmu komputer dapat mempersingkat waktu penyajian hasil analisis. Hasil analisis menggunakan gabungan ilmu komputer dan statistik dapat diselesaikan hanya dalam hitungan jam jauh berbeda dibandingkan pengerjaan manual yang membutuhkan waktu berharihari bahkan berminggu-minggu. 

    Pada tahun 1974, Peter Naur menulis sebuah survei singkat mengenai metode komputer dan menggunakan istilah data science. Naur mengenalkan konsep baru “The science of dealing with data, once they have been established, while the relation of the data to what they represent is delegated to other fields and sciences.” Tahun 1977 sebuah asosiasi internasional untuk perhitungan statistik dibentuk. Asosiasi ini dikenal dengan IASC (International Association for Statistical Computing). Asosiasi ini memiliki misi yang berpengaruh di dunia science yaitu untuk menghubungkan metodologi statistik tradisional, teknologi komputer modern, dan pengetahuan para ahli untuk mengubah data menjadi informasi dan pengetahuan. Pada tahun ini juga Tukey Menulis makalah keduanya yang berjudul Exploratory Data Analysis atau Analisis Data Eksplorasi. Pada makalahnya ini Tukey menjelaskan alasan pentingnya menggunakan data dalam memilih hipotesis untuk diuji dan menjelaskan bahwa analisis data konfirmatori dan analisis data eksplorasi harus bekerja sama. 

    Pada tahun 1994, data science mulai memasuki dunia marketing. Business Week memuat berita mengenai database marketing pada cerita sampulnya yang mengungkapkan bahwa perusahaan berita telah mulai mengumpulkan sejumlah besar informasi konsumen untuk memulai iklan pemasaran baru.


1.1.2 Software Data Science Pertama 

    Pada tahun 2001, Software-as-a-Service (SaaS) dibuat. Software Ini adalah awal dari penggunaan aplikasi berbasis Cloud. Pada tahun ini juga William S. Cleveland menyusun rencana pelatihan data scientist untuk memenuhi kebutuhan masa depan. Cleveland mempresentasikan rencananya yang berjudul Data Science: An Action Plan for Expanding the Technical Areas of the field of Statistics. Rencana ini menjelaskan bagaimana cara untuk meningkatkan pengalaman teknis, jangkauan analis data, dan menentukan enam bidang studi untuk departemen di sebuah universitas. Cleveland mengenalkan pengembangan sumber daya khusus untuk penelitian di masing-masing bidang dan rencananya juga akan digunakan untuk penelitian pemerintah dan perusahaan. 

    Pada tahun 2002, Committee on Data for Science and Technology dari International Council for Science menerbitkan Jurnal data science. Jurnal ini berfokus pada masalah-masalah seperti deskripsi sistem data, publikasinya di internet, aplikasi, dan masalah hukum. Pada tahun 2006, Hadoop 0.1.0 dirilis. Hadoop 0.1.0 adalah sebuah database non-relasional open source dan berbasis Nutch. Lalu pada tahun 2009, istilah NoSQL diperkenalkan kembali oleh Johan Oskarsson ketika Oskarsson menyelenggarakan diskusi tentang "opensource, non-relational databases". 

    Pada tahun 2011, daftar pekerjaan untuk data scientist meningkat sebesar 15%. Seminar dan konferensi data science dan big data pun meningkat. Pada tahun yang sama James Dixon, seorang CTO Pentaho mengenalkan konsep keunggulan menggunakan Data Lakes daripada Data Warehouse. Dixon menyatakan perbedaan antara Data Warehouse dan Data Lake adalah Data Warehouse membuang banyak waktu dan tenaga karena melakukan pra-kategorisasi data pada titik masuk sementara Data Lake menerima informasi menggunakan database nonrelasional (NoSQL) yang hanya menyimpan dan tidak mengkategorikan data tersebut. 

    Menurut IBM pada tahun 2013, sekitar 90% data di dunia telah diproduksi pada tahun 2011 hingga 2012. Pada 2015, Jack Clark dari Bloomberg, menulis bahwa tahun 2015 adalah tahun penting bagi dunia artificial intelligence (AI). Di dalam Google, total proyek software yang menggunakan AI meningkat menjadi lebih dari 2.700 proyek selama tahun 2015. Selain itu dengan menggunakan teknik deep learning, pengenalan Google’s speech recognition dan Google Voice mengalami peningkatan sebesar 49%. 


1.1.3 Perkembangan Data Science Sekarang 

    Sepanjang tahun 2000-an, berbagai jurnal akademik mulai mengakui data science sebagai disiplin ilmu yang sedang berkembang. Pada tahun 2005, National Science Board menetapkan adanya profesi data scientist yang akan mengelola dan mengumpulkan data dalam dunia digital. Pada saat ini, perusahaan juga mulai melihat data sebagai komponen yang dapat dimanfaatkan. Thomas H. Davenport, Don Cohen, dan Al Jacobson menulis dalam Babson College Working Knowledge Research Center pada tahun 2005 “Instead of competing on traditional factors, companies are beginning to employ statistical and 19 quantitative analysis and predictive modeling as primary elements of competition.” 

    Pada tahun 2009, belum banyak orang yang kompeten dalam bidang data science. Hal ini membuat Hal Varian, seorang Google Chief Economist di perusahaan raksasa Google khawatir karena tidak banyak orang yang mampu menganalisis data gratis dari berbagai sumber. Dalam sebuah wawancara dengan McKinsey Quarterly, varian mengungkapkan kekhawatirannya “The complimentary scarce factor is the ability to understand that data and extract value from it … I do think those skills—of being able to access, understand, and communicate the insights you get from the data analysis—are going to be extremely important.”

    Pada tahun 2010, data science mulai menjadi pusat perhatian dan didukung dengan teknologi komputasi yang semakin canggih. Hal ini merupakan kabar baik untuk varian dan sebagian besar pengamat data science. Contoh nyatanya adalah Apple yang mulai memperkenalkan iPad pada Januari 2010 dan Pada bulan Juni di tahun yang sama, Apple merilis iPhone 4. Contoh lainnya adalah pada Bulan Juli, Amazon menerbitkan siaran pers yang menyatakan bahwa untuk pertama kalinya, platform ini telah menjual lebih banyak buku Kindle daripada buku hardcover. Hal ini membuktikan bahwa konsumen mulai terbuka dengan data science yang dibalut dengan teknologi modern. 

    Selama beberapa tahun terakhir, data science terus berkembang dan menembus hampir ke seluruh industri. Dalam artikel tahun 2010 yang diterbitkan di The Economist, Kenneth Cukier mengatakan bahwa data scientist merupakan gabungan keterampilan pemrograman, statistika, dan story telling yang dapat menemukan ‘emas’ di balik kumpulan data. Saat ini, data scientist sangat berharga dan perusahaan rela membayar mahal seorang data scientist untuk membantu kinerja perusahaannya. Tidak hanya itu, data science saat ini tidak hanya dapat dipelajari oleh seseorang dengan background pendidikan ilmu komputer atau statistika saja, tetapi juga bisa dipelajari oleh semua orang dengan background pendidikan yang berbeda-beda. 

    Data science dan aplikasinya akan terus berkembang karena data akan terus diproduksi, berkembang, dan semakin besar. Buktinya, menurut Pew Research Center saat ini 95% orang Amerika memiliki beberapa jenis ponsel. Hampir delapan dari sepuluh orang dewasa AS memiliki komputer desktop atau laptop, sementara kira-kira setengahnya sekarang memiliki komputer tablet. Selain itu, menurut Accenture pada tahun 2016, 78% konsumen perawatan kesehatan memakai atau bersedia memakai teknologi untuk melacak gaya hidup dan tanda vital mereka. 

    Data science telah menjadi bagian penting dari bisnis dan penelitian akademis. Penerapan data science di bidang teknologi antara lain mesin penerjemah bahasa, robot, 22 speech recognition, dan search engines. Dari segi penelitian, data science telah berkembang mencakup ilmu biologi, kesehatan, informatika, kedokteran, ilmu humaniora, dan ilmu sosial. Data science saat ini pun berpengaruh di bidang ekonomi, pemerintah, serta bisnis dan keuangan. 



1.2 PRINSIP DAN TUJUAN DATA SCIENCE

    Prinsip utama dari data science adalah untuk membangun kerangka kerja dan solusi untuk menyimpan data. Seperti Hadoop dan kerangka kerja lainnya yang telah berhasil memecahkan masalah penyimpanan, namun sekarang fokus dunia telah bergeser ke pengolahan data . Ilmu Data adalah saus rahasia di sini. Semua ide yang Anda lihat di sci-fi Hollywood, benar-benar bisa berubah menjadi kenyataan dengan Data Science. AI(Artificial Intellegent) adalah masa depan dari data science. Oleh karena itu, penting untuk memahami apa Data Science dan bagaimana hal itu dapat mengubah bisnis anda. 

    Sedangkan tujuan dari data science adalah Menggali data dan memberikan informasi seakurat mungkin yang digunakan untuk:

1. Deskripsi yaitu menampilkan pola data untuk dianalisa dan penemuan masalah.

2. Prediksi yaitu melakukan prediksi berupa nilai, probabilitas maupun data dan kemudian merekomendasikan hasilnya untuk digunakan sebagai alat bantu pengambil keputusan maupun secara langsung digunakan secara otomatis oleh sistem. 



1.3 JENIS PEMBELAJARAN DATA SCIENCE

1. Supervised Learning (Prediksi)

    Untuk membentuk sistem yang cerdas, sistem harus diberikan pelatihan terlebih dahulu (training) dengan data fakta (labelled training), sistem akan belajar dan membentuk pola data yang ada baru kemudian digunakan untuk melakukan prediksi, proses belajarnya seperti anak murid yang diajarkan oleh guru. 


2. Unsupervised Learning (Deskripsi)

    Sistem dapat mengandalkan data yang belum dilatih sebelumnya (unlabelled training) dan dapat membentuk pola data yang sifatnya deskriptif, bukan untuk prediksi.


3. Reinforced dan Deep Learning (Prediksi)

    Sistem belajar dari feedback lingkungan dengan teknik learning yang iteratif (berulang-ulang) dan adaptif (menyesuaikan) seperti cara manusia belajar dengan sendirinya, algoritma digunakan untuk memaksa sistem belajar menemukan nilai optimal dengan coba-coba (trial and error). Teknik pembelajaran menggunakan algoritma Neural Network berlapis yang sangat mirip dengan cara kerja otak manusia dimana neuron-neuron satu sama lain membentuk jaringan neuron yang sangat rumit.

Komentar

Postingan Populer