Tuesday, March 20, 2018

Sentiment Analysis dengan API Twitter dan Python 2.7

(Sumber : https://sproutsocial.com/insights/sentiment-analysis/)

Pengantar Algoritma Deep Learning
Alza Ichsan K. - 50414925
Annisa Larasati A. - 51414380
Deni Mardiana - 52414694
Hasan El Jabir - 54414837


Berikut akan dibahas mengenai pengambilan data dari Twitter dengan menggunakan metode data scrapping. Data yang telah dikumpulkan kemudian diolah untuk menentukan mana yang termasuk kalimat positif dan kalimat negatif. Penentuan tersebut dilakukan dengan analisis kalimat berdasarkan keyword yang diambil dari daftar kata.

1. Pendaftaran Aplikasi
Sebelum pembuatan aplikasi dilakukan, daftarkan aplikasi yang akan dibuat pada Twitter agar dapat menggunakan API Twitter. Pendaftaran aplikasi dapat dilakukan disini. Pilih Create New App, kemudian lengkapi form pendaftaran.


Field yang diberi tanda bintang adalah field yang wajib diisi dengan keterangan sebagai berikut :
  • Name : Nama aplikasi yang akan dibuat 
  • Description : Penjelasan singkat mengenai aplikasi
  • Website : Website untuk mendownload aplikasi yang anda buat (Jika tidak ada dapat diisi dengan URL dummy, seperti http://contoh.com)
  • Callback URL : Untuk diimplementasikan lebih jauh dengan OAuth, dalam kasus ini field ini dikosongkan karena tidak digunakan.

2. Instalasi Pycharm dan Pembuatan Project
Download PyCharm di situs resmi PyCharm. PyCharm adalah IDE untuk bahasa pemrograman Python. Pada PyCharm telah terdapat Python versi 2 dan 3, serta untuk instalasi library tambahan dapat dilakukan dengan mudah. Penulis menggunakan PyCharm Community Edition dan menggunakan OS Linux Ubuntu 16.04 LTS.

Jika telah diinstall, buat project baru dengan struktur sebagai berikut. Penulis menamakan project dengan nama bcanalyst yang merupakan singkatan dari Black Campaign Analyst. Gunakan interpreter Python 2.7 seperti gambar dibawah.


Install library Tweepy agar dapat menggunakan API Twitter pada Python dengan cara pilih File -> Settings -> Project: bcanalyst -> Project Interpreter, kemudian klik +.


Ketikkan Tweepy kemudian Install Package seperti gambar dibawah. Tunggu hingga instalasi selesai.


Buat struktur project seperti gambar di bawah. Dimana dalam direktori DataSource file daftar kata positif dan negatif, serta sebagai direktori untuk menyimpan hasil data scrapping dari Twitter. Direktori Result digunakan untuk menyimpan output CSV hasil analisis.


DataScrapping.py digunakan untuk mengambil data dari Twitter. Berikut source code program.


Ganti baris 7-10 dengan token aplikasi yang telah didaftarkan sebelumnya. Token tersebut dapat dilihat pada tab seperti gambar dibawah.

Untuk mengganti nama file hasil data scrapping, dapat dilakukan pada baris 18.

Ganti baris 39 sesuai dengan keyword yang akan dicari. Dalam kasus ini, penulis mencari tweet yang mengandung hashtag atau kata prabowo.

SentimentAnalysis.py digunakan untuk menganalisis setiap tweet yang telah diperoleh. Berikut source code program.




3. Pembuatan Daftar Kata Positif-Negatif
Buat file positive.txt dalam direktori DataSource. Dalam file ini terdapat daftar kata-kata positif. Berikut contoh format daftar kata positif.


Buat file negative.txt dalam direktori DataSource. Dalam file ini terdapat daftar kata-kata negatif. Berikut contoh format daftar kata negatif.


Semakin banyak kata yang didaftarkan, maka perhitungan dan analisis akan semakin akurat.


4. Pengumpulan Data (Data Scrapping)
Jalankan DataScrapping.py, jika data scrapping berhasil, maka akan terbuat file prabowo.txt yang berisi daftar tweet yang mengandung hashtag atau kata prabowo. Jika data yang terkumpul telah cukup banyak, maka Stop program DataScrapping.py. Cepat atau lambatnya scrap data tergantung dari koneksi Internet. 


5. Sentiment Analysis
Jalankan SentimentAnalysis.py. Program ini akan mencocokkan setiap tweet dengan daftar kata positif dan daftar kata negatif, kemudian data tweet diolah dengan perhitungan persentase kemunculan kata positif dan negatif.

Hasil analisis kemudian di export ke format file CSV. File output yang dihasilkan adalah sentiment_analysis.csv yang terdapat dalam direktori Result. Berikut adalah output CSV yang di hasilkan : sentiment_analysis.csv.



No comments:

Post a Comment