Sunday, September 14, 2014

INFORMATION EXTRACTION

          Untuk mendapatkan informasi terstruktur dari teks yang tidak terstruktur, hal pertama yang perlu didefinisikan adalah informasi target sebagai informasi terstruktur yang akan diekstrak. Informasi ini dapat berupa entitas ataupun relasi antar entitas. Secara umum, entitas dapat berupa orang, perusahaan, organisasi, atau lokasi. Oleh karena itu, kegiatan utama dalam ekstraksi informasi adalah pengenalan entitas (named-entity recognition) dan ekstraksi relasinya (Jiang, 2012).
          Pengenalan entitas dapat dilakukan dengan memanfaatkan pola kemunculan entitas tersebut pada teks. Pola ini dapat didefinisikan secara manual oleh pakar ataupun didapatkan secara otomatis dengan pembelajaran mesin. Oleh karena itu, terdapat dua pendekatan dalam pengenalan entitas, yaitu pendekatan berbasis aturan dan pendekatan berbasis pembelajaran (Jiang, 2012).
           Setelah pengenalan entitas selesai dilakukan, kegiatan berikutnya adalah ekstraksi relasi antar entitas. Dengan mendefinisikan relasi semantik yang mungkin, entitas menjadi argumen dari relasi tersebut. Pendekatan yang paling umum dalam ekstraksi relasi adalah klasifikasi (Jiang, 2012). Berbagai pendekatan dibedakan oleh fitur yang digunakan (Hasby, 2013).
            Salah satu contoh dari information extraction adalah transaksi Online pada Twitter. Berikut gambaran tahapan mengenai penggunaan SAFE-F:
            Aplikasi SaFE-F yang mengekstrak informasi transaksi online di Indonesia dari konten tweet. Terdapat empat tahapan pada SaFE-F yaitu: Search, Filter, Ekstraksi, dan Filling. Karena sistem ini menggunakan pendekatan klasifikasi untuk tahap filter dan ekstraksi, beberapa eksperimen dilakukan untuk mendapatkan model klasifikasi terbaik.
            Contoh lainnya adalah Name Entity Recognition. Name Entity Recognition (NER) atau Name Entity Recognition and Classification (NERC)  adalah salah satu komponen utama dari information extration yang bertujuan untuk mendeteksi dan mengklasifikasikan named-entity pada suatu teks. NER umumnya digunakan untuk mendeteksi nama orang, nama tempat dan organisasi dari sebuah dokumen, tetapi dapat juga diperluas untuk identifikasi gen, protein dan lainnya sesuai kebutuhan.
Contoh  named entity  dalam suatu kalimat:
19.55Banjir setinggi 80-100 cm di Jln yos sudarso, dekat pelabuhan 1 Cirebon, hati2 pengendara“
            Setelah proses NER dijalankan, akan didapat named-entity (NE) atau sering disebut  mention beserta tipenya: “19:55” bertipe waktu; “banjir”  bertipe kejadian; “80-100cm” bertipe ukuran “Jln. yos sudarso”, “pelabuhan 1” dan “Cirebon”  bertipe  lokasi.  Dari contoh di atas dapat dilihat bahwa fungsi dari NER adalah mendeteksi kata atau kumpulan kata yang merupakan entitas dan mengkategorikan kata tersebut ke dalam tipe yang sesuai NER bermanfaat dalam banyak aplikasi NLP (Natural Language Processing) seperti question-answering, rangkuman dan sistem dialog.  NER juga berkaitan task information  extraction lainnya seperti  dengan relation detection,  event detection dan temporal analysis.
            Ada dua jenis ambiguitas yang dapat ditemui NER. Pertama kata yang sama dapat berarti dua entitas yang berbeda. Misalnya kata Soekarno dapat berarti presiden pertama Indonesia, atau nama belakang seorang seniman (Enrico Soekarno),  keduanya entitas berbeda walaupun tipenya sama (orang/person).  Jenis ambiguitas  kedua adalah nama yang sama tapi tipe berbeda. Contohnya adalah Bung Karno  sebagai stadion dengan Bung Karno sebagai orang.  Ambiguitas umumnya ditangani dengan menggunakan kamus.
            Deteksi named entity  dapat dilakukan dengan melihat pola kata disekitarnya. Misalnya frasa yang didahului oleh kalimat “pergi ke … “ atau “datang dari … “ kemungkinan besar adalah named entity bertipe lokasi. Contoh “pergi ke Bandung”  dan “datang dari Amerika Serikat”.   Tentu pola ini sangat banyak kombainasinya sehingga cara manual kurang feasible. Seiring dengan makin banyaknya data tersedia, machine learning dapat digunakan untuk mempelajari pola secara otomatis dan melakukan prediksi label kategori.
            NER dapat diselesaikan dengan pelabelan urutan kata statistik (statisctical sequence-labeling) yang mendeteksi batas atau segmen  dan tipe dari named-entity.  Fitur yang dapat digunakan untuk learning antara lain:  shape (uppercase atau lowercase, penggunaan angka),  kata dikiri dan dikanan, jenis kata, apakah kata ada di dalam kamus atau gazetter,  predictive words dan N-Gram.  Setelah fitur dikumpukan, pelabelan dapat diselesaikan dengan menggunakan Hidden Markov Model atau Maximum Entropy Model.
            Berikut beberapa video yang mungkin bisa membantu dalam memahami apa itu information extraction.






Referensi:
http://yudiwbs.wordpress.com/2012/02/07/named-entity-recognition/
http://cybermatika.stei.itb.ac.id/ojs/index.php/cybermatika/article/download/27/5