Note Book: INFORMATION EXTRACTION

Untuk mendapatkan informasi terstruktur dari teks yang tidak terstruktur, hal pertama yang perlu didefinisikan adalah informasi target sebagai informasi terstruktur yang akan diekstrak. Informasi ini dapat berupa entitas ataupun relasi antar entitas. Secara umum, entitas dapat berupa orang, perusahaan, organisasi, atau lokasi. Oleh karena itu, kegiatan utama dalam ekstraksi informasi adalah pengenalan entitas (named-entity recognition) dan ekstraksi relasinya (Jiang, 2012).

Pengenalan entitas dapat dilakukan dengan memanfaatkan pola kemunculan entitas tersebut pada teks. Pola ini dapat didefinisikan secara manual oleh pakar ataupun didapatkan secara otomatis dengan pembelajaran mesin. Oleh karena itu, terdapat dua pendekatan dalam pengenalan entitas, yaitu pendekatan berbasis aturan dan pendekatan berbasis pembelajaran (Jiang, 2012).

Setelah pengenalan entitas selesai dilakukan, kegiatan berikutnya adalah ekstraksi relasi antar entitas. Dengan mendefinisikan relasi semantik yang mungkin, entitas menjadi argumen dari relasi tersebut. Pendekatan yang paling umum dalam ekstraksi relasi adalah klasifikasi (Jiang, 2012). Berbagai pendekatan dibedakan oleh fitur yang digunakan (Hasby, 2013).

Salah satu contoh dari information extraction adalah transaksi Online pada Twitter. Berikut gambaran tahapan mengenai penggunaan SAFE-F:

Aplikasi SaFE-F yang mengekstrak informasi transaksi online di Indonesia dari konten tweet. Terdapat empat tahapan pada SaFE-F yaitu: Search, Filter, Ekstraksi, dan Filling. Karena sistem ini menggunakan pendekatan klasifikasi untuk tahap filter dan ekstraksi, beberapa eksperimen dilakukan untuk mendapatkan model klasifikasi terbaik.

Contoh lainnya adalah Name Entity Recognition. Name Entity Recognition (NER) atau Name Entity Recognition and Classification (NERC) adalah salah satu komponen utama dari information extration yang bertujuan untuk mendeteksi dan mengklasifikasikan named-entity pada suatu teks. NER umumnya digunakan untuk mendeteksi nama orang, nama tempat dan organisasi dari sebuah dokumen, tetapi dapat juga diperluas untuk identifikasi gen, protein dan lainnya sesuai kebutuhan.

Contoh named entity dalam suatu kalimat:

“19.55: Banjir setinggi 80-100 cm di Jln yos sudarso, dekat pelabuhan 1 Cirebon, hati2 pengendara“

Setelah proses NER dijalankan, akan didapat named-entity (NE) atau sering disebut mention beserta tipenya: “19:55” bertipe waktu; “banjir” bertipe kejadian; “80-100cm” bertipe ukuran “Jln. yos sudarso”, “pelabuhan 1” dan “Cirebon” bertipe lokasi. Dari contoh di atas dapat dilihat bahwa fungsi dari NER adalah mendeteksi kata atau kumpulan kata yang merupakan entitas dan mengkategorikan kata tersebut ke dalam tipe yang sesuai NER bermanfaat dalam banyak aplikasi NLP (Natural Language Processing) seperti question-answering, rangkuman dan sistem dialog. NER juga berkaitan task information extraction lainnya seperti dengan relation detection, event detection dan temporal analysis.

Ada dua jenis ambiguitas yang dapat ditemui NER. Pertama kata yang sama dapat berarti dua entitas yang berbeda. Misalnya kata Soekarno dapat berarti presiden pertama Indonesia, atau nama belakang seorang seniman (Enrico Soekarno), keduanya entitas berbeda walaupun tipenya sama (orang/person). Jenis ambiguitas kedua adalah nama yang sama tapi tipe berbeda. Contohnya adalah Bung Karno sebagai stadion dengan Bung Karno sebagai orang. Ambiguitas umumnya ditangani dengan menggunakan kamus.

Deteksi named entity dapat dilakukan dengan melihat pola kata disekitarnya. Misalnya frasa yang didahului oleh kalimat “pergi ke … “ atau “datang dari … “ kemungkinan besar adalah named entity bertipe lokasi. Contoh “pergi ke Bandung” dan “datang dari Amerika Serikat”. Tentu pola ini sangat banyak kombainasinya sehingga cara manual kurang feasible. Seiring dengan makin banyaknya data tersedia, machine learning dapat digunakan untuk mempelajari pola secara otomatis dan melakukan prediksi label kategori.

NER dapat diselesaikan dengan pelabelan urutan kata statistik (statisctical sequence-labeling) yang mendeteksi batas atau segmen dan tipe dari named-entity. Fitur yang dapat digunakan untuk learning antara lain: shape (uppercase atau lowercase, penggunaan angka), kata dikiri dan dikanan, jenis kata, apakah kata ada di dalam kamus atau gazetter, predictive words dan N-Gram. Setelah fitur dikumpukan, pelabelan dapat diselesaikan dengan menggunakan Hidden Markov Model atau Maximum Entropy Model.
Berikut beberapa video yang mungkin bisa membantu dalam memahami apa itu information extraction.

Referensi:

http://yudiwbs.wordpress.com/2012/02/07/named-entity-recognition/
http://cybermatika.stei.itb.ac.id/ojs/index.php/cybermatika/article/download/27/5

Note Book

Sunday, September 14, 2014

INFORMATION EXTRACTION

No comments:

Post a Comment

Friend

Popular Posts