READ MORE >>   Idea.

Perhatianku tertuju pada sebuah posting di milis Jurnalisme pagi ini, tentang keberpihakan media. Mbak Sirikit menulis begini:

Sabili, Suara Hidayatullah, Suara Pembaruan, Republika, Christian Science Monitor, adalah media yang berani “terus terang” tentang ideologinya, dan tak takut ambil risiko menjadi “terbatas segmentasinya”.

Sama sekali bukan media serudak seruduk seperti yang Anda labelkan. Kalau Sabili one-sided, so be it, segmennya amat terbatas. Yang jelas, mereka “berani terbuka”, tak merasa perlu “pura-pura netral”.

Sedangkan Kompas, Tempo, yang Anda puji “punya cara halus dan cerdas”, saya setuju pendapat Anda. Saya juga pembaca setia dua media itu. Namun tidak jarang media seperti Kompas yang lazimnya netral itu tiba-tiba sangat kentara biasnya/berpihak pada isu-isu khusus. Contoh terakhir adalah penolakan RUU APP dan pembatalan/penundaan eksekusi Tibo. Sangat-sangat kentara melebihi batas kewajaran standar Kompas sendiri. One-sided.

Contoh yang Anda berikan justru menunjukkan betapa tendensiusnya Kompas. Kalau memberitakan kebaikan Soeharto, menyebut “Soeharto” saja, atau “Mantan Presiden”, tetapi bila mengungkap keburukan, pakai “Haji Soeharto”. Betapa tendensiusnya. Pertanyaan: apakah Kompas pernah menyebut “Pendeta Tibo” ketika menuliskan kasus tersebut?

Aku tergelitik dan semakin terdorong untuk menerapkan teknologi NLP (natural language processing) buat bahasaku sendiri. Teknologi ini bisa menjawab pertanyaan dalam postingan di atas: “Apa sebutan atau panggilan yang digunakan oleh sebuah media untuk konteks berita tertentu?”

Metode yang terpikir sebagai berikut:

  • Download dokumen atau artikel web dari beberapa media yang ingin dianalisa, kelompokkan berdasarkan medianya.
  • Tandai Name Entity (NE) person (nama orang dan label yang menyertai) di setiap artikel.
  • Untuk setiap NE yang ditemukan, ekstrak juga konteksnya: ambil 50 kata sebelum dan sesudah NE tersebut.
  • Gunakan term extraction dan hitung signifikansi setiap term terhadap NE menggunakan metode statistik sederhana: frekuensi atau information gain.
  • Kita akan mendapatkan NE dan konteks yang menyertainya.

Untuk mendapatkan NE, gunakan cara paling mudah: heuristik, berdasarkan kapitalisasi huruf depan. Untuk menapatkan term penting, gunakan teknik ATR atau Information Gain. Moga-moga punya waktu…

  READ MORE >>   Idea.


No Comments on “Highly needed: Text Analysis for Indonesian Language”

You can track this conversation through its atom feed.

No one has commented on this entry yet.

Leave a Reply

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>