Preprocessing
merupakan tahapan awal dalam mengolah data input
sebelum memasuki proses tahapan utama dari metode Latent Semantic Analysis (LSA).
Preprocessing text dilakukan untuk tujuan penyeragaman dan kemudahan
pembacaan serta proses LSA selanjutnya (Aji P.,
Baizal SSi. and Firdaus S.T., 2011). Preprocessing
terdiri dari beberapa tahapan. Adapun tahapan preprocessing berdasarkan (Triawati,
2009) , yaitu: case folding, tokenizing / parsing,
filtering, stemming. Berikut penjelasan empat tahapan dalam proses preprocessing adalah sebagai berikut.
1.
Case Folding
Case folding merupakan tahapan yang mengubah
semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan
‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter
(pembatas)(Triawati, 2009).Contoh
penggunaan case folding adalah sebagai berikut.
data input hasil case folding
Penjelasan:
Input
|
Output
|
Kalimat/kata input dari
pengguna
|
Kalimat/kata input menjadi huruf kecil serta
tanpa karakter lain selain karakter huruf ‘a-z’
|
2.
Tokenizing
Tahap tokenizing / parsing adalah
tahap pemotongan string input berdasarkan tiap kata yang menyusunnya(Triawati, 2009).
Selain itu, spasi digunakan
untuk memisahkan
antar kata tersebut.
data input hasil tokenizing / parsing
Penjelasan:
Input
|
Output
|
Kalimat/kata input hasil dari proses case folding
|
Kumpulan kata
|
3.
Filtering
Tahap filtering adalah tahap mengambil
kata - kata penting dari hasil tokenizing.
Proses filtering dapat menggunakan algoritma stoplist (membuang kata
yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist
/ stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam
pendekatan bag-of-words. Contoh stopword adalah “yang”, “dan”, “di”,
“dari” dan lain – lain.(Triawati,
2009).
data input hasil filtering
Penjelasan:
Input
|
Output
|
Kumpulan kata hasil dari proses tokenizing/parsing
|
Kumpulan term yang siap untuk diolah dengan proses svd
|
4.
Stemming
Stemming merupakan suatu proses yang terdapat dalam sistem IR
yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata
akarnya (root word) dengan
menggunakan aturan-aturan tertentu (Agusta,
2009).
Stemming kebanyakan digunakan pada
teks berbahasa inggris dikarenakan teks berbahasa inggris memiliki struktur
imbuhan yang tetap dan mudah untuk diolah sementara stemming untuk proses bahasa Indonesia memiliki struktur imbuhan
yang rumit / kompleks sehingga agak lebih susah untuk diolah.
Algoritma stemming untuk teks berbahasa Indonesia,
diantaranya: Algortima Porter, Algoritma Nazief & Adriani. Berdasarkan
hasil penelitian yang dilakukan(Agusta,
2009),
kesimpulan dari perbandingan antara Algoritma Porter dengan Algoritma Nazief
& Adriani, adalah:
1.
Proses stemming dokumen teks berbahasa Indonesia
menggunakan Algoritma Porter membutuhkan waktu yang lebih singkat dibandingkan
dengan stemming menggunakan Algoritma
Nazief & Adriani.
2.
Proses stemming dokumen teks berbahasa Indonesia
menggunakan Algoritma Porter memiliki prosentase keakuratan (presisi) lebih
kecil dibandingkan dengan stemming
menggunakan Algoritma Nazief & Adriani.
3.
Pada proses stemming menggunakan Algoritma Nazief
& Adriani, kamus yang digunakan sangat mempengaruhi hasil stemming. Semakin lengkap kamus yang
digunakan maka semakin akurat pula hasil stemming.
Kamus yang digunakan mempengaruhi perhitungan presisi. Semakin lengkap kamus
yang digunakan maka semakin akurat pula nilai presisinya. Contoh penggunaan stemming: