Setelah sekian lama tidak posting karena kesibukan yang menyita waktu, akhirnya.....
Sudah hampir seminggu lebih, 2 pasienku menginap di kontrakan, minta ditemani mengerjakan project skripsi mereka :D. Satu pakai PHP, yang satu pakai J2ME.
Sudah hampir seminggu lebih, 2 pasienku menginap di kontrakan, minta ditemani mengerjakan project skripsi mereka :D. Satu pakai PHP, yang satu pakai J2ME.
Nah, yang PHP ini (project skripsinya Salmuasih), ceritanya mau bikin pendeteksian plagiat naskah, disana ada satu rangkaian proses, yaitu tokenizing, filtering, dan stemming (dan sungguh, aku baru tau materi tentang tokenizing dan kawan-kawannya itu. Agak pusiang juga kalau mau kasih sentuhan kerusakan pada sintaks PHP nya kalo gak belajar materinya dulu, hehe).
Dan di bawah ini adalah salah satu sintaks untuk melakukan proses filtering (dengan catatan, kata-kata yang dihapuskan sudah tersimpan dalam database, disini sebagai contoh adalah menghilangkan stopword)
Dan di bawah ini adalah salah satu sintaks untuk melakukan proses filtering (dengan catatan, kata-kata yang dihapuskan sudah tersimpan dalam database, disini sebagai contoh adalah menghilangkan stopword)
$query = mysql_query("SELECT * FROM stopword"); while ($row = @mysql_fetch_array($query)) { $stopword[] = trim($row['stopword']); } $pieces = explode(" ", $teksTemp); $jml = count($pieces) - 1; for ($i = 0; $i <= $jml; $i++) { if (in_array($pieces[$i], $stopword)) { unset($pieces[$i]); } } $removal = implode(" ", $pieces);
$teksTemp merupakan string kalimat yang akan di filter. Ia diubah ke dalam array, kemudian di-cek, apakah dalam array tersebut memiliki stop words, jika iya, maka ia akan dihapuskan.
Setelah selesai di filter, array kalimat tersebut dikembalikan menjadi bentuk string dengan function implode.
Sekian, semoga bisa bermanfaat.
Mumet liatnya.. (O,o)
BalasHapusTambah kurang ni rasanya ilmu kanuraganku.. :D
sini berguru padaku,, :p
Hapusboleh saya belajar
Hapusuntuk masalah tekenizing dan normalisasi kata
kakak bisa bantu gak ?
BalasHapussaya lagi buat proses tokenizing,dokumen yang saya gunakan berekstensi .html,saya bingung cara hilangkan tag html dan cara hilangkan semua tanda baca dalam dokumen.mohon bantuannya kak....
sis, kalau boleh share source codenya dong, lagi skripsi tema yg sama, tentang text mining, kalau berkenan tolong di email ek fahriza.onter@gmail.com
BalasHapusterima kasih sebelumnya
Saya awam nih sis text mining.. barangkali bisa dibuatkan contoh mulai dari awal pembuatan database nya.. trims sis..
BalasHapusverykurniabakti@gmail.com
boleh minta source code dari tokenizing, filtering, sampai stemmingnya, ini email sya hendratriomeyana@gmail.com
BalasHapusterima kasih sblumnya
mas mungkin bisa berbagi juga sourde code nya
Hapusmungkin bisa dibagi mas
HapusSaya mau TA sis text mining.. barangkali bisa diminta contoh mulai dari awal pembuatan database nya.. trims sis..
BalasHapusaby.ga.punya.email@gmail.com
Terimakasih ilmunya.
BalasHapusdapat sedikit pencerahan
www.pontianak-informasi.id
Keren kak, terima banyak atas ilmu nya, ni kak kebetulan saya lagi ngerjaan TA tentang Stopword, SVD, dan Vector kak (tentang metode LSA), jadi kak boleh mintak contoh dari rancang database, sama implementation metode2 nya ke bahasa pemprograman(Php) kak, kalo bisa send ke email iren.saputra93@gmail.com please help me kak :), tanks kak
BalasHapusboleh share source code dari tokenizing, filtering, sampai stemmingnya, ini email sya gara00025@gmail.com
BalasHapusterima kasih sblumnya
Mas boleh di share source codenya ga?
BalasHapusini email saya meysilianibata@gmail.com
thanks before
Boleh minta source codenya mbak? Saya masih ga paham cara ngodingnya bagaimana. Kalo boleh, tolong kirim ke diantara13@gmail.com
BalasHapusTerima kasih ^^