Filtering Kalimat [PHP]

Setelah sekian lama tidak posting karena kesibukan yang menyita waktu, akhirnya.....

Sudah hampir seminggu lebih, 2 pasienku menginap di kontrakan, minta ditemani mengerjakan project skripsi mereka :D. Satu pakai PHP, yang satu pakai J2ME.

Nah, yang PHP ini (project skripsinya Salmuasih), ceritanya mau bikin pendeteksian plagiat naskah, disana ada satu rangkaian proses, yaitu tokenizing, filtering, dan stemming (dan sungguh, aku baru tau materi tentang tokenizing dan kawan-kawannya itu. Agak pusiang juga kalau mau kasih sentuhan kerusakan pada sintaks PHP nya kalo gak belajar materinya dulu, hehe).

Dan di bawah ini adalah salah satu sintaks untuk melakukan proses filtering (dengan catatan, kata-kata yang dihapuskan sudah tersimpan dalam database, disini sebagai contoh adalah menghilangkan stopword)


$query = mysql_query("SELECT * FROM stopword");

while ($row = @mysql_fetch_array($query)) {
    $stopword[] = trim($row['stopword']);
}
$pieces = explode(" ", $teksTemp);

$jml = count($pieces) - 1;
for ($i = 0; $i <= $jml; $i++) {
    if (in_array($pieces[$i], $stopword)) {
        unset($pieces[$i]);
    }
}
$removal = implode(" ", $pieces);

$teksTemp merupakan string kalimat yang akan di filter. Ia diubah ke dalam array, kemudian di-cek, apakah dalam array tersebut memiliki stop words, jika iya, maka ia akan dihapuskan.

Setelah selesai di filter, array kalimat tersebut dikembalikan menjadi bentuk string dengan function implode.

Sekian, semoga bisa bermanfaat.

Komentar

  1. Mumet liatnya.. (O,o)
    Tambah kurang ni rasanya ilmu kanuraganku.. :D

    BalasHapus
  2. kakak bisa bantu gak ?
    saya lagi buat proses tokenizing,dokumen yang saya gunakan berekstensi .html,saya bingung cara hilangkan tag html dan cara hilangkan semua tanda baca dalam dokumen.mohon bantuannya kak....

    BalasHapus
  3. sis, kalau boleh share source codenya dong, lagi skripsi tema yg sama, tentang text mining, kalau berkenan tolong di email ek fahriza.onter@gmail.com

    terima kasih sebelumnya

    BalasHapus
  4. Saya awam nih sis text mining.. barangkali bisa dibuatkan contoh mulai dari awal pembuatan database nya.. trims sis..
    verykurniabakti@gmail.com

    BalasHapus
  5. boleh minta source code dari tokenizing, filtering, sampai stemmingnya, ini email sya hendratriomeyana@gmail.com
    terima kasih sblumnya

    BalasHapus
  6. Saya mau TA sis text mining.. barangkali bisa diminta contoh mulai dari awal pembuatan database nya.. trims sis..
    aby.ga.punya.email@gmail.com

    BalasHapus
  7. Terimakasih ilmunya.
    dapat sedikit pencerahan

    www.pontianak-informasi.id

    BalasHapus
  8. Keren kak, terima banyak atas ilmu nya, ni kak kebetulan saya lagi ngerjaan TA tentang Stopword, SVD, dan Vector kak (tentang metode LSA), jadi kak boleh mintak contoh dari rancang database, sama implementation metode2 nya ke bahasa pemprograman(Php) kak, kalo bisa send ke email iren.saputra93@gmail.com please help me kak :), tanks kak

    BalasHapus
  9. boleh share source code dari tokenizing, filtering, sampai stemmingnya, ini email sya gara00025@gmail.com
    terima kasih sblumnya

    BalasHapus
  10. Mas boleh di share source codenya ga?
    ini email saya meysilianibata@gmail.com
    thanks before

    BalasHapus
  11. Boleh minta source codenya mbak? Saya masih ga paham cara ngodingnya bagaimana. Kalo boleh, tolong kirim ke diantara13@gmail.com
    Terima kasih ^^

    BalasHapus

Posting Komentar

Terima kasih sudah membaca....^^