Simulasaun prosesu detekta email spam

1. Rekolha Data

Rekolha dataset email ho label spam (1) atau ham (0). Dataset populer: Enron Spam Dataset, SpamAssassin Public Corpus.

Ezemplu:

    | Email                   | Label |
    |-------------------------|-------|
    | "Dapatkan diskon 50%"   | 1     |
    | "Kabar baik untuk Anda" | 0     |

2. Pra-pemrosesan

Etapa ba prosesu ne mak hanesan tuir mai nee:

Tokenisasi: Fahe email ba kata liafuan ka token.
Hamos Stopword: Halakon liafuan nebee la presija, hanesan "dan", "atau".
Stemming: Muda liafuan ba nia orijen. Ezemplu: "running" → "run".

Contoh: "Saya menang hadiah!" → ["saya", "menang", "hadiah"]

3. Ekstraksi Fitur

Bag-of-Words (BoW) dan TF-IDF mak teknika nebee uza iha etapa nee iha mos teknika seluk:

Bag-of-Words:

    | Kata       | Frekuensi |
    |------------|-----------|
    | menang     | 2         |
    | diskon     | 1         |
    | hadiah     | 1         |

TF-IDF: Contoh kalkulasi TF-IDF:

    TF = (Frekuensia liafuan)/(Total liafuan iha dokumen)
    IDF = log(Total dokumen / total dokument nebee kontein liafuan)
    TF-IDF = TF * IDF

4. Selesaun Modelu

Hili modelu hanesan:

Naïve Bayes: Asumi independénsia entre karakterístika sira.
Support Vector Machine (SVM): Buka hiperplane nebee diak liu atu diferensia buat rua nee.
Random Forest: Kombinasaun husi ai-hun desizaun oioin hodi hadia nia akurasaun.

5. Trenu Model

Trenu model utiliza data traning utiliza tekniku nebee relevante.

Ezemplu: Utilizasaun algoritma Naïve Bayes:

    P(Spam|Word) = (P(Word|Spam) * P(Spam)) / P(Word)

6. Evaluasaun

Metrik nebee utiliza ba evaluasaun:

Akurasi: (Total prediksaun nebee loos)/(Total data)
Presisi: (True Positives)/(True Positives + False Positives)
Recall: (True Positives)/(True Positives + False Negatives)
F1-score: 2 * (Presisi * Recall) / (Presisi + Recall)

7. Implementasaun

Integrasaun model ba sistema email hodi detekta spam ho realtime.

Ezemplu: Sistema email sei marka automatikamente email sira nebee tama hanesan spam se modelu prevee spam.