베이지안 필터 테스트 결과 (수천 개 샘플 대상) 학술

Loading [1760] Spam samples..
Loading [847] Ham samples..
Spam Corpus Size : [28263]
Ham Corpus Size : [117135]
보기 민망한 출력이므로 가림 (..)

Show Decision Matrix =======
Path? spam\60410.emlx
Decision Matrix Input ====
1. blank: 0.999714873641749
2. 100: 0.998447880035415
3. topmargin: 0.99801804544274
4. leftmargin: 0.99801804544274
5. equiv: 0.990988267817087
6. 뜨거운: 0.99
7. 벗었습니다: 0.99
8. 구멍까지: 0.99
9. 보여드립니다.: 0.99
10. 확실히: 0.99
11. 속옷까지: 0.99
12. 속살: 0.99
13. 그녀의: 0.99
14. 드디어: 0.99
15. 감상하기: 0.99
Result : Spam 1
============================================================
Path?

Spam Test =================
Result : 97.3684210526316%, Hit [148] Miss [4]
Ham Test =================
Result : 100%, Hit [142] Miss [0]

base64 디코딩만 가지고도 이 정도 정확도가 나오다니 뭔가 이상하지만 (..);
어차피 딱 보니까 스팸 틱하게 생긴 것들만 모아놔서 흠..
Spam 샘플이 더 많지만 말뭉치 크기는 더 작다.

그리고 상대적으로 스팸 메일이 HTML 태그를 많이 써놔서 태그 관련된 것은 완전 스팸 성향;

트랙백

이 글과 관련된 글 쓰기 (트랙백 보내기)
TrackbackURL : http://www.xeraph.com/tb/4176458 [도움말]

덧글

  • 준경군 2008/02/23 21:38 # 답글

    아... 맞는 결과이긴 한데, 왜 '100'이 스팸일 가능성이 높다는 생각을 못하고 있었을까요? -_-;;;
  • 잇힝♡ 2008/02/24 13:53 # 답글

    드디어...
댓글 입력 영역