Loading [1760] Spam samples..
Loading [847] Ham samples..
Spam Corpus Size : [28263]
Ham Corpus Size : [117135]
보기 민망한 출력이므로 가림 (..)
Spam Test =================
Result : 97.3684210526316%, Hit [148] Miss [4]
Ham Test =================
Result : 100%, Hit [142] Miss [0]
base64 디코딩만 가지고도 이 정도 정확도가 나오다니 뭔가 이상하지만 (..);
어차피 딱 보니까 스팸 틱하게 생긴 것들만 모아놔서 흠..
Spam 샘플이 더 많지만 말뭉치 크기는 더 작다.
그리고 상대적으로 스팸 메일이 HTML 태그를 많이 써놔서 태그 관련된 것은 완전 스팸 성향;
Loading [847] Ham samples..
Spam Corpus Size : [28263]
Ham Corpus Size : [117135]
보기 민망한 출력이므로 가림 (..)
Spam Test =================
Result : 97.3684210526316%, Hit [148] Miss [4]
Ham Test =================
Result : 100%, Hit [142] Miss [0]
base64 디코딩만 가지고도 이 정도 정확도가 나오다니 뭔가 이상하지만 (..);
어차피 딱 보니까 스팸 틱하게 생긴 것들만 모아놔서 흠..
Spam 샘플이 더 많지만 말뭉치 크기는 더 작다.
그리고 상대적으로 스팸 메일이 HTML 태그를 많이 써놔서 태그 관련된 것은 완전 스팸 성향;




덧글
준경군 2008/02/23 21:38 # 답글
아... 맞는 결과이긴 한데, 왜 '100'이 스팸일 가능성이 높다는 생각을 못하고 있었을까요? -_-;;;
잇힝♡ 2008/02/24 13:53 # 답글
드디어...