
그동안 계속 고민하고 삽질하던게 어제 모든 퍼즐 조각이 맞춰진 기분이 들었다 흠..
크라켄 코덱과 크라켄 GeoIP 인덱싱 로직을 가져다가 하루만에 쌓고 조회하는건 다 만들었음..
로그 길이제한/컬럼제한 없어서 너무 편한듯..
(semi-structured 혹은 object database로 분류할 수 있을 듯..)
오늘 좀 더 삽질하면 풀텍스트 인덱싱도 넣을 수 있을 것 같다..
인덱스 머징까지 완전하게 포함하려면 며칠 더 걸릴 수 있겠지만 흠.. 달려야지..
근데 RandomAccessFile은 왜 flush하려면 getFD().sync()를 해야되는거야 -_-
없는 줄 알았잖아;;
---

지금은 1일분 38M짜리 풀스캔 검색에 5.3초
캐싱도 넣어야하고 할거 많다..
----
밤 9시 추가

일단 40만건을 통으로 무식하게 풀텍스트 인덱스 올려봤는데 이것만 해도 640M 이상 먹게 되는 듯..
나중에 해시맵을 Trie로 바꾸고 디스크로 내리고 이것저것 하면 많이 줄일 수 있겠지만.. 흠..
대략 20~100ms 대로 검색되는 듯 하니.. 이제 노가다만 하면 제성능을 내는 것으로 다 만들 수 있다..
정규표현식까지 지원하면 좀 멋있을 것 같다.. 일단 인덱스를 제대로..
태그 : beast




덧글