한국어 정보 처리 입문한경한 외 지음 / 커뮤니케이션북스
책 오늘 받았는데 집에 와서 단숨에 절반을 읽어봤다. 아주 쉽게 풀어서 쓴 책이라 부담없이 읽기 좋았다.
파생어 = 어휘형태소/문법형태소 + 파생접사
합성어 = 어휘형태소 + 어휘형태소
복합어는 파생어와 합성어를 포괄하는 개념
한국어의 형태론적 특성
- 형태소 결합 순서 : 형태소 결합할 때 항상 어휘 형태소가 문법 형태소 앞에 나온다. (접두사 붙은 단어는 표제어로 다 박아버리면 해결 가능)
- 형태소 결합 제약 : 예를 들어 체언에 받침이 있으면 '가' -> '이', '을' -> '를', '와' -> '과'로 교체된다. '랑' 앞에 '이'가 삽입된다. '하'로 끝나는 용어 어간에 결합하는 과거 시제 어미는 '였'으로 제한됨.
- 형태소의 융합 : 한 음절에 형태소가 융합된 경우가 제법 많아서 곤란
- 형태소의 변형 (복원 필요) : ㅂ 불규칙 활용, ㄷ 불규칙 활용, 르 불규칙 활용, ㅎ 불규칙 활용, ㅅ 불규칙 활용, 우 불규칙 활용, 부사형 어미 '-어', 종결어미 '-어'의 생략, '을' 생략
- 형태론적 중의성
형태소 분석을 하기 위해서는 형태소 분석 규칙과 전자 사전이 필요하다.
단어 후보를 추출하고, 문법 규칙을 활용해서 분석하고 난 다음, 다의성을 해결해야 된다.
한국어는 문법 형태소가 제한적이므로 오른쪽에서 왼쪽으로 찾아가는게 효율적이다. (그래서 뒤집어 저장하는 것이었다.)
어휘 형태소 사전의 표제어에 대한 정보
- 필수 : 품사 정보, 불규칙 정보, 결합 정보
- 중의성 해결용 : 의미 정보
- 필수 : 품사 정보, 음운 규칙에 따른 결합 조건
- 중의성 해결용 : 기능 및 의미 정보
형태소 해석의 기본 원칙
- 체언류 + 조사
- 용언류 + 어미
- 어간 변화 불규칙 (복원 필요)
- ㄹ 탈락, 으 탈락, ㅅ 불규칙, ㄷ 불규칙, 르 불규칙, ㅂ 불규칙
- 어미 변화 불규칙 (어미 형태를 사전에 때려박아서 해결)
- 러 불규칙, 거라 불규칙, 너라 불규칙, 여 불규칙, 오 불규칙
- 어간 어미 모두 변하는 불규칙 (복원 필요)
- ㅎ 불규칙
체언류 축약은 ㄴ, ㄹ을 조사로 사전에 집어넣고, 용언의 어간 + 어미가 축약된 형태는 원형을 사전에 일일이 때려박아야 한다.
생락되는 경우는 복원해야 함.
- 관형형 어미 '-을' 생략
- 어미 '-어/아' 생략
- 계사 '-이' 생략
미등록어는 최장 일치법/최단 일치법을 적용함. (그동안 최장 일치법을 봤던 듯)
마지막으로.. 분석기 테스트는 아래 특성을 포함시킬 것
- 일반 분리 해석이 가능한 어절
- 다양한 문장 부호가 있는 문장
- 불규칙 용언, 축약어, 생략어
- 중의 어절
- 숫자 및 영문 등이 한글과 혼합된 어절
- 숫자 부호 등이 혼합된 어절
- 복합명사, 복합 동사 등
- 고유어, 신조어 등의 미등록어
태그 : 형태소




덧글
TomCat 2008/02/23 13:42 # 답글
무서운 양괴물
잇힝♡ 2008/02/23 14:13 # 답글
외계인.