한국어 정보 처리 입문 학술

한국어 정보 처리 입문
한경한 외 지음 / 커뮤니케이션북스

책 오늘 받았는데 집에 와서 단숨에 절반을 읽어봤다. 아주 쉽게 풀어서 쓴 책이라 부담없이 읽기 좋았다.

파생어 = 어휘형태소/문법형태소 + 파생접사
합성어 = 어휘형태소 + 어휘형태소
복합어는 파생어와 합성어를 포괄하는 개념

한국어의 형태론적 특성
  • 형태소 결합 순서 : 형태소 결합할 때 항상 어휘 형태소가 문법 형태소 앞에 나온다. (접두사 붙은 단어는 표제어로 다 박아버리면 해결 가능)
  • 형태소 결합 제약 : 예를 들어 체언에 받침이 있으면 '가' -> '이', '을' -> '를', '와' -> '과'로 교체된다. '랑' 앞에 '이'가 삽입된다. '하'로 끝나는 용어 어간에 결합하는 과거 시제 어미는 '였'으로 제한됨.
  • 형태소의 융합 : 한 음절에 형태소가 융합된 경우가 제법 많아서 곤란
  • 형태소의 변형 (복원 필요) : ㅂ 불규칙 활용, ㄷ 불규칙 활용, 르 불규칙 활용, ㅎ 불규칙 활용, ㅅ 불규칙 활용, 우 불규칙 활용, 부사형 어미 '-어', 종결어미 '-어'의 생략, '을' 생략
  • 형태론적 중의성
형태소 분석기의 구조
형태소 분석을 하기 위해서는 형태소 분석 규칙전자 사전이 필요하다.
단어 후보를 추출하고, 문법 규칙을 활용해서 분석하고 난 다음, 다의성을 해결해야 된다.
한국어는 문법 형태소가 제한적이므로 오른쪽에서 왼쪽으로 찾아가는게 효율적이다. (그래서 뒤집어 저장하는 것이었다.)

어휘 형태소 사전의 표제어에 대한 정보
  • 필수 : 품사 정보, 불규칙 정보, 결합 정보
  • 중의성 해결용 : 의미 정보
문법 형태소 사전의 표제어에 대한 정보
  • 필수 : 품사 정보, 음운 규칙에 따른 결합 조건
  • 중의성 해결용 : 기능 및 의미 정보
순서대로 한쪽 방향으로 짤라가면서 문법 형태소 사전과 어휘 형태소 사전에 포함되어 있는지 확인하는 것. 그 다음 형태소 분리가 올바른 것인지 확인할 때 문법 정보를 이용한다.

형태소 해석의 기본 원칙
  • 체언류 + 조사
  • 용언류 + 어미
하지만 용언에도 조사가 붙을 수 있으며 체언에 어미가 바로 붙는 경우도 있다. 하여간 이게 기본.
  • 어간 변화 불규칙 (복원 필요)
    • ㄹ 탈락, 으 탈락, ㅅ 불규칙, ㄷ 불규칙, 르 불규칙, ㅂ 불규칙
  • 어미 변화 불규칙 (어미 형태를 사전에 때려박아서 해결)
    • 러 불규칙, 거라 불규칙, 너라 불규칙, 여 불규칙, 오 불규칙
  • 어간 어미 모두 변하는 불규칙 (복원 필요)
    • ㅎ 불규칙
접사 사전 탐색 성공하고 어휘 사전 탐색에 실패하면 원형 복원 규칙 적용해서 다시 뒤지는 것이다.

체언류 축약은 ㄴ, ㄹ을 조사로 사전에 집어넣고, 용언의 어간 + 어미가 축약된 형태는 원형을 사전에 일일이 때려박아야 한다.

생락되는 경우는 복원해야 함.
  • 관형형 어미 '-을' 생략
  • 어미 '-어/아' 생략
  • 계사 '-이' 생략
중의어는 주변 언어 정보를 참조해서 관계 제약을 살피거나 확률로 때려맞춰야 될 것이고,
미등록어는 최장 일치법/최단 일치법을 적용함. (그동안 최장 일치법을 봤던 듯)

마지막으로.. 분석기 테스트는 아래 특성을 포함시킬 것
  • 일반 분리 해석이 가능한 어절
  • 다양한 문장 부호가 있는 문장
  • 불규칙 용언, 축약어, 생략어
  • 중의 어절
  • 숫자 및 영문 등이 한글과 혼합된 어절
  • 숫자 부호 등이 혼합된 어절
  • 복합명사, 복합 동사 등
  • 고유어, 신조어 등의 미등록어
자 이제 간단하게는 정리 끝났으니 일단 구현 지르고 뉴스 피딩하면서 노가다 하면 시간이 해결해 주지 않을까?! (...막연하군) 어찌 됐든 초기 사용할 사전 데이터는 좀 찾아봐야 될 듯.

트랙백

이 글과 관련된 글 쓰기 (트랙백 보내기)
TrackbackURL : http://www.xeraph.com/tb/4175012 [도움말]

덧글

댓글 입력 영역