Skip to content
This repository was archived by the owner on Jul 23, 2023. It is now read-only.
This repository was archived by the owner on Jul 23, 2023. It is now read-only.

Mecab 사용자 사전 생성하는 함수 개발 #1

@choonghyunryu

Description

@choonghyunryu

Mecab 형태소 분석기의 사전

Mecab에 사전을 추가하는 방법은 다음의 두 가지가 있습니다.

  • 시스템 사전에 추가하는 방법
  • 사용자 사전에 추가하는 방법

시스템 사전에 추가하는 방법

  1. 사전 업데이트가 빈번하지 않거나,
  2. 형태소 분석의 속도의 저하는 원하지 않을 경우

보통 국내 인터넷 저작물에 공유되는 대부분의 사례입니다만, 실제로 텍스트 분석 과정에서는 적당하지 않습니다.
왜냐하면 수시로 사전에 추가하는 니즈가 발생하기 때문입니다.

사용자 사전에 추가하는 방법

  1. 사전의 업데이트가 자주 발생하는 분석 과정에서,
  2. 시스템 사전을 변경할 권한이 없을 경우,
  3. 그러나 사전을 업데이트하는 데 시간이 더 걸림

bitTA에서 사용자 사전 만들기

morpho_mecab 함수

bitTA 패키지의 morpho_mecab() 패키지가 Mecab 형태소 분석기를 사용합니다.
이 함수의 기능에는 사용자 사전을 사용하는 기능을 포함하고 있습니다.

사용자 사전 생성하는 함수개발

사용자 사전을 생성하는 pseudo 명령어는 다음과 같습니다. 이 명령어는 linux 환경에서 일반적으로 설치되는 은전한닙(한글화된 Mecab) 형태소 분석기 설치 사례입니다.

-d는 시스템 사전의 경로이고, -u는 생성할 사용자 사전이름, foo.csv는 사전 정의 파일입니다.

cd 사전설치 프로그램 경로
cp foo.csv usr-dic
./tools/add-userdic.sh 
/usr/local/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/mecab-ko-dic \ 
-u foo.dic -f utf-8 -t utf-8 user-foo.csv

함수에서 상기 작업을 수행하는 사용자 사전 생성하는 함수를 개발합니다.

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions