한국어 언어모델 제작을 위한 파이썬 기반 한국어 텍스트처리 패키지입니다.
- 파일 관리
- 손쉬운 텍스트파일 읽기와 쓰기, 파일 통합
- 인코딩 변환
- 텍스트 처리
- 잉여적인 공백 정리
- TEI 헤더 제거
- 문장별 어절 목록 정리
- 텍스트 정규화
- 길게 이어진 코퍼스를 문장 단위로 자르기
- 한글이 아닌 문자 삭제
- 한국어로 된 줄글 외의 문자들 전사
- 한글 자모, 한자, 숫자, 알파벳, 영단어 읽기
- 형태소 분석 (KoNLPy 및 Mecab 연동)
- 형태소 분석 결과로부터 2가지 유형의 의사형태소(pseudo-morpheme) 생성
- 최소형태소 (모든 형태 경계를 분리해 가장 작게 잘린 단위; micro)
- 중간형태소 (체언과 조사만을 분리해 중간 크기로 잘린 단위 ; medium)
NB. 의사형태소 생성을 위해서는 형태소 분석이 완료된 텍스트가 필요합니다.
본 코드는 울산대 UTagger 형태소분석 아웃풋을 전제하여 의사형태소를 생성하기에,
입력되는 텍스트 파일이 UTagger 아웃풋과 다를 경우 추가적인 코드 수정 작업이 필요합니다.
- 문자열로부터 발음열 생성(Grapheme-to-Phone; G2P)
- 언어모델 제작을 위한 파일 생성
- 정제된 코퍼스 원문(textraw) 생성
- 발음사전(lexicon.txt) 생성
- **removeNonHangul** *(line)*
>> removeNonHangul(line)
Version | Tag | Published |
---|---|---|
1.1.4 | 6yrs ago | |
1.1.3 | 6yrs ago |