자연어 처리 2

[기초정리] 3. 자연어 처리 파이프라인 - 품사 태깅 ~ 불용어 제거 (NLTK Part-of-speech tag list 포함)

1. 품사 태깅 (Part-of-Speech Tagging) 품사 태깅(Part-of-Speech Tagging, POS Tagging)이란 단어 토큰화(Word Tokenization)를 거친 토큰(Token)들에게 품사를 붙여주는 작업을 뜻한다. 구현 코드 import nltk test_text = ['All', 'rights', 'reserved', '.'] def POS_tagging(token_list): POS_list = list() for sentence in token_list: POS_list.append(nltk.pos_tag(sentence)) return POS_list print(POS_tagging(test_text)) 결과 [[('All', 'DT'), ('rights', '..

[기초정리] 2. 자연어 처리 파이프라인 - 문장 분할(Sentence Segmentation), 단어 토큰화(Word Tokenization)

1.문장 분할(Sentence Segmentation) 기계가 이해할 수 있도록 학습시킬 때에는 당연히 글 전체보다 분리된 한 문장, 한 문장을 이해하는 것이 더 수월하다. 문장은 각각 독립적인 의견을 가지고 있기 때문이다. 문장 분할을 가장 쉽게 구현할 수 있는 방법은 구두점(Punctuation Mark)을 활용하는 것이다. 구두점이란 쉼표(,), 마침표(.), 세미콜론(;), 콜론(:) 4가지의 문장 부호를 의미한다. 쉼표(Comma), 마침표(Period), 세미콜론(Semi-colon), 콜론(Colon) 그러나 항상 구두점을 기준으로 나눌 수 있는 상황만 존재하는 것은 아니다. 구현 코드 import nltk test_text = "All rights reserved. No part of th..