'자연어 처리' 태그의 글 목록

[기초정리] 2. 자연어 처리 파이프라인 - 문장 분할(Sentence Segmentation), 단어 토큰화(Word Tokenization)

1.문장 분할(Sentence Segmentation) 기계가 이해할 수 있도록 학습시킬 때에는 당연히 글 전체보다 분리된 한 문장, 한 문장을 이해하는 것이 더 수월하다. 문장은 각각 독립적인 의견을 가지고 있기 때문이다. 문장 분할을 가장 쉽게 구현할 수 있는 방법은 구두점(Punctuation Mark)을 활용하는 것이다. 구두점이란 쉼표(,), 마침표(.), 세미콜론(;), 콜론(:) 4가지의 문장 부호를 의미한다. 쉼표(Comma), 마침표(Period), 세미콜론(Semi-colon), 콜론(Colon) 그러나 항상 구두점을 기준으로 나눌 수 있는 상황만 존재하는 것은 아니다. 구현 코드 import nltk test_text = "All rights reserved. No part of th..

NLP/이론 및 정리 2021.01.01

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

JUST CODE IT

자연어 처리 2

티스토리툴바