본문 바로가기

wordcloud3

Python을 이용한 데이터 분석 - 텍스트 빈도 분석 (2) ICT이노베이션스퀘어 AI기본과정(CNU) 교육을 듣고 정리한 내용입니다. AI기본과정(CNU) 교육 자료를 참고하였습니다. 한글 [ 한글 분석 + 워드클라우드 ] 한글 뉴스 기사의 키워드 분석 1. 목표 설정 '4차 산업혁명'에 관한 한글 기사에서 명사 키워드 분석 2. 핵심 개념 이해 (1) 형태소 1) 언어에서 의미가 있는 가장 작은 단위 2) 단어는 의미를 갖는 문장의 가장 작은 단일 요소로 문장에서 분리될 수 있는 부분 3) 독립형 형태소인 단어도 있지만, 대부분의 단어는 형태소와 접사로 구성됨 4) 형태소 분석 : 형태소, 어근, 접두사/접미사, 품사 등 다양한 언어학적 속성으로 구조를 파악하는 것 (2) 품사 태깅 1) 형태소의 뜻과 문맥을 고려하여 품사를 붙이는 것, ex) 가방에 들어가신.. 2022. 6. 22.
Python을 이용한 데이터 분석 - 텍스트 빈도 분석 (1) ICT이노베이션스퀘어 AI기본과정(CNU) 교육을 듣고 정리한 내용입니다. AI기본과정(CNU) 교육 자료를 참고하였습니다. 영문 [ 영문 분석 + 워드클라우드 ] 영문 문서 제목의 키워드 분석 1. 목표 설정 'Big data'와 관련된 키워드를 도출하여 분석 2. 핵심 개념 이해 (1) 텍스트 분석 1) 자연어 처리와 데이터마이닝이 결합하여 발전된 분야로 텍스트 데이터에서 정보를 추출하여 분석하는 방법 2) 단어에 대한 분석을 기본으로 함 3) 텍스트 분류, 텍스트 군집화, 감성 분석 등 (2) 전처리 : 분석 작업의 정확도를 높이기 위해 분석에 사용할 데이터를 먼저 정리하고 변환하는 작업 1) 정제 : 불필요한 기호나 문자를 제거하는 작업으로 주로 정규식을 이용하여 수행 2) 정규화 : 정제와 같은.. 2022. 6. 22.
[텍스트 마이닝] Reuters data - Preprocessing & EDA Reuters data Reuters data는 로이터에서 공개한 짧은 뉴스 기사로 이루어진 데이터이다. 기존의 Reuters data에는 하나의 기사가 여러 개의 토픽을 가진 경우가 존재했지만, 분석의 용이를 위해 하나의 기사가 하나의 토픽만을 가지고 있는 경우만 가져왔다. 첨부한 Reuters data는 ids, categories, text 변수로 이루어져 있으며, 이 중 기사 본문 내용을 포함하는 text 변수만을 사용하여 데이터를 분석할 것이다. 분석 목표는 적절한 전처리 과정을 통해 Reuters data에서 불필요한 단어를 제거한 뒤 탐색적 데이터 분석을 실시하여 Reuters data의 특징을 파악하는 것이다. 작업 환경 구축 사용할 패키지 불러오기 library(stopwords) lib.. 2022. 5. 2.