본문 바로가기

전처리2

Python을 이용한 데이터 분석 - 텍스트 빈도 분석 (1) ICT이노베이션스퀘어 AI기본과정(CNU) 교육을 듣고 정리한 내용입니다. AI기본과정(CNU) 교육 자료를 참고하였습니다. 영문 [ 영문 분석 + 워드클라우드 ] 영문 문서 제목의 키워드 분석 1. 목표 설정 'Big data'와 관련된 키워드를 도출하여 분석 2. 핵심 개념 이해 (1) 텍스트 분석 1) 자연어 처리와 데이터마이닝이 결합하여 발전된 분야로 텍스트 데이터에서 정보를 추출하여 분석하는 방법 2) 단어에 대한 분석을 기본으로 함 3) 텍스트 분류, 텍스트 군집화, 감성 분석 등 (2) 전처리 : 분석 작업의 정확도를 높이기 위해 분석에 사용할 데이터를 먼저 정리하고 변환하는 작업 1) 정제 : 불필요한 기호나 문자를 제거하는 작업으로 주로 정규식을 이용하여 수행 2) 정규화 : 정제와 같은.. 2022. 6. 22.
[텍스트 마이닝] Reuters data - Preprocessing & EDA Reuters data Reuters data는 로이터에서 공개한 짧은 뉴스 기사로 이루어진 데이터이다. 기존의 Reuters data에는 하나의 기사가 여러 개의 토픽을 가진 경우가 존재했지만, 분석의 용이를 위해 하나의 기사가 하나의 토픽만을 가지고 있는 경우만 가져왔다. 첨부한 Reuters data는 ids, categories, text 변수로 이루어져 있으며, 이 중 기사 본문 내용을 포함하는 text 변수만을 사용하여 데이터를 분석할 것이다. 분석 목표는 적절한 전처리 과정을 통해 Reuters data에서 불필요한 단어를 제거한 뒤 탐색적 데이터 분석을 실시하여 Reuters data의 특징을 파악하는 것이다. 작업 환경 구축 사용할 패키지 불러오기 library(stopwords) lib.. 2022. 5. 2.