본문 바로가기

Study/R2

[텍스트 마이닝] Reuters data - Feature Selection & Classification 분석할 데이터 소개 Reuters data는 로이터에서 공개한 짧은 뉴스 기사로 이루어진 데이터이다. ReuterDTM.csv는 Reuters data의 단어를 이용해 만든 Document Term Matrix이다. 첫 번째 행은 기사에서 쓰인 단어를 나타낸다. 두 번째 열은 기사의 title을 나타낸다. 2행 C열은 title이 'trade'인 기사에서 'able'이라는 단어가 1번 쓰였음을 나타낸다. 분석 목표 1. 카이제곱통계량을 이용한 변수 선택(feature selection) 수행 2. feature selection을 통해 선택된 단어들에 대해 분류 분석 수행 작업 환경 구축 1. 데이터 불러오기 DTM 2022. 6. 23.
[텍스트 마이닝] Reuters data - Preprocessing & EDA Reuters data Reuters data는 로이터에서 공개한 짧은 뉴스 기사로 이루어진 데이터이다. 기존의 Reuters data에는 하나의 기사가 여러 개의 토픽을 가진 경우가 존재했지만, 분석의 용이를 위해 하나의 기사가 하나의 토픽만을 가지고 있는 경우만 가져왔다. 첨부한 Reuters data는 ids, categories, text 변수로 이루어져 있으며, 이 중 기사 본문 내용을 포함하는 text 변수만을 사용하여 데이터를 분석할 것이다. 분석 목표는 적절한 전처리 과정을 통해 Reuters data에서 불필요한 단어를 제거한 뒤 탐색적 데이터 분석을 실시하여 Reuters data의 특징을 파악하는 것이다. 작업 환경 구축 사용할 패키지 불러오기 library(stopwords) lib.. 2022. 5. 2.