본문 바로가기

AI기초프로젝트 과제

기말 프로젝트

주제: 뉴스 데이터의 감성 분석을 이용한 모델 성능 비교

 

 

방법: 소비자들의 기업에 대한 인식과 같은 기업에 대한 감성을 분석하고 주가 예측 모델에 적용. n기업에 대한 감성 지표를 알 수 있는 뉴스 데이터를 수집하고 여러 모델에 성능 비교.

 

>뉴스 데이터를 벡터화

SVM (Support Vector Machine) : 분류와 회귀 분석에 사용되는 지도 학습 모델이다. 데이터를 분류하기 위해 결정 경계(하이퍼플레인)을 찾으며, 이 경계는 서로 다른 클래스의 데이터를 최대한 멀리 떨어지게 하는 방식으로 설정한다. 입력 변수로 뉴스 데이터 전문을 벡터화하여 사용하는 것보다 summarization하여 사용하는 것이 더 좋은 성능을 끌어낸다

 

RNN: 시간에 따라 변하는 주가 데이터와 뉴스 기사 내용을 분석하는 데 사용. S&P 500 기업의 주가 데이터 와  해당 기업에 대한 뉴스 기사 데이터 통합 후 각 뉴스 기사에서 기업명이 언급된 5문장을 추출하여 이를 감성 분석

추출된 문장들의 감성 점수 평균을 계산하여 이를 주가 예측 모델의 입력 변수로 사용

한계점: 부분적 데이터 사용, 뉴스 기사 빈도수 미고려

 

계획

Data crawling

,주가 데이터와 뉴스 데이터의 충분한 연관성을 포함하기 위해  한 해 동안 가장 언급이 많이 된 회사들을 선정하여 주가 예측 모델의 학습을 진행

>가장 언급이 많이 된 회사들을 선정하기 위해 Requests와 BeautifulSoup라이브러리와 KoreanNewsCrawler 오픈소스를 사용하여 네이버 경제 뉴스에서 KOSPI 상위 50개 기업들이 젝목에 언급된 뉴스를 모두 수집한다. 제목에 기업이 언급된 뉴스의 수를 통계내어 연구 대상으로 선정, 해당 기업에 대해 뉴스 데이터를 활용

 

뉴스 데이터

>네이버 경제 뉴스에 게재된 본문을 gpt-4를 사용하여 크롤링

 

감성 지표의 분석

>외부 데이터로 수집한 뉴스 데이터를 사용한다. 뉴스 데이터의 경제 분야의 기사들은 기업에 대한 단순한 정보를 포함하기도 하지만 특정 기업에 대한 대중들의 인식과 같은 감정적인 정보를 포함하고 있다. 적절한 감성 지표를 추출하기 위해 기사의 본문을 요약하고, 요약된 핵심 문장들로부터 감성을 추출한다.

 

문제점

기사의 제목은 짧은 문장으로 구성되는 특징 때문에 감성을 파악하기에는 부족하다

본문은 부가적인 정보를 많이 포함하고 있어 핵심이 되는 내용만 찾아 감성 정보를 파악하기에는 어려움이 존재

 

해결책

뉴스 데이터의 제목과 본문 내용을 요약하고 감성을 추출하기 위해 KakaoBrain의 Pororo모델 사용

Pororo의 요약 기능을 활용하여 기사를 요약하고, 요약된 정보를 기반으로 감성 분석 기능을 통해 수치화된 감성 정보를 추출한다

 

------------------------------------------------------------------------------------------------------------------------------------------------------------

 

기업 선정 

방법1

FinanceDataReader사용 

# FinanceDataReader 패키지 설치
!pip install -U finance-datareader

 

import FinanceDataReader as fdr

 

#'KRX' 심볼을 전달하면, 한국 거래소에 상장된 전체 종목 리스트를 출력
df_krx = fdr.StockListing('KRX')
df_krx.head()

 

 

방법2

시가 총액 기준으로 크롤링(2023년 12월01일

크롤링.py
0.00MB
sise.csv
0.16MB

 

--------------------------------------

모델

LSTM

정확도:

f1-score:

 

kobert, koelectra

오류

두개 모델에서 똑같은 오류 

 

 

 

 

 

 

 

관련 논문들 

combination of window-sliding and prediction range method based on LSTM model for predicting cryptocurrency,

> 암호화폐 가격의 sequence size를 다르게 하여 LSTM을 사용한 암호화폐 가격 예측 모델을 제작

Evaluation of Bidirectional LSTM for Short and Long-Term Stock Market Prediction

> 주가 예측을 위한 양방향 순방향 LSTM 모델의 성능을 평가하였고, 양방향 LSTM 모델이 순방향 LSTM 모델보다 주가 예측에서의 성능이 더 뛰어남을 입증

Research on Stock Price Forecast based on Resnet and LSTM

> ResNet 구조를 주가 예측 모델에 적용, ResNet 구조를 포함한 모델이 더 높은 성능을 보인다는 결과를 도출