주제: 뉴스 데이터의 감성 분석을 이용한 모델 성능 비교
방법: 소비자들의 기업에 대한 인식과 같은 기업에 대한 감성을 분석하고 주가 예측 모델에 적용. n기업에 대한 감성 지표를 알 수 있는 뉴스 데이터를 수집하고 여러 모델에 성능 비교.
>뉴스 데이터를 벡터화
SVM (Support Vector Machine) : 분류와 회귀 분석에 사용되는 지도 학습 모델이다. 데이터를 분류하기 위해 결정 경계(하이퍼플레인)을 찾으며, 이 경계는 서로 다른 클래스의 데이터를 최대한 멀리 떨어지게 하는 방식으로 설정한다. 입력 변수로 뉴스 데이터 전문을 벡터화하여 사용하는 것보다 summarization하여 사용하는 것이 더 좋은 성능을 끌어낸다
RNN: 시간에 따라 변하는 주가 데이터와 뉴스 기사 내용을 분석하는 데 사용. S&P 500 기업의 주가 데이터 와 해당 기업에 대한 뉴스 기사 데이터 통합 후 각 뉴스 기사에서 기업명이 언급된 5문장을 추출하여 이를 감성 분석
추출된 문장들의 감성 점수 평균을 계산하여 이를 주가 예측 모델의 입력 변수로 사용
한계점: 부분적 데이터 사용, 뉴스 기사 빈도수 미고려
계획
Data crawling
,주가 데이터와 뉴스 데이터의 충분한 연관성을 포함하기 위해 한 해 동안 가장 언급이 많이 된 회사들을 선정하여 주가 예측 모델의 학습을 진행
>가장 언급이 많이 된 회사들을 선정하기 위해 Requests와 BeautifulSoup라이브러리와 KoreanNewsCrawler 오픈소스를 사용하여 네이버 경제 뉴스에서 KOSPI 상위 50개 기업들이 젝목에 언급된 뉴스를 모두 수집한다. 제목에 기업이 언급된 뉴스의 수를 통계내어 연구 대상으로 선정, 해당 기업에 대해 뉴스 데이터를 활용
뉴스 데이터
>네이버 경제 뉴스에 게재된 본문을 gpt-4를 사용하여 크롤링
감성 지표의 분석
>외부 데이터로 수집한 뉴스 데이터를 사용한다. 뉴스 데이터의 경제 분야의 기사들은 기업에 대한 단순한 정보를 포함하기도 하지만 특정 기업에 대한 대중들의 인식과 같은 감정적인 정보를 포함하고 있다. 적절한 감성 지표를 추출하기 위해 기사의 본문을 요약하고, 요약된 핵심 문장들로부터 감성을 추출한다.
문제점
기사의 제목은 짧은 문장으로 구성되는 특징 때문에 감성을 파악하기에는 부족하다
본문은 부가적인 정보를 많이 포함하고 있어 핵심이 되는 내용만 찾아 감성 정보를 파악하기에는 어려움이 존재
해결책
뉴스 데이터의 제목과 본문 내용을 요약하고 감성을 추출하기 위해 KakaoBrain의 Pororo모델 사용
Pororo의 요약 기능을 활용하여 기사를 요약하고, 요약된 정보를 기반으로 감성 분석 기능을 통해 수치화된 감성 정보를 추출한다
------------------------------------------------------------------------------------------------------------------------------------------------------------
기업 선정
방법1
FinanceDataReader사용

방법2
시가 총액 기준으로 크롤링(2023년 12월01일

--------------------------------------
모델
LSTM
정확도:

f1-score:

kobert, koelectra
오류

두개 모델에서 똑같은 오류
관련 논문들
combination of window-sliding and prediction range method based on LSTM model for predicting cryptocurrency,
> 암호화폐 가격의 sequence size를 다르게 하여 LSTM을 사용한 암호화폐 가격 예측 모델을 제작
Evaluation of Bidirectional LSTM for Short and Long-Term Stock Market Prediction
> 주가 예측을 위한 양방향 및 순방향 LSTM 모델의 성능을 평가하였고, 양방향 LSTM 모델이 순방향 LSTM 모델보다 주가 예측에서의 성능이 더 뛰어남을 입증
Research on Stock Price Forecast based on Resnet and LSTM
> ResNet 구조를 주가 예측 모델에 적용, ResNet 구조를 포함한 모델이 더 높은 성능을 보인다는 결과를 도출
'AI기초프로젝트 과제' 카테고리의 다른 글
AI기초프로젝트 3주차 과제 - Naver Shopping Review Sentiment Analysis (0) | 2023.11.06 |
---|---|
AI기초프로젝트 5주차 과제 - 감성Fine-tuning (0) | 2023.10.22 |
AI기초프로젝트 4주차 과제 - Transfer Learning for Computer Vision Tutorial (0) | 2023.10.22 |
AI기초프로젝트 2주차 과제 - Detectron2 (0) | 2023.10.17 |
AI기초프로젝트 1주차 과제 - 음성인식 (0) | 2023.10.17 |