반응형

머신러닝에 해당하는 글 1

반응형

금융데이터와 머신러닝의 결합 실패 이유 - Qraft Technoledge

Machine Learning|2022. 1. 8. 14:58
반응형

 

금융과 딥러닝 - 금융 영역에서의 딥러닝은 어떻게 다른가?



GIGO (쓰레기를 넣으면 쓰레기가 나온다)


1. 시계열 특성 자체의 노이즈

미래 주가 = 현재 주가 + 정보 + 노이즈로 구성되는데, 시장에 존재하는 노이즈가 정보량보다 크기 때문에

주가를 예측한다는 것은 상당히 어려운 작업이다.

 

머신러닝 초기에 LSTM으로 가격을 예측하는 프로젝트들이 상당히 많은데,

대부분의 결과가 오른쪽으로 lagging된 것을 확인할 수 있다.

이미 주가가 오른 시점 이후에 주가가 오를 거라고 예측하는 모습을 볼 수 있는데,

이는 다음 주가가 현재 주가에 크게 의존하기에 이런 현상이 발생한다.

 

따라서 노이즈를 줄이기 위해 디노이즈 과정 필요하다.

학습 이전 데이터를 정제하는 방법으로 디노이즈의 대표적인 방법으로 이동평균Bilateral filter가 있고,

학습과정에서 자동으로 노이즈를 제거할 방법으로 Qraft는 CNN기반 Autoencoder 기반 시계열을 디노이즈 모델을 선택했다. 

 

2. 시계열 특성 종류 대비 짧은 시계열 길이

 

주가데이터나 거래량 같은 자산군 데이터는 매일매일 바뀌는 값이기에 누적된 데이터양이 방대하다.

하지만 금리, 인플레이션, 장단기 금리차 등의 macro data는 데이터양이 상당히 부족하다.

월 단위로 40년가량의 데이터가 있다고 하면, 12 x 40 = 480개의 데이터를 가지고 머신러닝을 train 해야 한다.

(이를 차원의 저주라고 한다)

 

그렇다면 실제 데이터가 부족한데 어떻게 모델을 학습시킬 것인가? 에 대한 문제가 생길 것이고,

이에 대한 해결책으로 기존 퀀트가 모델을 만드는 방식을 제시한다.

경제적 함의점을 내포하는 모델 설계하면 된다.

경제적 함의점은 사람의 주관이 개입할 수 도 있고 구체화하기는 불가능하다. 따라서 모델을 설계해야 한다.

 

즉, 시장에 존재하는 high level 팩터를 분석해 문제점을 해결한다.

예로 12-1m 모멘텀, 자산군 모멘텀 효과, 자산군 평균 회귀 효과, 확장적 통화정책, 긴축적 통화 정채, 단기부채 사이클, 장기부채 사이클, dynamic factor rotation 등을 고려할 수 있다.

 

 

3. Overfitting 발생과 해결

 

train 결과 비슷한 cost이지만 시작점(weight초기화)에 따라 overfitting 정도가 다르다.

L1, L2 Norm을 써도 데이터가 부족해 overfitting방지가 어렵다.

따라서 동시에 다수의 머신러닝을 학습한다. (Asynchronous Multi Network Learning)

training 중 test data를 가지고 Overfitting을 체크하게 되면, look-ahead bias가 발생하기에

따라서 별도의 vaildation data로 오버 피팅 감지한다.

 

overfitting이 생기는 또 다른 이유는 지금처럼 저금리 시대의 데이터가 충분하지 않거나, 지금까지 관찰된 적이 없던 부분을

어떻게 예측해야 하는지, 소수에 데이터로 overfitting이 발생하는 부분을 어떻게 처리해야하는지 대한 문제이다.

물론 관찰되지 않은 부분은 모르겠다고 하는 게 가장 좋다.

이에 대해서는 어떻게 모르겠다고 해야하는지, 모르는 부분은 어떻게 처리하는지는 Bayesian Inference로 확실성을 구하고

이에 따라 불확실성이 크면 투자를 보수적으로 하면 된다.

 

그 밖에 overfitting의 방지하는 방법으로 다음의 세 가지 방법이 있는데 Qraft에선 3. 의 방법을 채택했다고 한다.

1. Monte Carlo Dropout

2. Monte Carlo Batch Normalization

3. Deep Learning Regression + Gaussian Process Regression

(선지도 학습 후 GPR 학습)

 

Overfitting의 정도를 측정하는 metrics으로 주로 t- test를 사용한다고 한다.

 

 

4. 투자 이외의 머신러닝 활용

자연어 처리로 기업의 수익 보고를 분석해서 새로운 secotr etf를 창출하기도 한다.



 

 

 

반응형

댓글()