본문 바로가기

AI 기반 자동매매 & 금융데이터 분석

4편. ML + LLM 기반 시그널 생성 실험기 — 모델 학습·검증·운영 파이프라인

반응형

 

🟩 4편. ML + LLM 기반 시그널 생성 실험기 — 모델 학습·검증·운영 파이프라인

주식 자동매매의 핵심은 **“어떤 시그널을 신뢰할 수 있는가”**입니다.
시그널은 감이 아니라 데이터 기반 검증으로만 살아남고, ML·LLM 모델도 예외가 아닙니다.

이번 편에서는
ML + LLM 기반의 시그널을 어떻게 학습·검증·배포·운영까지 끌고 가는지
현업 수준의 파이프라인으로 정리합니다.


#1. 전체 구조 요약

데이터 수집 → 피처 엔지니어링 → ML 모델 → LLM 분석 시그널 → 시그널 결합  
→ 백테스트 검증 → 실시간 운영 → 리스크 모니터링

핵심은 두 개의 서로 다른 방식(Machine Learning / LLM)을 병렬로 쓰고,
각자 생성한 시그널을 메타 레벨에서 결합하는 것
입니다.


#2. 데이터 수집 파이프라인

✔ 1) 가격·체결 기반 데이터 (필수)

  • OHLCV
  • 체결강도
  • 호가잔량
  • 거래대금 급증
  • 종목별 뉴스 발생 여부

→ 1분봉·틱데이터까지 확보하면 시그널 질이 확연히 올라간다.

✔ 2) 팩터(Factor) 데이터

  • 모멘텀(3, 5, 10, 20일)
  • 변동성(ATR, 표준편차)
  • 거래량 지표(OBV, VWAP)
  • 위험 지표(Beta, Drawdown)

✔ 3) LLM용 비정형 데이터

  • 종목 뉴스 타이틀
  • 공시 텍스트
  • 커뮤니티·소셜 반응(선택)

이 비정형 데이터를 embedding → 벡터 DB로 저장해
LLM이 실시간 요약·분석할 수 있게 만든다.


#3. ML 기반 시그널 생성 과정

✔ 1) 피처 엔지니링

  • 5/20/60일 모멘텀
  • 전일 대비 거래량 변화율
  • 시장 대비 상대 강도(RSI-Ratio)
  • 변동성 압축/팽창 지표

→ ML 모델이 가장 잘 반응하는 형태로 전처리.

✔ 2) ML 모델 후보군

  • XGBoost (가장 안정적)
  • RandomForest (해석력 우수)
  • LSTM/Temporal CNN (시계열 예측용)
  • TabNet (특징 자동 추출)

✔ 3) 학습 목적

예: “내일 종가 > 오늘 종가 인 확률”
= 상승 확률 분류(Classification)

혹은
“내일 수익률”
= 회귀(Regression)

✔ 4) ML 시그널 결과

  • 상승 확률
  • 포지션 강도 (0~1)
  • 예측 리스크 (불확실성 값)

#4. LLM 기반 시그널 생성

LLM은 숫자 예측보다 문맥 기반 시그널에 강하다.

✔ 1) 뉴스·공시 분석

예:

  • 긍정/부정 스코어
  • 긴급성(Immediate) 레벨
  • 시장 영향도 추정

✔ 2) 시장 상황 자동 요약

  • 지수 급변 이유
  • 섹터별 흐름
  • 특정 이벤트 발생 여부

✔ 3) 종목별 “심층 코멘트”

예:

“OO 종목은 매출 관련 긍정 뉴스가 나왔지만 PER는 고평가 구간.
거래량이 동반되지 않아 단기 반등 가능성은 30% 수준.”

→ 이런 분석을 매 1~5분 단위로 자동 생성 가능.

✔ 4) LLM 시그널 결과

  • 긍정(상승) 스코어
  • 부정(하락) 스코어
  • 이슈 위험도
  • LLM 기반 Confidence

#5. 시그널 결합(Meta-Signal Engine)

ML + LLM 결과를 결합해 최종 시그널을 만든다.

✔ 결합 방식 1: 단순 가중치

Final = ML_signal * 0.7 + LLM_signal * 0.3

✔ 결합 방식 2: Meta-Classifier

ML/LLM 결과 자체를 다시 ML로 학습시키는 방식.

✔ 결합 방식 3: Rule-Based Hybrid

  • ML이 상승 확률 60% 이상
  • LLM 긍정도도 0.4 이상
  • 거래량 증가율 30% 이상
    → 매수 시그널 확정

#6. 학습·검증 파이프라인

✔ 1) Train / Validation / Test 분리

  • Train : 2017~2022
  • Valid : 2023
  • Test : 2024

✔ 2) 시뮬레이션 검증

  • 거래비용 포함
  • 슬리피지 반영
  • 실제 체결 규칙 적용
  • 종목 로테이션 규칙 적용

✔ 3) 리스크 지표 평가

  • Max Drawdown
  • Sharpe Ratio
  • MDD 회복기간
  • 승률보다 Payoff(평균 이익 / 평균 손실) 우선

#7. 실시간 운영 파이프라인

✔ 1) 실시간 데이터 흐름

  1. 실시간 체결·호가 수집
  2. ML 예측(초당 또는 1분 단위)
  3. LLM 뉴스 분석(분 단위)
  4. 백엔드에서 시그널 결합
  5. FastAPI → 대시보드 송출
  6. 필요 시 자동 매매 트리거

✔ 2) 모니터링

  • 모델 drift 감지
  • 시그널 품질 변화 추적
  • 예상/실제 수익률 비교

#8. 운영 자동화

✔ 1) 배포 자동화

  • ML 모델 → vLLM + FastAPI
  • LLM 분석 → vLLM 추론 서버
  • 전체 파이프라인 orchestrator → Airflow / Prefect

✔ 2) 리포트 자동 생성

  • 일간 시그널 리포트
  • 주간 전략 리뷰
  • 모델 성능 트래킹

✔ 3) 알람 시스템

  • 손실 증가
  • 시그널 품질 저하
  • 시장 급변

🔵 결론: ML + LLM 조합은 “정확도 + 해석력 + 반응 속도”를 모두 확보하는 최강 조합

ML은 정량적 신호,
LLM은 정성·문맥 기반 신호에 강하다.

둘을 결합하면
단순 기술적 분석을 넘어선 실전급 매매 시그널 엔진이 된다.

 

다음 편 예고:

5편. 실시간 자동매매 시스템 구축 — FastAPI·vLLM·전략 Executor 설계

반응형