
🟩 4편. ML + LLM 기반 시그널 생성 실험기 — 모델 학습·검증·운영 파이프라인
주식 자동매매의 핵심은 **“어떤 시그널을 신뢰할 수 있는가”**입니다.
시그널은 감이 아니라 데이터 기반 검증으로만 살아남고, ML·LLM 모델도 예외가 아닙니다.
이번 편에서는
ML + LLM 기반의 시그널을 어떻게 학습·검증·배포·운영까지 끌고 가는지
현업 수준의 파이프라인으로 정리합니다.
#1. 전체 구조 요약
데이터 수집 → 피처 엔지니어링 → ML 모델 → LLM 분석 시그널 → 시그널 결합
→ 백테스트 검증 → 실시간 운영 → 리스크 모니터링
핵심은 두 개의 서로 다른 방식(Machine Learning / LLM)을 병렬로 쓰고,
각자 생성한 시그널을 메타 레벨에서 결합하는 것입니다.
#2. 데이터 수집 파이프라인
✔ 1) 가격·체결 기반 데이터 (필수)
- OHLCV
- 체결강도
- 호가잔량
- 거래대금 급증
- 종목별 뉴스 발생 여부
→ 1분봉·틱데이터까지 확보하면 시그널 질이 확연히 올라간다.
✔ 2) 팩터(Factor) 데이터
- 모멘텀(3, 5, 10, 20일)
- 변동성(ATR, 표준편차)
- 거래량 지표(OBV, VWAP)
- 위험 지표(Beta, Drawdown)
✔ 3) LLM용 비정형 데이터
- 종목 뉴스 타이틀
- 공시 텍스트
- 커뮤니티·소셜 반응(선택)
이 비정형 데이터를 embedding → 벡터 DB로 저장해
LLM이 실시간 요약·분석할 수 있게 만든다.
#3. ML 기반 시그널 생성 과정
✔ 1) 피처 엔지니링
- 5/20/60일 모멘텀
- 전일 대비 거래량 변화율
- 시장 대비 상대 강도(RSI-Ratio)
- 변동성 압축/팽창 지표
→ ML 모델이 가장 잘 반응하는 형태로 전처리.
✔ 2) ML 모델 후보군
- XGBoost (가장 안정적)
- RandomForest (해석력 우수)
- LSTM/Temporal CNN (시계열 예측용)
- TabNet (특징 자동 추출)
✔ 3) 학습 목적
예: “내일 종가 > 오늘 종가 인 확률”
= 상승 확률 분류(Classification)
혹은
“내일 수익률”
= 회귀(Regression)
✔ 4) ML 시그널 결과
- 상승 확률
- 포지션 강도 (0~1)
- 예측 리스크 (불확실성 값)
#4. LLM 기반 시그널 생성
LLM은 숫자 예측보다 문맥 기반 시그널에 강하다.
✔ 1) 뉴스·공시 분석
예:
- 긍정/부정 스코어
- 긴급성(Immediate) 레벨
- 시장 영향도 추정
✔ 2) 시장 상황 자동 요약
- 지수 급변 이유
- 섹터별 흐름
- 특정 이벤트 발생 여부
✔ 3) 종목별 “심층 코멘트”
예:
“OO 종목은 매출 관련 긍정 뉴스가 나왔지만 PER는 고평가 구간.
거래량이 동반되지 않아 단기 반등 가능성은 30% 수준.”
→ 이런 분석을 매 1~5분 단위로 자동 생성 가능.
✔ 4) LLM 시그널 결과
- 긍정(상승) 스코어
- 부정(하락) 스코어
- 이슈 위험도
- LLM 기반 Confidence
#5. 시그널 결합(Meta-Signal Engine)
ML + LLM 결과를 결합해 최종 시그널을 만든다.
✔ 결합 방식 1: 단순 가중치
Final = ML_signal * 0.7 + LLM_signal * 0.3
✔ 결합 방식 2: Meta-Classifier
ML/LLM 결과 자체를 다시 ML로 학습시키는 방식.
✔ 결합 방식 3: Rule-Based Hybrid
- ML이 상승 확률 60% 이상
- LLM 긍정도도 0.4 이상
- 거래량 증가율 30% 이상
→ 매수 시그널 확정
#6. 학습·검증 파이프라인
✔ 1) Train / Validation / Test 분리
- Train : 2017~2022
- Valid : 2023
- Test : 2024
✔ 2) 시뮬레이션 검증
- 거래비용 포함
- 슬리피지 반영
- 실제 체결 규칙 적용
- 종목 로테이션 규칙 적용
✔ 3) 리스크 지표 평가
- Max Drawdown
- Sharpe Ratio
- MDD 회복기간
- 승률보다 Payoff(평균 이익 / 평균 손실) 우선
#7. 실시간 운영 파이프라인
✔ 1) 실시간 데이터 흐름
- 실시간 체결·호가 수집
- ML 예측(초당 또는 1분 단위)
- LLM 뉴스 분석(분 단위)
- 백엔드에서 시그널 결합
- FastAPI → 대시보드 송출
- 필요 시 자동 매매 트리거
✔ 2) 모니터링
- 모델 drift 감지
- 시그널 품질 변화 추적
- 예상/실제 수익률 비교
#8. 운영 자동화
✔ 1) 배포 자동화
- ML 모델 → vLLM + FastAPI
- LLM 분석 → vLLM 추론 서버
- 전체 파이프라인 orchestrator → Airflow / Prefect
✔ 2) 리포트 자동 생성
- 일간 시그널 리포트
- 주간 전략 리뷰
- 모델 성능 트래킹
✔ 3) 알람 시스템
- 손실 증가
- 시그널 품질 저하
- 시장 급변
🔵 결론: ML + LLM 조합은 “정확도 + 해석력 + 반응 속도”를 모두 확보하는 최강 조합
ML은 정량적 신호,
LLM은 정성·문맥 기반 신호에 강하다.
둘을 결합하면
단순 기술적 분석을 넘어선 실전급 매매 시그널 엔진이 된다.
다음 편 예고:
5편. 실시간 자동매매 시스템 구축 — FastAPI·vLLM·전략 Executor 설계
'AI 기반 자동매매 & 금융데이터 분석' 카테고리의 다른 글
| 5편. 실시간 자동매매 시스템 구축 — FastAPI · vLLM · 전략 Executor 설계 (0) | 2025.12.05 |
|---|---|
| 3편. 백테스트 시스템 만들기 — 실전급 백테스트 엔진 설계와 구현 (0) | 2025.12.05 |
| 2편. 감성 분석 기반 시그널 실험 — 뉴스·트위터·리포트로 투자심리 점수 만들기 (0) | 2025.12.05 |
| 1편. 국내/미국 주식 데이터 수집 자동화 실전 가이드 (0) | 2025.12.05 |
| TimeParents v1.2.0 — Windows Game Time Management Tool for Kids (0) | 2025.11.30 |