/ /
高阶课:金融机器学习
🔴
入学要求
💯
能力测试
🛣️
课程安排
🕹️
研究资源

高阶课:金融机器学习

FIN-221 | Spring 2025 | Machine Learning in Finance | Quantopian
Explore FIN-221 | Spring 2025 | Machine Learning in Finance space in Quantopian
https://community.quantopian.com/c/fin-221-spring-2025-machine-learning-in-finance/

课程概览

本课程系统探讨机器学习在金融领域的理论与实践,聚焦数据治理、策略开发、回测验证等核心环节。通过平衡理论与工程实践,揭示机器学习在量化交易中的真实能力边界,重点解决金融场景下的过拟合、生存偏差、非平稳性等特殊挑战。适合具备统计学与编程基础(Python/R)的量化研究员、资管从业者及学术研究者。


课程模块与知识体系

模块1:金融数据工程(3周)

  1. 金融数据结构化
    • Tick数据聚合、因子库构建、非同步交易数据处理
    • 高频数据特征:报价跳变、微观结构噪声滤除
  1. 标签设计与样本权重
    • 三重屏障法(Triple Barrier Method)定义交易信号
    • 时间衰减权重应对市场状态迁移
  1. 特征分析与选择
    • Meta-Labeling框架下的特征重要性评估
    • 对抗特征筛选(对抗性验证检测信息泄漏)

模块2:模型构建与验证(4周)

  1. 集成学习方法
    • 随机森林与梯度提升树在因子合成中的对比
    • 堆叠泛化(Stacking)整合基本策略信号
  1. 金融场景交叉验证
    • Purged K-Fold方法消除前瞻偏差
    • 时间序列交叉验证的滚动窗口设计
  1. 超参数优化陷阱
    • 过拟合风险:Walk-Forward优化 vs 网格搜索
    • 参数稳定性检验(参数敏感性分析)

模块3:策略回测与风控(3周)

  1. 回测引擎设计
    • 事件驱动回测 vs 向量化回测的算力权衡
    • 滑点模型:固定滑点 vs 订单簿仿真
  1. 回测统计量体系
    • 收益指标:夏普比率、Calmar比率、策略容量
    • 风险指标:最大回撤、VaR、策略拥挤度监测
  1. 策略风险拆解
    • 过拟合概率估计(Deflated Sharpe Ratio)
    • 蒙特卡洛交叉验证(Monte Carlo PnL分布分析)

模块4:前沿应用专题(2周)

  1. 机器学习资产配置
    • 风险平价模型(Risk Parity)的神经网络优化
    • 带交易约束的强化学习动态调仓
  1. 微观结构特征挖掘
    • 订单流失衡(Order Flow Imbalance)预测短期价格
    • 限价订单簿动态的LSTM建模
  1. 高性能计算实践
    • GPU加速:CuPy在因子计算中的性能对比
    • 分布式回测:Dask在多资产组合中的应用

教材与学习资源

类型书目核心价值
主教材Advances in Financial Machine Learning (Marcos López de Prado)提出金融特异性方法论:元标签、Purged CV、组合分层
辅助教材Machine Learning in Finance: From Theory to Practice (Dixon等)提供Python案例:从特征工程到策略部署全链路代码
扩展资源Quantopian研究文库(含订单簿仿真代码库)实盘级高频数据处理工具与案例数据集

评估体系与学术要求

  1. 课程作业(40%)
    • 双周发布,包含代码实践与理论证明(例:实现组合Purged K-Fold交叉验证)
    • 典型题目:
      • 基于三重屏障法的趋势跟踪标签设计
      • 使用对抗验证检测特征信息泄漏
  1. 期末考试(60%)
    • 开卷代码实战:构建带微观结构因子的高频预测模型
    • 理论部分:分析过拟合概率与夏普比率膨胀的关系
  1. 证书标准
    • ≥85分:卓越证书(前15%学员获教授推荐信资格)
    • ≥70分:课程完成证书

先修知识要求

领域要求速成资源
Python编程熟练使用NumPy/Pandas/Scikit-learnPython for Finance (Yves Hilpisch)
机器学习监督学习基础(回归/分类/评估指标)Hands-On Machine Learning (Géron)
金融基础资产定价、投资组合理论Active Portfolio Management (Grinold)

工具链与数据平台


本课程以Marcos López de Prado的“金融机器学习三部曲”为理论基底,结合最新学术论文(如ICML 2024金融应用前沿)与工业级案例,系统构建符合金融物理规律的机器学习范式。