1 绪论

1.1 研究背景及意义

1.1.1 研究背景

股票市场是上市公司筹集社会资金的重要途径之一,是社会主义市场经济体系的重要组成部分。股票投资已成为投资者实现金融资产保值、增值目标的主要方式之一。在股市投资研究中,资产价格行为的分析与建模是备受研究者关注的重要课题。对主动型股票投资研究而言,价格行为研究的核心是对股票价格的走势或未来值进行有效预测,进而指导投资者的交易决策行为,以使其所持有的投资组合经风险调整后达到最优化。然而,面对信息错综复杂、状态瞬息万变的股票市场,如何透过复杂现象看本质、把握股票市场行情脉络和资产价格运动状态及趋势,进而通过持续的交易决策获得理想的投资收益甚至超额收益,是股票投资者尤其是机构投资者高度关注并深入研究的核心课题(李斌等,2019)。但传统股票投资分析方法,包括基本面分析法和技术分析法,却因用于建模的数据体量小、模态单一、蕴含信息量少或模型提取股市数据变化规律效率低等缺陷,难以对股市行情和资产价格的走势或未来值进行有效预测,进而难以为股票持续交易过程中的动态最优投资决策提供足够的信息支撑(Chen et al.,2019)。

当今的金融投资市场行情变化无常,投资机会稍纵即逝,传统的股票投资方法已经难以满足投资者的投资目标多元化需求。量化投资作为国内外近年来兴起的一种新的投资方法,已得到广大投资者尤其是机构投资者的高度关注与积极应用。量化投资就是以大量金融市场数据为基础,按照一定的投资理念和投资逻辑,采用一定的数学模型对数据进行建模并挖掘其中的投资机会,进而通过计算机技术建立可重用并能动态适应市场情形的投资策略的过程(丁鹏,2016)。量化投资将交易决策过程交由计算机完成,极大地突破了传统投资实务中以个人经验为主的经验式投资方法的局限性,如人的精力有限性、认知有限性与认知偏差、贪婪与恐惧等人性弱点。大量运用大数据、机器学习与人工智能等前沿技术构建投资决策模型,极大地提升了模型对信息自动分析与处理能力,可将投资者从枯燥乏味的数据获取与分析、交易执行工作中解放出来,从而使其能更好地从宏观角度把握市场动向,提升投资决策的效能水平。量化投资具有及时性、系统化、纪律性和分散化等优点,并在实践中显示出了处理数据高效、超额收益发现能力强、决策效率高、风险管控精细化等关键优势,日益受到投资研究者、实务界与监管部门的重视(王宇超等,2014)。

21世纪以来,电子化金融交易产生了大量可获取的交易数据,为量化投资的发展奠定了数据基础。互联网数据挖掘与分析技术的革新与发展,促使量化投资成为主流的金融投资方式之一。美国金融市场中量化投资发展迅猛,其数量和资产规模都超过了其他主动管理基金。全球范围内最受人瞩目的量化投资基金是量化投资大师西蒙斯的文艺复兴科技公司。自1990年以来,文艺复兴基金为投资者创造的年化收益率高达35%,而同期巴菲特的平均年化收益率为19.7%。2008年金融危机期间,文艺复兴表现最优秀,公司旗下的核心产品大奖章基金在金融危机下收益率仍超80%。这充分证实,以数理建模为基础的量化投资具有非常突出的实用价值和广阔的发展空间(丁鹏,2016)。由于对冲手段的缺乏,我国真正意义上的量化投资产品直到2011年才出现,并在随后的2014年牛市期间,涌现出许多量化投资私募和公募基金产品,但我国量化投资行业目前整体上尚处于初始阶段,存在量化投资产品总体规模偏小、策略形式相对单一、业绩起伏较大等问题,这在很大程度上制约了量化投资的吸引力和发展规模。然而,随着机构投资者数量的增加、需求的多样化和金融产品创新的涌现以及市场波动性的加剧,特别是股指期货的推出,量化投资得到了巨大的发展空间。国内最大的证券投资交易系统提供商恒生电子认为量化投资将得到持续、快速的发展,进而成为金融投资领域中一种日益重要的投资方式(丁鹏,2016)。

量化投资是由信息化与自动化技术的飞速发展引发的金融投资技术革命的重要体现,其广泛应用有利于降低证券交易成本和投资风险,增强金融系统防范和应对风险的能力,对金融市场乃至整个经济社会的稳定和发展都具有重要意义,已成为金融投资领域,特别是机构投资者非常关注的研究热点,同时也是证券监管当局高度关注的课题(丁鹏,2016)。在金融投资的约束和目标复杂化、金融交易自动化与投资决策智能化的趋势背景下,以金融投资理论与逻辑为核心,深度融合人工智能与机器学习、信号处理等前沿方法、技术的量化投资模式,有望为自动、智能的金融资产交易策略构建提供一种新的研究与实现方案,进而推动金融投资行为从艺术走向科学。

1.1.2 研究意义

与传统的主动型定性投资类似,主动型股票量化投资的理论基础也是依据市场的非有效性,利用计算机深入分析大量的金融交易与市场参与者等相关数据,并运用线性或非线性优化方法构建投资策略模型,包括选股、择时、风险管控和绩效评估等子模型,进而应用于选股、择时和风险分析与管理等实务操作所依赖的系列决策过程,以获取投资者期望的最优风险调整收益。本书从金融投资、机器学习和信号处理等多学科交叉视角,将机器学习前沿方法应用于金融数据建模与量化投资研究中,深入研究基于机器学习的金融预测建模、投资组合与策略构建等问题,主要包括股票价格与交易量分布预测、行业板块指数互动关系建模、量化选股与择时策略构建,以及基于深度强化学习的在线最优组合建模等。

1.1.2.1 股市预测与投资择时

股票投资风险包括系统性风险与非系统性风险,可通过多元分散化投资来消除其中的非系统性风险,而其中的系统性风险则通常需要通过择时加以规避。择时是金融投资过程中的关键环节,即投资者根据其对资产价格运动趋势或未来状态的预测,在恰当的时机进入或退出市场,从而实现规避亏损、获取收益的目标。股票量化择时就是运用数量化方法判断股票的走势或未来状态值,进行高抛低吸操作以获取超额收益的交易行为,其关键在于如何有效预测股价走势或未来值(傅中杰吴清强,2018)。

然而,股票市场是一个受多种经济社会因素驱动的非线性复杂系统,其价格波动具有显著的非平稳、非线性和高噪声的复杂特性,而传统的股市预测方法,包括金融计量方法、统计建模方法,本质上建立在对各股票市场变量进行线性关系统计建模的基础上。在传统的股市预测建模过程中,通常以统计理论为基础,通过模型假设、参数估计、模型检验等手段和技术获得描述股市时间序列变化规律的数学模型(张承钊,2016)。基于统计理论的股市预测模型能有效预测未来股市状态的一个隐含假设:证券时间序列数据能保持某种线性结构不变性。但股票市场是一个以多种方式对外界因素做出反应的复杂系统,随机性较强,各种现象之间存在复杂的非线性内在关系,很难满足苛刻的统计假设,使得股票价格与交易量序列的特征提取与预测建模成为一个公认的难题。现有股市预测建模过程本质上仅仅是对现象变量之间的线性关系进行挖掘,都存在建模数据的容量较小或模型发现数据复杂模式的能力不足等重大缺陷,无法系统、准确地刻画股票市场的运行规律,故通过ARIMA和GARCH等统计模型建模的预测偏差较大,可能给投资者造成无法估量的损失(杨青王晨蔚,2019)。

随着对金融市场微观结构与交易行为心理等方面研究的不断深入,量化投资研究者逐渐认识到单个技术难以高效地挖掘并刻画复杂金融市场中的多维量价变化规律,进而实现高精度预测,而融合金融计量、信号处理和机器学习等多学科方法的混合或集成模型,则能通过其不同子模块识别数据的不同模式,进而汇总获得其中蕴含的完整变化规律,实现金融时序的高精度预测(贺毅岳李萍韩进博,2020)。

针对股价时序中复杂波动模式有效提取以及高精度预测的难题,本书将经验模态分解(EMD)及其改进方法,包括集合经验模态分解(EEMD)和自适应噪声完备集合经验模态分解(CEEMDAN),引入股市指数预测建模研究中。利用EMD及其改进方法对股价时间序列自适应分解与重组的功能,获取波动特征相对简单的IMF或重组子序列,为进一步构建预测模型以充分提取子序列的波动模式创造了有利条件,从而可显著降低对指数序列高精度预测建模的难度(贺毅岳韩进博高妮,2020);在分解与重组的基础上,进一步结合SVM、LSTM对复杂序列中长期依赖关系高效提取的优势,提出EMD系列方法和SVM、LSTM相结合的股票价格集成预测方法;同时,运用遗传算法对预测模型进行参数优化,并分别构建相应的基于指数预测的量化择时策略。本项研究旨在提高股价预测建模精度,进而大幅提升策略所产生择时信号的准确度与有效性,以使得相应的量化择时策略能长期保持盈利、战胜基准,从而为主动型量化投资研究与实践者把握股市动态趋势、规避市场风险进而增强超额收益能力提供更有效的方法和工具。

现有的预测建模方法难以有效提取日内交易量分布随时间演变的复杂变化规律,导致日内交易量分布的预测误差过大。为此,本书结合MEMD自适应分解多维时序信号的优点以及LSTM-Attention神经网络对金融时间序列预测准确度较高的优势,提出了一个面向日内交易量预测的模型M-LSTM。该研究旨在构建一种预测误差更小、精度更高、相较于真实的指数值具有更低时间滞后性的日内交易量分布预测新方法,这对经常进行大额股票交易的机构投资者降低冲击成本、最优化策略执行效果等具有重要的交易实践应用价值。

1.1.2.2 股票行业互动关系建模及择时

目前关于行业板块互动关系的研究大多都是在研究联动、轮动现象,对其进行描述性统计,并未深入挖掘行业指数涨跌之间的时序依赖关系和规律,未据此进一步构建实用的量化投资策略。换句话说,现有研究成果是基于宏观意义上的理论研究,而对投资实务来说,微观意义上更具体、可行的研究结果更具有投资参考价值。为此,本书提出MEMD-SVC方法来研究行业指数之间的涨跌关系,以进一步构建有效的量化投资策略。由于金融时间序列往往存在各种各样的噪声,通过MEMD分解并重构之后的时间序列可以达到去噪的效果,去噪之后的数据相比于原始数据曲线更为光滑,很大程度上剔除了市场噪声对时序真实信息的干扰。在此基础上,再利用支持向量分类方法挖掘不同行业指数本身涨跌受相关行业影响的量化规律,进一步将量化规律转化为有效的择时策略,并进行策略仿真交易回测以评估其有效性和实用性。该项研究旨在从股票投资中行业选择方面为投资者提供投资建议,更有效地分配投资者资金,从而提高市场整体的资金配置效率,使市场朝着更健康的方向发展。

1.1.2.3 基于深度强化学习的股票投资组合构建

强化学习是一种适合于求解序列多步决策问题的机器学习方法,与传统监督学习方法不同,强化学习不需要外部管理者提供带有标签的训练数据,而是通过反复“试错”的方式与环境进行交互,通过恰当的多步决策来达到一个目的,从而更新和改进自身的策略。强化学习的优势在于其拥有在线学习、自动探索和自动持续产生决策的能力,其缺陷是无法较好地感知环境。深度学习的特点是具有较强的感知和表征能力,但很难做出连续的决策和判断,故不适合直接用深度学习方法构建自动化交易模型。深度强化学习结合了深度学习的感知能力和强化学习的自动决策能力,是一种更接近人类思维方式的人工智能方法。深度强化学习通过深度学习模型从环境中获取目标观测信息从而实现环境感知,可直接从高维原始数据学习控制策略,同时通过强化学习进行序列化决策并对决策进行评估,从而为自动化交易策略的感知和决策提供可行的解决方案(Lei et al.,2020)。

现有关于深度学习和强化学习的研究主要集中于理论算法方面,很少有研究将两者的功能优势进行融合并应用于金融投资领域。本研究有助于深度学习和强化学习理论在金融领域的拓展,拓展了深度学习和强化学习的理论应用,同时可提供金融投资的新工具,有利于深度强化学习从理论到实践的拓展,也扩宽了深度学习、强化学习的理论应用领域,扩充了股市投资领域的工具,为量化投资的策略构建以及机器学习在金融投资领域的理论做出有益探索,具有重要的理论意义与实践价值。