金融学会常务理事陈学彬: 深度强化学习在金融资产管理中的应用

2021年7月28日至7月30日,以“流光易彩合思财智”为主题的中国企业财智峰会暨合思用户大会在成都圆满举办。会上,四川大学经济学院文科讲席教授,复旦大学金融学教授陈学彬带来了主题为《深度强化学习方法在金融资产组合管理的应用前景分析》演讲。

本篇演讲由财智无界整理发布,旨在挖掘演讲中独具价值的干货内容和深度逻辑。

陈学彬老师简介:

四川大学经济学院文科讲席教授、博士生导师

复旦大学金融研究院原常务副院长

上海财经大学现代金融中心原主任

中国金融学会常务理事、中国国际金融学会常务理事

全国金融学专业研究生教育指导委员会第1届委员

国家自然科学基金第12届、13届管理科学部专家委员会成员

上海市金融学会原副会长、上海市信息学会副会长

哈佛大学、加州大学伯克利分校、圣芭芭拉分校、伦敦政治经济院、明治大学、香港中文大学等校访问学者

2017年开始,人工智能开始在越来越多领域“崭露头角”。金融领域,自然也不例外。

传统金融服务业正在向着数字化、智能化的方向发展,而作为人工智能的应用方法之一的“深度强化学习”,凭借其高性能、强泛化和高拟合能力在众多方法模型中脱颖而出,得到金融界和学术界的青睐,并成为众多专家学者研究金融市场变化的热点。

今天跟大家分享的主要是深度强化学习在资产管理和金融投资领域的运用。

“深度强化学习”对大家来说,可能会有一点陌生。

但是我们想一想,在2016年3月份,AlphaGo战胜世界围棋冠军李世石的时候,曾经引起了全球不小的轰动,AlphaGo是第一个战胜围棋世界冠军的人工智能机器人。

于是,人们纷纷讨论,那在其他领域是不是机器也会取代人。我认为,机器不会完全取代人。但是,它会部分的取代人,你不能掌握机器的话,你可能就会被淘汰。

因此,掌握深度强化学习的基本原理就显得非常重要。

什么是深度强化学习?

深度强化学习(DeepReinforcementLearning)就是以一种比较通用的形式,将深度学习的感知能力与强化学习的决策能力结合在一起的一类机器学习算法,是人工智能的一种方法。它包括了两种最基本的机器学习算法:深度学习方法和强化学习方法。

我们来看看深度学习是什么呢?深度学习主要是利用深度神经网络,对研究的问题进行分析、建模学习的方法,最早由多伦多大学的G.E.Hinton于2006年提出。

2006年,Hinton提出了在非监督数据上建立多层神经网络的一种有效方法,具体分为两步:

首先逐层构建单层神经元,这样每次都是训练一个单层网络;当所有层训练完后,使用wake-sleep算法进行调优。

深度神经网络是跟浅层的神经网络相对应的。这里讲的神经网络是指人工神经网络,通过学习模仿人或生物体内的神经,比如神经源、神经层等的一个组织结构建立起来进行学习的一种方法。

举个简答的例子吧,传统的神经网络是一个有监督的学习,像老师出个题要有标准答案,有了标准答案,才能判定这个学生做的题是不是正确的。但是,出标准答案会给老师带来很大的工作量。同时,这种标准答案也不能保证完全正确。

而深度学习,则不需要标准答案,它是在工作中边干边学习,所以说,这与传统学习在算法上也有了区别。

而强化学习是指在与环境交互中不断学习的问题以及解决这类问题的方法。其本身就是一种自下而上无监督学习。在此情形中,老师并不先给学生一个标准答案,看做的题对不对,然后来改进,而更强调智能体从与环境的交互中不断学习以完成特定目标。

此外,强化学习它有很多的要素,包括状态s、动作a、策略π(a|s)、状态转移概率p(s’|s,a)、以及即时奖励r(s,a,s′)。

简单来说,比如说状态是一个市场的状态,动作就是你要采取的决策动作,策略就是你选什么样不同的策略来组合,状态的概率就是从当前的状态向下一个状态会发生什么样的演变,我这个决策行动以后会带来什么效果,有正的有负的,有及时的奖励,还有一个我们追求的是最终的目标,最终的收益不是看当前我们买了股票今天涨了就涨了好几百,我没卖明天就是可能几个跌,而是看连续长期的一个效果。

策略就是我们根据当时所处的状态,对状态未来的变化作一个预测,进而选择它的策略。那么,为了描述它,一般会有一个状态值函数、状态-动作值函数还有Q函数。

此外,强化学习存在一个困境,很多实际应用问题的输入数据是高维的,算法需要根据它们来选择一个动作执行以达到某一预期目标。比如,自动驾驶算法要根据当前的画面决定汽车的行驶方向和速度。

经典的强化学习算法如Q学习需要列举出所有可能的情况(称为状态)和动作,构建Q函数表,这是一个二维的表,然后迭代计算各种状态下执行各种动作的预期收益的最大值。

对于这种计算起来极其复杂和耗时的高维输入数据,显然是不现实的。

那如何简化上述计算呢?给大家介绍几种思路。

一种思路就是人工对它进行抽象分析,就依赖于人的认识,但这种认识本身也是有限的,同时工作量也很大,

另一种思路就是用值函数来逼近它这个函数,那个函数我们正好就是可以用这个深度学习人工神经网络的方法来构建。

而这两种方法组合起来,就成了深度强化学习,就是一个强强联合。

深度强化学习与股票交易中的应用

在股票交易场景中,大多数股民认为自己买的股票涨了就有收益,但实际上只有当你卖了股票才真正享有这个收益。而不少投资者买了很多股票,涨了不卖,等到跌了一点,还不卖。非要等跌到最后亏了很多,才后悔了。

而强化学习就是不论你买进还是卖出,它会根据你每一步的盈亏状况来发出奖励信号,智能体则根据该奖励信号来判断它以前的策略是否正确,所以说股票交易就是一个强化学习。

强化学习的主要特征是智能体和环境。在股票交易市场,智能体就可以看作是股票投资者,而投资者环境就是股票市场。投资者选什么股票,什么时候买进,买多少,什么卖出,全仓卖出还是部分卖出,这都是行动的具体表现。投资者的行动与股票市场互相反馈。

所以,不管是做股票投资,还是从事财务等相关行业,本质上就是在与市场不断地交互中进行学习。

深度强化学习在股票交易中的模型

我们看看深度强化学习的股票交易模型,就相当于一个股票交易市场。我们投资组合的管理人,要根据市场来选择我们的策略,总是要不断的去调整,所以说从下图中就可看出他们的互相反馈。

这个模型都是用程序来编成的,而运用深度强化学习来做资产组合投资是相当复杂的。但可以通过编程来实现,深度强化学习有许多开源库可供我们使用,比如最底层的强化学习的工具库Gym,以及在Gym基础上进一步建立的强化学习库OpenAI。

此外,我还想着重介绍一下FinRL。FinRL是AI4Finance为方便初学者接触量化金融和开发自己的股票交易策略,而开发的一个深度强化学习库。该模型至少包括主控模块,模型的训练模块、预测模块和评价模块。此外,它还包含了交易成本、市场流动性和投资者风险规避程度等重要的交易约束。

FinRL的主要目的是为初学者提供一个完整性、实践指导性和可重复性的深度强化学习股票交易模型训练和评价系统。

最后,我想强调一点,金融市场变幻莫测,不确定因素众多。目前,没有一种确定性的模型能够准确地描述金融市场的变化,也没有一种策略能够在金融市场永远获胜。

那么,面对复杂的市场,资产管理者需要在市场中不断学习,不断总结,不断优化自己的投资策略。而深度强化学习模型能够在与市场的持续交互中不断地学习,调整自己的策略

不失为应对这个变化多端市场的可行方法之一。

但是,由于模型训练和预测结果具有随机性和不可完全重复性,深度强化学习也可能给金融资产管理带来新的风险。比如多市场、多资产、多指标带来的计算量膨胀怎样处理,这需要引起重视和进一步完善。

总之,金融资产的管理是一项艰巨而复杂,极具挑战性的工作。如果你能有效地利用大数据、人工智能技术来辅助资产管理工作,你必将成为一个更具竞争力、更加优秀的资产管理人。返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()