强化学习是一个非常优秀的机器学习的一种方式,不但AlphaGo使用了,很多量化交易系统也是使用此学习方式。

强化学习中的智能体agent就是一个综合状态state、行动action,奖励reward来围绕环境env的一个系统,根基行动对环境的影响确定每步step的环境env对action奖励reward或者在每个回合episode中确定reward来计算agent的行动函数的一个过程。

在对强化学习的整个过程中,非常多优秀的例程,尤其是openAI的GYM是对强化学习的环境做了一个规范性的约定,大大降低了强化学习的难度和复杂程度,也突出强调了,强化学习的重点是不同的算法,每个不同的算法是对学习的必须的。
但有几个问题是非常严重的:
1、每个智能学习系统都是环境是非常重要而且是特殊的,这种特殊性是需要把深度学习作为系统使用需要解决和克服的一个关键因素
2、GYM的env定义有一个非常重要的假设,在使用过程中往往是忽略掉的。

就是假定环境是受智能体agent的影响并改变的,换句话说环境是受agent控制的条件之一,通过action改变state,所以GYM中的step是输入action输出state的。

但现实社会中"人"能改变环境的状态只是少量的,如何适应环境才是大问题,即在大环境中如何做出对自己最有利的行动action,这个行为对整个环境是没有(我想应该没有)影响的,所以step不是要action
to state而是state to
action。而一个一个自动交易系统对市场这个环境影响有多大呢?如果使用step(action)来生成state是不是有点自欺欺人了?原始性的不正确是致命的。

3、short和long问题,一个交易环境,无论是要做有监督的和无监督的,当然在利益面前没人选择无监督的,因为没人想要亏钱,所以还是明确一点,大家都是有监督的,需要赚钱的啊。
问题是标准是什么?Short和Long在金融领域来说就是个基本问题,首先就要确定这两个标准,但是确定这个标准,严格按照这个标准执行,一定会盈利吗?

我在做早一版的交易系统的时候,就是使用的Short和Long为核心的标准,所以我再做新的一版系统的时候,我带着这个问题咨询了一位高级的“交易员”。他刚开始的时候很诧异的忘着我,可能是觉得太low了不想回答,但在我催问下,他才给出确定性的回答:“不一定!”他在我追问“为什么”的时候陷入了沉思,然后拿了一只笔在纸上开始了讲解。在他讲解的十多分钟里,我尽管看起来非常认真,但我的思绪已经天马行空了,因为我已经知道他要讲什么了。“那最后呢?”“能否盈利是要看交易员是否果断、坚毅和运气了”…好嘛,你们工资高是有道理的,但我实在没本事教会计算机“果断”、“刚毅”和“运气”啊!所以每次看到用Short和Long做标准的Agent我都想看看是怎么教计算机果断”、“刚毅”和“运气。

每次我坐下来沉思的时候,总觉得自己怎么又回到了原点啊,怎么又要重新选择呢?其实做一套软件并不复杂,难的是你走对了路没有?代码能有多复杂呢?深度学习和强化学习是有些难度,那是有多难呢?难度不在于这些理论和基础性的东西,而是你选择对了没有?

技术
©2019-2020 Toolsou All rights reserved,
LinkedHashMap基本用法&使用实现简单缓存 dedecms网站被黑 劫持到其他网站如何解决苹果不送充填器耳机真为环保?可能还是为了赚钱吧图片格式转换错误总结-myBatis plus 分页numpy:多维数组的创建用C语言做很简单的飞机游戏Keras保存与加载模型(JSON+HDF5)福布斯中国汽车富豪榜:何小鹏第11 李想第14 李斌第15hive大量小文件处理方法总结