
关键词:加强学习,强化学习实例,代理,环境,反应,反应
强化学习实例
这些示例是实际性质或生命的例子,不是RL的特定应用,因此不要误解它。通过观察自然,观察生物智能的形成和继承,这是我们理解智力的有效方法。个人愚蠢的意见也许这是打破当前理解障碍的唯一方法。通过数万年的进化,遗传和庞大的人口,有机体确保了它们有大量样品可以完成筛查和消除。每个人的基因,神经系统和大量。这可能是不可想象的。因此,如果您甚至没有考虑这些问题,也没有深入研究它们,那么您应该对问题有深刻的了解。
陶兹恩(Tao Zhexuan)曾经说过,如果您对问题的来源,内容和背景了解不多,那么这将非常困难。
让我们看一些例子:
专业的国际象棋棋手下棋。当他采取下一步时,他认为计算预测。当他采取一定步骤时,可能的结果和对策对方将依靠直觉。让我们立即决定如何进行此举。独立的控制器实时调整参数,以控制石油精炼和加工的过程。该控制器可以独立平衡输出 - 消费质量之间的平衡,而无需完全遵循工程师给出的精确结果。小羚羊(小牛)可能会在出生的短短几分钟内就很难站起来,并且可以在大约半小时内以20英里/小时的方式运行和移动机器人,可以决定他们是否需要进入新房间来寻找垃圾或找到立即充电的路线,他的决定取决于当前的电池容量以及找到菲尔准备早餐所需的能量。尽管我们认为任何人都可以做到这一点,但这很普遍,但是整个过程非常严格,早餐就已经准备好了。一系列动作隐藏了一个庞大而复杂的条件,目标和子目标网络。例如,让我们对其进行分析:步行到厨房,打开橱柜,选择原材料,获取原材料,打开原材料包装,然后将其余的放回原处;下一组动作是取碗,勺子和牛奶。所有这些过程包括眼睛的动作,搜索,定位和协调双手以完成动作;快速确定要使用哪些操作以及将这些东西放在轨迹中,而不触摸其旁边的其他容器。简单的早餐是如此复杂。每个步骤都有一个明确的目标。例如,服用成分是吃里面的东西,而不是打开包装。吃饭时,我用勺子吃了第一勺食物。吃下一个勺子,最后从中获得能量。不管菲尔是否喜欢进食的过程,如果他当前的尸体的车站告诉他他需要能量,需要吃多少东西以及他想吃的东西,他都会遵循这一指导。示例和RL的功能
以上5个是我们生活中自然的例子。所有示例都可以分析以得出以下结论:
特工的行动将影响未来环境的状态和代理背后的选择空间,例如:
所有这些动作的结果将通过几个步骤反映,而不是立即反映,因此代理商目前可以做的是预测和计划。
行动的影响
在上面的示例中,无法完全预测所有动作的结果,因此代理只能随时关注环境的变化并随时反应。
例如,在菲尔(Phile)烹饪时,他必须仔细观察他要拿出多少食材,以及他需要添加多少牛奶,而不是溢出。
从某种意义上说,所有例子中的目标都非常清楚,而代理商法官是否通过直觉的感觉朝着目标迈进。例如:
代理商的经验
在所有示例中,代理都可以根据经验来提高其绩效:
因此,代理商背后的技能是基于以前的经验,那么代理商一开始就在哪里获得体验? (代理初始知识的来源)
所有这些都是代理初始化的内容,但是代理的最终性能是通过环境之间的相互作用来完成的。该过程逐渐纠正代理的行为并执行特定于当前环境的操作。
结论
以前的演讲只是做早餐的过程。可以看出,我们具有如此复杂和惊人的行动和智慧能力。
参考文献RS,Barto A G.钢筋学习:简介[J]。 2011。