《智慧灌溉决策的强化学习方法-武汉大学水利水电学院陈梦婷》-农业水土工程专业学术研讨会

2021-08-22 08:55 irripro
430

这个课题是在罗玉峰教授指导下,由博士生陈梦婷完成,论文已经发表在科学导报ScienceDirect 上:https://doi.org/10.1016/j.agwat.2021.106838


论文主要是想通过学习历史上灌区区域的降水量来进行灌溉决策,学习历史的降水量采用的是强化学习方法。强化学习方法与一般的学习方法不同,一般的机器学习方法有两种,一种就是有监督学习,一种是无监督的学习,但是强化学习方法完全没有监督和有监督的说法,它就是一个通过历史数据分析,在追求利益最大化的原则下进行学习。完全是机器自主学习,不用人工干预,再设定标志等参数。

这个研究的意义在于充分利用降雨的水量来进行农业灌溉,这是农业节水的有效途径,因为通过天气预报制定未来降雨情况下的灌溉决策,可以以提高降雨水量的灌溉利用率,但是同时也存在着风险,这个风险就是如果天气预报不准确或不确定,那么我们有可能就会面临着作物由于得不到合适的灌溉而减产的风险,但是可以通过强化学习方法可以减少水稻灌溉决策风险。

强化学习里面涉及的两个主体,一个叫做智能体,一个叫做环境,环境得到的状态通过奖赏来判断,然后通过设定动作来调整算法参数,环境E涉及到状态空间S,奖赏函数R,动作空间A,转移概率P。

状态空间S为待灌溉区域决策周期内,作物生长期的某一天的环境参数状态,向量表达见:

动作空间A为关键决策的选项,当前动态决策周期t的决策变量有三种,a0为不灌溉,a1为灌溉至灌水上限的一半,a2为灌溉至上灌水的上限值。

转移函数P为在决策周期内执行灌溉决策后,环境从当前状态转移到另一个状态,包括作物蒸散发量的更新,未来预报天气数据的更新,土壤含水量或水层深度的变化,水层深度转移概率可以表达为:

奖赏函数R为决策周期内执行灌溉决策后,环境从当前状态转移到另一个状态时反馈的奖励,奖赏函数表示式为。

环境参数修正,根据实际气象条件和灌溉决策修正环境状态参数,水层深度的修正公式为:

节水效果与常规决策相比,采用强化学习灌溉决策,灌水次数,灌水量,排水量总体少于常规角色,早、中和晚稻灌水次数平均分别减少1.4次、0.6次和1.3次平均节水率分别为23% 、6%和3%排水平均分别减少7%、 8%和9%,未出现减产情况。

结论

天气预报的天气类型含有降雨信息,可用于灌溉决策的制定,但会存在漏报和空报的情况,与常规决策相比,采用强化学习灌溉决策,灌溉次数,灌溉水量和排水量均有明显降低,平均分别减少1.0次,23毫米和21毫米。
强化学习灌溉决策,能够在训练后总结前面的灌溉分析结果,并根据当前的田间水分状况和天气预报信息,制定出合适的灌溉决策,从而提高降水利用率和节约灌溉用水。