这个课题是在罗玉峰教授指导下,由博士生陈梦婷完成,论文已经发表在科学导报ScienceDirect 上:https://doi.org/10.1016/j.agwat.2021.106838
论文主要是想通过学习历史上灌区区域的降水量来进行灌溉决策,学习历史的降水量采用的是强化学习方法。强化学习方法与一般的学习方法不同,一般的机器学习方法有两种,一种就是有监督学习,一种是无监督的学习,但是强化学习方法完全没有监督和有监督的说法,它就是一个通过历史数据分析,在追求利益最大化的原则下进行学习。完全是机器自主学习,不用人工干预,再设定标志等参数。
强化学习里面涉及的两个主体,一个叫做智能体,一个叫做环境,环境得到的状态通过奖赏来判断,然后通过设定动作来调整算法参数,环境E涉及到状态空间S,奖赏函数R,动作空间A,转移概率P。
状态空间S为待灌溉区域决策周期内,作物生长期的某一天的环境参数状态,向量表达见:
动作空间A为关键决策的选项,当前动态决策周期t的决策变量有三种,a0为不灌溉,a1为灌溉至灌水上限的一半,a2为灌溉至上灌水的上限值。
转移函数P为在决策周期内执行灌溉决策后,环境从当前状态转移到另一个状态,包括作物蒸散发量的更新,未来预报天气数据的更新,土壤含水量或水层深度的变化,水层深度转移概率可以表达为:
奖赏函数R为决策周期内执行灌溉决策后,环境从当前状态转移到另一个状态时反馈的奖励,奖赏函数表示式为。
环境参数修正,根据实际气象条件和灌溉决策修正环境状态参数,水层深度的修正公式为:
节水效果与常规决策相比,采用强化学习灌溉决策,灌水次数,灌水量,排水量总体少于常规角色,早、中和晚稻灌水次数平均分别减少1.4次、0.6次和1.3次平均节水率分别为23% 、6%和3%排水平均分别减少7%、 8%和9%,未出现减产情况。
结论