基于Q學(xué)習(xí)蟻群算法的熱網(wǎng)優(yōu)化方法

摘 要

摘要:以熱網(wǎng)最小年費用作為目標(biāo)函數(shù),引入基于Q學(xué)習(xí)規(guī)則的蟻群算法,建立了熱網(wǎng)優(yōu)化算法。結(jié)合算例,比較了比摩阻算法、模擬退火算法、基于Q學(xué)習(xí)規(guī)則蟻群算法,基于Q學(xué)習(xí)規(guī)則蟻群算

摘要:以熱網(wǎng)最小年費用作為目標(biāo)函數(shù),引入基于Q學(xué)習(xí)規(guī)則的蟻群算法,建立了熱網(wǎng)優(yōu)化算法。結(jié)合算例,比較了比摩阻算法、模擬退火算法、基于Q學(xué)習(xí)規(guī)則蟻群算法,基于Q學(xué)習(xí)規(guī)則蟻群算法的熱網(wǎng)最小年費用最低。
關(guān)鍵詞:Q學(xué)習(xí);蟻群算法;供熱管網(wǎng)優(yōu)化
Optimization Method of Heat Supply Network with Ant Colony Algorithm Based on Q-learning Rule
CHEN Rui
AbstractTaking the minimum annual cost of heat supply network as objective function,the optimization algorithm for heat supply network is developed by introducing ant colony algorithm based on Q-learuing rule. The specific frictional resistance algorithm,simulated annealing algorithm and ant colony algorithm based on Q-1earning rule are compared using an example. The ant colony algorithm based on Q-learning rule has the lowest minimum annual cost of heat supply network.
Key wordsQ-learning;ant colony algorithm;optimization of heat supply network
1 熱網(wǎng)優(yōu)化模型
1.1 目標(biāo)函數(shù)
    隨著我國城市化建設(shè)的推進和居民生活水平的提高,城市集中供熱系統(tǒng)規(guī)模不斷擴大。本文研究的熱網(wǎng)優(yōu)化模型以熱網(wǎng)年費用最小作為目標(biāo)函數(shù),主要影響因素包括[1、2]:熱網(wǎng)造價、循環(huán)泵運行費用、熱網(wǎng)年熱損失費用、熱網(wǎng)年折舊費用,目標(biāo)函數(shù)的表達(dá)式為:
    Fmin=g(Fn+Fp+FL+Fd)    (1)
式中Fmin——熱網(wǎng)最小年費用,元/a
    Fn——熱網(wǎng)造價,元
    Fp——循環(huán)泵年運行費用,元/a
    FL——熱網(wǎng)年熱損失費用,元/a
    Fd——熱網(wǎng)年折舊費用,元/a
1.2 主要影響因素
    ① 熱網(wǎng)造價
熱網(wǎng)造價Fn的計算式為:
 
式中n——熱網(wǎng)管段數(shù)量
    fi——第i段管段單位長度造價,元/m
    Li——第i段管段長度,m
    B、D——回歸系數(shù)
    di——第i段管段管徑,m
   ② 循環(huán)泵年運行費用
   循環(huán)泵年運行費用Fp的計算式為:
   
式中ε1——換算系數(shù)
    g——重力加速度,m/s2
    qm,p——循環(huán)泵的計算質(zhì)量流量,kg/h
    H——循環(huán)泵揚程,m
    Pp——電價,元/(kW·h)
    tp——循環(huán)泵年運行時間,h/a
    η——循環(huán)泵效率,取0.5~0.7
    ③ 熱網(wǎng)年熱損失費用
熱網(wǎng)年熱損失費用FL的計算式為:
 
式中ε2——換算系數(shù)
    Ph——熱價,元/J
    tn——熱網(wǎng)年運行時間,h/a
    K——管道的平均傳熱系數(shù),W/(m2·K)
    θav——熱網(wǎng)年平均水溫,℃
    θ0——管道周圍介質(zhì)的平均溫度,℃
   β——管道附件的熱損失因數(shù)
    ④ 熱網(wǎng)年折舊費用
熱網(wǎng)年折舊費用Fd的計算式為:
Fd=λFn    (5)
式中λ——折舊率
    由式(1)~(5)可知,熱網(wǎng)最小年費用F…可轉(zhuǎn)變?yōu)楣軓胶凸芏伍L度的函數(shù)。
1.3 約束條件
   ① 節(jié)點流量平衡條件
同一節(jié)點的流入、流出質(zhì)量流量的代數(shù)和為零,即:
 
式中m——與該節(jié)點有關(guān)的管段數(shù)量
    qm,r——與該節(jié)點有關(guān)的第r條管段的質(zhì)量流量,kg/s
    δr——閾值,當(dāng)流入時為1,流出時為-1
   ② 質(zhì)量流量與熱負(fù)荷的關(guān)系
質(zhì)量流量與熱負(fù)荷關(guān)系的表達(dá)式為[3]
 
式中μ——管網(wǎng)漏損系數(shù),取1.05
    Фr——與該節(jié)點有關(guān)的第r條管段的熱負(fù)荷,kW
    cp——水的比定壓熱容,kJ/(kg·K)
    θs——供水溫度,℃,取130℃
    θr——回水溫度,℃,取70℃
   ③ 管徑與質(zhì)量流量的關(guān)系
管徑與質(zhì)量流量關(guān)系的表達(dá)式為[4]
 
式中dr——與該節(jié)點有關(guān)的第r條管段的管徑,m
    W——管道內(nèi)表面的當(dāng)量絕對粗糙度,mm,取0.5mm
    ρ——熱水密度,kg/m3
    Rr——與該節(jié)點有關(guān)的第r條管段的比摩阻,Pa/m,取值范圍為60~120Pa/m
2 Q學(xué)習(xí)蟻群算法
    20世紀(jì)90年代,蟻群算法作為一種求解復(fù)雜組合優(yōu)化問題的算法被提出[5],其應(yīng)用范圍已拓展到旅行問題[6]、車間調(diào)度問題[7]等領(lǐng)域。但傳統(tǒng)蟻群算法存在運算時間較長、容易陷入局部極小、參數(shù)選取過程復(fù)雜、算法的智能化程度較低等弊病。
    Q學(xué)習(xí)蟻群算法將Q函數(shù)的環(huán)境無關(guān)性、Agent的學(xué)習(xí)能力和蟻群算法的分布式計算、正反饋等優(yōu)點相結(jié)合,避免了傳統(tǒng)蟻群算法繁瑣的參數(shù)選取過程,提高了運算效率[8]。螞蟻對應(yīng)Q學(xué)習(xí)算法中的Agent,所研究的多階段決策問題對應(yīng)Agent周圍的環(huán)境。螞蟻在當(dāng)前狀態(tài)s,通過行為選擇系統(tǒng)選擇狀態(tài)s下合適的行為a,當(dāng)前狀態(tài)s則在行為a的作用下變化至s′。通過學(xué)習(xí)系統(tǒng)根據(jù)反饋信息(包括瞬時回報和期望回報)更新自身的知識(包括Q函數(shù)和相關(guān)策略知識)。這樣的過程重復(fù)多次,直至學(xué)習(xí)過程收斂,此時螞蟻對應(yīng)的Agent的策略π*將是最優(yōu)的。
    假設(shè)信息素模型(包括信息素更新規(guī)則、強化信號等)和狀態(tài)轉(zhuǎn)移規(guī)則均未知,則對所優(yōu)化問題的每一個節(jié)點j都賦以Q值(行為一狀態(tài)對),用Q值取代螞蟻信息素作為決策信息,通過對Q函數(shù)變化規(guī)律的學(xué)習(xí)不斷逼近最優(yōu)策略。
設(shè)當(dāng)前狀態(tài)πj={a1,a2,a3,…,aj}下螞蟻k位于節(jié)點j,螞蟻將按照ε-貪婪規(guī)則確定在節(jié)點j′要選擇的行為a′,即以概率1-ε按貪婪策略選取當(dāng)前狀態(tài)下最大Q值對應(yīng)的行為。而以概率ε隨機選擇一個當(dāng)前狀態(tài)下允許行為的表達(dá)式為:
 
式中aj——螞蟻在節(jié)點,采取的行為
    q——服從區(qū)間均勻分布隨機數(shù)
    ε——概率,一般取0.1
    A——當(dāng)前仍未被選擇的任一項任務(wù)
    在第x代循環(huán)中,當(dāng)螞蟻局構(gòu)建一個可行解時,按下式更新所含節(jié)點的Q值:
 
式中α——學(xué)習(xí)率,0≤α<1
    Eπj(aj)——螞蟻在狀態(tài)πj時采取行為aj獲得的瞬時回報
    rand(0,1)——(0,1)區(qū)間的一個隨機數(shù)
    v——問題的最大節(jié)點數(shù)
    若第x代循環(huán)產(chǎn)生了新的當(dāng)前最優(yōu)解,則按下式更新所含節(jié)點的Q值,表達(dá)式為:
   
式中γ——折扣因子,0<y<1
    G——當(dāng)前狀態(tài)下可能選擇的行為集
    π′——采取了最新行為之后的狀態(tài)
    Q*——函數(shù)的極限
    π*——最優(yōu)狀態(tài)
    由于強化信號模型未知,故以(0,1)區(qū)間的一個隨機數(shù)作為當(dāng)前最優(yōu)解的瞬時回報值,而未來期望回報則可通過BP網(wǎng)絡(luò)對Q*值進行估計求得。
3 算例研究
    我們采用文獻(xiàn)[1]中的算例進行對比計算,這是一個雙熱源的枝狀供熱管網(wǎng),節(jié)點數(shù)為23個,運算環(huán)境為Java 1.4。
3.1 算法流程
    取與節(jié)點j關(guān)聯(lián)的某管段的管徑、長度作為節(jié)點j的Q函數(shù)的行為-狀態(tài)對——Q值,對所有Q值賦以(0,1)區(qū)間隨機數(shù)。螞蟻k從任一個熱源節(jié)點j按式(9)開始搜索,每找到一個可行節(jié)點j′,就以當(dāng)前階段可行解的倒數(shù)作為瞬時回報值按式(10)、(11)更新節(jié)點j′的Q值。一旦完成搜索過程且有更好的可行解產(chǎn)生,就以當(dāng)前最優(yōu)解的倒數(shù)作為期望回報值按式(12)、(13)更新所有可行解節(jié)點的Q值。以此類推,直至當(dāng)前最優(yōu)解不能再優(yōu)化。
3.2 計算結(jié)果
   針對算例,分別采用比摩阻法、模擬退火法[1]、Q學(xué)習(xí)蟻群算法的熱網(wǎng)優(yōu)化結(jié)果見表1。由表1可知,采用Q學(xué)習(xí)蟻群算法的熱網(wǎng)最小年費用最低。
表1 不同算法的優(yōu)化結(jié)果
算法
比摩阻法
模擬退火法
Q學(xué)習(xí)蟻群算法
熱網(wǎng)最小年費
用/(元·a-1)
246.76×104
227.61×104
221.43×104
4 結(jié)論
    將Q學(xué)習(xí)規(guī)則引入蟻群算法,使螞蟻具備自行尋優(yōu)的能力,避免了傳統(tǒng)蟻群算法復(fù)雜的參數(shù)選取過程,減少了人為干預(yù),提高了算法的智能性和運算效率。算例研究表明,該算法在熱網(wǎng)優(yōu)化問題中的應(yīng)用是有效的。
參考文獻(xiàn):
[1] 李祥立,鄒平華.基于模擬退火算法的供熱管網(wǎng)優(yōu)化設(shè)計[J].暖通空調(diào),2005,(4):77-81.
[2] 趙廷元.熱力管道設(shè)計手冊[M].太原:山西科學(xué)教育出版社,1986.
[3] 韋節(jié)廷,金洪文,姜潔.大型供熱管網(wǎng)優(yōu)化方案的確定[J].煤氣與熱力,2003,23(2):80-82.
[4] 師涌江,劉麗莉.供熱管網(wǎng)布置的優(yōu)化方法[J].河北建筑工程學(xué)院學(xué)報,2004,(4):31-34.
[5] COLORNI A,DORIGO M,MANIEZZO V,et al. Distributed optimization by ant colonies[A].Proceedings of the 1st European Conference on Artificial Life[C].Paris:European Conference on Artificial Life,1991.134-142.
[6] 劉心報,葉強,劉林,等.分支蟻群動態(tài)擾動算法求解TSP問題[J].中國管理科學(xué),2005,(6):57-63.
[7] 葉強,劉心報,程浩.改進蟻群算法求解單機總加權(quán)延遲調(diào)度問題[J].系統(tǒng)仿真學(xué)報,2008,(8):2052-2055.
[8] 葉強.基于改進蟻群算法的一類單機調(diào)度問題研究(博士學(xué)位論文)[D].合肥:合肥工業(yè)大學(xué),2008.
 
(本文作者:陳蕊 合肥熱電工程公司 安徽合肥 230061)