【導讀】容錯控制的研究雖然面臨著空前的挑戰,但近些年來,相關研究領域,如魯棒控制理論,模糊控制,神經網絡控制研究的不斷深入和發展,也給容錯控制的研究帶來了良好的機遇,提供了充分的條件。
而計算機控制技術、人工智能等技術的飛速發展,使得容錯控制技術在實際工程中應用的可能性變得越來越大。
一、容錯
提高系統的可靠性一般有兩種辦法:
1、采用縝密的設計和質量控制方法來盡量減少故障出現的概率。
2、以冗余資源為代價來換取可靠性。
利用前一種方法來提高系統的可靠性是有限的,要想進一步的提高必須采用容錯技術。
容錯控制技術在國外發展的比較早,是由馮·諾依曼提出的。隨著八十年代微型計算機的迅速發展和廣泛應用,容錯技術也得到了飛速的發展,容錯技術被應用到各個環境中。我國的容錯技術現在發展的也很迅速,一些重要的工作場合如航天、電廠等現在都采用了容錯技術。
所謂容錯:就是容許錯誤,是指設備的一個或多個關鍵部分發生故障時,能夠自動地進行檢測與診斷,并采取相應措施,保證設備維持其規定功能,或犧牲性能來保證設備在可接受范圍內繼續工作。
錯誤一般分為兩類:
第一類是先天性的固有錯,如元器件生產過程中造成的錯、線路與程序在設計過程中產生的錯。這一類的錯誤需對其拆除、更換或修正,是不能容忍的。
第二類的錯后天性的錯,它是由于設備在運行中產生了缺陷所導致的故障。這種故障有瞬時性、間歇性和永久性的區別。
容錯技術是提高系統可靠性的重要途徑。常采用的容錯方法有硬件容錯、軟件容錯、信息容錯和時間容錯。
1、什么叫“智能容錯”
智能容錯IFT(Intelligent Fault-Tolerance):就是設備在運行過程中一個或多個關鍵部件發生故障或即將發生故障之前,利用人工智能理論和方法,通過采取有效措施,對故障自動進行補償、抑制、消除、修復,以保證設備繼續安全、高效、可靠運行,或以犧牲性能損失為代價,保證設備在規定的時間內完成其預定功能。
智能容錯技術的構成方法可以采用以下三步來實現:
(1)建立系統的設計目標;
(2)設計智能容錯處理機構;
(3)根據設計目標對所作的設計進行評價,如果滿足目標則設計成功,否則將返回第二步進行重新設計,直到滿足設計目標要求。
硬件智能容錯 HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技術。其基本思想是對設備的關鍵部件配備多重相似或相同部件,一旦檢測和診斷出設備發生故障就可以立刻切換到備份部件,以達到故障容錯的目的。圖 1 所示為二冗余結構原理圖:
圖 1 二冗余結構原理圖
2、硬件智能容錯方式的分類
硬件智能容錯按其工作方式可以分為:靜態冗余、動態冗余和混合冗余。
靜態冗余容錯是通過表決和比較屏蔽系統中出現的故障,如圖2所示:
圖 2 三模冗余(靜態冗余)TMR系統結構圖
靜態冗余容錯的主要特點是:
(1)由于故障被屏蔽,所以不需要識別故障;
(2)容易與無冗余系統進行轉換;
(3)所有模件都消耗能量。
動態冗余的主要方式是多重模塊相繼運行來維持設備正常工作。當檢測到工作模塊出現故障時,一個備用模塊立即接替故障模塊并投入工作。
動態冗余容錯控制的主要特點是:
(1)僅有一個模件消耗能量;
(2)模件數目可隨任務而改變,不會影響系統工作;
(3)轉換裝置和檢測裝置中任一故障都會導致系統失效。
圖 3 動態冗余容錯控制結構圖
混合冗余兼動態冗余和靜態冗余之所長,通常用H(n,k)來表示,如圖4所示。圖中的V為表決器,n表示模塊的總數,k代表以表決方式實現靜態冗余的模塊數,而其余N-K個模塊則作為表決系統中模塊的備份。當參與表決的k個模塊中(通常k>=3)有一個模塊出現故障時,備份就替代該模塊參與表決,維持靜態冗余系統的完整。當所有備份都被替換完后,系統就成為一般的表決系統。
如在硬件構成的邏輯系統中表決器是由開關電路實現的,而軟件中表決需要通過軟件斷言SA(Software Assertions)來實現。軟件斷言就是當軟件在宿主系統中運行時,對其進程或功能的正確與否做出判斷的條件。
圖 4 H(n,k)系統結構
3、智能容錯的故障處理方式
智能容錯技術是一種外延廣博的綜合性技術。為了消除故障的影響,可以采用以下處理方式來實現:
(1)故障檢測
通過故障檢測可以迅速準確地對故障進行定位。故障檢測是容錯的基礎。故障檢測方式可分兩種:脫機檢測,即進行檢測時系統不能做有用的工作,聯機檢測,即檢測與系統工作同步進行,它具有實時檢測的能力。
(2)故障定位
在給定的故障條件下,找出故障原因,確定發生故障元件的具體位置。定位的詳細程度視具體問題而定,一般定位到進行系統重構所需的最小單元。
(3)故障屏蔽
故障屏蔽能夠把故障效應掩蓋起來,以防止故障對輸出產生影響。故障屏蔽只能容忍故障,而不能給出故障警告,當冗余資源耗盡時,將使設備產生錯誤輸出。
常用的故障屏蔽方法有多模表決冗余和屏蔽邏輯兩種,多模表決冗余就是在設備的多個裝置中,只要至少有一個裝置正常工作,系統就能完成其功能;屏蔽邏輯主要用于門級電路的故障屏蔽,它能有效地限制邏輯線路門輸出的臨界故障與亞臨界故障。
(4)故障限制
故障限制就是規定故障的傳播范圍,把故障效應的傳播限制到某一區域內。故障限制可以用軟件和硬件來實現。
(5)故障隔離
故障隔離就是將故障隔離起來以防其進一步擴散和對設備產生影響。
(6)故障修復
當設備發生故障經檢測和定位后,就可采取更換、修理、自修復等方式使設備復原。
(7)系統重組
當設備發生故障時,通過任務的重新分配或內部器件的重新組合,以切除或替換故障部件。
(8)系統重構
重構就是把修復的模件重新加入到系統中去。
(9)系統恢復
系統恢復就是經過屏蔽、重組等,使故障恢復到故障前的工作狀態,不丟失或少丟失信息,并保證下一步的正常運行,系統恢復通常用軟件實現。
4、智能容錯的實現方法
智能容錯的實現方法分為: (1)故障信號檢測;(2)故障特征識別;(3)故障狀態預測;(4)故障維修決策;(5)故障容錯控制。
故障容錯的目的在于針對不同的故障源和故障特征,采取相應的容錯處理措施,對故障進行補償、消除或自動修復,以保證設備繼續安全可靠運行,或以犧牲性能損失為代價,保證設備在規定時間內完成其基本功能。結構框圖如圖5所示。
圖 5 故障容錯控制過程框圖
二、冗余技術
所謂冗余(Redundancy)就是多余資源,冗余技術可供用來處理故障,冗余技術分為:
(1)硬件冗余法:
硬件冗余HR(Hardware Redundancy)就是依靠附加硬件的冗余性和互補性來實現故障容錯,附加硬件通常采用儲備形式,當設備某個或某些關鍵部件發生故障后,可以用備份硬件替代故障部件,以削弱或消除故障的影響。
(2)軟件冗余法:
軟件冗余SR(Software Redundancy)可以通過增加軟件功能來實現,其中包括修改容錯控制策略、重新配置系統軟件、有效地降低設備的運行速度、多模塊并行診斷決策等。
冗余附加技術指為實現上述榮譽另外所需的資源和技術,包括程序、指令、數據以及存放和調動他們的空間和通道。他們和硬件冗余中冗余備份一樣,在沒有容錯要求的系統中是不需要的,而在容錯系統中卻是必不可少的。以屏蔽硬件故障為目的容錯技術中,冗余附加技術包括:
1)關鍵程序和數據的榮譽存儲和調用;
2)進行檢測、表決、切換、重構、糾錯、復算的實現。在屏蔽軟件故障的容錯系統中,冗余附加件的構成不同。
冗余附加件包括:
1)獨立設計的相同功能冗余備份程序的存儲及調用;
2)實現糾錯誤檢測及恢復的程序;
3)為實現容錯軟件所需固化了的程序。
冗余、容錯技術發展現狀伴隨著大規模和超大規模集成電路的發展,硬件可靠性大大提高而價格卻大幅度降低,使采用各種容錯技術在經濟上更易接受。
容錯技術應用范圍擴展于銀行事務處理及各種實時控制系統,甚至許多通用計算機系統也采用了容錯技術。在七八十年代,容錯技術應用已經很廣泛,例如:1975年的美國貝爾實驗室的3A號ESS處理系統和美國 TANDEM16容錯事務處理系統:1976年的美國AMDAHL470V/6 容錯通用計算機和 1978 年容錯空間計算機 FTSC;1979年BIM推出容錯的4300通用計算機系列;1980年容錯多處理機 FTMP 及軟件實現的容錯計算機sift研制成功等等。
隨著電子交易的日益廣泛,出現了商用容錯計算機市場和以分布式為體系的容錯計算機系統。容錯的VLSI技術和人工智能在容錯技術上的應用——計算機故障診斷專家系統,給冗余、容錯技術的發展增添了新的活力。
冗余、容錯技術理論的研究,也是相當活躍的。1952 年,馮·諾依曼作了一系列關于用重復邏輯模塊改善系統可靠性的報告;1956 年,他發表了論文《概率邏輯及用不可靠元件設計可靠的結構》。
1971 年以來,IEEE 計算機學會容錯技術委員會每年召開一次國際容錯計算學術會議;1987 年中國計算機學會成立了容錯計算專業委員會等等。基于容錯控制(TFC)基本思想,FTC 的研究主要有被動容錯控制(Passives)和主動容錯控制(Activate)兩種途徑。
主動容錯控制是在控制系統故障檢測與 FDD(Fau1t Detection and Diagnose)的基礎上,當 FDD 環節檢測出系統故障后,重新調整控制器參數,甚至改變控制器結構,在保證系統穩定的前提下,盡量恢復系統故障前的性能。被動容錯控制是設計對故障具有容忍能力的強魯棒控制器,被動容錯控制的研究可以充分利用魯棒控制技術的研究成果,且不受 FDD 發展水平的限制,所以對于被動容錯控制的研究取得的成果較多。
1、主動容錯控制
主動容錯控制一般需要兩個基本步驟:控制系統的故障檢測、診斷與隔離及控制系統重構。
控制系統故障檢測、診斷與隔離是在現代控制理論、可靠性理論、數理統計、信號處理技術、模式識別技術,以及人工智能和計算機控制技術等技術基礎上的一門應用型的邊緣學科,FDD 技術是容錯控制重要的支撐技術之一。
由于控制系統 FDD 問題本身的復雜性和相關領域技術水平的限制,雖然人們對它的研究己達到了一定的水平,但至今仍沒有解決這一問題特別有效的方法。
目前的控制系統FDD研究主要是沿著基于模型和基于知識兩種途徑展開。
控制系統重構的方法主要有:控制律重新調度、控制器重構設計和模型跟蹤重組控制,控制律重新調度的基本思想是,在離線的情況下計算出各種故障條件下所需的控制律增益參數,存儲在計算機中,系統根據 FDD 單元所給出的結果,選擇合適增益參數,實現對各種故障的容錯控制;控制器重構設計是根據故障系統的新環境,重新設置系統的工作點,并給出可改善系統性能的新控制器,現有的控制器重構方法主要有基于直接狀態反饋或輸出反饋的方法,以及基于動態補償器的設計方法等;模型跟蹤重組控制的基本原理是采用模型參考自適應控制的思想,使得被控過程的輸出自適應地跟蹤參考模型的輸出,因此這種容錯控制不需要FDD單元。
在主動容錯控制方法中,能夠較好地將FDD環節與系統重構相結合的是基于人工智能的容錯控制方法。在容錯控制中所運用的人工智能方法主要是人工神經元網絡 ANN(Artifictial Neural Network),利用 ANN 對非線性特性的任意逼近能力和ANN所具有的從樣本中學習、歸納和推理的能力,通過訓練,使ANN能準確地估計出故障的大小,在此基礎上再通過故障補償來實現主動容錯控制。
被動容錯控制在目前的容錯控制研究中,因為不受控制系統 DFD 環節的限制,被動容錯控制相對于主動容錯控制要更容易實現,已有的可以實現被動容錯控制的主要方法有:
完整性控制器設計、同時鎮定和可靠鎮定。
完整性控制(Intgearl Contron)的概念由Niederlinski 在 1971年提出,完整性控制是研究最早的一種容錯控制技術,因為控制系統中傳感器和執行器是最容易發生故障的部件,所以完整性控制具有很高的應用價值,在控制理論中,稱多變量系統中出現故障時仍能保持系統穩定性的控制器為完整性控制器,完整性控制器設計是多變量系統中特有的問題;
多模型設計方法又稱同時鎮定問題,自從Ackermann,Sakes 和Vidyasagar 等人提出來以后,己經成為容錯控制的一個重要研究方向,同時穩定容錯控制的設計方法是力求尋找一個公共的狀態反饋控制器,使之能夠同時穩定盡可能多的故障情況下的系統模型,同時兼顧到系統的動、靜態品質特性的要求;使用多個補償器進行可靠鎮定的概念是由 Silage 于1980年最早提出,可靠鎮定實際上是關于控制器的容錯問題。
與被動容錯控制相比較,主動容錯控制具有更多的優點。從理論上講,被動容錯控制是故障情況下的強魯棒控制,主動容錯控制是故障情況下的強自適應控制。被動容錯控制即使在系統正常的情況下控制率也要滿足故障條件下的要求,這在系統正常時顯然是一種過高的要求,設計未免過于保守,必然要以犧牲性能指標為代價。另外,在預想故障數目較多時,被動容錯控制問題可能根本沒有解,所以被動容錯控制有較大的局限性。
基于控制系統FDD的主動容錯控制實質是一種強自適應控制,它通過實時地對系統進行故障檢測與診斷,當檢測出系統故障后,根據不同的故障采取相應的措施,保證系統的穩定性和維持一定的性能指標。主動容錯控制所用的主要方法是控制重構和故障補償,前者需要根據故障重新設計控制器,后者則是利用故障的信息確定一個控制補償量,目的都是力圖使故障后的系統盡量接近甚至等價于原系統。
對于演變速度較慢的所謂軟故障,多模自適應方法比較適合,但多模自適應方法中存在較多的算法上的問題,限制了這種方法的使用。
2、容錯控制研究中需要解決的主要問題
盡管控制系統 FDD 和 TFC 技術的研究在理論上己取得了較為豐富的成果,但距離實際工程應用的要求還有相當大的差距,理論上也還有許多問題有待人們去研究和探索。
本文主要研究了實時系統多機冗余、容錯系統的故障檢測與診斷、控制系統重構、容錯實時運行庫技術以及容錯控制在工程中的應用等問題,而在目前的研究中,上述領域主要存在的問題分述如下:
(1)控制系統故障檢測與診斷中存在的問題:
控制系統故障的模型是從理論上進行FDD 研究的前提,但現有故障建模方法簡單,與實際系統故障具有的復雜性和多樣性成為一對急待解決的矛盾。目前還沒有一個在 FDD 和 FTC 中比較統一的故障表示方法。就拿CPU 測試來說,多數的結構測試法需要詳細的系統邏輯電路圖,并在此基礎上建立故障模型。
結構測試法通過驗證電路中沒有任何符合故障模型的故障存在,來說明電路中沒有影響電路功能的實際物理故障存在。由于微處理器是一個輸入、輸出引線數目有限,內部結構異常復雜的大規模集成電路,很難在邏輯門這一級確立準確的故障模型;另一方面受到引出腳數目的限制,使得故障的可控制性與可觀察性大大降低;此外控制邏輯部分與數據處理邏輯部分都在一塊芯片上,不能預先假定哪一部分總是好的。
(2)系統重構方面存在的主要問題:
目前的系統重構問題研究較少。現有的運用廣義逆的方法、基于狀態反饋或輸出反饋、特征值和結構配置等方法,僅是從數學模型角度將系統恢復,而不是從系統性能角度恢復,所以重構后的系統魯棒性不能保證,有時甚至穩定性也難以保證。而且,多數重構對系統模型的要求也很苛刻。就目前的控制系統 FDD研究水平來看,想獲得故障后系統模型的全部信息是相當困難的,所以尋求故障后控制完全重構是理想化的。由于故障的大小是未知的,所以在設計時進行穩定性分析是非常困難的,只能對預想的故障進行穩定性分析。
(3)實時系統和容錯技術相結合存在的主要問題:如何將軟件容錯技術有機地融合到實時系統中去,具有與發展軟件容錯技術本身同樣重要的地位。
目前,盡管實時系統的軟件容錯技術已經取得了非常巨大的進步,但在實時系統中并未得到充分地應用。
(4)用戶在冗余、容錯系統設計中存在的主要問題:應用程序設計者在考慮如何實現應用軟件的功能要求同時,要兼顧軟件容錯,這不可避免地,甚至是成倍地加大了應用系統開發的工作量,增加系統的復雜程度,反而加大應用出錯的可能性。應用層容錯將容錯機制的實現和應用程序融為一體,當需要在同一操作系統上開發新的應用時,所有工作必須從頭開始,不符合工程實際中提高軟件重用性,開發低成本、高可靠系統的大趨勢。
(5)容錯控制理論運用于工程實際時需要解決的問題:容錯控制在理論研究上比較困難,在實際工程中的應用更少。由于不同的工程領域所遇到的問題有很大的差異,不可能以一個統一的框架來解決所有的問題。理論研究所用的模型和假設同工程實際的差別比較大,這也是容錯控制理論在工程實際中運用所遇到的主要困難。各個領域的工程技術人員,應結合自己的工程實際,選擇相應的控制方案。因此,統一系統架構,構建支持多種主流冗余、容錯模式的運行庫,對工程設計人員來說是很重要的。
來源:可靠性技術交流
推薦閱讀: