【導讀】 隨著單片機在國防、金融、工業控制等重要領域應用越來越廣泛,單片機應用系統的可靠性越來越成為人們關注的一個重要課題。單片機應用系統的可靠性是由多種因素決定的,大體分為硬件系統可靠性設計和軟件系統可靠性設計。
一、硬件系統可靠性設計
(1)選優設計
在系統硬件設計和加工時,應該選用質量好的接插件,設計好工藝結構;選用合格的元器件,進行嚴格的測試、篩選和老化;設計時技術參數(如負載)要留有一定的余量或降額使用元器件;提高印制板和組裝的質量。
(2)冗余與容錯設計
保證單片機應用系統100%無故障是不可能的。容錯是指當系統的某個部件發生故障時,系統仍能完全正常地工作,即給系統增加容忍故障的能力。為使系統具有容錯能力,必須在系統中增加適當的冗余單元,以保證當某個部件發生故障時能由冗余部件接替其工作,原部件修復后再恢復出錯前的狀態。硬件冗余設計可以在元件級、子系統或系統級上進行。例如,在系統級上采用雙機系統,兩套系統互為備用。
(3)采用硬件抗干擾措施
來自供電系統以及通過導線傳輸、電磁耦合等產生的電磁干擾信號,是單片機系統工作不穩定的重要因素,在系統硬件設計時必須采取有效的干擾抑制措施。單片機應用系統中還常使用系統監視電路檢測系統發生的錯誤或故障,自動報警或使系統自動恢復正常工作狀態。如采用電源故障監視、看門狗定時器等采用89C51單片機和X25045組成的看門狗電路,X25045硬件連接圖如圖所示。X25045芯片內包含有一個看門狗定時器,可通過軟件預置系統的監控時間。在看門狗定時器預置的時間內若沒有總線活動,則X25045將從RESET輸出一個高電平信號,經過微分電路C2、R3輸出一個正脈沖,使CPU復位。如圖1所示電路中,CPU的復位信號共有3個:上電復位(C1、R2),人工復位(S、R1、R2)和Watchdog復位(C2、R3),通過或門綜合后加到RESET端。C2、R3的時間常數不必太大,有數百微秒即可,因為這時CPU的振蕩器已經在工作。
看門狗電路的定時時間長短可由具體應用程序的循環周期決定,通常比系統正常工作時最大循環周期的時間略長即可。編程時,可在軟件的合適地方加一條喂狗指令,使看門狗的定時時間永遠達不到預置時間,系統就不會復位而正常工作。當系統跑飛,用軟件陷阱等別的方法無法捕捉回程序時,則看門狗定時時間很快增長到預置時間,迫使系統復位。需要注意的是,在程序正常運行的時候,應該在適當的地方加一條喂狗指令,使系統正常運行時的定時時間達不到預置時間。系統就不會復位。
二、軟件可靠性設計
單片機應用系統的軟件和硬件是緊密相關的。要使整個系統具有較高的可靠性,除了在盡可能提高硬件可靠性的前提下,軟件的可靠性設計也是必不可少的,必須從設計、測試及長期使用等方面來解決軟件可靠性。單片機系統的抗干擾能力是系統可靠性的重要指標。由于51單片機的指令系統是復雜指令集結構,致使其抗干擾性能較低,尤其用在工業控制的場合,如果不增加額外的抗干擾措施,甚至無法正常工作。單片機軟件抗干擾設計的主要目的就是及時發現“跑飛”的程序,并及時地將程序拉入正常軌道,主要方法有:指令冗余、軟件“陷阱”、軟件“看門狗”等等。
[page]
(1)指令冗余
CPU取指令過程是先取操作碼,再取操作數。在程序的關鍵地方人為的插入一些單字節指令,或將有效單字節指令重寫稱為指令冗余,通常是在雙字節指令和三字節指令后插入兩個字節以上的NOP指令。這樣即使跑飛程序飛到雙字節指令和三字節指令操作數上。由于窄操作指令NOP的存在,避免了后面的指令被錯誤地執行,為程序納入正軌做好準備。此外,對系統流向起重要作用的指令,如RET、RETI、LCALI.、LJMP,JC等,可以在這些指令之后插入兩條NOP指令,可將跑飛程序納入正軌,以確保這些重要指令的執行。指令冗余只能使CPU不再將操作數當作操作碼錯誤地執行,卻不能主動地將程序的錯誤執行方向扭轉過來,要想糾止程序的錯誤執行方向,就需要下面的技術。
(2)設計軟件“陷阱”
通常在程序存儲器中未使用的EPROM空間填入窄操作指令NOP,最后再填入一條跳轉指令,跳轉到跑飛處理程序,或者直接填入指令LJMP 0000H,當跑飛程序落到此區域。即可在執行一段空操作后轉入正軌。如果未使用的EPROM空間比較大,可以均勻地填入幾條空操作指令和跳轉指令,這種幾條空操作指令加一條跳轉指令的結構我們稱之為“軟件陷阱”.
軟件陷阱的一般結構為:
NOP
NOP
LJMP FLY
FLY為跑飛處理子程序,如果程序正常執行,軟件陷阱部分是永遠也執行不到的,只有在程序跑飛到陷阱里,軟件陷阱會立刻將程序跳轉到正常軌道。即使程序沒有跑飛到陷阱里,也可以在程序執行一段錯誤操作后遇到一個軟件陷阱,從而轉入正軌。除了程序存儲器的空白區域,程序的數據表結尾也應該設置軟件陷阱,如果數據表比較大,應該在數據表的中間也設置軟件陷阱,以保證程序跑飛到數據區能及時轉入正軌。另外,如果程序存儲器的空間足夠大的話,可以在每兩個子程序中間設 置一個軟件陷阱。當使用的中斷因干擾而開放時,在對應的中斷服務程序中設置軟件陷阱,能及時捕獲錯誤的中斷。軟件陷阱的數量要根據實際受到干擾的情況和程序存儲器的容量來確定,如果太少不能進行有效的跑飛攔截,如果太多又會占用大量的程序存儲器空間。
(3)軟件“看門狗”技術
跑飛的程序在執行一些錯誤操作之后。
經常會進入“死循環”,也就足常說的“死機”.通常采用“軟件看門狗”技術使程序脫離“死循環”,軟件“看門狗”技術的原理是通過不斷檢測程序循環運行時間,若發現程序循環時間超過最大循環運行時間,則認為系統陷入“死循環”,需要進行出錯處理。在實際應用中,通常用定時中斷服務程序定時地檢查主程序的運行情況。例如,在RAM區選擇一個字節作為軟件看門狗寄存器,主程序每循環一次將該寄存器加l,定時器TO的中斷服務程序每中斷一次將該寄存器減l并檢查一次,如果程序執行正常??撮T狗寄存器不會改變或改變不大,如果看門狗寄存器發生了改變或改變很大,則說明系統陷入“死循環”.需要進行出錯處理。在工業應用中,嚴重的干擾有時會破壞中斷方式控制字,關閉中斷,造成看門狗失效,這時可以采用環形中斷監視系統。用定時器TO監視定時器Tl,用定時器Tl監視豐程序,主程序監視定時器T0.
采用這種環形結構的軟件“看門狗”具有良好的抗干擾性能,大大提高了系統可靠性。對于需經常使用Tl定時器進行串口通訊的測控系統,則定時器Tl不能進行中斷,可改由串口中斷進行監控。當然,對主程序最大循環周期、定時器T0和Tl定時周期應于全盤合理考慮。軟件“看門狗”技術需要使用定時器,而在大多數的控制程序中,定時器都是緊俏的資源。這就使“軟件看門狗”技術的實際應用受到了限制,我們可以采取一些技巧性的處理,將軟件“看門狗”程序與其它定時程序復用同一個定時器,這樣既完成定時功能又完成軟件“看門狗”的功能。
(4)檢查RAM區標志數據及時發現嚴重干擾
這種方法是在RAM區中選擇幾個固定單元,在初始化程序中將其設置成固定的數據,只要程序正常運行,這些單元的內容是不會改變的。如果因為程序“跑飛”或其它干擾導致這些RAM單元中的任何單元的數據發生了變化,說明單片機系統已經受到了嚴重的干擾,不能可靠地運行下去了。我們可以在程序執行的過程中適時地檢查這些RAM單元的內容,一旦發現有數據改變,立刻執行LJMP 0000 H語句,強制單片機復位。
[page]
(5)刷新輸出端口
排除嚴重干擾,當單片機系統受到嚴重干擾時,輸出端口的狀態也可能因干擾而改變,在程序的執行過程中適時地根據相關程序模塊的運算結果刷新輸出端口,可以排除干擾對輸出端口狀態的影響,使錯誤的輸出狀態及時得到糾正。
(6)進行多次輸入采樣
避免嚴重干擾,強烈的干擾會影響單片機的輸入信號,造成輸入信號瞬間采樣的誤差或誤讀,要避免干擾的影響,通常采取重復采樣,加權平均的方法。
三、結束語
單片機系統運行的可靠性會不確定因素的干擾。提高單片機應用系統的可靠性要從軟硬件入手。提高系統的自身防御行為,以上所提到幾種提高可靠性的方法,都不是單獨使用的,只有根據實際情況將這些方法有效地結合起來,才能達到最佳抗干擾效果,使我們的單片機系統穩定可靠地工作。
相關閱讀:
單片機作為主要控制部件的數控DC電流源系統
基于單片機電子設備的電磁干擾問題分析與診斷
單片機系統EMC測試