【導讀】在工程實踐中通常都是幾種抗干擾方法并用,互相補充完善,才能取得較好的抗干擾效果。從根本上來說,硬件抗干擾是主動的,而軟件是抗干擾是被動的。本文將以MCS-51單片機系統為例,對微機系統軟件抗干擾方法進行研究。
在提高硬件系統抗干擾能力的同時,軟件抗干擾以其設計靈活、節省硬件資源、可靠性好越來越受到重視。下面以MCS-51單片機系統為例,對微機系統軟件抗干擾方法進行研究。
1、軟件抗干擾方法的研究
在工程實踐中,軟件抗干擾研究的內容主要是:一、消除模擬輸入信號的噪聲(如數字濾波技術);二、程序運行混亂時使程序重入正軌的方法。本文針對后者提出了幾種有效的軟件抗干擾方法。
1.1 指令冗余
CPU取指令過程是先取操作碼,再取操作數。當PC受干擾出現錯誤,程序便脫離正常軌道“亂飛”,當亂飛到某雙字節指令,若取指令時刻落在操作數上,誤將操作數當作操作碼,程序將出錯。若“飛”到了三字節指令,出錯機率更大。
在關鍵地方人為插入一些單字節指令,或將有效單字節指令重寫稱為指令冗余。通常是在雙字節指令和三字節指令后插入兩個字節以上的NOP。這樣即使亂飛程序飛到操作數上,由于空操作指令NOP的存在,避免了后面的指令被當作操作數執行,程序自動納入正軌。
此外,對系統流向起重要作用的指令如RET、RETI、LCALL、LJMP、JC等指令之前插入兩條NOP,也可將亂飛程序納入正軌,確保這些重要指令的執行。
1.2 攔截技術
所謂攔截,是指將亂飛的程序引向指定位置,再進行出錯處理。通常用軟件陷阱來攔截亂飛的程序。因此先要合理設計陷阱,其次要將陷阱安排在適當的位置。
(1)軟件陷阱的設計
當亂飛程序進入非程序區,冗余指令便無法起作用。通過軟件陷阱,攔截亂飛程序,將其引向指定位置,再進行出錯處理。軟件陷阱是指用來將捕獲的亂飛程序引向復位入口地址0000H的指令。通常在EPROM中非程序區填入以下指令作為軟件陷阱:
NOPNOPLJMP 0000H其機器碼為0000020000。
(2)陷阱的安排
通常在程序中未使用的EPROM空間填0000020000。最后一條應填入020000,當亂飛程序落到此區,即可自動入軌。在用戶程序區各模塊之間的空余單元也可填入陷阱指令。當使用的中斷因干擾而開放時,在對應的中斷服務程序中設置軟件陷阱,能及時捕獲錯誤的中斷。如某應用系統雖未用到外部中斷1,外部中斷1的中斷服務程序可為如下形式:
NOPNOPRETI返回指令可用“RETI”,也可用“LJMP0000H”。如果故障診斷程序與系統自恢復程序的設計可靠、完善,用“LJMP0000H”作返回指令可直接進入故障診斷程序,盡早地處理故障并恢復程序的運行。
考慮到程序存貯器的容量,軟件陷阱一般1K空間有2-3個就可以進行有效攔截。
1.3 軟件“看門狗”技術
若失控的程序進入“死循環”,通常采用“看門狗”技術使程序脫離“死循環”。通過不斷檢測程序循環運行時間,若發現程序循環時間超過最大循環運行時間,則認為系統陷入“死循環”,需進行出錯處理。
“看門狗”技術可由硬件實現,也可由軟件實現。在工業應用中,嚴重的干擾有時會破壞中斷方式控制字,關閉中斷。則系統無法定時“喂狗”,硬件看門狗電路失效。而軟件看門狗可有效地解決這類問題。
筆者在實際應用中,采用環形中斷監視系統。用定時器T0監視定時器T1,用定時器T1監視主程序,主程序監視定時器T0。采用這種環形結構的軟件“看門狗”具有良好的抗干擾性能,大大提高了系統可靠性。對于需經常使用T1定時器進行串口通訊的測控系統,則定時器T1不能進行中斷,可改由串口中斷進行監控(如果用的是MCS-52系列單片機,也可用T2代替T1進行監視)。這種軟件“看門狗”監視原理是:在主程序、T0中斷服務程序、T1中斷服務程序中各設一運行觀測變量,假設為MWatch、T0Watch、T1Watch,主程序每循環一次,MWatch加1,同樣T0、T1中斷服務程序執行一次,T0Watch、T1Watch加1。在T0中斷服務程序中通過檢測T1Watch的變化情況判定T1運行是否正常,在T1中斷服務程序中檢測MWatch的變化情況判定主程序是否正常運行,在主程序中通過檢測T0Watch的變化情況判別T0是否正常工作。若檢測到某觀測變量變化不正常,比如應當加1而未加1,則轉到出錯處理程序作排除故障處理。當然,對主程序最大循環周期、定時器T0和T1定時周期應予以全盤合理考慮。限于篇幅不贅述。
2、系統故障處理、自恢復程序的設計
單片機系統因干擾復位或掉電后復位均屬非正常復位,應進行故障診斷并能自動恢復非正常復位前的狀態。
2.1 非正常復位的識別
程序的執行總是從0000H開始,導致程序從0000H開始執行有四種可能:一、系統開機上電復位;二、軟件故障復位;三、看門狗超時未喂狗硬件復位;四、任務正在執行中掉電后來電復位。四種情況中除第一種情況外均屬非正常復位,需加以識別。
(1)硬件復位與軟件復位的識別
此處硬件復位指開機復位與看門狗復位,硬件復位對寄存器有影響,如復位后PC=0000H,SP=07H,PSW=00H等。而軟件復位則對SP、SPW無影響。故對于微機測控系統,當程序正常運行時,將SP設置地址大于07H,或者將PSW的第5位用戶標志位在系統正常運行時設為1,那么系統復位時只需檢測PSW.5標志位或SP值便可判此是否硬件復位。
由于硬件復位時片內RAM狀態是隨機的,而軟件復位片內RAM則可保持復位前狀態,因此可選取片內某一個或兩個單元作為上電標志。設40H用來做上電標志,上電標志字為78H,若系統復位后40H單元內容不等于78H,則認為是硬件復位,否則認為是軟件復位,轉向出錯處理。若用兩個單元作上電標志,則這種判別方法的可靠性更高。
(2)開機復位與看門狗故障復位的識別
開機復位與看門狗故障復位因同屬硬件復位,所以要想予以正確識別,一般要借助非易失性RAM或者EEROM。當系統正常運行時,設置一可掉電保護的觀測單元。當系統正常運行時,在定時喂狗的中斷服務程序中使該觀測單元保持正常值(設為AAH),而在主程中將該單元清零,因觀測單元掉電可保護,則開機時通過檢測該單元是否為正常值可判斷是否看門狗復位。
(3)正常開機復位與非正常開機復位的識別
識別測控系統中因意外情況如系統掉電等情況引起的開機復位與正常開機復位,對于過程控制系統尤為重要。如某以時間為控制標準的測控系統,完成一次測控任務需1小時。在已執行測控50分鐘的情況下,系統電壓異常引起復位,此時若系統復位后又從頭開始進行測控則會造成不必要的時間消耗。因此可通過一監測單元對當前系統的運行狀態、系統時間予以監控,將控制過程分解為若干步或若干時間段,每執行完一步或每運行一個時間段則對監測單元置為關機允許值,不同的任務或任務的不同階段有不同的值,若系統正在進行測控任務或正在執某時間段,則將監測單元置為非正常關機值。那么系統復位后可據此單元判系統原來的運行狀態,并跳到出錯處理程序中恢復系統原運行狀態。
2.2 非正常復位后系統自恢復運行的程序設計
對順序要求嚴格的一些過程控制系統,系統非正常復位否,一般都要求從失控的那一個模塊或任務恢復運行。所以測控系統要作好重要數據單元、參數的備份,如系統運行狀態、系統的進程值、當前輸入、輸出的值,當前時鐘值、觀測單元值等,這些數據既要定時備份,同時若有修改也應立即予以備份。
當在已判別出系統非正常復位的情況下,先要恢復一些必要的系統數據,如顯示模塊的初始化、片外擴展芯片的初始化等。其次再對測控系統的系統狀態、運行參數等予以恢復,包括顯示界面等的恢復。之后再把復位前的任務、參數、運行時間等恢復,再進入系統運行狀態。
應當說明的是,真實地恢復系統的運行狀態需要極為細致地對系統的重要數據予以備份,并加以數據可靠性檢查,以保證恢復的數據的可靠性。
其次,對多任務、多進程測控系統,數據的恢復需考慮恢復的次序問題。
系統基本初始化是指對芯片、顯示、輸入輸出方式等進行初始化,要注意輸入輸出的初始化不應造成誤動作。而復位前任務的初始化是指任務的執行狀態、運行時間等。
對于軟件抗干擾的一些其它常用方法如數字濾波、RAM數據保護與糾錯等,限于篇幅,本文未作討論。在工程實踐中通常都是幾種抗干擾方法并用,互相補充完善,才能取得較好的抗干擾效果。從根本上來說,硬件抗干擾是主動的,而軟件是抗干擾是被動的。細致周到地分析干擾源,硬件與軟件抗干擾相結合,完善系統監控程序,設計一穩定可靠的單片機系統是完全可行的。