久久久久久久麻豆,中日韩av在线,麻豆av在线免费,中文字幕二区三区,欧美日韩视频一区二区,亚洲欧美日韩在线一区,国产无毒不卡

高可用性系統(tǒng)的設(shè)計(jì)


在網(wǎng)絡(luò)應(yīng)用中我們經(jīng)常聽到這樣的講法: 24(小時(shí))×7(天)不間斷工作。但怎樣才能實(shí)現(xiàn)真正的不間斷工作呢?一個(gè)可用性差的網(wǎng)絡(luò)可能僅僅因?yàn)?a >電源的一個(gè)尖峰脈沖或電源失效而導(dǎo)致系統(tǒng)癱瘓,要實(shí)現(xiàn)真正的24×7的可用性必須采用一些保護(hù)措施。

在這里需要澄清兩個(gè)概念:可用性和容錯(cuò)性。其實(shí)可用性和容錯(cuò)性并非一回事。容錯(cuò)性包含有兩層含義:任務(wù)處理的可靠性和系統(tǒng)的可用性。在僅有可用性要求時(shí),目前許多系統(tǒng)都采用容錯(cuò)電腦,如文件服務(wù)器或呼叫處理等。但對(duì)于電信網(wǎng)絡(luò)的記費(fèi)系統(tǒng)或銀行業(yè)務(wù)就需要處理的可用性。而對(duì)于那些能夠容忍少些數(shù)據(jù)的丟失、或數(shù)據(jù)傳輸受可用的端到端協(xié)議如TCP/IP的保護(hù)應(yīng)用來說,處理的可用性就顯得不那么重要。

容錯(cuò)平臺(tái)的傳統(tǒng)實(shí)現(xiàn)方法通常包括專用硬件和專用軟件,這會(huì)導(dǎo)致高昂的成本和漫長(zhǎng)的設(shè)計(jì)周期,對(duì)于競(jìng)爭(zhēng)激烈的電信市場(chǎng)來說,這是不能接受的。

什么是高可用性?

可用性并不是一個(gè)模糊概念,實(shí)際上它能用數(shù)學(xué)方法來精確地表示。簡(jiǎn)單地講,一個(gè)高可用性系統(tǒng)就是一個(gè)用戶能隨時(shí)使用的系統(tǒng),例如當(dāng)用戶需要在早上8點(diǎn)到下午5點(diǎn)啟用該系統(tǒng)時(shí),該系統(tǒng)就應(yīng)該在這段時(shí)間內(nèi)保證良好的可用狀態(tài),其余的時(shí)間可以用來進(jìn)行定期維修保養(yǎng)??捎眯猿1欢x為實(shí)際的服務(wù)時(shí)間和要求的服務(wù)時(shí)間的比值,常用百分比表示。許多現(xiàn)代化系統(tǒng)需要一天24小時(shí)、一年365天連續(xù)不間斷運(yùn)轉(zhuǎn)(有時(shí)也稱為7×24或365×24)。一個(gè)可用性為99.9%的365×24系統(tǒng)一年的平均故障時(shí)間為8.76小時(shí)(525分鐘),而要想讓系統(tǒng)的中斷時(shí)間在一年中只有3分鐘的話,系統(tǒng)必須有99.999%的可用性。

可用性指標(biāo)可以利用所有系統(tǒng)元件的統(tǒng)計(jì)模型計(jì)算出來,最簡(jiǎn)單的元件模型是二元的,即元件要么處于工作狀態(tài),要么處于非工作狀態(tài)??捎眯钥梢杂檬蕘碛?jì)算,結(jié)果為平均無故障工作時(shí)間MTBF,也可以用故障修復(fù)時(shí)間來計(jì)算,結(jié)果為平均故障修復(fù)時(shí)間MTTR。將MTTR時(shí)間平均分?jǐn)偟組TBF周期內(nèi)可以計(jì)算出任意元件對(duì)平均故障的貢獻(xiàn)。例如,有一個(gè)對(duì)系統(tǒng)運(yùn)作至關(guān)重要的元件,它的MTBF時(shí)間為250,000小時(shí),MTTR為1小時(shí),則系統(tǒng)在一年中的不可用性時(shí)間為2.1分鐘(等于60(分鐘)×8760(小時(shí)/年)÷250,000(小時(shí)))。

通過******化元件的可用性以及最小化故障修復(fù)時(shí)間可以獲得99%到99.9%的系統(tǒng)可用性。要取得更高的可用性,需要采用冗余設(shè)計(jì)方法,因?yàn)閷?duì)失效元件的備份能夠確保系統(tǒng)連續(xù)地工作。通過計(jì)算從檢測(cè)出失效元件到切換到備份元件的間隔時(shí)間可以進(jìn)一步計(jì)算出這種冗余系統(tǒng)的可用性指標(biāo)。

故障管理與故障檢測(cè)范圍已成為系統(tǒng)設(shè)計(jì)中的重要因素。一個(gè)用冗余技術(shù)設(shè)計(jì)的復(fù)雜系統(tǒng)需要用到統(tǒng)計(jì)學(xué)的方法來計(jì)算可用性。

快速建模技術(shù)

要粗略估計(jì)系統(tǒng)中每個(gè)元件對(duì)系統(tǒng)不可用性(unavailability)的影響,就可以采用快速的組合計(jì)算,這種計(jì)算會(huì)忽略故障覆蓋因素。計(jì)算結(jié)果通常偏高,同時(shí)指出需進(jìn)一步仔細(xì)研究的地方。忽略對(duì)不可用性影響很小的元件可以簡(jiǎn)化模型。

可靠性方框圖(RBD)是用來進(jìn)行快速組合式可用性計(jì)算的工具之一。圖1是一個(gè)雙板系統(tǒng)的RBD框圖。從圖上可以看出,兩塊板中只要有一塊能工作,系統(tǒng)就能正常運(yùn)行。圖1所示的系統(tǒng)可以采用簡(jiǎn)單的數(shù)學(xué)分析法分析其不可用性,一塊板的不可用性公式是:

l=故障率+1/MTBF<1/250,000

m=故障修復(fù)率+1/MTTR=l/4

不可用性=l÷(l+m)=1.5999E-05

故障率是MTBF的倒數(shù),而故障修復(fù)率是MTTR的倒數(shù)。

在一個(gè)如RBD中所示的并行系統(tǒng)中,系統(tǒng)的不可用性為:

系統(tǒng)不可用性=(1.5999E-05)2=2.559E-10

利用RBD能方便快速地得出結(jié)果,但要對(duì)更加復(fù)雜的系統(tǒng)建模就無能為力了。

工具鏈

時(shí)域連續(xù)的馬爾可夫(Markov)鏈除了其狀態(tài)是根據(jù)概率因素而變化外,其它基本上類似于有限狀態(tài)圖。馬爾可夫鏈能夠?qū)崿F(xiàn)更成熟的模型,圖2是對(duì)雙板系統(tǒng)的馬爾可夫鏈分析,其中包含了與故障覆蓋因數(shù)(圖2括號(hào)中的C)。在圖2中每個(gè)圓表示一個(gè)狀態(tài),直線箭頭表示狀態(tài)轉(zhuǎn)換。在本模型中狀態(tài)名用xBSy表示,其中x代表工作電路板的數(shù)量,y有兩種取值,U代表系統(tǒng)處于工作狀態(tài),D代表系統(tǒng)停止運(yùn)行。表1給出了每個(gè)狀態(tài)的說明。

1BSU和1BSD分別代表系統(tǒng)是正常運(yùn)行和停止運(yùn)行狀態(tài)。如果系統(tǒng)中斷運(yùn)行,這些狀態(tài)會(huì)表明需要維修的板數(shù)目。狀態(tài)間的轉(zhuǎn)換比率呈指數(shù)式分布,每個(gè)箭頭旁都標(biāo)識(shí)了相應(yīng)的比率(基于l、u、c)。例如呈指數(shù)式分布的2BSU與1BSU狀態(tài)轉(zhuǎn)換比率是2lc(板的失效率乘以失效板被備份板替換的概率),而2BSU與1BSD之間的狀態(tài)轉(zhuǎn)換比率為2l×(1-c),它是板的失效率乘以失效板未經(jīng)備份板替換的概率。

在決定2BSU狀態(tài)是轉(zhuǎn)換為1BSU還是1BSD時(shí)存在競(jìng)爭(zhēng)。在故障覆蓋較大的情況下(c=0.9),2BSU狀態(tài)大多會(huì)轉(zhuǎn)換為1BSU,但并不是一定的,在某些情況下2BSU會(huì)轉(zhuǎn)換為1BSD。

同樣的,因?yàn)樾迯?fù)率u大于板的失效率l,源于1BSU狀態(tài)的轉(zhuǎn)換大部分會(huì)回到2BSU。在極少數(shù)情況下,第2塊板會(huì)在第1塊板修復(fù)前出現(xiàn)故障,這時(shí)就會(huì)轉(zhuǎn)換成0BSD狀態(tài)。

系統(tǒng)采用馬爾可夫鏈分析時(shí),系統(tǒng)的可用性指標(biāo)用鏈處于任意工作狀態(tài)的時(shí)間來測(cè)量,在本例中就是2BSU或1BSU狀態(tài)。相應(yīng)的非可用性指標(biāo)(1減去可用性指標(biāo))用鏈處于停止?fàn)顟B(tài)的時(shí)間來測(cè)量,本例中是1BSD或0BSD。

Sharpe類建模工具可實(shí)現(xiàn)這些測(cè)量。上述雙板系統(tǒng)的1A Sharpe模型的不可用性為3.200102E-06,相應(yīng)的可用性就是1.0-3.200102E-06=0.9999968。

對(duì)于相對(duì)較小的模型來說,用Markov鏈模型效果很好,但大一些的模型會(huì)產(chǎn)生難于處理的較大狀態(tài)空間。例如,雙板系統(tǒng)模型包含4種狀態(tài),如果再增加一塊板就會(huì)產(chǎn)生另外2種狀態(tài)(3BSU和2BSD),狀態(tài)總數(shù)達(dá)到6個(gè)??梢韵胂褚幌孪到y(tǒng)中有10塊或12塊板時(shí)的情況,此時(shí)必須使用更加先進(jìn)的建模工具。

冗余配置

在系統(tǒng)的架構(gòu)中可以采用很多的冗余設(shè)計(jì)技術(shù)。N冗余系統(tǒng)(2N、3N、5N等)采用了被隔離為多個(gè)獨(dú)立故障區(qū)域的多套相同資源,它可以是元件級(jí)的冗余(如磁盤和電源),也可以是整個(gè)系統(tǒng)級(jí)的(如冗余文件服務(wù)器),而最簡(jiǎn)單的形式就是2N冗余方式。

N+m冗余是為一組資源準(zhǔn)備了若干備份(如以太網(wǎng)集線器上的空余端口),最簡(jiǎn)單的形式是N+1冗余,這種冗余方式同樣可以是單獨(dú)的系統(tǒng)元件級(jí),或整個(gè)系統(tǒng)級(jí)的。

對(duì)系統(tǒng)設(shè)計(jì)來說冗余方案的選擇至關(guān)重要。2N冗余系統(tǒng)方案會(huì)對(duì)系統(tǒng)中所有的關(guān)鍵資源進(jìn)行備份,備用資源會(huì)根據(jù)運(yùn)行中的資源情況隨時(shí)進(jìn)行更新,當(dāng)故障發(fā)生時(shí),整個(gè)出現(xiàn)故障的資源退出工作狀態(tài),備用資源取而代之。

2N冗余方案的顯著優(yōu)點(diǎn)是故障管理簡(jiǎn)單,切換時(shí)間短。但由于每個(gè)資源都要有備份,因此成本高,當(dāng)系統(tǒng)的I/O連接數(shù)量巨大時(shí)連接性能就難以保障。

電話系統(tǒng)即是一個(gè)很好的例子,該系統(tǒng)可能用到許多T1/E1連接,對(duì)所有線路接口板進(jìn)行備份將大大增加成本,采用多T1/E1線路或要求用戶租用大量備用線路同樣也代價(jià)高昂。對(duì)于I/O數(shù)量比較多的這類應(yīng)用,N+1冗余方案將有更好的性價(jià)比。在N+1冗余方式下,主要設(shè)備出現(xiàn)故障之前,由于備用設(shè)備的實(shí)際用途不確定而不能正確地配置,因此會(huì)增加故障管理的復(fù)雜性,并延長(zhǎng)切換時(shí)間。

管理過程

N冗余系統(tǒng)與N+1冗余系統(tǒng)在故障管理方面的差別很大,在N+1系統(tǒng)中的故障管理要占用系統(tǒng)CPU時(shí)間,因此系統(tǒng)CPU必須具備用于故障管理的富余的處理能力。通常故障管理過程可以被分為以下幾個(gè)步驟:檢測(cè)、定位、隔離、恢復(fù)、報(bào)告、維修和復(fù)原。下面將概述這些處理階段的含義,并就2N和N+1系統(tǒng)的故障管理展開討論,不管是系統(tǒng)中的硬件還是軟件,這些概念都是適用的。

檢測(cè)是一個(gè)發(fā)現(xiàn)問題的過程。檢測(cè)定義為從出現(xiàn)故障到系統(tǒng)檢測(cè)出故障的過程。系統(tǒng)中所有硬件和軟件都有故障檢測(cè)的責(zé)任。為了滿足99.999%的可用性目標(biāo)要求,每個(gè)元件必須有足夠的故障檢測(cè)能力,否則這種元件就不適合用于高可用性的系統(tǒng)中。

定位是指縮小故障范圍直至找到失效元件的過程,該過程很大程度上依賴于故障區(qū)域的定義。

隔離就是讓系統(tǒng)中已發(fā)生故障的部分停止工作。確定被隔離區(qū)域的分界點(diǎn)必須以該區(qū)域能中斷與系統(tǒng)的所有互連為前提。

恢復(fù)是指利用備用資源讓系統(tǒng)恢復(fù)運(yùn)行的過程,同時(shí)還要恢復(fù)系統(tǒng)中受失效元件影響的所有其它部分。恢復(fù)過程是系統(tǒng)中斷過程的最后階段,一旦系統(tǒng)重新開始提供正常服務(wù),剩下的過程將不會(huì)直接影響系統(tǒng)的正常運(yùn)行。

系統(tǒng)產(chǎn)生的報(bào)告是用來通知外界所發(fā)生的故障,這是修復(fù)過程的第一步。維修過程與可用性無直接關(guān)系。統(tǒng)計(jì)概率表明,在失效元件修復(fù)過程中備份元件也有可能出現(xiàn)故障,這種情況會(huì)導(dǎo)致整個(gè)系統(tǒng)癱瘓。雖然出現(xiàn)這種情況的概率非常小,但這種情況影響嚴(yán)重,故在可用性計(jì)算等式中仍要考慮到。因此即使在冗余系統(tǒng)中也要盡量縮短維修時(shí)間。

維修實(shí)際上是失效元件的替換過程,這一過程一般是人工實(shí)現(xiàn)的。維修過程之所以劃分成這些階段,有兩大理由:首先,維修步驟通常是最花時(shí)間的階段;其次,這是整個(gè)過程的關(guān)鍵,任何失誤都將導(dǎo)致整個(gè)系統(tǒng)的中斷。

最后,經(jīng)修復(fù)后的元件被再次集成到系統(tǒng)中。一旦失效硬件或軟件被替換后,修復(fù)的元件要么作為新的備用元件使用,要么去分擔(dān)一些系統(tǒng)負(fù)載。

這些階段的劃分多少帶有些片面性,但它們能為系統(tǒng)結(jié)構(gòu)的差異性描述提供很好的參考。

組件的故障管理

在一個(gè)2N或組件系統(tǒng)中將可能發(fā)生故障的部分定義為故障區(qū),采用這種方式的故障管理在一定程度上得到簡(jiǎn)化。主要的步驟包括故障檢測(cè)、定位、隔離、恢復(fù)、維修等,詳細(xì)描述如下:

  • 故障檢測(cè)相當(dāng)關(guān)鍵。一個(gè)系統(tǒng)檢測(cè)故障的能力由系統(tǒng)故障檢測(cè)范圍來確定。該范圍沒有包括的任何可能故障都給定一個(gè)概率值,并記為嚴(yán)重故障因素。

  • 隱含定位。任何被檢測(cè)到的故障通常是在故障節(jié)點(diǎn)內(nèi)部自行檢測(cè)到的,因而其定位就在該故障區(qū)域內(nèi)。

  • 隔離和恢復(fù)在本質(zhì)上是同一步驟。用備份代替故障節(jié)點(diǎn),將故障節(jié)點(diǎn)隔離,同時(shí)系統(tǒng)恢復(fù)正常工作。

組件系統(tǒng)本質(zhì)上是從故障檢測(cè)轉(zhuǎn)變?yōu)楣收匣謴?fù),因?yàn)槎ㄎ缓透綦x為系統(tǒng)結(jié)構(gòu)的固有部分,檢測(cè)和隔離恢復(fù)在系統(tǒng)內(nèi)自動(dòng)完成。而故障恢復(fù)處理的復(fù)雜程度與系統(tǒng)運(yùn)行的特定應(yīng)用是相關(guān)的。

系統(tǒng)恢復(fù)以后的處理是離線處理過程。修理人員可以將整個(gè)節(jié)點(diǎn)內(nèi)的器件全部代換,或者進(jìn)一步診斷從而找出節(jié)點(diǎn)內(nèi)部的壞元件予以代換。這個(gè)診斷過程是在一個(gè)完整的離線系統(tǒng)上進(jìn)行。一個(gè)基于節(jié)點(diǎn)的系統(tǒng)在這個(gè)過程中相對(duì)不易發(fā)生失誤。

高強(qiáng)度的故障管理

在一個(gè)具有2N配置的系統(tǒng)中,成本是個(gè)重要問題,器件為N+1備份。這需要一個(gè)具有復(fù)雜處理過程的高強(qiáng)度故障管理。

在這些系統(tǒng)中,故障檢測(cè)總是一樣的。它通過系統(tǒng)中的每一部分來實(shí)現(xiàn),而且越快越好。通過在線診斷來實(shí)現(xiàn)故障定位。這種診斷不能影響系統(tǒng)的正常運(yùn)行,要保證系統(tǒng)盡可能多的部件正常運(yùn)行,以防止整個(gè)系統(tǒng)的癱瘓。

在一個(gè)運(yùn)行中的系統(tǒng)實(shí)現(xiàn)故障定位很復(fù)雜。不可能總是能精確地實(shí)現(xiàn)故障定位,通常的定位準(zhǔn)確度為95%。

隔離是很關(guān)鍵的步驟。系統(tǒng)的架構(gòu)要允許對(duì)單個(gè)可置換單元(FRU)隔離。在一個(gè)N+1系統(tǒng)里,存在的失效元件不能影響恢復(fù)后的系統(tǒng)保持正常運(yùn)行。

有兩個(gè)因素使系統(tǒng)恢復(fù)復(fù)雜化,第一個(gè)是采用節(jié)點(diǎn)方式。每個(gè)節(jié)點(diǎn)有精確的定位,這掩蓋了系統(tǒng)的復(fù)雜性。在N+1系統(tǒng)中器件存在依賴關(guān)系。當(dāng)一個(gè)器件經(jīng)核實(shí)為損壞器件,任何與該器件相關(guān)的其它器件也要加以恢復(fù)。這種拓?fù)涔芾沓蔀榛謴?fù)系統(tǒng)的一個(gè)關(guān)鍵的步驟。

N+1系統(tǒng)恢復(fù)的另外一個(gè)難點(diǎn)是將故障封閉在一定范圍內(nèi)。一個(gè)損壞器件可能讓其它的器件表現(xiàn)為損壞狀態(tài),故障器件經(jīng)識(shí)別后,所有其它的錯(cuò)誤狀態(tài)也要加以糾正。

系統(tǒng)故障報(bào)告內(nèi)容取決于不同的應(yīng)用。如果系統(tǒng)采用FRU,則要輸出一個(gè)詳細(xì)恢復(fù)處理方法的指導(dǎo)。報(bào)告內(nèi)容對(duì)于維修很關(guān)鍵,技術(shù)人員在對(duì)運(yùn)行中的系統(tǒng)進(jìn)行修復(fù)時(shí),正確定位需要替換的FRU很重要。對(duì)于這樣的系統(tǒng),技術(shù)人員的錯(cuò)誤操作也可能導(dǎo)致服務(wù)的中斷。清晰的報(bào)告機(jī)制可以減少造成這種錯(cuò)誤的可能。

對(duì)運(yùn)行中的系統(tǒng)進(jìn)行維修要求某種形式的“熱拔插”。系統(tǒng)必須能支持這種操作。另外這些FRU之間在結(jié)構(gòu)上相互不能影響,處理一個(gè)器件處理時(shí)不要移動(dòng)其它的器件。

高可用性相關(guān)規(guī)范

COPYRIGHT(C) 2011 廈門永宏亞得機(jī)電科技有限公司版權(quán)所有(閩ICP備05025945號(hào)) ALL RIGHTS RESERVED?

電話: 0592-5190891 傳真: 0592-5190720 E-Mail: E-mail:yade8895@163.com
地址: 廈門市海滄區(qū)興港六里17號(hào)2607室 郵編:361009 聯(lián)系人:翟先生