藉由系統性設計循序打造智慧機房

2013/05/13-DIGITIMES企劃

IDC

吳滄榮認為,這對於台灣慣常採取的測試暨驗收程序,已造成莫大的顛覆效果,主因在於,以往論及環控、教育訓練等後段維護事宜,總是被擺在施工完成後才進行,無須接受測試暨驗收的考驗、磨難,甚至慢慢做都可以,如今一下子拉到前面,需要與專案同步進行,衝擊自然不小;但可以肯定,藉由遊戲規則的調整,連帶會促使空調、電力等系統之間的介面,都能順利與環控機制整合。

也就是說,不管是各項機房基礎設施之間,抑或機房基礎設施與IT設備之間,全都會被串聯在一起,而非如同過去機電技師只管機電、空調技師只管空調,IT設備廠商也僅以自家產品為念,一味要求棲身在低溫環境,確保不會因過熱而出現當機,過去各個孤島之間鮮少有連結,如今伴隨智慧機房的國際趨勢使然,彼此都已高度連結。

表面上看來,Tier認證是業主或用戶本身的自發性作業,可以為了凸顯其服務的優質性,因而積極投入,也可能礙於節省金錢、節省人力、節省時間、避免麻煩…等各式理由或藉口,選擇繼續走傳統老路,但現實世界裡,情況未必是如此。

據悉,大陸為避免因機房運作效率不彰,導致衝擊公共服務品質,因此早已透過十二五計畫,針對信息機房多所規範,雖然站在當地政府立場,不可能強制要求各級公民營單位,都需要接受美國主導的Tier認證,但畢竟TIA-942標準有其獨特性與指標性,影響所及,大陸通過Tier認證的機房數量,開始逐步增多。

大陸如此,諸如南韓、馬來西亞、印度…等其他亞洲國家,投入Tier認證的速度都已加快;由此可見,TIA-942標準儼然成為國際潮流,如同台灣固網,也是為了爭取海外企業進駐,才如此大費周章導入Tier認證,換句話說,這股趨勢不完全取決於業主自決,甚至已成為證明IT服務健全與否的重要指標。

暫且跳脫資訊機房,觀察晶圓廠這個同樣講求品質與強度的場域,它們多是在民國80~90年期間建置,當時還未出現Tier認證觀念,所以只能按照自認為嚴謹的方式進行建造,雖然最終都能展現極高的穩定度,但每年總得停機3~4天進行歲修,每一天的損失,其實都高達好幾十億元,如果取決於訴諸「基礎設施同時可維修」的Tier III等級,或許哪一天,晶圓廠根本不必為了歲修而停機數日。

奠基於ITIL 激發智慧性整合功能

DCIM所訴求的環控、IT管理整合,無疑是一個劃時代的進步,唯有如此,才能將業主以往礙難橫向串聯的資產管理、設施管理、維運管理、資安管理…等種種環節,得以全面統整到一致性的管理平台。

事實上,DCIM智慧性整合功能的箇中精髓,其實正是立基在ITIL架構之上。朱國權與吳滄榮兩位技師,為了順應這股整合潮流,所以在數年前相繼爭取到ITIL、PMP認證,只因這兩項證照都出自IT業界的語言,唯有予以瞭解並熟悉,才有助於縮短其與IT管理象限之間的差距。

另值得一提的,以往不少企業機房的建立過程,都是由國際級資訊大廠進行主導,技師參與的機率甚低,但近幾年則情況丕變,資訊大廠也敞開心胸,邀請專業技師與之並肩作戰,這個時候,技師愈能理解資訊大廠講述的語言,就愈能雀屏中選,成為大廠夥伴,爭取到更多專案建置機會。

BOX:認識TIA-942的四大等級

現已普遍用於評量機房通信基礎設施的TIA-942標準,主要是按照資料中心基礎設施的可用性、穩定性及安全性,進而劃分為Tier I、Tier II、Tier III與Tier IV等四個等級,而這四個等級的劃分,主要取材自美國Uptime Institute所制定的場地基礎設施性能標準,及相關分類等級的體系框架。

下列茲就TIA-942項下四個等級,逐一進行深入介紹:

一、Tier I:基本資料中心

列於此等級的資料中心(機房),對於有計畫或無計畫的營運中斷反應最為敏感,相對來說,所受影響程度也最大)。這類機房都配置了電腦電力分配及冷卻,但不強制擁有高架地板,另需要有一台UPS或一台發電機。而這些系統的關鍵負荷,可達到N的100%。基於預防性檢修的需求,一年度內場地內基礎設施需要被完全停運作;此外,Tier I機房僅具備由電力及冷卻分配的一條單向管路,並無多餘的組成部分,因此僅可提供99.671%可用度。

二、Tier II:基礎設施部分備援

此等級的資料中心採用的設備,具有部分備援的水準,因此比起Tier I機房,對於有計畫或無計畫的營運中斷反應相對較低,其內部已有高架地板,也有一台UPS及發電機,而動力設計為N+1,擁有一條單一的分配線路,關鍵負荷可達到N的100%。因應其關鍵線路的維修,以及場地內其他基礎設施的維修維護,需有一次處理性的關閉中斷;Tier II係由電力與冷卻分配的一條單向通路組成,但夾帶多餘的備援組成部分,故可提供99.749%可用度。

三、Tier III:基礎設施同時可維修

此等級的資料中心,具有能夠進行任何有計畫的場地基礎設施活動,而又不致因為電腦系統運行狀況而中斷之能力,所謂有計畫的活動,包括預防性及程式性的維修、修理,抑或汰換零組件,增添或調整組件的容量,以及執行組件與系統的測試。在於空調系統部分有兩套獨立管路,當其中一條管路進行維修或測試的同時,另一條管線也能保持運轉不中斷。在系統上的關鍵負荷不超過N的90%,而當企業期望獲得正常而合理的額外保護時,Tier III場地將被有計畫地設計成為「可升級至等級Tier IV」,其係由多條有效的電力和冷卻分配道路所組成,然其中只有一條通路執行運轉,另外多餘的組成部分,則在運轉的同時進行維修,足以提供99.982%的可用度。

四、Tier IV:基礎設施故障容錯

這個等級的資料中心,具有能進行任何有計畫的維修活動,且不會對關鍵負荷造成中斷的能力,在此同時,也可提供基礎設施足額的電力與空調容量,在此前提下,任何無計畫性的故障,都不會影響其關鍵負載,其需要同時執行的電路分配,通常為S+S的雙電源系統組態,每套電力系統都有N+1備援的兩個獨立UPS。在一個系統上的關鍵負載不會超過N的90%,而全部硬體設備都需要有故障容錯之雙電源輸入。在嚴格的故障容錯機制下,Tier IV擁有維持無計畫故障或運行錯誤時,不致產生電腦機房運作中斷的能力,其係由多條有效的電力與冷卻分配道路組成,有多餘的備援組成,而且是故障容錯,所以能提供高達99.995%的可用度。

Box:業主只要有心 改造機房為時不晚

綠色機房的主軸,不外乎兩點,一是節能(PUE),另一則是可靠度(Tier),意欲實現這兩大目標,最好的方式,即是從機房建造之初始,就開始做系統性設計;然不可諱言,既有機房的數量,遠遠超過新建機房,豈不意謂這些舊機房,只能忍痛與節能可靠保持距離絡?

答案是,情況並非如此,業主只要有心接受改造,絕對還有調整的空間。廣知工程科技總經理吳滄榮舉了一例,十多年前,他曾在花蓮承接一樁機房改造案,當時該機房很奇特,不管空調噸數怎麼加,裡頭溫度就是降不下來。

後來更離譜的是,以該機房不算大的面積,即使空調負載經追加到讓人咋舌的1,200噸,過熱現象仍然揮之不去,甚至熱到連機板都燒掉,迫使業主只好找冷凍空調技師共商解決之道。

吳滄榮一到場,並不是趕忙幫業主計算還需追加多少空調負載,因為先前聽業主吐過幾次苦水,他心中已大致有譜,可以肯定其原因絕非是空調噸數不足,而是熱冷混風情況太嚴重,假使不對症下藥,一切的努力終將成為虛工,因此他借助計算流體力學(Computational Fluid Dynamics;CFD)軟體,把原本不對的氣流流場,調整到正常狀態,很快就化解這場災難。

值得一提的,這座位在花蓮的機房,後來將空調負載從1,200噸急降至30噸,結果內部溫度還比從前低,機房改造的價值,至此已經表露無遺。

十年過去了,許多機房業主面臨的窘境,卻沒有太大的不同,有些時候,甚至只要將伺服器擺放位置,做180度翻轉,散熱冷率就會截然不同,但不少業主從未意識到問題癥結,甚至還因為伺服器轉換角度需要停機,生怕影響IT服務的運行,惹來使用者抱怨,所以最終寧可選擇抗拒改變,這也說明了,許多業主或管理人員亟待學習、成長的空間,其實還相當之大。

如今隨著雲端化、虛擬化的盛行,恐將迫使業主「不想改都不行」!早期Thermal控制走的是固定模式,各項參數都可以算得很精準,但現在機櫃的負載情況隨時變動,使得固定式設計邏輯不再適用,必須轉變成為「可調式」,首當其衝需要調整的,無疑正是空調,因為機櫃負載一變,產出熱空氣就不同,影響所及,舉凡送風量、送風溫度、風扇轉速,一直到後頭的水泵、冷卻水塔,通通得跟著變,空調如此,UPS也不例外,也得隨時升載或降載,也難怪變頻式空調系統、模組式UPS大行其道,值此時刻,機房設計思維豈能一成不變?

資料來源

本篇發表於 新聞室。將永久鏈結加入書籤。