王陽生:大數(shù)據(jù)時(shí)代數(shù)據(jù)中心建設(shè)與運(yùn)營管理探討
發(fā)布時(shí)間:2021-01-21 15:16
當(dāng)前背景下,推進(jìn)交通大數(shù)據(jù)發(fā)展已經(jīng)成為新時(shí)代交通運(yùn)輸信息化發(fā)展的核心內(nèi)容。大數(shù)據(jù)時(shí)代的數(shù)據(jù)中心應(yīng)該如何建設(shè)?又應(yīng)如何運(yùn)營?福建省高速公路信息科技有限公司運(yùn)營部主任王陽生在第22屆中國高速公路信息化大會(huì)上表達(dá)了自己的觀點(diǎn),他認(rèn)為,大數(shù)據(jù)時(shí)代數(shù)據(jù)中心建設(shè)需要包括電力系統(tǒng)保障、網(wǎng)絡(luò)系統(tǒng)保障、網(wǎng)絡(luò)與信息安全保障、虛擬化技術(shù)應(yīng)用、災(zāi)備系統(tǒng)應(yīng)用、配套系統(tǒng)應(yīng)用、智能化運(yùn)行監(jiān)測平臺(tái)。
電力系統(tǒng)保障需要六套互相備份的電源接入供電保護(hù)方案。在日常運(yùn)維中需要做到以下幾點(diǎn):互聯(lián)網(wǎng)網(wǎng)絡(luò)
互聯(lián)網(wǎng)網(wǎng)絡(luò)
互聯(lián)網(wǎng)區(qū)所有安全設(shè)備都配置主模式且橋接到網(wǎng)絡(luò)中,所有設(shè)備都做了接口聯(lián)動(dòng)。由外而內(nèi)首先經(jīng)過出口防火墻,在出口防火墻上做了大量的策略,只放行必要的業(yè)務(wù)、服務(wù)、端口和應(yīng)用,剩下的訪問全部拒絕;接著經(jīng)過入侵防御設(shè)備,入侵防御設(shè)備能夠過濾和抵擋各種網(wǎng)絡(luò)攻擊,并統(tǒng)計(jì)相關(guān)的數(shù)據(jù)。WAF的作用就是網(wǎng)頁安全檢測、防網(wǎng)頁篡改;最后到達(dá)互聯(lián)網(wǎng)核心,在互聯(lián)網(wǎng)核心交換會(huì)將所有流量鏡像到天眼探針和分析平臺(tái),進(jìn)行流量分析和攻擊分析。同時(shí)設(shè)置VPN設(shè)備和漏洞掃描設(shè)備確保授權(quán)訪問和定期掃描及時(shí)發(fā)現(xiàn)操作系統(tǒng)、中間件、數(shù)據(jù)庫、應(yīng)用系統(tǒng)漏洞。各網(wǎng)之間設(shè)置網(wǎng)閘物理隔離,設(shè)置必要的放行策略。數(shù)據(jù)中心還有綜合網(wǎng)、視頻網(wǎng)和收費(fèi)網(wǎng)三張專網(wǎng),且三張專網(wǎng)通過OTN設(shè)備連接各地市管理公司。
三張專網(wǎng)的網(wǎng)絡(luò)拓?fù)浠疽恢?,這里以收費(fèi)網(wǎng)為例,收費(fèi)網(wǎng)已經(jīng)通過安全等保三級(jí)測評(píng),所有安全設(shè)備都符合國標(biāo)要求。
收費(fèi)網(wǎng)防火墻處于數(shù)據(jù)中心收費(fèi)網(wǎng)邊界,目前以堆疊主主橋接的方式接入網(wǎng)絡(luò)只放行相關(guān)的端口和業(yè)務(wù),其它一律拒絕訪問。
收費(fèi)網(wǎng)VPN設(shè)備、漏掃設(shè)備、日志審計(jì)設(shè)備、數(shù)據(jù)庫審計(jì)設(shè)備、堡壘機(jī)、天眼探針和分析平臺(tái)旁掛到收費(fèi)網(wǎng)核心下,實(shí)現(xiàn)相關(guān)設(shè)備的功能,具體功能和作用和互聯(lián)網(wǎng)區(qū)安全設(shè)備一致。
- 收費(fèi)網(wǎng)和綜合網(wǎng)之間也是通過網(wǎng)閘實(shí)現(xiàn)物理隔離。
數(shù)據(jù)中心采用服務(wù)器虛擬化技術(shù),通過提高物理服務(wù)器利用率,大幅度削減物理服務(wù)器購置需求、數(shù)量和運(yùn)營成本;
通過利用服務(wù)器虛擬化中CPU、內(nèi)存、IO資源的動(dòng)態(tài)調(diào)整能力實(shí)現(xiàn)對(duì)業(yè)務(wù)應(yīng)用資源需求的動(dòng)態(tài)響應(yīng),提升業(yè)務(wù)應(yīng)用的服務(wù)質(zhì)量;
- 實(shí)現(xiàn)更高的可用性和可靠性,以及資源優(yōu)化。
相關(guān)業(yè)務(wù)應(yīng)用系統(tǒng)都部署運(yùn)行在虛擬化系統(tǒng)中的虛擬機(jī)之上。而用戶數(shù)據(jù)的存儲(chǔ)和管理則使用各類數(shù)據(jù)庫系統(tǒng)。對(duì)數(shù)據(jù)中心的容災(zāi)需求總體來說分為兩大部分,即數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi),分別對(duì)數(shù)據(jù)中心進(jìn)行數(shù)據(jù)庫的容災(zāi)和虛擬化應(yīng)用的容災(zāi)。在容災(zāi)架構(gòu)中,建議同城雙中心有條件的異地雙中心的災(zāi)備方案。配套系統(tǒng)應(yīng)用包括空調(diào)系統(tǒng)、消防系統(tǒng)、門禁系統(tǒng)、監(jiān)控系統(tǒng)、綜合布線、監(jiān)控室。智能化運(yùn)行監(jiān)測平臺(tái)應(yīng)用
機(jī)房動(dòng)環(huán)監(jiān)控平臺(tái)
機(jī)房環(huán)境監(jiān)控系統(tǒng)是一個(gè)綜合利用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)、通信技術(shù)、自動(dòng)控制技術(shù)、新型傳感技術(shù)等構(gòu)成的計(jì)算機(jī)網(wǎng)絡(luò),提供集中管理監(jiān)控模式的自動(dòng)化、智能化和高效率的技術(shù)手段,系統(tǒng)監(jiān)控對(duì)象主要是機(jī)房動(dòng)力和環(huán)境設(shè)備等。配電系統(tǒng):主要對(duì)配電系統(tǒng)的三相相電壓、相電流、線電壓、線電流、有功無功、頻率、功率因數(shù)等參數(shù)和配電開關(guān)的狀態(tài)監(jiān)視進(jìn)行監(jiān)視。當(dāng)一些重要參數(shù)超過危險(xiǎn)界限后進(jìn)行報(bào)警。UPS電源:通過由UPS廠家提供的通訊協(xié)議及智能通訊接口對(duì)UPS內(nèi)部整流器、逆變器、電池、旁路、負(fù)載等各部件的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)視,一旦有部件發(fā)生故障,機(jī)房動(dòng)力環(huán)境監(jiān)控系統(tǒng)自動(dòng)報(bào)警。系統(tǒng)中對(duì)于UPS的監(jiān)控一律采用只監(jiān)視,不控制的模式。空調(diào)設(shè)備:通過實(shí)時(shí)監(jiān)控,能夠全面診斷空調(diào)運(yùn)行狀況,監(jiān)控空調(diào)各部件(如壓縮機(jī)、風(fēng)機(jī)、加熱器、加濕器、去濕器、濾網(wǎng)等)的運(yùn)行狀態(tài)與參數(shù),并能夠通過機(jī)房動(dòng)力環(huán)境監(jiān)控系統(tǒng)管理功能遠(yuǎn)程修改空調(diào)設(shè)置參數(shù)(溫度、濕度、溫度上下限、濕度上下限等),以及對(duì)精密空調(diào)的重啟??照{(diào)機(jī)組即便有微小的故障,也可以通過機(jī)房動(dòng)力環(huán)境監(jiān)控系統(tǒng)檢測出來,及時(shí)采取措施防止空調(diào)機(jī)組進(jìn)一步損壞。機(jī)房溫濕度:在機(jī)房的各個(gè)重要位置,需要裝設(shè)溫濕度檢測模塊,記錄溫濕度曲線供管理人員查詢。一旦溫濕度超出范圍,即刻啟動(dòng)報(bào)警,提醒管理人員及時(shí)調(diào)整空調(diào)的工作設(shè)置值或調(diào)整機(jī)房內(nèi)的設(shè)備分布情況。漏水檢測:漏水檢測系統(tǒng)分定位和不定位兩種。所謂定位式,就是指可以準(zhǔn)確報(bào)告具體漏水地點(diǎn)的測漏系統(tǒng)。不定位系統(tǒng)則相反,只能報(bào)告發(fā)現(xiàn)漏水,但不能指明位置。系統(tǒng)由傳感器和控制器組成。控制器監(jiān)視傳感器的狀態(tài),發(fā)現(xiàn)水情立即將信息上傳給監(jiān)控PC。測漏傳總器有線檢測和面檢測兩類,機(jī)房內(nèi)主要采用線檢測。煙霧報(bào)警:煙霧探測器內(nèi)置微電腦控制,故障自檢,能防止漏報(bào)誤報(bào)。當(dāng)有煙塵進(jìn)入電離室會(huì)破壞煙霧探測器的電場平衡關(guān)系,報(bào)警電路檢測到濃度超過設(shè)定的閾值進(jìn)行報(bào)警。視頻監(jiān)控:機(jī)房環(huán)境監(jiān)控系統(tǒng)集成了視頻監(jiān)控,圖像采用MPEG4視頻壓縮方式,集多畫面測覽、錄像回放、視頻遠(yuǎn)傳、觸發(fā)報(bào)警、云臺(tái)控制、設(shè)備聯(lián)動(dòng)于一體,視頻系統(tǒng)還可與其他的輸入信號(hào)進(jìn)行聯(lián)動(dòng),視頻一旦報(bào)警,可同時(shí)與其它設(shè)備進(jìn)行聯(lián)動(dòng)如雙鑒探頭、門磁進(jìn)行錄像。門禁監(jiān)控:門禁系統(tǒng)由控制器、感應(yīng)式讀卡器、電控鎖和開門按鈕等組成(聯(lián)網(wǎng)系統(tǒng)外加通訊轉(zhuǎn)換器。讀卡方式屬于非接觸讀卡方式,系統(tǒng)對(duì)出人人員進(jìn)行有效監(jiān)控管理。防雷系統(tǒng):通過開關(guān)量采集模塊來實(shí)現(xiàn)對(duì)防雷模塊工作情況的實(shí)時(shí)監(jiān)測,通常只有開和關(guān)兩種監(jiān)測狀態(tài)。消防系統(tǒng):對(duì)消防系統(tǒng)的監(jiān)控主要是消防報(bào)警信號(hào)、氣體噴灑信號(hào)的采集,不對(duì)消防系統(tǒng)進(jìn)行控制。應(yīng)用系統(tǒng)運(yùn)行監(jiān)測平臺(tái)
監(jiān)測目標(biāo)主要包括對(duì)系統(tǒng)不間斷的實(shí)時(shí)監(jiān)控、實(shí)時(shí)反饋系統(tǒng)當(dāng)前狀態(tài)、保證服務(wù)可靠性安全性、保證業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行。數(shù)據(jù)采集:通過SNMP、Agent、ICMP、SSH、IPMI等協(xié)議對(duì)系統(tǒng)進(jìn)行數(shù)據(jù)采集。
數(shù)據(jù)存儲(chǔ):數(shù)據(jù)存儲(chǔ)在MySQL上,也可以存儲(chǔ)在其他數(shù)據(jù)庫服務(wù)。
數(shù)據(jù)分析:當(dāng)我們事后需要復(fù)盤分析故障時(shí),能給我們提供圖形以及時(shí)間等相關(guān)信息,方面我們確定故障所在。
數(shù)據(jù)展示:Web界面展示、移動(dòng)APP。
監(jiān)控報(bào)警:電話報(bào)警、郵件報(bào)警、短信報(bào)警、報(bào)警升級(jí)機(jī)制等。
- 報(bào)警處理:當(dāng)接收到報(bào)警,我們需要根據(jù)故障的級(jí)別進(jìn)行處理,比如:緊急、一般等。根據(jù)故障的級(jí)別,配合相關(guān)的人員進(jìn)行快速處理。
硬件監(jiān)控:早期我們通過機(jī)房巡檢的方式,查看硬件設(shè)備燈光閃爍情況判斷是否故障,這樣非常浪費(fèi)人力,并且是重復(fù)性無技術(shù)含量的工作。系統(tǒng)監(jiān)控:通過服務(wù)器遠(yuǎn)程管理口IPMI等,對(duì)硬件詳細(xì)情況進(jìn)行監(jiān)控,并對(duì)CPU、內(nèi)存、磁盤、溫度、風(fēng)扇、電壓等設(shè)置報(bào)警設(shè)置報(bào)警閾值(自行對(duì)監(jiān)控報(bào)警內(nèi)容編寫合理的報(bào)警范圍) 。應(yīng)用監(jiān)控:硬件監(jiān)控和系統(tǒng)監(jiān)控部署后,我們進(jìn)一步操作是需要登陸到服務(wù)器上查看服務(wù)器運(yùn)行了哪些服務(wù),都需要監(jiān)控起來。應(yīng)用服務(wù)監(jiān)控也是監(jiān)控體系中比較重要的內(nèi)容,例如:Oracle、MySQL、JBoss、Tomcat、Nginx、Redis、RabbitMQ等,相關(guān)的服務(wù)根據(jù)具體應(yīng)用系統(tǒng)部署情況都需要監(jiān)控起來。網(wǎng)絡(luò)監(jiān)控:網(wǎng)絡(luò)監(jiān)控是我們構(gòu)建監(jiān)控平臺(tái)是必須要考慮的,作為下連各地市路段收費(fèi)站,上連接交通部聯(lián)網(wǎng)中心的聯(lián)網(wǎng)收費(fèi)系統(tǒng),需要時(shí)刻掌握各地市到數(shù)據(jù)中心機(jī)房的網(wǎng)絡(luò)狀態(tài)。尤其是針對(duì)移動(dòng)支付、閩通寶、ETC門戶等使用場景,其互聯(lián)網(wǎng)出口多路由鏈路的網(wǎng)絡(luò)狀態(tài)都是我們需要重點(diǎn)關(guān)注的對(duì)象。日志監(jiān)控:通常情況下,隨著系統(tǒng)的運(yùn)行,操作系統(tǒng)會(huì)產(chǎn)生系統(tǒng)日志,應(yīng)用程序會(huì)產(chǎn)生應(yīng)用程序的訪問日志、錯(cuò)誤日志,運(yùn)行日志,網(wǎng)絡(luò)日志,我們對(duì)這些日志進(jìn)行收集、過濾、存儲(chǔ)、查詢、展示,通過日志監(jiān)控分析發(fā)現(xiàn)系統(tǒng)潛在問題。安全監(jiān)控:安全監(jiān)控是數(shù)據(jù)中心系統(tǒng)監(jiān)控重中之重,我們主要通過接入第三方服務(wù)廠商,第三方廠商提供全面的漏洞庫,涵蓋服務(wù)、后門、數(shù)據(jù)庫、配置檢測、CGI、SMTP等多種類型。全面檢測主機(jī)、Web應(yīng)用漏洞自主挖掘和行業(yè)共享相結(jié)合第一時(shí)間更新0-day漏洞,杜絕最新安全隱患。性能監(jiān)控:全面監(jiān)控網(wǎng)頁性能,DNS響應(yīng)時(shí)間、HTTP建立連接時(shí)間、頁面性能指數(shù)、響應(yīng)時(shí)間、可用率、元素大小等。網(wǎng)頁性能主要應(yīng)用在集團(tuán)公司外網(wǎng)門站、ETC門戶、協(xié)同辦公門戶、12122路網(wǎng)監(jiān)測系統(tǒng)等。業(yè)務(wù)監(jiān)控:重要的業(yè)務(wù)指標(biāo)進(jìn)行監(jiān)控,并設(shè)置閾值進(jìn)行告警通知。比如驛佳購服務(wù)區(qū)零售系統(tǒng):每分鐘產(chǎn)生多少訂單、每天有多少活躍用戶、每天有多少推廣活動(dòng)、推廣活動(dòng)引入多少用戶、推廣活動(dòng)引入多少流量、推廣活動(dòng)引入多少利潤等,重要指標(biāo)都可以加入業(yè)務(wù)監(jiān)控系統(tǒng)上,然后通過大屏展示。監(jiān)測報(bào)警主要途徑是短信、郵件、微信等。一般報(bào)警后故障如何處理,首先我們可以通過告警升級(jí)機(jī)制先自動(dòng)處理,比如Nginx服務(wù)down了,可以設(shè)置告警升級(jí)自動(dòng)啟動(dòng)Nginx。但是如果一般業(yè)務(wù)出現(xiàn)了嚴(yán)重故障,我們通常根據(jù)故障的級(jí)別、業(yè)務(wù),來指派不同的運(yùn)維人員進(jìn)行處理。當(dāng)然不同業(yè)務(wù)形態(tài)、不同架構(gòu)、不同服務(wù)可能采用的方式都不同,這個(gè)沒有一個(gè)固定的模式套用。