歡迎您光臨本站 註冊首頁

[轉貼]從hilinux.com架設談網站或其他伺服器運維

←手機掃碼閱讀     火星人 @ 2014-03-03 , reply:0

[轉貼]從hilinux.com架設談網站或其他伺服器運維

看到chinaunix最近出的門戶網站運維板塊veyron大俠寫的文章《門戶網站運維abc》深有感觸,特寫以下文章:

《談網站或其他伺服器運維》,這裡只談運維工程師所要做的細節工作,讓人們知道運維工程師到底都在做些什麼,至於上級所要做的,只是提一下,不做參考。

以下是個人觀點,我說的只是我自己的想法,也是我發展的目標。你可以有異議,我們是來交流的。你對的我肯定會向你學習。因為我也在摸索。運維工程師至少要能做以下的工作
1,網路工程師的工作    你至少要能配置CISCO 6509以下的設備,熟悉各種網路協議,否則網路出問題的時候你會傻掉。
2,系統工程師的工作    你至少要理解各種系統服務,在出問題的情況下要迅速解決問題,而不是等系統工程師來解決。
3,安全工程師的工作    我不要求你一定要會各種網路編程,但是在伺服器收攻擊的情況下,沒有防火牆的情況下,做一些簡單的處理工作。
4,存儲工程師的工作    至少要熟悉各個廠商的設備,各種備份和還原的辦法
5,測試工程師的工作    在新版本上線之前,你至少要協同測試工程師做測試工作,因為你是運維人員,不了解程序架構導致無法解決故障,你也有一份責任。
6,研發人員的工作      運維工具都需要自已開發,熟悉開發語言,需要有過實際開發經驗,否則工作會非常痛苦,我深有體會。
7,英語               不想說了,我的最大痛苦就在這裡
8,好的溝通者         不出問題時候你可以打遊戲睡覺,出問題的時候要能和項目人員溝通,快速解決問題,而不是推;我知道有很多人能推責任,你可以做替死鬼,但是離開這個工作你還能找到更好的;把責任推到別人身上的人,下次出問題的時候,絕對沒人幫你。你要能和各個兄弟部門關係非常的密切,出了問題有兄弟幫你擔責任;也要能非常扯皮,沒事在會議上把別人都搞定。
9,庫房管理員         數萬台伺服器讓你來管理,任何丟失或者損壞都是不負責任和失職的表現。
10,運動員            不要回家就睡覺,有空還是運動下吧;在伺服器down機的時候,機房恰巧就你一個人,機櫃沒有空間,你需要更換一台HP 585 4U的伺服器,滿配約80公斤的伺服器,你怎麼做?
11,責任心            這個我不想說什麼,這是你的職業精神。
12,組織者            給你2個啥都不會的民工,再給你2000台伺服器,要求你2天把伺服器裝完,你咋辦?
13,1-7條中,你必須有一條非常精通,是這個行業的專家。否則過了32歲,沒有公司要你。

大家看了肯定覺得這個人是神仙,但是這必須是你慢慢能做到的,至少是我6年來運營經驗的一點總結。
因為現在的公司都在用招聘民工的錢招聘神仙,其次我也是想讓各位看看,運維工程師要擔負多少責任。
我去面試過的一些公司都說,你什麼都會,什麼都不精。我說對,正是需要我們這些什麼都會的人領導什麼都精的人。
我這句話沒有貶低大牛的任何意思,只是當時一個臨場的發揮。雖然說完就知道這個面試白來了,但是我還是想為廣大的運維工程師出口氣。
不怕千招會,就怕一招精。這仍舊是我給大家的建議。

最後給大家最後最大最重要的建議,做什麼工作都可以,千萬別做SA。
我把SA的定義成 :speediness  answer 而不是system admin 。為什麼?你可以想象一下哪些工作需要快速響應。網路工程師需要,機房網路骨幹交換機故障,整個機房所有伺服器無法連接,需要快速響應不?系統工程師需要,系統出問題了,要快速響應不?安全工程師需要,伺服器被攻擊了,要快速響應不?存儲工程師需要,公司核心存儲有問題了,要快速響應不?
你可以做研發,出了問題可以測試,可以想辦法慢慢解決;你可以做DBA,出了問題可以推到網路工程師或者系統工程師身上,說不是DB連接問題;你可以做測試工程師,你說有問題這個東西就可以不上線。。。在出問題的時候,倒霉的就是SA,所以不要再爭論SA包含哪些工作,SA就是一個倒霉的快速響應者,你想,哪個SA 24小時不開手機?哪個SA 晚上可以舒服的睡覺或者安心的出去度假?走在路上一聽到和自己手機簡訊鈴聲一樣的,利馬下意識的抓出自己的手機看看是不是伺服器報警;晚上和老婆 XXOO00,一個電話過來,立馬停下,抓出手機看流量圖;包里放著筆記本,但是因為還要開機,太慢,拿著手機上putty ping或者telnet機器...
這就是大家羨慕的SA ,你也不要抱怨自己做了SA,生活就是這樣。所以不要再爭論哪些xxx員應該歸屬於SA,系統管理員或是運維工程師,如果想做這行,就安生的當一個「快速響應者」,這是你的職業,也是你需要做到的。作為一個SA,你肯定經歷過通宵好幾天加班做事,你肯定經歷過飯買來已經忘記了吃,你肯定經歷過幾天加班沒睡覺,著個沙發坐下就失去知覺睡倒...沒有經歷過不能說你不好,只能說你管理的機器太少。
我公司是每月發21天工資,某兩月我一月發了44天工資一月發了47天工資,創全公司建司7年來加班記錄...項目做完自然也就落了個部門通告表揚,然後的結果就是健康情況急劇下滑,然後就是某天晚上在機房內加班一通宵,穿著短褲進機房,然後一個通宵被機櫃下面的冷風吹了個關節炎。。。這就是做SA的代價。

以下是一些實際經驗,發給大家做參考,有任何問題可以mail我,answer3ai@gmail.com
有的東西是企業機密,我不能透露也不能給你相關文檔。
一,架構設計
現在你要做的,就是設計你的伺服器架構和網路架構。這要先看你的網站是做什麼的,每日有多少的人數訪問,
例如,我打算站點初期每日有20000左右的訪問量,和1000人所有的併發量。我可以用我的人數併發量1000×站點中每個頁面的平均大小200k×每個訪問用戶可能要打開4個網頁=800 000k=800M的網路流量(當然這個數字肯定是非常的過分,至於為啥,自己可以想下)
然後可以用測試環境用軟體檢測在你的真實環境下的伺服器壓力,比如在2000人在線的情況下,伺服器的cpu佔用多少,內存佔用多少。
那麼你可以得到你大致配置,其實市面上的標準伺服器配置都足夠你用了,比如現在的DELL 1950,HP DL360G5,IBM X???(忘記了)
等伺服器,足夠我跑一個這樣簡單的網站。其實說白了,雙奔3都夠,真的。當然你網站的流量比我要大的多,那你可以買的更好一點的伺服器。或者負載均衡器。

網路架構
站點現在是一台獨立伺服器,未來採用的是分散式架構,比如bbs.hilinux.com是一台伺服器,man.hilinux.com是一台伺服器...
mysql是一台伺服器。這樣你要算伺服器要多少台,交換機要多少口,防火牆要買什麼級別的。
那些伺服器可以放在一個防火牆下,哪些伺服器不用防火牆保護,哪些伺服器是內網伺服器,
需要什麼樣的網路連接,最好是畫出大致拓撲,方便你預算設備花費。

伺服器交換機等設備選型和購買
說的簡單點就是買什麼機器,你可以和google一樣開始,買幾台pc作為你的網站伺服器,也可以自己組裝一台伺服器
或者也可以和我一樣,去挑選品牌伺服器當然,現在你要看你伺服器做什麼的,
你可以親自去電腦城看組裝伺服器,也可以打電話到IBM,HP,DELL的各地銷售商讓他們送伺服器來測試,
當然你不要告訴他們你只買一台,那你就別指望測試了。我告訴供貨商hilinux.com需要200台伺服器,一個F5,10台CISCO 2960交換機,3個NETSREEN206防火牆,一個EMC CX500+滿硬碟
那麼不到3天,hilinux.com所需要的4台測試伺服器,就送來了。。。當然,不要牛了這麼多最後只買1台,那麼你晚上走夜路會被人打的。
最後就是價錢問題了,這個你自己看著辦吧。讓你公司的財務或者採購出馬砍價付錢就是了。當然,除了伺服器的服務,你最好還是想想有利於自己的服務,比如人家公司可以幫你拆箱子了什麼的。我做的最弱智的一件事情就是,來了400台伺服器,50個交換機,8台EMC,我一個人花了一星期把箱子才全部拆完。。。

機器選型的時候你也要為自己考慮,比如HP的ILO功能,可以讓你遠程BIOS級操作伺服器,比如浪潮的自動資產管理等等,為自己管理伺服器提供便利,否則機器10來台還好,100台還一般,我這裡3萬來台,我不死幾百遍了。丟失一台伺服器,幾個月工錢就沒了。。。

二,IDC選擇
首先要看你服務的地區是哪裡,然後再去找當地的電信機房。畢竟,雖說全國已經互聯了,但是各地的網速還是有差異的。
或者說有的idc機房利用率高,雖然出口帶寬大,但是利用率高的結果是導致你網速慢的原因之一。
我的做法是在全國各個機房的伺服器用pingplus這個軟體進行一周的的流量測試。可以看到平均丟包,最大延時等等。
當然,你也可以到你目標服務的地方,找個可以上網的地方進行網路測試,比如說網吧包個機器。。。

好了,網路測試完了。那麼你已經決定去哪個idc了吧。

然後你就可以電話或者自己提著禮品登門拜訪一下IDC服務商的老大了
當然,你也可以找代理服務商,因為他們拿到的價錢有時候比電信或者網通給你的價錢低,但是,關鍵還是一個服務,因為你畢竟伺服器放在那,晚上關鍵著急沒人給你重啟,機器出了問題其實按個F1就可以解決的問題,服務商的值班人員不懂。你就只能打晚上的打飛機去機房維護吧。
提著東西拜訪一下服務商老大是禮節性的東西,東西不在多而在精,這樣你未來談事情人家也給你綠色通道,做事情要好做很多。當然,我也不反對你空手去,你一次租個100個機櫃+10G帶寬,人家還是很優惠的。哈哈。大家都是混口飯吃,也不至於難為你什麼。
最後你要知道現在的中國還是賣方市場,你給人家牛,那你買的產品只能是。。。蒙牛

然後是開始去參觀機房
細心的檢查一下空調數量,空調出廠和最後維護日期,網路布線類型和架構,是否可擴展,主備從電力等。
基本都是非常關鍵的東西,出問題了,人家可以給你更換一個新的,服務很好,但是你伺服器掛一天的損失是多少,你可以自己掂量。
還有機櫃電力,現在的機櫃放置16台1U的伺服器是正好,多了過於熱,少了資源浪費;但是你發現人家只讓你用10安培電力,過了要交錢買電;
或者不限制你用電,但是插線板只有10個,你還真買個托線板去轉接?你要想想你一個托線板掛了,你伺服器要掛幾個?

最後,我的一個機房包間里140個機櫃,2個空調,結果某天掛了一個空調,雖然6小時人家IDC商就給更換了一個空調機(這速度已經非常快了),
結果我機器至少被熱死了100台以上,機器是HP的,機器過熱,HP會自動關機,而且會不讓你啟動。你崩潰不?註:不是給hp做廣告哈。

三,伺服器上架
好了,要是你買的伺服器到了,你會發現你接到電話后,樓下一個N大的「擎天柱」集裝箱車給你送伺服器來。。。(某次我收2000台伺服器就是這樣的陣勢);在這裡有個重大的提示,你們財務給廠商下單的時候,收貨地址一定要寫對。比如 XX路XX號XX大廈XX樓XX室,你寫到xx號,送快遞的會給你堆到院子里,你寫到xx樓,送快遞的會給你送到電梯口,你寫到xx室,他們才會給你搬到室內。因為送貨的都是伺服器廠商找的,你因為這個事情去聯繫廠商修改送貨地址,至少要多等N小時。而且他們視你的單子的數量和樓層,判斷來多少搬運人員。而且,一定要把伺服器搬到你指定的地方再簽字收貨,否則...嘿嘿...
我最霉氣的是:來了20台機器(還好不多),下著大雨人家給我往院子里一丟,讓我自己搬上19樓,我沒推車沒啥的...
你可以說,找電信的幫忙撒,廢話,這個我還不知道。那我告訴你,我在某電信大樓工作時,從CCIE到機房主管到機房工作人員,全部是美女...
雖然我在這個地方只幹了5天活,我的同事們口水都有3尺長...你還叫人家給你搬機器不?
你可以說,顧民工撒,我又不是沒顧過,錢得你自己支付,公司不給你報銷的話,爽不?

下面是拆箱子,面對著堆積如山的2000台伺服器,我是連抬手的力氣都拿不出來。。。當時機房只有我們公司3個人+電信值班2個人。。。
這時候,我的辦法是。。。我打電話找來了2隊收廢品的:
這麼多箱子,除了機器和電源線留下,裡頭的導軌光碟等等你全部拿走,誰拆的多誰拿的多。。。
最後按照我的要求幫忙搬到機柜上。。。於是我們5個人是監工。。。看人家拆箱子搬機器。
於是人家2隊人找來了30多號人,一早上把2000台機器全部拆箱子完畢放到機柜上。
要是我們幾個人拆,估計......

最後再說個行價,伺服器箱子一個價值5塊錢甚至更多。你伺服器到了,賣賣箱子請大家吃飯吧。別讓掃地的阿姨拿走,,,幾個無所謂,10來個箱子,,,夠大伙兒吃頓烤肉了。。。還有EMC的木箱子。。。拿去養個小雞小鴨的。。。

42U機櫃1U的伺服器最好是16台。你就看著上吧。呵呵

四,安裝系統和布線

好了,面對幾千台伺服器開始裝系統,我不知道你會怎麼想。。。
全部是1U伺服器有什麼辦法安裝系統?(我們公司窮,買不起刀片;而且電信不配合,要是上刀片,電路你們自己拉線,價錢還是原來的價錢;最重要的...我們公司以人為本,寧願多養個人也不願意買個好伺服器讓人失業),而且不允許GHOST,因為你這是伺服器,不是網吧...GHOST出來的系統,我不知道誰用過,爽不。我自己是鬱悶鬱悶到了,莫名問題的時候,你就知道GHOST還是靠不住的。
其次,我們公司安全部要求:必須得一台一台安裝,先安裝光板的系統(比如沒有SP的WIn2000),然後手工打SP4補丁,不能網路打補丁。於是我們就光碟堆成山。最扯淡的,為了快,我做了一個補丁共享的伺服器,所有的補丁CP的本地來打。結果忘記拔網線,導致人家說我們是插了網線打補丁,有中毒的危險,需要重裝。我直接崩潰。。。

辦法1,你可以1台1台慢慢裝,反正這麼多機器,你可以管公司要更多的時間。但是我們公司一般是機器到了,最多2-3天就要要,一向是那種計劃不如變化快的沒有計劃沒有進度管理的「小」公司,項目組拿著雞毛當令箭,牛x哄哄的公司。鬱悶!
這個時候前期的準備就比較重要了(我公司多用windows2003),因為首先我要裝一個光系統,再打驅動,再打補丁,再安裝遠程控制軟體。一台機器裝完大約要1小時多點。那麼機器多了怎麼辦?光碟不夠怎麼辦?等等問題就來了。
我的辦法是,我一看TMD全部是DVD,IBM的機器直接佩combo,公司給我們發的全部是CD,娘的,典型的沒有最慢只有更慢,除了問題閑你慢的領導班子。於是只好自己出錢買了DVD,用軟體把RAID,網卡,顯卡其他驅動做到光碟里,需要安裝的軟體也直接做成自動安裝的方式,補丁也刻錄到光碟里(我們要求補丁必須單打,不能安裝集成補丁的ISO,shit),這樣弄,你只用把光碟往光碟機里一丟,分區一分,就可以下一台機器了。然後等你在去關注這個機器的時候,已經可以設置IP插網線了。靈感來自番茄花園。吼吼。
當然這時候你最好是買個KVM,16口的KVM,一次準備16張光碟就可以用一套鍵盤滑鼠操作16台機器。當然啦,KVM是可以級聯的,我最牛一次一次一套鍵盤安裝166台機器。鬱悶的是,塞光碟塞死,插KVM線插死,配置IP配死,有時候還會弄錯。。。

辦法2,你可以用NETKVM去遠程安裝,但是你插那些NETKVM的線路,2000個插下來,爽不?然後你繼續扎KVM和網線的時候,看著和瀑布一樣的網線和KVM線交錯在一起。估計直接崩潰。遠程KVM有的牛x的是可以分發ISO的,就是傳說中的遠程分發安裝。可以自己買一個研究研究了,我們公司以人為本,從來不買這類高科技。

辦法3,我犯賤時候發明的:我們的機器全部是RAID1,於是我安裝一台raid1的機器,系統全部安裝好,然後拔掉一個硬碟,插上一個新硬碟自動恢復鏡像,基本10來分鐘恢復好一個硬碟,插到機器上去。這樣,還是比裝系統來的快。當然啦,型號是一模一樣的。。。

辦法4,HP的ILO2功能,實現遠程分發。前提你得一台一台配置好BIOS里的ILO2。也是蠻痛苦的。IBM和DELL現在也都有這個功能,但是你在分發以前,還是得一台一台機器插上網線,配置好BIOS的IP,痛苦。然後把操作系統和機器的驅動程序和後續的軟體全部做到一張DVD里,讓他自動運行。然後所有的伺服器遠程運營這一個ISO,最好多弄幾台,否則一台機器弄的慢死。

辦法5,絕對最簡單的辦法!!!就是買機器前,讓廠家給你在硬碟里灌好系統,和你買筆記本一樣,打開是個安裝完成需要你輸入序列號的系統。但是弱點是後續的軟體需要自己裝。因為伺服器廠商是不會幫你安裝別的軟體的。

還有更多的辦法,只是暫時沒想到,大家也可以談論自己的辦法。互相交流嘛。
所以我喜歡linux...可以用N種辦法安裝系統...

windows就是個讓IT人當裝機男,挨踢人當民工。

好了系統裝好了,電源線和網線連接完,和瀑布一樣的。這時候還是盡量把他扎一下吧。
否則機器通風不暢,會導致熱死。


簡單辦法就是電源線扎一邊,網線扎一邊。有錢的公司可以買個網線序號標,沒錢就自己拿膠布標。
你可以隨便扎,或者和給你老婆梳頭一樣,好好扎。哈哈
插交換機的時候,從上往下,從1-24往後,這樣網路異常,數一下就知道了。
想來想去這裡也沒啥值得關注的地方。所以就幾行帶過。
有問題可以直接發郵件我或者回帖問。

五,資產統計
假如你的機器只有2000台反而好容易管理了,但是現在我要管理的全國IDC有31個,平均每個機房有不同品牌伺服器1500台。
一共大約有45000台的樣子(我的資產管理系統里的數字,不包含交換機,防火牆等)
這時候怎麼辦?
每季度和財務小MM一起出去旅遊盤點IDC資產,幸福啊...(我們財務小mm很PL的哦)
到了機房就是我一個人幹活點資產,小mm帶著大口罩,披著雙層的放輻射服...
可憐我們這些幹活的,短褲背心,IDC里一呆就是好幾個月(IDC辦公室就在機房邊上...),不知道精子被輻射殺死多少...

1,必須有資產管理系統,雖然這個其實是個很簡單的資料庫,但是你可以把每一台機器的品牌,硬體信息,操作系統信息,購買年限,質保年限等,你非常關注的東西做一個詳細記錄,並配發同一的資產編號。
比如我們的資產號,FWQ-123456
伺服器-123456,這是一個總的資產號,這個伺服器哪怕搬到美國,也是這1個資產,直到丟失,或者拋棄,都是這一個資產,永遠不會變。
比如我現在的板凳就是一個資產號是:伺服器-000010的一個4U伺服器,配置是P2 300*2  256M內存 16G硬碟×4
購買時間是1999年10月,從中維修過1次,升級過1次,在哈爾濱機房-廣州機房-河南機房-北京網通機房-上海公司內部測試機房-上海庫房服役過。
有歷史吧....

2,看過我這個伺服器去過的地方,羨慕不?見證我們公司的發展史。9年過去了,終於成了我的板凳...
伺服器在購買合同確定以後,就應該按照配置記錄資產,並且在財務備案,資產編號一定和財務記錄相同。這樣這個伺服器走到哪裡,都有備案和記錄。現在要把這個伺服器送到某個機房去,搬著走吧...汗
送到機房,我們要給伺服器按照財務給的表格粘貼資產編號,選個順眼的地方,不會磨損的地方。
一般是機器正面某個地方,然後是機器屁股後面某個地方,然後機器側面把手的地方,粘貼3個,以防掉了就煩了。
然後在粘貼這個機器的應用資產號和IP標籤:
應用資產號舉例:FWQ-SH-XX-B31-WEBSERVER  意思是:伺服器-上海-xx機房-B列31號機櫃-web伺服器
IP標籤舉例:外123.234.123.234內10.0.0.1。這2個標籤你可以分開也可以在一張標籤上寫清楚。

並且在安裝伺服器的時候。把FWQ-SH-XX-B31-WEBSERVER-123-234  把這個作為你的HOSTS信息,windows里叫做計算機名
這樣遠程上來都非常清晰自己在哪個伺服器上,出問題時候也非常容易找到這個機器,不要閑麻煩,一切的麻煩都是為了以後快速的解決down機問題而做的。
當然啦,甚至在密碼管理上你也可以用這個規則來設置密碼,但是最好規則別讓別人知道了...

3,把這些信息全部錄入你的資產管理系統
系統無非伺服器名,IP信息,用途,機架位置,或者是否在使用一類的,我就不多講了

4,資產系統軟體交互,也可以說是監控系統。
企業可以開發一個軟體,在裝機的時候安裝到伺服器上。然後資產管理系統定時去取伺服器上的信息,比如網路流量,CPU內存硬碟負載一類的東西,這樣你的資產管理系統又變成了一個監控系統;
當然啦,你也可以在資產系統里集成一個遠程桌面管理系統,自動載入用戶名和密碼,還有隨機碼,就可以登錄系統。省的還得管理伺服器密碼。

然後用戶的訪問許可權不同,看到的節面許可權就不同。
比如說,監控人員沒有登錄許可權,或者IDC人員沒有登錄許可權一類。許可權分配你自己研究好了。

5,還是IDC的工作。
話題繼續回到我和財務小mm去盤點(你公司比較大的話,你可以多派幾個人分開去各個地方...)
小mm一看我們機房伺服器黑壓壓的一片,鋪天蓋地的,直接無語。為啥,因為要拿著資產表一個一個核對,面對幾千個機器,直接暈倒。
雖然按照資產管理系統里導出的信息,機櫃號,IP號,機器從上到下的順序都非常精確,但是你一個一個核對,還是慢。
怎麼辦?
庫房管理的工作用上了,哈哈。你買伺服器或者買筆記本電腦的時候有沒有注意到箱子上的條碼?
那個條碼非常清楚的記錄了這個機器的詳細信息。所以黑莓手機或者NOKIA手機(別的我沒用過)都有掃描條碼的功能...好像與主題無關...

那麼剩下的就簡單了。
去買個這種條碼標籤的印表機,編輯成自己需要的條碼,一個一個貼好,上面有你所有需要盤點的信息...
比如我們是從資產到機櫃號到伺服器名字到內外網IP都要盤點...小崩潰

列印出來貼上去。然後買個掃描槍,和超市那種一樣,不過你要買有存儲功能的,否則你要端著筆記本去掃描,SB了。
然後我和財務mm本來需要一個人念號碼一個人核對(你要直到在機房裡大喊資產號,喊一天的結果是啥,自己想),現在一個人拿一個掃描槍,按照規則一個一個掃描。完成後把數據導出后重新整理分析。直接和資料庫核對(當然這個也需要你自己開發),核對完成生成一張表。
表上寫的非常清楚你哪個機架沒有哪個機器,哪個機器不在特定的位置上,哪個機器缺少..........等等
這樣比如說,機器位置不對扣5塊錢工資,機器IP不對扣2塊錢工資,或者...反正扣到最後...這月不給發工資了,還得倒貼點...哈哈哈
《解決方案》

六,監控架構
監控架構其實每個地方都有自己的做法,我也知道我的辦法不是很先進,但是仍然拿出來和大家一起討論
首先談談監控軟體,一說起這個常用的東西MRTG,cacti一類的就都可以用了。只要稍微歸類一下,流量展示看的還是很清楚的。
要是要監控服務一類的,那就只好啟用大名鼎鼎的nagios,和一些牛x人基於這個做的一些別的商業軟體。
或者就是自己做個腳本去定時探一下,不通了給你發郵件了啥的,你vim一下nagios的chack_xxx ,學習一下裡頭人家探測的辦法,自己也能搞出來個啥東西,都還是很不錯的了。

作為IDC工程師,我們所要關注的東西就是個流量了,我們要很清楚某台65下的某台35上每個口的應用,當遭受攻擊或者流量異常的時候,一眼就能知道是怎麼回事。我不相信你天天看著10M的流量,某天突然一下給你來個80M,你說這是正常事件吧。哪怕正常,你也找相關的人確認一下吧,一個100m口跑 80M,估計電信的人都來找你了。

每天看著這些流量圖是很枯燥的事情,那麼我們沒事只能想辦法讓他自動報警給我們了,於是EMAIL報警,然後把他發送到一個有手機提示新郵件的郵箱,你手機就有了。MSN報警,還是不錯的吧,手機報警一類的辦法都是不錯的。這樣你你可以和我一樣放心的去打網遊了。
這裡只談經驗,不談詳細的技術,因為我一說我的系統架構地球人都知道我是哪個公司的了,雖然已經離職,但是咱也有個職業道德,謝謝。

當然了,有些公司是有網路監控部門的。但是我就一直在想這個問題,所有的數值都可以用簡訊報警,你隨時都可以收到信息。用這個部門幹啥,讓一群可憐的傢伙 8小時一動不動盯著屏幕,公司又在他們電腦上安裝了抓屏軟體,上班事件聊天上網就扣錢...我估計他們每天最期望的事情也莫過於伺服器掛了,可以給我們打個電話重啟個伺服器或者連到伺服器上檢查一下啥問題,重啟個服務了啥的。當然了,這些兄弟最後的職業方向也只能是進入運維部門了,至少公司伺服器down 機維護的流程性東西掌握的非常熟練了。但是這是用好幾年時間換來的經驗,太...所以我是奉勸兄弟們有發現監控部門招聘人,就別去了吧。面前8台顯示器,猛一看還以為是黑客帝國吶,結果仔細一看全tmd是流量圖。常年對著8個顯示器,那個輻射...
我就不清楚設置個節點,出現問題告訴人,人去操作會死啊,非要讓人和機器一樣一動不動的盯著顯示器,TMD,官僚。雖然我沒經歷過,但是想也能想到。做SA,最大的要點是懶,把一些需要人做的事情都自動化...但是話說回來,我公司以人為本,人海戰術嘛,可以理解。


上面的帖子位子已經滿了,下來的帖子在這裡寫。打算寫的東西的列表,大家也可以問任何問題在回帖,我會回復的。
我大概通讀了veyron 大俠的文章,認為系統架構方面的我絕對不如他。我就不在這裡賣藝了,那麼我賣企業都會實際面對的一些問題。

1,自動化,流程化你的信息管理
(剛被一起2年的mm一腳踹了的鬱悶中恢復過來,繼續寫)
為什麼要自動化,這年頭流行辦公自動化,你丫沒事還拿著工單四處簽字,老土了吧。
為什麼要流程化,這念頭流行流程管理,假如你公司沒有一個固定的流程管理,出了事情,大家都不知道怎麼做,各個部門的電話亂打,大家都一鍋粥沒有效率。所以,未雨綢繆,在沒有出問題的時候,模擬出問題,多多準備,建立規範的流程,公司的每個人都要遵守,這樣,流程化的管理+辦公自動化,大家只用在電腦上翹翹鍵盤,點擊確定,流程就發出去,一路審批,OK,流程發送到做事的人地方,也許這個做事的人在美國,也一樣方便。

上面說的是一個原理和意思,用這樣的理念去管理你的伺服器應該如何去做?當然了,你假如只有10來台伺服器,就不用考慮這個了....
首先伺服器採購錄入資產管理系統(詳細見上面有寫),伺服器的去向和調度都在管理系統里有提現。

這裡說的是:如何去上架,維修,下架等流程式控制制
先說上架下架:伺服器到機房以後,別人要用伺服器怎麼辦?先可以到你的資產管理系統里,看你機房還有什麼配置的機器多少台,然後讓他們選擇自己項目伺服器的配置,數量。在流程管理系統中,把這些機器選中,生成一個表單,表單名字為xx項目上架需求,寫清楚誰用,做什麼,數量,哪個機房等。然後提交給他們部門領導,他們部門領導同意后,轉給需要審批的領導,一層層下來,流轉到我們部門領導,我們部門領導流轉給部門機房員工,員工收到流程,檢查上架下架伺服器;如要上架,安裝完系統后填寫IP,機器名,機架等相關信息。如要下架,刪除相關信息,提交給流程式控制制的人員,流程式控制制人員確認后,這個流程完成。屆時,所有的人審批過的數據,經手人,資料庫里都有,出現什麼問題找相關責任人,一下就找到了,省的和某些XX部門JJYY。
維修也一樣了,機器壞了,或者需要重裝系統,按照上面的流程,一步步走一遍,就可以了。年底統計機房一天要干多少活,省的某些領導認為機房人TMD都在閑著。機房的人呢?沒有流程不幹活,否則白乾。

在流程系統里重啟伺服器,重啟伺服器要是要流程,就太慢了,那麼你可以做一個綠色通道,寫清楚原因,重啟哪個機器,直接提交給相關機房人員,在你的流程系統里綁定一個簡訊網關,機房人員可以收到需要重啟伺服器的簡訊。準確無誤。

這樣代替了無紙化辦公,既有自己做的事情的每一個記錄,又有相關人員管理,可以量化自己的工作,免得年終獎的時候xx人有說你乾的少,發的少。你把記錄拉出來對比對比就知道誰多誰少了。

期待大家回帖討論

2,如何升級你的伺服器
伺服器老了,或者需要加內存加硬碟,怎麼升級。
雖然說是很簡單換個CPU,加個內存,加個硬碟很簡單。
但是,如何控制你的配件不丟失,確定的安裝到機器上利用了呢?
簡單,在伺服器上做一個探測伺服器配置的客戶端,每天探測一次硬體配置發送到資產管理伺服器上。
與資產管理系統的硬體配置做對比,出了問題就報錯發一封郵件到機房工作人員,抄送流程式控制制人員一封就可以了。

至於的加內存的時候注意型號啥的問題就不說了,大家應該都沒問題了
要說的是,假如你一個機柜上放的機器比較多,比如4個6個機器一摞,恰巧壞了,恰巧一個人在機房,非得解決,怎麼辦?
簡單,一個辦法,但是還是需要你有力氣,雖然有力學原理
比如有4台伺服器,最下面的壞了,
你可以拽住最下面的把4台一起往出拉,拉出來一點,把上面3台往後推,這樣一點一點的拉出來,
下面最關鍵:
拉到最後,前面要留出來一點,輕輕的把上面3台的尾巴著地,然後一隻手抬住上面3台機器,一隻手拉出下面一台機器。
上面3台一定要留出來一點,否則放下的時候,機器和機櫃托板會壓住你的手,你一鬆手,機器震一下,硬碟就掛了。。。
所以在推進去的最後仍舊要留一點在外面,最後放下來了再推進去這最後一點。
然後就可以換或者加內存了。相對比較省勁,不危險,不會壓倒自己,不會砸壞伺服器的辦法就是這樣了。

期待大家有更多更好的辦法交流。

3,硬體故障保修技巧交流

4,廢舊伺服器庫房管理交流

5,淘汰伺服器處理交流

6,運維工作人員飲食結構交流(囧)
《解決方案》

哇塞 佩服 瑞兒姐姐
《解決方案》

http://bbs.chinaunix.net/viewthread.php?tid=1284889&extra=page%3D1%26amp;filter%3Ddigest
《解決方案》

登錄UP一下.
《解決方案》

應該是 3個NETSREEN204/8防火牆
《解決方案》

好文章,頂一下
《解決方案》

SA就是不好當

[ 本帖最後由 chinalinuxer 於 2010-1-8 23:41 編輯 ]
《解決方案》

看得眼睛痛,收藏改天繼續。。。。
《解決方案》

頂一下

[火星人 ] [轉貼]從hilinux.com架設談網站或其他伺服器運維已經有480次圍觀

http://coctec.com/docs/service/show-post-2795.html