linux伺服器集群運維經驗

←手機掃碼閱讀火星人 @ 2014-03-08 , reply:0

5000 以上的伺服器節點,包括各種應用,我和同事共同維護大約2500 的伺服器,主要包括一些視頻cdn,直播視頻cdn,webcdn和p2p伺服器.

以下是自己在運維工作中的一點經驗和看法,希望對大家有所幫助

1. 伺服器型號的區分,為以後的統一化和標準化作硬體上的準備,很多人忽視這一點,其實如果這一點做得好會使後面的運維工作輕鬆很多,根據應用我們主要把伺服器分為3中,cpu密集型,主要用於大量計算應用,比如p2p;內存密集型,用於cache類應用,比如

squid,varnish緩存伺服器；磁碟密集型,用於大存儲類應用,比如視頻存儲伺服器,hadoop日誌存儲集群.

2. 系統的的自動安裝,主要有kickstart和cobbler

統一的yum源和定製化的rpm包, 並集成至yum源站,為後續的環境初始化做軟體上的準備

4. 構建專屬於自己的內網

DNS

5. 標準化的統一的命名方式（標準化基礎）,便於使用puppet管理,並且減少操作的錯誤,如果每個機器的hostname都為localhost,那將是一個多麼可怕的事...在我們的生產環境中主要使用下面這種命名方式

機房

-主業務-應用程序-IP后兩位-公司域名,這樣一眼就可以看出是哪台伺服器,應用於什麼業務,報警也可以直接定位.

6.自動化的配置管理和環境部署工具：puppet,puppet的模塊編寫要盡量減少模塊直接的耦合度,並使用

class繼承的方式來減少運維的工作量,定製化的facter變數會使軟體的配置環境更加靈活,由於puppet暫時不支持群集,

在實際應用中需要部署多套,根據經驗,1500台左右的server時puppet會出現性能問題.

7. 強大有效的監控系統,在生產環境中我們使用了zabbix proxy zabbix master的群集結構,zabbix可以實現有效的系統和應用級別的監控,應用監控同時也使用了ppmon來實現多點監控.

選擇zabbix有一個最大的好處,就是監控數據是存放在資料庫中的,這樣就可以利用資料庫中的數據做很多操作,比如可以分析一段時間內伺服器的各個性能指標,查看伺服器的資源利用率,可以對數據進行聚合操作,從而分析全網的指標,比如總的流量,總的

http code分佈情況.

8. 日誌收集伺服器群集和qos分析系統,構建有效的日誌收集系統可以有效地對用戶的訪問數據進行整合和分析,可以快速的分析qos,對應重要的節點我們採用本地分析並導入

mongodb,

導入zabbix的方式,非重要節點則直接將日誌打包壓縮,通過ftp上傳至hadoop數據倉庫集群中.

9. 構建冗餘的結構,消除單點,在生成環境中對於一些重要節點都採用keepalived-ha的方案來提高冗餘度.對於

resin,php等應用伺服器則在前端使用nginx做反向代理,同時nginx使用keepalived-ha

10. 自動化的代碼分發系統,主要是controltier svn的使用,可以方便快速地部署代碼.

以上是自己的一點經驗,歡迎大家來拍磚.

本文出自「菜菜光的博客」博客,請務必保留此出處http://1662935.blog.51cto.com/1652935/846177

Tags: linux system 系統

[火星人 ] linux伺服器集群運維經驗已經有743次圍觀