請教關於做HA的幾個概念問題

←手機掃碼閱讀火星人 @ 2014-03-04 , reply:0

請教關於做HA的幾個概念問題

請教大家關於HA的幾個概念性問題，redhat as3的環境，謝謝了
1、仲裁盤的作用是什麼？是否是做在陣列上的呢？不配置仲裁盤可以嗎？
2、在配好的HA上添加一個服務，如httpd，在兩個節點上開始都開啟redhat-config-cluster后，在HA監控界面里是否只有一個節點上顯示httpd運行，另一節點顯示不運行呢？
3、我發現如果當前active的節點上的httpd服務停了后，HA軟體會自動把本機的httpd服務起來；如果是當前active的機器都宕機，則HA軟體會把服務移到另一standby的機器上。那就有個問題，如果active機器上的httpd加入起不來了呢，服務還會被移到standby的機器上嗎？
4、心跳連接用什麼方式相對來說比較好呢？

謝謝回復。

《解決方案》

1. 2 node HA cluster中，如果heart beat通信出現問題,比如 crossover cable斷開或者類似的通路上的原因，導致2個健康node都認為對方掛掉，試圖爭取shared resource(比如IP, 共享盤陣上的共享卷等資源),並試圖修改集群成員關係，各自組成一個集群. 這種情況就叫做brain-split. brain-split 的情況發生后，除了爭搶IP導致的網路配置錯亂，更嚴重的是因互相搶奪共享卷組成集群導致共享卷數據讀寫不一致然後被破壞掉.

防止brain -split 有好多方法：
第一種是建立冗餘的heartbeat, 最簡單的就是把heart beat 的path作冗餘，比如bonding或者multi lan switch.或者是一根crossover+串口，都有

第二種是使用fencing技術,
RHCS 用的是fencing 機制，用一個可以被伺服器控制的外部電源控制系統powerswitch來關閉掉一個node,解決爭搶的問題. 如果不用powerswitch,還可以用伺服器上自帶的硬體管理設備，比如HP iLO遠程控制或Dell DRAC, RHCS也支持直接去操控 SAN 交換機來做fencing.故障發生的時候，禁止某個node通過SAN交換機訪問盤陣.

第三種是使用仲裁機制
有些集群使用仲裁, 比如HP MC/SG, 在共享盤陣的最前面單獨劃分一個很小的區域(分區或LUN卷)，不建文件系統，2個node的集群系統在正常運行的時候直接裸讀寫這個區域,交換當前的成員信息，防止brain-split. 這個lun 又叫做lock lun. windows MSCS也使用仲裁盤Quorum Disk/partition的方式來做.

仲裁還可以通過第三台機器作Quorum Server來實現，並不一定要通過仲裁盤. MC/SG建議的方式就是使用仲裁伺服器.

2. 是的

3. 如果配置正確的話，應該如此.

4. 簡單的話用2根反絞線作直連. (如果你按照568B打線，就是1-3 2-6 對換)，然後linux 上bonding 這2個通路. 你也可以連2根線路到2個LAN交換機作bonding.
伺服器離的很近，並且節點只有2個，你也可以用一根反絞+串口線的方式，一般不同的集群軟體都有自己建議的heartbeat方式，你得看具體的產品手冊才知道.

《解決方案》

明白了，非常感謝版主！！

《解決方案》

原帖由 nntp 於 2006-6-5 13:31 發表

第二種是使用fencing技術,
RHCS 用的是fencing 機制，用一個可以被伺服器控制的外部電源控制系統powerswitch來關閉掉一個node,解決爭搶的問題. 如果不用powerswitch,還可以用伺服器上自帶的硬體管理設備，比如HP iLO遠程控制或Dell DRAC, RHCS也支持直接去操控 SAN 交換機來做fencing.故障發生的時候，禁止某個node通過SAN交換機訪問盤陣.

第三種是使用仲裁機制
有些集群使用仲裁, 比如HP MC/SG, 在共享盤陣的最前面單獨劃分一個很小的區域(分區或LUN卷)，不建文件系統，2個node的集群系統在正常運行的時候直接裸讀寫這個區域,交換當前的成員信息，防止brain-split. 這個lun 又叫做lock lun. windows MSCS也使用仲裁盤Quorum Disk/partition的方式來做.

還是有點不明白fencing和仲裁機制
對於fencing，是否就是出現brain-split的時候，首先發現的伺服器使用某種機制關閉集群中的其他機器，來確保數據一致？
對於仲裁機制，是否就是心跳出現問題的時候，通過放在共享磁碟設備上的小分區來交換集群信息，也可以將這個磁碟看做是特殊類型的心跳？如果集群中的某個節點無法正常的向仲裁磁碟中寫入數據，則可以認為這個節點無法正常訪問共享磁碟，從整個集群的角度來說，這個節點已經down掉。

這兩種方式有什麼樣的優缺點？

可否請nntp老大解釋一下？

《解決方案》

fencing 解決的是HA 集群共享卷數據安全性的問題。危急數據安全性的情況除了故障節點對共享卷的錯誤訪問之外，還有brain-split 的時候兩個node 爭搶共享卷的情況.

RHCS防止brain split的方法就是bonding heartbeat NIC+ DLM quorum + fencing , fencing 實際上是防止RHCS防止brain-split 操作的最後一部分了. 你要仔細閱讀RHCS手冊，寫的很明白的，圖文並茂，白紙黑字.

2. 為什麼要把仲裁盤/Lun 看作特殊類型的心跳？雖然有一些人這樣認為，但是我認為是錯誤的，心跳就是健康檢查，Quorum disk/lun就是用來承擔 brain-split之後的tie breaker角色的，解決的是cluster membership, cluster reform和voting 的問題。我看不出這麼清晰的區別有去混淆/合併兩者作用的必要.

3. 你還是好好看看手冊把，基本概念太模糊了，我回答的累，你理解得也累.

Tags:

[火星人 ] 請教關於做HA的幾個概念問題已經有290次圍觀

本文地址：http://coctec.com/docs/service/show-post-9351.html

請教關於做HA的幾個概念問題

請教關於做HA的幾個概念問題

熱門文章

最新文章