RHCE配置集群遇到的問題 百思不得其解啊
有兩台節點RC1、RC2,在RC1上配置了集群,然後把cluster.conf文件同步到RC2
在RC1上先啟動cman、rgmanager、clvmd,但是在啟動cman的時候 到了starting fencing的時候就停在這不動了,直到RC2啟動cman,RC1才能啟動,這是問題1
問題2:兩台節點的cman、rgmanager、clvmd服務都正常運行,但是我在RC1上用clustat命令查看集群狀態,命令就停在這不動,顯示不出結果,在RC1上看var/log/message的信息如下:
# tail -f /var/log/messages
Apr 19 01:21:55 RC1 openais: The consensus timeout expired.
Apr 19 01:21:55 RC1 openais: entering GATHER state from 3.
Apr 19 01:22:10 RC1 openais: The consensus timeout expired.
Apr 19 01:22:10 RC1 openais: entering GATHER state from 3.
Apr 19 01:22:25 RC1 openais: The consensus timeout expired.
但是我在RC2上用clustat命令查看的集群狀態信息如下:
# clustat
Cluster Status for RC_cluster @ Tue Apr 19 06:47:47 2011
Member Status: Quorate
Member Name ID Status
------ ---- ---- ------
RC1 1 Offline
RC2 2 Online, Local
上面的信息顯示RC1是offline,但是RC1的cman等服務都正常運行著呢。
下面是兩台節點上的cluster.conf文件,麻煩給為幫我看一下 分析分析
謝謝
# cat /etc/cluster/cluster.conf
<?xml version="1.0"?>
<cluster alias="RC_cluster" config_version="7" name="RC_cluster">
<fence_daemon post_fail_delay="0" post_join_delay="3"/>
<clusternodes>
<clusternode name="RC1" nodeid="1" votes="1">
<fence>
<method name="1">
<device name="RC_fencing" nodename="RC1"/>
</method>
</fence>
</clusternode>
<clusternode name="RC2" nodeid="2" votes="1">
<fence>
<method name="1">
<device name="RC_fencing" nodename="RC2"/>
</method>
</fence>
</clusternode>
</clusternodes>
<cman expected_votes="1" two_node="1"/>
<fencedevices>
<fencedevice agent="fence_manual" name="RC_fencing"/>
</fencedevices>
<rm>
<failoverdomains>
<failoverdomain name="RC_domain" ordered="0" restricted="1">
<failoverdomainnode name="RC1" priority="1"/>
<failoverdomainnode name="RC2" priority="1"/>
</failoverdomain>
</failoverdomains>
<resources>
<ip address="192.168.0.236/24" monitor_link="1"/>
<fs device="/dev/sdb1" force_fsck="0" force_unmount="0" fsid="1318" fstype="ext3" mountpoint="/share" name="RC_disk" options="" self_fence="0"/>
</resources>
<service autostart="1" domain="RC_domain" name="RC_service">
<ip ref="192.168.0.236/24">
<fs ref="RC_disk"/>
</ip>
</service>
</rm>
</cluster>
現在我把機器給reboot,系統就停在了下面這個狀態,汗。。。集群服務就一直停不了了
《解決方案》
RHCT表示無能為力啊{:3_183:}
《解決方案》
虛擬機測試的話,因為沒有真正的Fence設備,所以啟動失敗
《解決方案》
回復 3# inforhunter
這裡配置的是手動fencing
《解決方案》
我也遇到了同樣的問題,壓在等解決辦法,但是好像是網上有個說法是fence沒有啟動,所以cluster一直在嘗試啟動另一個,但是通信中斷了,所以就卡在那了
《解決方案》
典型的啟動集群無法發現對方節點的現象,問題多在網路方面。
檢查網路相關配置去吧。