歡迎您光臨本站 註冊首頁

RHCE配置集群遇到的問題 百思不得其解啊

←手機掃碼閱讀     火星人 @ 2014-03-04 , reply:0

RHCE配置集群遇到的問題 百思不得其解啊

有兩台節點RC1、RC2,在RC1上配置了集群,然後把cluster.conf文件同步到RC2
在RC1上先啟動cman、rgmanager、clvmd,但是在啟動cman的時候 到了starting fencing的時候就停在這不動了,直到RC2啟動cman,RC1才能啟動,這是問題1
問題2:兩台節點的cman、rgmanager、clvmd服務都正常運行,但是我在RC1上用clustat命令查看集群狀態,命令就停在這不動,顯示不出結果,在RC1上看var/log/message的信息如下:
# tail -f /var/log/messages
Apr 19 01:21:55 RC1 openais: The consensus timeout expired.
Apr 19 01:21:55 RC1 openais: entering GATHER state from 3.
Apr 19 01:22:10 RC1 openais: The consensus timeout expired.
Apr 19 01:22:10 RC1 openais: entering GATHER state from 3.
Apr 19 01:22:25 RC1 openais: The consensus timeout expired.

但是我在RC2上用clustat命令查看的集群狀態信息如下:
# clustat
Cluster Status for RC_cluster @ Tue Apr 19 06:47:47 2011
Member Status: Quorate

Member Name                             ID   Status
------ ----                             ---- ------
RC1                                         1 Offline
RC2                                         2 Online, Local

上面的信息顯示RC1是offline,但是RC1的cman等服務都正常運行著呢。
下面是兩台節點上的cluster.conf文件,麻煩給為幫我看一下 分析分析
謝謝
# cat /etc/cluster/cluster.conf
<?xml version="1.0"?>
<cluster alias="RC_cluster" config_version="7" name="RC_cluster">
        <fence_daemon post_fail_delay="0" post_join_delay="3"/>
        <clusternodes>
                <clusternode name="RC1" nodeid="1" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="RC_fencing" nodename="RC1"/>
                                </method>
                        </fence>
                </clusternode>
                <clusternode name="RC2" nodeid="2" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="RC_fencing" nodename="RC2"/>
                                </method>
                        </fence>
                </clusternode>
        </clusternodes>
        <cman expected_votes="1" two_node="1"/>
        <fencedevices>
                <fencedevice agent="fence_manual" name="RC_fencing"/>
        </fencedevices>
        <rm>
                <failoverdomains>
                        <failoverdomain name="RC_domain" ordered="0" restricted="1">
                                <failoverdomainnode name="RC1" priority="1"/>
                                <failoverdomainnode name="RC2" priority="1"/>
                        </failoverdomain>
                </failoverdomains>
                <resources>
                        <ip address="192.168.0.236/24" monitor_link="1"/>
                        <fs device="/dev/sdb1" force_fsck="0" force_unmount="0" fsid="1318" fstype="ext3" mountpoint="/share" name="RC_disk" options="" self_fence="0"/>
                </resources>
                <service autostart="1" domain="RC_domain" name="RC_service">
                        <ip ref="192.168.0.236/24">
                                <fs ref="RC_disk"/>
                        </ip>
                </service>
        </rm>
</cluster>

現在我把機器給reboot,系統就停在了下面這個狀態,汗。。。集群服務就一直停不了了

《解決方案》

RHCT表示無能為力啊{:3_183:}
《解決方案》

虛擬機測試的話,因為沒有真正的Fence設備,所以啟動失敗
《解決方案》

回復 3# inforhunter


    這裡配置的是手動fencing
《解決方案》

我也遇到了同樣的問題,壓在等解決辦法,但是好像是網上有個說法是fence沒有啟動,所以cluster一直在嘗試啟動另一個,但是通信中斷了,所以就卡在那了
《解決方案》

典型的啟動集群無法發現對方節點的現象,問題多在網路方面。

檢查網路相關配置去吧。

[火星人 ] RHCE配置集群遇到的問題 百思不得其解啊已經有738次圍觀

http://coctec.com/docs/service/show-post-5177.html