RHCS+GNBD+GFS+mdadm方案不穩定？

←手機掃碼閱讀火星人 @ 2014-03-04 , reply:0

RHCS+GNBD+GFS+mdadm方案不穩定？

四台GNBD,兩台node。分別將四台gnbd上的/dev/sda6導出到網路中，然後再在兩台node上分別導入所有的/dev/sda6，在其中一台node上用mdadm將這四個/dev/sda6做raid5,，創建/etc/mdadm.conf  並將它copy到另一台node上。　接著創建　gfs 文件系統　並mount上。　再另一台上激活raid　並mount上。
假設上面的掛載點是/mnt/cluster 在往裡面執行cp  或 dd  命令時經常會遇到沒響應了，一直停在那裡。　用其他tty連上去，執行其他的命令只要不涉及到/mnt/cluster都能正常執行，一涉及到就停在那裡。　在另一個node上也是如此，應該是集群出了問題。查/var/log/messages　文件卻沒發現有什麼錯誤提示。我想問為什麼會出現這種情況呢？
下面是我的配置及操作步驟：
一、測試環境
主機五台，都安裝centos5的操作系統。其中名為：gnbd1,gnbd2,gnbd3和gnbd4的為存儲伺服器，名為：node1和node2的為應用伺服器。同時給這五台主機分配如下的IP地址：
10.0.0.1       gnbd1
10.0.0.2       gnbd2
10.0.0.3       gnbd3
10.0.0.4       gnbd4
10.0.0.11    node1
10.0.0.12    node2

二、修改各個節點上的/etc/hosts 文件
如下：
# vi /etc/hosts
# Do not remove the following line, or various programs
# that require network functionality will fail.
127.0.0.1    localhost.localdomain localhost
10.0.0.1       gnbd1
10.0.0.2       gnbd2
10.0.0.3       gnbd3
10.0.0.4       gnbd4
10.0.0.11    node1
10.0.0.12    node2

三、分別在gnbd1-4上進行分區
用fdisk進行分區，只進行分區，不格式化。而且轉換為適合raid的FD類型分區。

四、在節點node1上創建/etc/cluster/cluster.conf 文件進行配置
如下：
<?xml version="1.0"?>
<cluster alias="gfs_cluster" config_version="5" name="bob_cluster">
      <fence_daemon post_fail_delay="0" post_join_delay="3"/>
      <clusternodes>
            <clusternode name="node1" nodeid="1" votes="1">
                     <fence>
                              <method name="1">
                                    <device name="manual" nodename="node1"/>
                              </method>
                     </fence>
            </clusternode>
            <clusternode name="node2" nodeid="2" votes="1">
                     <fence>
                              <method name="1">
                                    <device name="manual" nodename="node2"/>
                              </method>
                     </fence>
            </clusternode>
            <clusternode name="gnbd1" nodeid="3" votes="1">
                     <fence>
                              <method name="1">
                                    <device name="manual" nodename="gnbd1"/>
                              </method>
                     </fence>
            </clusternode>
            <clusternode name="gnbd2" nodeid="4" votes="1">
                     <fence>
                              <method name="1">
                                    <device name="manual" nodename="gnbd2"/>
                              </method>
                     </fence>
            </clusternode>
            <clusternode name="gnbd3" nodeid="5" votes="1">
                     <fence>
                              <method name="1">
                                    <device name="manual" nodename="gnbd3"/>
                              </method>
                     </fence>
            </clusternode>
            <clusternode name="gnbd4" nodeid="6" votes="1">
                     <fence>
                              <method name="1">
                                    <device name="manual" nodename="gnbd4"/>
                              </method>
                     </fence>
            </clusternode>
      </clusternodes>
      <cman/>
      <fencedevices>
            <fencedevice agent="fence_manual" name="manual"/>
      </fencedevices>
      <rm>
            <failoverdomains>
                     <failoverdomain name="gnbd_failover" ordered="0" restricted="0">
                              <failoverdomainnode name="gnbd1" priority="1"/>
                              <failoverdomainnode name="gnbd2" priority="1"/>
                              <failoverdomainnode name="gnbd3" priority="1"/>
                              <failoverdomainnode name="gnbd4" priority="1"/>
                     </failoverdomain>
                     <failoverdomain name="node_failover">
                              <failoverdomainnode name="node1" priority="1"/>
                              <failoverdomainnode name="node2" priority="1"/>
                     </failoverdomain>
            </failoverdomains>
            <resources/>
      </rm>
</cluster>

把這個配置文件copy到其他的五台主機上。

五、在所有主機上啟動 cman,gfs,rgmanager服務

啟動 cman,gfs,rgmanager服務.如：
# service cman start
Starting cluster:
Loading modules... done
Mounting configfs... done
Starting ccsd... done
Starting cman... done
Starting daemons... done
Starting fencing... done
                                                         [確定]
# service gfs start
# service rgmanager start
啟動 Cluster Service Manager：                            [確定]
其他五台也執行相同的命令

六、分別在gnbd1-4上導出設備
啟動gnbd_serv服務
# gnbd_serv
# gnbd_serv
# gnbd_serv
# gnbd_servv

導出設備
# gnbd_export -e gfs1 -d /dev/sda６
# gnbd_export -e gfs2 -d /dev/sda６
# gnbd_export -e gfs3 -d /dev/sda６
# gnbd_export -e gfs4 -d /dev/sda6

七、導入設備
分別在node1和node2上載入模塊
# modprobe lock_dlm
# modprobe gnbd
# modprobe gfs

# modprobe lock_dlm
# modprobe gnbd
# modprobe gfs

在 node1和node2上導入設備
# gnbd_import -i gnbd1
# gnbd_import -i gnbd2
# gnbd_import -i gnbd3
# gnbd_import -i gnbd4

# gnbd_import -i  gnbd1
# gnbd_import -i  gnbd2
# gnbd_import -i  gnbd3
# gnbd_import -i  gnbd4

八、在node1上對設備/dev/gnbd製作raid5
# mdadm -c /dev/md0 -l5 -n4 /dev/gnbd
# echo DEVICE /dev/gnbd>/etc/mdadm.conf
# mdadm -Ds >>/etc/mdadm.conf

將/etc/mdadm.conf拷貝一份到node2上

九、建立gfs文件系統並且掛載
在node1上建立gfs文件系統
# gfs_mkfs -p lock_dlm -t bob_cluster:gfs -j 2 /dev/md0
掛載
# mount -t gfs /dev/md0 /mnt/cluster

在node2上掛載設備
# mdadm -As /dev/md0
# mount -t gfs /dev/md0 /mnt/cluster

[ 本帖最後由 yman 於 2008-4-29 14:34 編輯 ]

《解決方案》

終於有反應了，隔了幾個小時:em06:
在 /var/log/messages 里有這樣的錯誤（執行了 cp /mnt/cluster/ee /root)：
Apr 29 11:39:33 node2 kernel: GFS: fsid=bob_cluster:gfs.1: fatal: invalid metadata block
Apr 29 11:39:33 node2 kernel: GFS: fsid=bob_cluster:gfs.1: bh = 40 (magic)
Apr 29 11:39:33 node2 kernel: GFS: fsid=bob_cluster:gfs.1: function = gfs_get_meta_buffer
Apr 29 11:39:33 node2 kernel: GFS: fsid=bob_cluster:gfs.1: file = /builddir/build/BUILD/gfs-kmod-0.1.16/_kmod_build_PAE/src/gfs/dio.c, line = 1225
Apr 29 11:39:33 node2 kernel: GFS: fsid=bob_cluster:gfs.1: time = 1209440373
Apr 29 11:39:33 node2 kernel: GFS: fsid=bob_cluster:gfs.1: about to withdraw from the cluster
Apr 29 11:39:33 node2 kernel: GFS: fsid=bob_cluster:gfs.1: telling LM to withdraw
Apr 29 14:00:31 node2 dlm_controld: open "/sys/kernel/dlm/gfs/control" error -1 2
Apr 29 14:00:31 node2 dlm_controld: open "/sys/kernel/dlm/gfs/event_done" error -1 2
Apr 29 14:00:31 node2 kernel: GFS: fsid=bob_cluster:gfs.1: withdrawn
Apr 29 14:00:31 node2 kernel:  [<f8c428ae>] gfs_lm_withdraw+0x76/0x82
Apr 29 14:00:31 node2 kernel:  [<f8c569b7>] gfs_meta_check_ii+0x2c/0x37
Apr 29 14:00:31 node2 kernel:  [<f8c314ec>] gfs_get_meta_buffer+0x1ad/0x215
Apr 29 14:00:31 node2 kernel:  [<f8c2f004>] gfs_block_map+0x231/0x3af
Apr 29 14:00:31 node2 kernel:  [<f8c48001>] get_block+0x2c/0x78
Apr 29 14:00:31 node2 kernel:  [<c046d314>] block_read_full_page+0x1a3/0x2cd
Apr 29 14:00:31 node2 kernel:  [<f8c47fd5>] get_block+0x0/0x78
Apr 29 14:00:31 node2 kernel:  [<f8c48476>] gfs_readpage+0xca/0x162
Apr 29 14:00:31 node2 kernel:  [<c04531f4>] __do_page_cache_readahead+0x16d/0x1c6
Apr 29 14:00:31 node2 kernel:  [<c046b2e9>] __find_get_block+0x15c/0x166
Apr 29 14:00:31 node2 kernel:  [<c0453293>] blockable_page_cache_readahead+0x46/0x99
Apr 29 14:00:31 node2 kernel:  [<c0453426>] page_cache_readahead+0xb3/0x178
Apr 29 14:00:31 node2 kernel:  [<c044de08>] do_generic_mapping_read+0x137/0x468
Apr 29 14:00:31 node2 kernel:  [<c044e992>] __generic_file_aio_read+0x16f/0x1b6
Apr 29 14:00:31 node2 kernel:  [<c044d58f>] file_read_actor+0x0/0xd1
Apr 29 14:00:31 node2 kernel:  [<c044fac6>] generic_file_read+0x97/0xab
Apr 29 14:00:31 node2 kernel:  [<c04352a1>] autoremove_wake_function+0x0/0x2d
Apr 29 14:00:31 node2 kernel:  [<f8c3ccf0>] gfs_glock_nq_atime+0xca/0x291
Apr 29 14:00:31 node2 kernel:  [<f8c4a722>] do_read_buf+0xac/0x104
Apr 29 14:00:31 node2 kernel:  [<f8c491c4>] walk_vm+0xb5/0x274
Apr 29 14:00:31 node2 kernel:  [<f8c494ad>] __gfs_read+0x43/0x4a
Apr 29 14:00:31 node2 kernel:  [<f8c4a676>] do_read_buf+0x0/0x104
Apr 29 14:00:31 node2 kernel:  [<f8c494ef>] gfs_read+0x0/0xe
Apr 29 14:00:31 node2 kernel:  [<f8c494fa>] gfs_read+0xb/0xe
Apr 29 14:00:31 node2 kernel:  [<c0469be0>] vfs_read+0x9f/0x141
Apr 29 14:00:31 node2 kernel:  [<c046a02e>] sys_read+0x3c/0x63
Apr 29 14:00:31 node2 kernel:  [<c0403eff>] syscall_call+0x7/0xb
Apr 29 14:00:31 node2 kernel:  =======================

現在執行　ls /mnt/cluster 　有這樣的錯誤提示：
# ls /mnt/cluster
ls: /mnt/cluster: Input/output error

誰來幫忙分析一下。

[ 本帖最後由 yman 於 2008-4-29 15:39 編輯 ]

《解決方案》

對比了下node1和node2的進程　發現node2比node1少了下面三個進程
root    31769  0.0  0.0    0    0 ?       S< 11:30 0:01
root    31770  0.0  0.0    0    0 ?       S< 11:30 0:00
root    31771  0.0  0.0    0    0 ?       S< 11:30 0:00

《解決方案》

原帖由 yman 於 2008-4-29 14:28 發表 http://linux.chinaunix.net/bbs/images/common/back.gif
四台GNBD,兩台node。分別將四台gnbd上的/dev/sda6導出到網路中，然後再在兩台node上分別導入所有的/dev/sda6，在其中一台node上用mdadm將這四個/dev/sda6做raid5,，創建/etc/mdadm.conf 並將它copy到另一台nod ...

最有可能是fence的問題，
另外，感覺你做那麼多gndb沒什麼用處，
軟raid貌似沒有什麼實際意義：（
自己測試，這麼玩可以，生產環境，還是不要這麼玩了。

《解決方案》

這裡為什麼要做failover domain？做了failover domain又沒有給該domain配置resource？

fence設備那裡有個選項是gnbd的，doc上說是可以用來fence失效node對gnbd的訪問，可以試一下這個。

關於這種情況下用softraid的問題，我有個疑問，即在一個節點對/dev/gnbd設備進行了md操作，比如某個/dev/gnbd設備壞了，需要用md來把他從raid中去除，如何通知其他node？我曾經做過softraid 1 over iscsi的實驗（iscsi在這裡作用和gnbd server一樣），md操作需要在所有節點進行，進行操作後會花大量的資源來進行raid的recover操作，這樣在/proc/mdstat里看到的才是正確的信息。如果節點數量很多，會很痛苦。

而clvm則避免了這樣的情況。但又避免不了一個gnbd死掉，整個lvm全部丟失。

以上是小弟的愚見。

《解決方案》

與MD應該關係不大。

Tags:

[火星人 ] RHCS+GNBD+GFS+mdadm方案不穩定？已經有621次圍觀

本文地址：http://coctec.com/docs/service/show-post-7131.html

RHCS+GNBD+GFS+mdadm方案不穩定？

RHCS+GNBD+GFS+mdadm方案不穩定？

熱門文章

最新文章