Mailing List Archive

DCノード故障時のlogconvの出力について
お世話になっております。
池田です。

下記の環境で2ノードクラスタを構築しています。

# cat /etc/redhat-release
Red Hat Enterprise Linux Server release 6.5 (Santiago)

# rpm -qa | grep pacemaker-all
pacemaker-all-1.1.12-1.1.el6.noarch

# rpm -qa | grep pm_logconv-cs
pm_logconv-cs-2.0-1.el6.noarch


Dummyリソースが3つ設定されたgroupを1号機で起動させた状態で
1号機を停止(パワーオフ)すると、期待通り2号機にフェイルオーバしましたが
2号機のlogconvに下記のメッセージが出力されました。
logconvのメッセージだけを確認すると、フェイルオーバに失敗しているようにみえます。

Jun 8 19:25:58 acdbv-ha02 warning: Node acdbv-ha01 is lost
Jun 8 19:25:58 acdbv-ha02 info: Set DC node to acdbv-ha02.
Jun 8 19:26:00 acdbv-ha02 error: Start to fail-over.
Jun 8 19:26:00 acdbv-ha02 info: Resource dummy01 tries to start.
Jun 8 19:26:00 acdbv-ha02 info: Resource dummy01 started. (rc=0)
Jun 8 19:26:00 acdbv-ha02 info: Resource dummy02 tries to start.
Jun 8 19:26:00 acdbv-ha02 info: Resource dummy02 started. (rc=0)
Jun 8 19:26:00 acdbv-ha02 info: Resource dummy03 tries to start.
Jun 8 19:26:00 acdbv-ha02 info: Resource dummy03 started. (rc=0)
Jun 8 19:26:00 acdbv-ha02 error: fail-over failed.

故障発生時のDCは1号機です。
DC故障を伴うフェイルオーバ発生時に
logconvに上記のメッセージが出力されるのは仕様でしょうか。
それともlogconvの設定が不足しているためDC故障に対応できていないのでしょうか。
動作確認に使用したlogconvの設定およびha-logを添付いたします。

以上よろしくお願いいたします。

NTT先端技術
池田淳子
Re: DCノード故障時のlogconvの出力について [ In reply to ]
$BCSED$5$s(B

$B$*@$OC$K$J$j$^$9!#(B
$BHSED$G$9!#(B

> $B8N>cH/@8;~$N(BDC$B$O(B1$B9f5!$G$9!#(B
> DC$B8N>c$rH<$&%U%'%$%k%*!<%PH/@8;~$K(B
> logconv$B$K>e5-$N%a%C%;!<%8$,=PNO$5$l$k$N$O;EMM$G$7$g$&$+!#(B
$B%U%'%$%k%*!<%P!<<:GT$H$J$k$N$O4|BT$5$l$kF0:n$G$O$"$j$^$;$s!#(B
$B4|BT$5$l$kF0$-$O%U%'%$%k%*!<%P!<@.8y$H$J$k$3$H$G$9!#(B

$B;d$N<j85$N4D6-$G$bD:$$$?@_Dj$r;H$C$F;w$?$h$&$J9=@.$r<h$j:F8=$7$F$_$^$7$?$,!"(B
$B2<5-$NDL$j%U%'%$%k%*!<%P!<@.8y$H$J$j$^$7$?!#(B
Jun 10 05:42:20 cento7-logconv-2.novalocal info: Set DC node to cento7-logconv-1.novalocal.
Jun 10 05:42:47 cento7-logconv-2.novalocal warning: Node cento7-logconv-1.novalocal is lost
Jun 10 05:42:47 cento7-logconv-2.novalocal info: Unset DC node cento7-logconv-1.novalocal.
Jun 10 05:42:47 cento7-logconv-2.novalocal info: Set DC node to cento7-logconv-2.novalocal.
Jun 10 05:42:48 cento7-logconv-2.novalocal error: Start to fail-over.
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01 tries to start.
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01 started. (rc=0)
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy02 tries to start.
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy02 started. (rc=0)
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03 tries to start.
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03 started. (rc=0)
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01 : Started on cento7-logconv-2novalocal
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03 : Started on cento7-logconv-2novalocal
Jun 10 05:42:48 cento7-logconv-2.novalocal info: fail-over succeeded.

$B:F8=4D6-$HD:$$$?(Bha-log$B$rHf3S$7$?$H$3$m!"CSED$5$s$N4D6-$G$O2<5-$N$h$&$J%m%0$,=PNO$5$l$F$$$J$$$h$&$G$9!#(B
Jun 10 05:42:48 cento7-logconv-2 crmd[2249]: notice: te_rsc_command: Initiating action 4: start dummy01_start_0 on cento7-logconv-2.novalocal (local)

logconv$B$G$O$3$N%m%0$r;H$C$F%j%=!<%9$N%9%F!<%?%9$r4IM}$7$F$^$9$N$G!"(B
$B%m%0$N=PNO$,$J$$$H%U%'%$%k%*!<%P!<$,@.8y$7$?$HH=Dj$G$-$^$;$s!#(B

$B$J$<$3$N%m%0$,=PNO$5$l$J$+$C$?$N$+$^$G$O$o$+$j$^$;$s$G$7$?!#(B

$B0J>e!"$43NG'$h$m$7$/$*4j$$$$$?$7$^$9!#(B

> -----Original Message-----
> From: linux-ha-japan-bounces@lists.osdn.me
> [mailto:linux-ha-japan-bounces@lists.osdn.me] On Behalf Of
> tsukishima.ha@gmail.com
> Sent: Thursday, June 09, 2016 9:19 AM
> To: linux-ha-japan@lists.osdn.me
> Subject: [Linux-ha-jp] DC$B%N!<%I8N>c;~$N(Blogconv$B$N=PNO$K$D$$$F(B
>
> $B$*@$OC$K$J$C$F$*$j$^$9!#(B
>
> $BCSED$G$9!#(B
>
>
>
> $B2<5-$N4D6-$G(B2$B%N!<%I%/%i%9%?$r9=C[$7$F$$$^$9!#(B
>
>
>
> # cat /etc/redhat-release
>
> Red Hat Enterprise Linux Server release 6.5 (Santiago)
>
>
>
> # rpm -qa | grep pacemaker-all
>
> pacemaker-all-1.1.12-1.1.el6.noarch
>
>
>
> # rpm -qa | grep pm_logconv-cs
>
> pm_logconv-cs-2.0-1.el6.noarch
>
>
>
>
>
> Dummy$B%j%=!<%9$,(B3$B$D@_Dj$5$l$?(Bgroup$B$r(B1$B9f5!$G5/F0$5$;$?>uBV$G(B
>
> 1$B9f5!$rDd;_(B($B%Q%o!<%*%U(B)$B$9$k$H!"4|BTDL$j(B2$B9f5!$K%U%'%$%k%*!<%P$7$^$7$?$,(B
>
> 2$B9f5!$N(Blogconv$B$K2<5-$N%a%C%;!<%8$,=PNO$5$l$^$7$?!#(B
>
> logconv$B$N%a%C%;!<%8$@$1$r3NG'$9$k$H!"%U%'%$%k%*!<%P$K<:GT$7$F$$$k$h$&$K$_(B
> $B$($^$9!#(B
>
>
>
> Jun 8 19:25:58 acdbv-ha02 warning: Node acdbv-ha01 is lost
>
> Jun 8 19:25:58 acdbv-ha02 info: Set DC node to acdbv-ha02.
>
> Jun 8 19:26:00 acdbv-ha02 error: Start to fail-over.
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy01 tries to start.
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy01 started. (rc=0)
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy02 tries to start.
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy02 started. (rc=0)
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy03 tries to start.
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy03 started. (rc=0)
>
> Jun 8 19:26:00 acdbv-ha02 error: fail-over failed.
>
>
>
> $B8N>cH/@8;~$N(BDC$B$O(B1$B9f5!$G$9!#(B
>
> DC$B8N>c$rH<$&%U%'%$%k%*!<%PH/@8;~$K(B
>
> logconv$B$K>e5-$N%a%C%;!<%8$,=PNO$5$l$k$N$O;EMM$G$7$g$&$+!#(B
>
> $B$=$l$H$b(Blogconv$B$N@_Dj$,ITB-$7$F$$$k$?$a(BDC$B8N>c$KBP1~$G$-$F$$$J$$$N$G$7$g$&(B
> $B$+!#(B
>
> $BF0:n3NG'$K;HMQ$7$?(Blogconv$B$N@_Dj$*$h$S(Bha-log$B$rE:IU$$$?$7$^$9!#(B
>
>
>
> $B0J>e$h$m$7$/$*4j$$$$$?$7$^$9!#(B
>
>
>
> NTT$B@hC<5;=Q(B
>
> $BCSED=_;R(B

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan@lists.osdn.me
http://lists.osdn.me/mailman/listinfo/linux-ha-japan
RE: DCノード故障時のlogconvの出力について [ In reply to ]
飯田さん

池田です。
ご連絡ありがとうございます。

VMware環境では下記のような再現性がありました。
それぞれ10回試行し、10回とも同一の結果となりました。
なお、リソースはDummy1個にして動作を確認しています。

(1) vSphereClient から仮想マシンを「リセット」

- リソースのフェイルオーバは成功
- logconvの出力ではフェイルオーバ失敗

例)
Jun 13 11:44:15 acdbv-ha02 warning: Node acdbv-ha01 is lost
Jun 13 11:44:15 acdbv-ha02 info: Set DC node to acdbv-ha02.
Jun 13 11:44:16 acdbv-ha02 error: Start to fail-over.
Jun 13 11:44:16 acdbv-ha02 info: Resource dummy tries to start.
Jun 13 11:44:16 acdbv-ha02 info: Resource dummy started. (rc=0)
Jun 13 11:44:16 acdbv-ha02 error: fail-over failed.

ログファイル:20160613-logconv/reset

(2) OSコマンド(reboot -nf)で仮想マシンを再起動

- リソースのフェイルオーバは成功
- logconvの出力ではフェイルオーバ失敗

例)
Jun 13 13:02:31 acdbv-ha02 warning: Node acdbv-ha01 is lost
Jun 13 13:02:31 acdbv-ha02 info: Set DC node to acdbv-ha02.
Jun 13 13:02:32 acdbv-ha02 error: Start to fail-over.
Jun 13 13:02:32 acdbv-ha02 info: Resource dummy tries to start.
Jun 13 13:02:32 acdbv-ha02 info: Resource dummy started. (rc=0)
Jun 13 13:02:32 acdbv-ha02 error: fail-over failed.

ログファイル:20160613-logconv/reboot

(3) initctlコマンドでPacemakerを停止(initctl stop pacemaker.combined)

- リソースのフェイルオーバは成功
- logconvには「Start to fail-over.」が出力されない
→ コマンドオペレーションによるPacemakerの停止なので、これは仕様ですか?

例)
Jun 13 13:25:53 acdbv-ha02 info: Resource dummy tries to start.
Jun 13 13:25:53 acdbv-ha02 info: Resource dummy started. (rc=0)

ログファイル:20160613-logconv/initctl

(4) Dummyリソースの監視故障(ステータスファイルの削除)

- リソースのフェイルオーバは成功

- DCノードでリソース故障
例)
Jun 13 13:41:04 acdbv-ha02 error: Start to fail-over.
Jun 13 13:41:04 acdbv-ha02 info: Resource dummy tries to stop.
Jun 13 13:41:04 acdbv-ha02 info: Resource dummy stopped. (rc=0)
Jun 13 13:41:04 acdbv-ha02 info: Resource dummy : Move acdbv-ha02 -> acdbv-ha01
Jun 13 13:41:04 acdbv-ha02 info: fail-over succeeded.

- 非DCノードでリソース故障
例)
Jun 13 13:42:04 acdbv-ha02 error: Resource dummy does not work. (rc=7)
Jun 13 13:42:04 acdbv-ha02 info: Resource dummy tries to stop.
Jun 13 13:42:04 acdbv-ha02 info: Resource dummy stopped. (rc=0)
Jun 13 13:42:04 acdbv-ha02 info: Resource dummy tries to start.
Jun 13 13:42:04 acdbv-ha02 info: Resource dummy started. (rc=0)

DCに依存せず「error: Start to fail-over.」「info: fail-over succeeded.」という
出力が得られることを想定していましたが、期待通りになりませんでした。

ログファイル:20160613-logconv/monitor_ng


前回のメールで指摘していただいたとおり、logconvが変換に利用している下記メッセージが
ha-logに出力されていないことが根本原因だと思います。

notice: te_rsc_command: Initiating action <num>: start <resource name>_start_0 on <node name> (local)

ただし
- te_rsc_command関数から当該メッセージが出力されない理由が不明(環境依存やバージョンの組み合わせ?設定不足?)
- te_rsc_command関数から当該メッセージが出力されないパターンが多岐にわたる
という条件があることから、今回構築する環境(および類似のバージョンを使用している環境)では
logconvの出力結果からフェイルオーバの成否を判断せず
ha-logの出力結果をシステム監視(Hinemos, Zabbix, JP1など)に登録し
イベント発生時の通知(発報)へつなげることとします。

# 今回はPacemaker 1.1.12を導入します。
# ただ、Pacemaker 1.1.13/RHEL6/VMwareの環境でも同様の動作は発生しそうな気がしますが。。。
# 1.1.12と1.1.13でログ出力周りで大幅な変更はないですよね。


以上よろしくお願いいたします。

池田淳子



差出人: 飯田 雄介
送信日時: 2016年6月10日 16:07
宛先: linux-ha-japan@lists.osdn.me
件名: Re: [Linux-ha-jp]DCノード故障時のlogconvの出力について

池田さん

お世話になります。
飯田です。

> 故障発生時のDCは1号機です。
> DC故障を伴うフェイルオーバ発生時に
> logconvに上記のメッセージが出力されるのは仕様でしょうか。
フェイルオーバー失敗となるのは期待される動作ではありません。
期待される動きはフェイルオーバー成功となることです。

私の手元の環境でも頂いた設定を使って似たような構成を取り再現してみましたが、
下記の通りフェイルオーバー成功となりました。
Jun 10 05:42:20 cento7-logconv-2.novalocal info: Set DC node to cento7-logconv-1.novalocal.
Jun 10 05:42:47 cento7-logconv-2.novalocal warning: Node cento7-logconv-1.novalocal is lost
Jun 10 05:42:47 cento7-logconv-2.novalocal info: Unset DC node cento7-logconv-1.novalocal.
Jun 10 05:42:47 cento7-logconv-2.novalocal info: Set DC node to cento7-logconv-2.novalocal.
Jun 10 05:42:48 cento7-logconv-2.novalocal error: Start to fail-over.
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01 tries to start.
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01 started. (rc=0)
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy02 tries to start.
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy02 started. (rc=0)
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03 tries to start.
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03 started. (rc=0)
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01 : Started on cento7-logconv-2novalocal
Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03 : Started on cento7-logconv-2novalocal
Jun 10 05:42:48 cento7-logconv-2.novalocal info: fail-over succeeded.

再現環境と頂いたha-logを比較したところ、池田さんの環境では下記のようなログが出力されていないようです。
Jun 10 05:42:48 cento7-logconv-2 crmd[2249]: notice: te_rsc_command: Initiating action 4: start dummy01_start_0 on cento7-logconv-2.novalocal (local)

logconvではこのログを使ってリソースのステータスを管理してますので、
ログの出力がないとフェイルオーバーが成功したと判定できません。

なぜこのログが出力されなかったのかまではわかりませんでした。

以上、ご確認よろしくお願いいたします。

> -----Original Message-----
> From: linux-ha-japan-bounces@lists.osdn.me
> [mailto:linux-ha-japan-bounces@lists.osdn.me] On Behalf Of
> tsukishima.ha@gmail.com
> Sent: Thursday, June 09, 2016 9:19 AM
> To: linux-ha-japan@lists.osdn.me
> Subject: [Linux-ha-jp] DCノード故障時のlogconvの出力について
>
> お世話になっております。
>
> 池田です。
>
>
>
> 下記の環境で2ノードクラスタを構築しています。
>
>
>
> # cat /etc/redhat-release
>
> Red Hat Enterprise Linux Server release 6.5 (Santiago)
>
>
>
> # rpm -qa | grep pacemaker-all
>
> pacemaker-all-1.1.12-1.1.el6.noarch
>
>
>
> # rpm -qa | grep pm_logconv-cs
>
> pm_logconv-cs-2.0-1.el6.noarch
>
>
>
>
>
> Dummyリソースが3つ設定されたgroupを1号機で起動させた状態で
>
> 1号機を停止(パワーオフ)すると、期待通り2号機にフェイルオーバしましたが
>
> 2号機のlogconvに下記のメッセージが出力されました。
>
> logconvのメッセージだけを確認すると、フェイルオーバに失敗しているようにみ
> えます。
>
>
>
> Jun 8 19:25:58 acdbv-ha02 warning: Node acdbv-ha01 is lost
>
> Jun 8 19:25:58 acdbv-ha02 info: Set DC node to acdbv-ha02.
>
> Jun 8 19:26:00 acdbv-ha02 error: Start to fail-over.
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy01 tries to start.
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy01 started. (rc=0)
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy02 tries to start.
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy02 started. (rc=0)
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy03 tries to start.
>
> Jun 8 19:26:00 acdbv-ha02 info: Resource dummy03 started. (rc=0)
>
> Jun 8 19:26:00 acdbv-ha02 error: fail-over failed.
>
>
>
> 故障発生時のDCは1号機です。
>
> DC故障を伴うフェイルオーバ発生時に
>
> logconvに上記のメッセージが出力されるのは仕様でしょうか。
>
> それともlogconvの設定が不足しているためDC故障に対応できていないのでしょう
> か。
>
> 動作確認に使用したlogconvの設定およびha-logを添付いたします。
>
>
>
> 以上よろしくお願いいたします。
>
>
>
> NTT先端技術
>
> 池田淳子

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan@lists.osdn.me
http://lists.osdn.me/mailman/listinfo/linux-ha-japan
Re: DCノード故障時のlogconvの出力について [ In reply to ]
$BCSED$5$s(B

$B$*@$OC$K$J$j$^$9!#(B
$BHSED$G$9!#(B

> -----Original Message-----
> From: tsukishima.ha@gmail.com [mailto:tsukishima.ha@gmail.com]
> Sent: Tuesday, June 14, 2016 1:10 AM
> To: $BHSED(B $BM:2p(B; linux-ha-japan@lists.osdn.me
> Subject: RE: [Linux-ha-jp]DC$B%N!<%I8N>c;~$N(Blogconv$B$N=PNO$K$D$$$F(B
>
> $BHSED$5$s(B
>
>
>
> $BCSED$G$9!#(B
>
> $B$4O"Mm$"$j$,$H$&$4$6$$$^$9!#(B
>
>
>
> VMware$B4D6-$G$O2<5-$N$h$&$J:F8=@-$,$"$j$^$7$?!#(B
>
> $B$=$l$>$l(B10$B2s;n9T$7!"(B10$B2s$H$bF10l$N7k2L$H$J$j$^$7$?!#(B
>
> $B$J$*!"%j%=!<%9$O(BDummy1$B8D$K$7$FF0:n$r3NG'$7$F$$$^$9!#(B
>
>
>
> (1) vSphereClient $B$+$i2>A[.%^%7%s$r!V%j%;%C%H!W(B
>
>
>
> - $B%j%=!<%9$N%U%'%$%k%*!<%P$O@.8y(B
>
> - logconv$B$N=PNO$G$O%U%'%$%k%*!<%P<:GT(B
>
>
>
> $BNc(B)
>
> Jun 13 11:44:15 acdbv-ha02 warning: Node acdbv-ha01 is lost
>
> Jun 13 11:44:15 acdbv-ha02 info: Set DC node to acdbv-ha02.
>
> Jun 13 11:44:16 acdbv-ha02 error: Start to fail-over.
>
> Jun 13 11:44:16 acdbv-ha02 info: Resource dummy tries to start.
>
> Jun 13 11:44:16 acdbv-ha02 info: Resource dummy started. (rc=0)
>
> Jun 13 11:44:16 acdbv-ha02 error: fail-over failed.
>
>
>
> $B%m%0%U%!%$%k!'(B20160613-logconv/reset
>
>
>
> (2) OS$B%3%^%s%I(B(reboot -nf)$B$G2>A[.%^%7%s$r:F5/F0(B
>
>
>
> - $B%j%=!<%9$N%U%'%$%k%*!<%P$O@.8y(B
>
> - logconv$B$N=PNO$G$O%U%'%$%k%*!<%P<:GT(B
>
>
>
> $BNc(B)
>
> Jun 13 13:02:31 acdbv-ha02 warning: Node acdbv-ha01 is lost
>
> Jun 13 13:02:31 acdbv-ha02 info: Set DC node to acdbv-ha02.
>
> Jun 13 13:02:32 acdbv-ha02 error: Start to fail-over.
>
> Jun 13 13:02:32 acdbv-ha02 info: Resource dummy tries to start.
>
> Jun 13 13:02:32 acdbv-ha02 info: Resource dummy started. (rc=0)
>
> Jun 13 13:02:32 acdbv-ha02 error: fail-over failed.
>
>
>
> $B%m%0%U%!%$%k!'(B20160613-logconv/reboot
>
>
>
> (3) initctl$B%3%^%s%I$G(BPacemaker$B$rDd;_(B(initctl stop pacemaker.combined)
>
>
>
> - $B%j%=!<%9$N%U%'%$%k%*!<%P$O@.8y(B
>
> - logconv$B$K$O!V(BStart to fail-over.$B!W$,=PNO$5$l$J$$(B
>
> $B"*(B $B%3%^%s%I%*%Z%l!<%7%g%s$K$h$k(BPacemaker$B$NDd;_$J$N$G!"$3$l$O;EMM$G$9$+!)(B
$B$3$l$O;EMM$G$9!#(B
$B%5!<%S%9Dd;_$K$h$k%j%=!<%90\F0$G$O%U%'%$%k%*!<%P!<$H=PNO$7$J$$$h$&$K$J$C$F$$$^$9!#(B
>
>
>
> $BNc(B)
>
> Jun 13 13:25:53 acdbv-ha02 info: Resource dummy tries to start.
>
> Jun 13 13:25:53 acdbv-ha02 info: Resource dummy started. (rc=0)
>
>
>
> $B%m%0%U%!%$%k!'(B20160613-logconv/initctl
>
>
>
> (4) Dummy$B%j%=!<%9$N4F;k8N>c(B($B%9%F!<%?%9%U%!%$%k$N:o=|(B)
>
>
>
> - $B%j%=!<%9$N%U%'%$%k%*!<%P$O@.8y(B
>
>
>
> - DC$B%N!<%I$G%j%=!<%98N>c(B
>
> $BNc(B)
>
> Jun 13 13:41:04 acdbv-ha02 error: Start to fail-over.
>
> Jun 13 13:41:04 acdbv-ha02 info: Resource dummy tries to stop.
>
> Jun 13 13:41:04 acdbv-ha02 info: Resource dummy stopped. (rc=0)
>
> Jun 13 13:41:04 acdbv-ha02 info: Resource dummy : Move acdbv-ha02 ->
> acdbv-ha01
>
> Jun 13 13:41:04 acdbv-ha02 info: fail-over succeeded.
>
>
>
> - $BHs(BDC$B%N!<%I$G%j%=!<%98N>c(B
>
> $BNc(B)
>
> Jun 13 13:42:04 acdbv-ha02 error: Resource dummy does not work. (rc=7)
>
> Jun 13 13:42:04 acdbv-ha02 info: Resource dummy tries to stop.
>
> Jun 13 13:42:04 acdbv-ha02 info: Resource dummy stopped. (rc=0)
>
> Jun 13 13:42:04 acdbv-ha02 info: Resource dummy tries to start.
>
> Jun 13 13:42:04 acdbv-ha02 info: Resource dummy started. (rc=0)
>
>
>
> DC$B$K0MB8$;$:!V(Berror: Start to fail-over.$B!W!V(Binfo: fail-over succeeded.$B!W$H(B
> $B$$$&(B
>
> $B=PNO$,F@$i$l$k$3$H$rA[Dj$7$F$$$^$7$?$,!"4|BTDL$j$K$J$j$^$;$s$G$7$?!#(B
$B%U%'%$%k%*!<%P!<4XO"$N%m%0$,=PNO$5$l$k$N$O(BDC$B%N!<%I>e$N%m%0$@$1$J$N$G!"(B
$B!VHs(BDC$B%N!<%I$G%j%=!<%98N>c!W$r$5$;$?>l9g$b(BDC$B%N!<%I>e$N%m%0$K(B
$B!V(Berror: Start to fail-over.$B!W$H!V(Binfo: fail-over succeeded$B!J$^$?$O(Bfailed).$B!W$,=PNO$5$l$F$$$k$O$:$G$9!#(B
>
>
>
> $B%m%0%U%!%$%k!'(B20160613-logconv/monitor_ng
>
>
>
>
>
> $BA02s$N%a!<%k$G;XE&$7$F$$$?$@$$$?$H$*$j!"(Blogconv$B$,JQ49$KMxMQ$7$F$$$k2<5-%a(B
> $B%C%;!<%8$,(B
>
> ha-log$B$K=PNO$5$l$F$$$J$$$3$H$,:,K\860x$@$H;W$$$^$9!#(B
>
>
>
> notice: te_rsc_command: Initiating action <num>: start <resource name>_start_0
> on <node name> (local)
>
>
>
> $B$?$@$7(B
>
> - te_rsc_command$B4X?t$+$iEv3:%a%C%;!<%8$,=PNO$5$l$J$$M}M3$,ITL@(B($B4D6-0MB8$d(B
> $B%P!<%8%g%s$NAH$_9g$o$;!)@_DjITB-!)(B)
$B$3$A$i$G$b(BvSphere5.1$B4D6-$K(BRHEL6.6$B%2%9%H(B(Errata$BE,MQL5(B)$B$r:n$C$F(B
$BF0:n$r3NG'$7$F$_$^$7$?$,!">e5-$N%m%0$O=PNO$5$l$F$$$^$7$?!#(B

$B%m%8%C%/>e$3$N%m%0$,=P$J$$$H$$$&$3$H$ODL>o9M$($i$l$J$$$N$G!"(B
$BNc$($P!"(Bsyslog$B$N%U%#%k%?@_Dj$J$I$,F0$$$F3:Ev$N%m%0=PNO$,;_$a$i$l$F$7$^$C$F$$$k(B
$B$J$I$r2DG=@-$r3NG'$7$F$_$F$O$$$+$,$G$7$g$&$+!)(B
# $BD:$$$?(Bha-log$BFb$K(B"local"$B$HIU$/%m%0$,8+Ev$?$i$J$$$N$G!"(B"local"$B$H$$$&C18l$G0z$C3]$1$F>C$7$F$k$H$+!)(B

> - te_rsc_command$B4X?t$+$iEv3:%a%C%;!<%8$,=PNO$5$l$J$$%Q%?!<%s$,B?4t$K$o$?$k(B
>
> $B$H$$$&>r7o$,$"$k$3$H$+$i!":#2s9=C[$9$k4D6-(B($B$*$h$SN`;w$N%P!<%8%g%s$r;HMQ$7$F(B
> $B$$$k4D6-(B)$B$G$O(B
>
> logconv$B$N=PNO7k2L$+$i%U%'%$%k%*!<%P$N@.H]$rH=CG$;$:(B
>
> ha-log$B$N=PNO7k2L$r%7%9%F%`4F;k(B(Hinemos, Zabbix, JP1$B$J$I(B)$B$KEPO?$7(B
>
> $B%$%Y%s%HH/@8;~$NDLCN(B($BH/Js(B)$B$X$D$J$2$k$3$H$H$7$^$9!#(B
>
>
>
> # $B:#2s$O(BPacemaker 1.1.12$B$rF3F~$7$^$9!#(B
>
> # $B$?$@!"(BPacemaker 1.1.13/RHEL6/VMware$B$N4D6-$G$bF1MM$NF0:n$OH/@8$7$=$&$J5$(B
> $B$,$7$^$9$,!#!#!#(B
>
> # 1.1.12$B$H(B1.1.13$B$G%m%0=PNO<~$j$GBgI}$JJQ99$O$J$$$G$9$h$M!#(B
$BLdBj$K%m%0$K4X$7$F$O(B1.1.12$B$H(B1.1.13$B$GFC$KJQ99$O$J$$$O$:$G$9!#(B
# 1.1.14$B$G$O%m%0A4BN$+$i4X?tL>$N=PNO$,$J$/$J$j$^$7$?!#(B

$B0J>e!"$h$m$7$/$*4j$$$$$?$7$^$9!#(B
>
>
>
>
>
> $B0J>e$h$m$7$/$*4j$$$$$?$7$^$9!#(B
>
>
>
> $BCSED=_;R(B
>
>
>
>
>
>
>
> $B:9=P?M(B: $BHSED(B $BM:2p(B <mailto:iidayuus@intellilink.co.jp>
> $BAw?.F|;~(B: 2016$BG/(B6$B7n(B10$BF|(B 16:07
> $B08@h(B: linux-ha-japan@lists.osdn.me
> $B7oL>(B: Re: [Linux-ha-jp]DC$B%N!<%I8N>c;~$N(Blogconv$B$N=PNO$K$D$$$F(B
>
>
>
> $BCSED$5$s(B
>
>
>
> $B$*@$OC$K$J$j$^$9!#(B
>
> $BHSED$G$9!#(B
>
>
>
> > $B8N>cH/@8;~$N(BDC$B$O(B1$B9f5!$G$9!#(B
>
> > DC$B8N>c$rH<$&%U%'%$%k%*!<%PH/@8;~$K(B
>
> > logconv$B$K>e5-$N%a%C%;!<%8$,=PNO$5$l$k$N$O;EMM$G$7$g$&$+!#(B
>
> $B%U%'%$%k%*!<%P!<<:GT$H$J$k$N$O4|BT$5$l$kF0:n$G$O$"$j$^$;$s!#(B
>
> $B4|BT$5$l$kF0$-$O%U%'%$%k%*!<%P!<@.8y$H$J$k$3$H$G$9!#(B
>
>
>
> $B;d$N<j85$N4D6-$G$bD:$$$?@_Dj$r;H$C$F;w$?$h$&$J9=@.$r<h$j:F8=$7$F$_$^$7$?$,!"(B
>
> $B2<5-$NDL$j%U%'%$%k%*!<%P!<@.8y$H$J$j$^$7$?!#(B
>
> Jun 10 05:42:20 cento7-logconv-2.novalocal info: Set DC node to
> cento7-logconv-1.novalocal.
>
> Jun 10 05:42:47 cento7-logconv-2.novalocal warning: Node
> cento7-logconv-1.novalocal is lost
>
> Jun 10 05:42:47 cento7-logconv-2.novalocal info: Unset DC node
> cento7-logconv-1.novalocal.
>
> Jun 10 05:42:47 cento7-logconv-2.novalocal info: Set DC node to
> cento7-logconv-2.novalocal.
>
> Jun 10 05:42:48 cento7-logconv-2.novalocal error: Start to fail-over.
>
> Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01 tries to
> start.
>
> Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01 started.
> (rc=0)
>
> Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy02 tries to
> start.
>
> Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy02 started.
> (rc=0)
>
> Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03 tries to
> start.
>
> Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03 started.
> (rc=0)
>
> Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01 : Started
> on cento7-logconv-2novalocal
>
> Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03 : Started
> on cento7-logconv-2novalocal
>
> Jun 10 05:42:48 cento7-logconv-2.novalocal info: fail-over succeeded.
>
>
>
> $B:F8=4D6-$HD:$$$?(Bha-log$B$rHf3S$7$?$H$3$m!"CSED$5$s$N4D6-$G$O2<5-$N$h$&$J%m%0(B
> $B$,=PNO$5$l$F$$$J$$$h$&$G$9!#(B
>
> Jun 10 05:42:48 cento7-logconv-2 crmd[2249]: notice: te_rsc_command:
> Initiating action 4: start dummy01_start_0 on cento7-logconv-2.novalocal
> (local)
>
>
>
> logconv$B$G$O$3$N%m%0$r;H$C$F%j%=!<%9$N%9%F!<%?%9$r4IM}$7$F$^$9$N$G!"(B
>
> $B%m%0$N=PNO$,$J$$$H%U%'%$%k%*!<%P!<$,@.8y$7$?$HH=Dj$G$-$^$;$s!#(B
>
>
>
> $B$J$<$3$N%m%0$,=PNO$5$l$J$+$C$?$N$+$^$G$O$o$+$j$^$;$s$G$7$?!#(B
>
>
>
> $B0J>e!"$43NG'$h$m$7$/$*4j$$$$$?$7$^$9!#(B
>
>
>
> > -----Original Message-----
>
> > From: linux-ha-japan-bounces@lists.osdn.me
>
> > [mailto:linux-ha-japan-bounces@lists.osdn.me] On Behalf Of
>
> > tsukishima.ha@gmail.com
>
> > Sent: Thursday, June 09, 2016 9:19 AM
>
> > To: linux-ha-japan@lists.osdn.me
>
> > Subject: [Linux-ha-jp] DC$B%N!<%I8N>c;~$N(Blogconv$B$N=PNO$K$D$$$F(B
>
> >
>
> > $B$*@$OC$K$J$C$F$*$j$^$9!#(B
>
> >
>
> > $BCSED$G$9!#(B
>
> >
>
> >
>
> >
>
> > $B2<5-$N4D6-$G(B2$B%N!<%I%/%i%9%?$r9=C[$7$F$$$^$9!#(B
>
> >
>
> >
>
> >
>
> > # cat /etc/redhat-release
>
> >
>
> > Red Hat Enterprise Linux Server release 6.5 (Santiago)
>
> >
>
> >
>
> >
>
> > # rpm -qa | grep pacemaker-all
>
> >
>
> > pacemaker-all-1.1.12-1.1.el6.noarch
>
> >
>
> >
>
> >
>
> > # rpm -qa | grep pm_logconv-cs
>
> >
>
> > pm_logconv-cs-2.0-1.el6.noarch
>
> >
>
> >
>
> >
>
> >
>
> >
>
> > Dummy$B%j%=!<%9$,(B3$B$D@_Dj$5$l$?(Bgroup$B$r(B1$B9f5!$G5/F0$5$;$?>uBV$G(B
>
> >
>
> > 1$B9f5!$rDd;_(B($B%Q%o!<%*%U(B)$B$9$k$H!"4|BTDL$j(B2$B9f5!$K%U%'%$%k%*!<%P$7$^$7$?$,(B
>
> >
>
> > 2$B9f5!$N(Blogconv$B$K2<5-$N%a%C%;!<%8$,=PNO$5$l$^$7$?!#(B
>
> >
>
> > logconv$B$N%a%C%;!<%8$@$1$r3NG'$9$k$H!"%U%'%$%k%*!<%P$K<:GT$7$F$$$k$h$&$K(B
> $B$_(B
>
> > $B$($^$9!#(B
>
> >
>
> >
>
> >
>
> > Jun 8 19:25:58 acdbv-ha02 warning: Node acdbv-ha01 is lost
>
> >
>
> > Jun 8 19:25:58 acdbv-ha02 info: Set DC node to acdbv-ha02.
>
> >
>
> > Jun 8 19:26:00 acdbv-ha02 error: Start to fail-over.
>
> >
>
> > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy01 tries to start.
>
> >
>
> > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy01 started. (rc=0)
>
> >
>
> > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy02 tries to start.
>
> >
>
> > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy02 started. (rc=0)
>
> >
>
> > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy03 tries to start.
>
> >
>
> > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy03 started. (rc=0)
>
> >
>
> > Jun 8 19:26:00 acdbv-ha02 error: fail-over failed.
>
> >
>
> >
>
> >
>
> > $B8N>cH/@8;~$N(BDC$B$O(B1$B9f5!$G$9!#(B
>
> >
>
> > DC$B8N>c$rH<$&%U%'%$%k%*!<%PH/@8;~$K(B
>
> >
>
> > logconv$B$K>e5-$N%a%C%;!<%8$,=PNO$5$l$k$N$O;EMM$G$7$g$&$+!#(B
>
> >
>
> > $B$=$l$H$b(Blogconv$B$N@_Dj$,ITB-$7$F$$$k$?$a(BDC$B8N>c$KBP1~$G$-$F$$$J$$$N$G$7$g(B
> $B$&(B
>
> > $B$+!#(B
>
> >
>
> > $BF0:n3NG'$K;HMQ$7$?(Blogconv$B$N@_Dj$*$h$S(Bha-log$B$rE:IU$$$?$7$^$9!#(B
>
> >
>
> >
>
> >
>
> > $B0J>e$h$m$7$/$*4j$$$$$?$7$^$9!#(B
>
> >
>
> >
>
> >
>
> > NTT$B@hC<5;=Q(B
>
> >
>
> > $BCSED=_;R(B
>
>
>
> _______________________________________________
>
> Linux-ha-japan mailing list
>
> Linux-ha-japan@lists.osdn.me
>
> http://lists.osdn.me/mailman/listinfo/linux-ha-japan
>
>

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan@lists.osdn.me
http://lists.osdn.me/mailman/listinfo/linux-ha-japan
Re: DCノード故障時のlogconvの出力について [ In reply to ]
飯田さん

池田です
ご連絡が遅くなりまして申し訳ありません。

rsyslogでファシリティを設定しているプロセスを確認したところ
あるプロセス(例としてlocal3)が下記のフィルタを定義していました。

if $msg contains 'フィルタ文言' then <ログファイル>

定義されたフィルタ文言がte_rsc_command関数から出力されるメッセージと一致してしまい
pm_logconvが必要とするログメッセージがha-logに出力されていませんでした。

手元環境で下記の定義を追加して確認したところ
pm_logconvは期待する動作をしているようです。
(Pacemakerのファシリティはlocal1)

if $msg contains 'フィルタ文言' and ( $syslogfacility-text != 'local1' ) then
<ログファイル>

ただし、上記の設定では他ファシリティへの影響が残存していることから

if $msg contains 'フィルタ文言' and ( $syslogfacility-text == 'local3' ) then
<ログファイル>

とするのが正しいと思いますので
設定変更については調整中です。

pm_logconvの動作については解決しましたが
HAの試験項目をやり直す時間がないので
pm_logconvのログメッセージをどこまで使えるかは微妙なところです。。。

以上よろしくお願いいたします。

池田淳子


2016年6月16日 17:07 飯田 雄介 <iidayuus@intellilink.co.jp>:

> 池田さん
>
> お世話になります。
> 飯田です。
>
> > -----Original Message-----
> > From: tsukishima.ha@gmail.com [mailto:tsukishima.ha@gmail.com]
> > Sent: Tuesday, June 14, 2016 1:10 AM
> > To: 飯田 雄介; linux-ha-japan@lists.osdn.me
> > Subject: RE: [Linux-ha-jp]DCノード故障時のlogconvの出力について
> >
> > 飯田さん
> >
> >
> >
> > 池田です。
> >
> > ご連絡ありがとうございます。
> >
> >
> >
> > VMware環境では下記のような再現性がありました。
> >
> > それぞれ10回試行し、10回とも同一の結果となりました。
> >
> > なお、リソースはDummy1個にして動作を確認しています。
> >
> >
> >
> > (1) vSphereClient から仮想マシンを「リセット」
> >
> >
> >
> > - リソースのフェイルオーバは成功
> >
> > - logconvの出力ではフェイルオーバ失敗
> >
> >
> >
> > 例)
> >
> > Jun 13 11:44:15 acdbv-ha02 warning: Node acdbv-ha01 is lost
> >
> > Jun 13 11:44:15 acdbv-ha02 info: Set DC node to acdbv-ha02.
> >
> > Jun 13 11:44:16 acdbv-ha02 error: Start to fail-over.
> >
> > Jun 13 11:44:16 acdbv-ha02 info: Resource dummy tries to start.
> >
> > Jun 13 11:44:16 acdbv-ha02 info: Resource dummy started. (rc=0)
> >
> > Jun 13 11:44:16 acdbv-ha02 error: fail-over failed.
> >
> >
> >
> > ログファイル:20160613-logconv/reset
> >
> >
> >
> > (2) OSコマンド(reboot -nf)で仮想マシンを再起動
> >
> >
> >
> > - リソースのフェイルオーバは成功
> >
> > - logconvの出力ではフェイルオーバ失敗
> >
> >
> >
> > 例)
> >
> > Jun 13 13:02:31 acdbv-ha02 warning: Node acdbv-ha01 is lost
> >
> > Jun 13 13:02:31 acdbv-ha02 info: Set DC node to acdbv-ha02.
> >
> > Jun 13 13:02:32 acdbv-ha02 error: Start to fail-over.
> >
> > Jun 13 13:02:32 acdbv-ha02 info: Resource dummy tries to start.
> >
> > Jun 13 13:02:32 acdbv-ha02 info: Resource dummy started. (rc=0)
> >
> > Jun 13 13:02:32 acdbv-ha02 error: fail-over failed.
> >
> >
> >
> > ログファイル:20160613-logconv/reboot
> >
> >
> >
> > (3) initctlコマンドでPacemakerを停止(initctl stop pacemaker.combined)
> >
> >
> >
> > - リソースのフェイルオーバは成功
> >
> > - logconvには「Start to fail-over.」が出力されない
> >
> > → コマンドオペレーションによるPacemakerの停止なので、これは仕様ですか?
> これは仕様です。
> サービス停止によるリソース移動ではフェイルオーバーと出力しないようになっています。
> >
> >
> >
> > 例)
> >
> > Jun 13 13:25:53 acdbv-ha02 info: Resource dummy tries to start.
> >
> > Jun 13 13:25:53 acdbv-ha02 info: Resource dummy started. (rc=0)
> >
> >
> >
> > ログファイル:20160613-logconv/initctl
> >
> >
> >
> > (4) Dummyリソースの監視故障(ステータスファイルの削除)
> >
> >
> >
> > - リソースのフェイルオーバは成功
> >
> >
> >
> > - DCノードでリソース故障
> >
> > 例)
> >
> > Jun 13 13:41:04 acdbv-ha02 error: Start to fail-over.
> >
> > Jun 13 13:41:04 acdbv-ha02 info: Resource dummy tries to stop.
> >
> > Jun 13 13:41:04 acdbv-ha02 info: Resource dummy stopped. (rc=0)
> >
> > Jun 13 13:41:04 acdbv-ha02 info: Resource dummy : Move acdbv-ha02 ->
> > acdbv-ha01
> >
> > Jun 13 13:41:04 acdbv-ha02 info: fail-over succeeded.
> >
> >
> >
> > - 非DCノードでリソース故障
> >
> > 例)
> >
> > Jun 13 13:42:04 acdbv-ha02 error: Resource dummy does not work. (rc=7)
> >
> > Jun 13 13:42:04 acdbv-ha02 info: Resource dummy tries to stop.
> >
> > Jun 13 13:42:04 acdbv-ha02 info: Resource dummy stopped. (rc=0)
> >
> > Jun 13 13:42:04 acdbv-ha02 info: Resource dummy tries to start.
> >
> > Jun 13 13:42:04 acdbv-ha02 info: Resource dummy started. (rc=0)
> >
> >
> >
> > DCに依存せず「error: Start to fail-over.」「info: fail-over succeeded.」と
> > いう
> >
> > 出力が得られることを想定していましたが、期待通りになりませんでした。
> フェイルオーバー関連のログが出力されるのはDCノード上のログだけなので、
> 「非DCノードでリソース故障」をさせた場合もDCノード上のログに
> 「error: Start to fail-over.」と「info: fail-over
> succeeded(またはfailed).」が出力されているはずです。
> >
> >
> >
> > ログファイル:20160613-logconv/monitor_ng
> >
> >
> >
> >
> >
> > 前回のメールで指摘していただいたとおり、logconvが変換に利用している下記メ
> > ッセージが
> >
> > ha-logに出力されていないことが根本原因だと思います。
> >
> >
> >
> > notice: te_rsc_command: Initiating action <num>: start <resource
> name>_start_0
> > on <node name> (local)
> >
> >
> >
> > ただし
> >
> > - te_rsc_command関数から当該メッセージが出力されない理由が不明(環境依存や
> > バージョンの組み合わせ?設定不足?)
> こちらでもvSphere5.1環境にRHEL6.6ゲスト(Errata適用無)を作って
> 動作を確認してみましたが、上記のログは出力されていました。
>
> ロジック上このログが出ないということは通常考えられないので、
> 例えば、syslogのフィルタ設定などが動いて該当のログ出力が止められてしまっている
> などを可能性を確認してみてはいかがでしょうか?
> # 頂いたha-log内に"local"と付くログが見当たらないので、"local"という単語で引っ掛けて消してるとか?
>
> > - te_rsc_command関数から当該メッセージが出力されないパターンが多岐にわたる
> >
> > という条件があることから、今回構築する環境(および類似のバージョンを使用して
> > いる環境)では
> >
> > logconvの出力結果からフェイルオーバの成否を判断せず
> >
> > ha-logの出力結果をシステム監視(Hinemos, Zabbix, JP1など)に登録し
> >
> > イベント発生時の通知(発報)へつなげることとします。
> >
> >
> >
> > # 今回はPacemaker 1.1.12を導入します。
> >
> > # ただ、Pacemaker 1.1.13/RHEL6/VMwareの環境でも同様の動作は発生しそうな気
> > がしますが。。。
> >
> > # 1.1.12と1.1.13でログ出力周りで大幅な変更はないですよね。
> 問題にログに関しては1.1.12と1.1.13で特に変更はないはずです。
> # 1.1.14ではログ全体から関数名の出力がなくなりました。
>
> 以上、よろしくお願いいたします。
> >
> >
> >
> >
> >
> > 以上よろしくお願いいたします。
> >
> >
> >
> > 池田淳子
> >
> >
> >
> >
> >
> >
> >
> > 差出人: 飯田 雄介 <mailto:iidayuus@intellilink.co.jp>
> > 送信日時: 2016年6月10日 16:07
> > 宛先: linux-ha-japan@lists.osdn.me
> > 件名: Re: [Linux-ha-jp]DCノード故障時のlogconvの出力について
> >
> >
> >
> > 池田さん
> >
> >
> >
> > お世話になります。
> >
> > 飯田です。
> >
> >
> >
> > > 故障発生時のDCは1号機です。
> >
> > > DC故障を伴うフェイルオーバ発生時に
> >
> > > logconvに上記のメッセージが出力されるのは仕様でしょうか。
> >
> > フェイルオーバー失敗となるのは期待される動作ではありません。
> >
> > 期待される動きはフェイルオーバー成功となることです。
> >
> >
> >
> > 私の手元の環境でも頂いた設定を使って似たような構成を取り再現してみましたが、
> >
> > 下記の通りフェイルオーバー成功となりました。
> >
> > Jun 10 05:42:20 cento7-logconv-2.novalocal info: Set DC node to
> > cento7-logconv-1.novalocal.
> >
> > Jun 10 05:42:47 cento7-logconv-2.novalocal warning: Node
> > cento7-logconv-1.novalocal is lost
> >
> > Jun 10 05:42:47 cento7-logconv-2.novalocal info: Unset DC node
> > cento7-logconv-1.novalocal.
> >
> > Jun 10 05:42:47 cento7-logconv-2.novalocal info: Set DC node to
> > cento7-logconv-2.novalocal.
> >
> > Jun 10 05:42:48 cento7-logconv-2.novalocal error: Start to fail-over.
> >
> > Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01
> tries to
> > start.
> >
> > Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01
> started.
> > (rc=0)
> >
> > Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy02
> tries to
> > start.
> >
> > Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy02
> started.
> > (rc=0)
> >
> > Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03
> tries to
> > start.
> >
> > Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03
> started.
> > (rc=0)
> >
> > Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy01 :
> Started
> > on cento7-logconv-2novalocal
> >
> > Jun 10 05:42:48 cento7-logconv-2.novalocal info: Resource dummy03 :
> Started
> > on cento7-logconv-2novalocal
> >
> > Jun 10 05:42:48 cento7-logconv-2.novalocal info: fail-over succeeded.
> >
> >
> >
> > 再現環境と頂いたha-logを比較したところ、池田さんの環境では下記のようなログ
> > が出力されていないようです。
> >
> > Jun 10 05:42:48 cento7-logconv-2 crmd[2249]: notice: te_rsc_command:
> > Initiating action 4: start dummy01_start_0 on cento7-logconv-2.novalocal
> > (local)
> >
> >
> >
> > logconvではこのログを使ってリソースのステータスを管理してますので、
> >
> > ログの出力がないとフェイルオーバーが成功したと判定できません。
> >
> >
> >
> > なぜこのログが出力されなかったのかまではわかりませんでした。
> >
> >
> >
> > 以上、ご確認よろしくお願いいたします。
> >
> >
> >
> > > -----Original Message-----
> >
> > > From: linux-ha-japan-bounces@lists.osdn.me
> >
> > > [mailto:linux-ha-japan-bounces@lists.osdn.me] On Behalf Of
> >
> > > tsukishima.ha@gmail.com
> >
> > > Sent: Thursday, June 09, 2016 9:19 AM
> >
> > > To: linux-ha-japan@lists.osdn.me
> >
> > > Subject: [Linux-ha-jp] DCノード故障時のlogconvの出力について
> >
> > >
> >
> > > お世話になっております。
> >
> > >
> >
> > > 池田です。
> >
> > >
> >
> > >
> >
> > >
> >
> > > 下記の環境で2ノードクラスタを構築しています。
> >
> > >
> >
> > >
> >
> > >
> >
> > > # cat /etc/redhat-release
> >
> > >
> >
> > > Red Hat Enterprise Linux Server release 6.5 (Santiago)
> >
> > >
> >
> > >
> >
> > >
> >
> > > # rpm -qa | grep pacemaker-all
> >
> > >
> >
> > > pacemaker-all-1.1.12-1.1.el6.noarch
> >
> > >
> >
> > >
> >
> > >
> >
> > > # rpm -qa | grep pm_logconv-cs
> >
> > >
> >
> > > pm_logconv-cs-2.0-1.el6.noarch
> >
> > >
> >
> > >
> >
> > >
> >
> > >
> >
> > >
> >
> > > Dummyリソースが3つ設定されたgroupを1号機で起動させた状態で
> >
> > >
> >
> > > 1号機を停止(パワーオフ)すると、期待通り2号機にフェイルオーバしましたが
> >
> > >
> >
> > > 2号機のlogconvに下記のメッセージが出力されました。
> >
> > >
> >
> > > logconvのメッセージだけを確認すると、フェイルオーバに失敗しているように
> > み
> >
> > > えます。
> >
> > >
> >
> > >
> >
> > >
> >
> > > Jun 8 19:25:58 acdbv-ha02 warning: Node acdbv-ha01 is lost
> >
> > >
> >
> > > Jun 8 19:25:58 acdbv-ha02 info: Set DC node to acdbv-ha02.
> >
> > >
> >
> > > Jun 8 19:26:00 acdbv-ha02 error: Start to fail-over.
> >
> > >
> >
> > > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy01 tries to start.
> >
> > >
> >
> > > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy01 started. (rc=0)
> >
> > >
> >
> > > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy02 tries to start.
> >
> > >
> >
> > > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy02 started. (rc=0)
> >
> > >
> >
> > > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy03 tries to start.
> >
> > >
> >
> > > Jun 8 19:26:00 acdbv-ha02 info: Resource dummy03 started. (rc=0)
> >
> > >
> >
> > > Jun 8 19:26:00 acdbv-ha02 error: fail-over failed.
> >
> > >
> >
> > >
> >
> > >
> >
> > > 故障発生時のDCは1号機です。
> >
> > >
> >
> > > DC故障を伴うフェイルオーバ発生時に
> >
> > >
> >
> > > logconvに上記のメッセージが出力されるのは仕様でしょうか。
> >
> > >
> >
> > > それともlogconvの設定が不足しているためDC故障に対応できていないのでしょ
> > う
> >
> > > か。
> >
> > >
> >
> > > 動作確認に使用したlogconvの設定およびha-logを添付いたします。
> >
> > >
> >
> > >
> >
> > >
> >
> > > 以上よろしくお願いいたします。
> >
> > >
> >
> > >
> >
> > >
> >
> > > NTT先端技術
> >
> > >
> >
> > > 池田淳子
> >
> >
> >
> > _______________________________________________
> >
> > Linux-ha-japan mailing list
> >
> > Linux-ha-japan@lists.osdn.me
> >
> > http://lists.osdn.me/mailman/listinfo/linux-ha-japan
> >
> >
>
>