Skenario Failover & Recovery: System Hang

Jika sistem hang, cluster (terutama yg menggunakan power fencing device) normalnya akan berperilaku seperti demikian:

  1. cluster system yg masih berjalan (di hosts yg sehat) mendeteksi adanya hang (atau malah memang cluster sengaja membuat system tsb hang), antara lain komunikasi heartbeat sudah tidak terjadi, atau pada quorum partition sudah tidak meng-update timestamp;
  2. cluster (yg masih working) akan me-reboot (fencing) system yg lagi nge-hang;
  3. cluster  (yg masih working) akan restart semua services yg sebelumnya running di system yg hang tsb di host yg sehat atau kita biasa sebut failover (atau takeover);
  4. setelah reboot, jika sistem yg hang tsb berhasil kembali join ke cluster, service(s) akan kembali UP sesuai cluster policy.