[ F09_Distsys ] Post 1 496516255

分散式系統錯誤(Failure)相關概念


Failure Handling:
 -跟可靠度相關。
 -壞掉,為什麼會壞掉?有很多原因,設計有問題而壞掉、實做錯誤而壞掉、硬體壞、軟體壞、programmer寫程式時不細心造成邏輯錯誤、compiler錯了等等。

處置Failure有哪些步驟:
 -第一要能偵測。
 -偵測後Masking Failures是一種做法。
 -再來是Tolerating Failures(容錯)。

Tolerating Failures:
 -硬體的容錯。
 -軟體的容錯。
 
容錯原則:
 -要容錯,就要有多的資源,付出時間或空間、付出cost。

空間容錯:
 -有備份的空間,更多的儲存設備。

時間容錯:
 -保留不同時間的狀態,遇到錯誤時,可前往先前不同時間找出錯誤或避開錯誤。 

Redundancy:
 -有多餘的時間或空間。