failure

from 카테고리 없음 2011. 7. 21. 02:23

50번과 다른 사람의 마인드 차이가 어떤 결과를 가져올지에 대한 극단적인 예가 '탠덤'이 아닐까 싶다. 죽지 않는 서버의 신화 탠덤 스토리 하나 얘기해보자. 연중 99.999% uptime을 보장하는 탠덤이 어떻게 태어났나? 지금도 그렇지만 탠덤을 제외한 나머지 OS 벤더들은 실패한 하드웨어 위에서 OS가 제대로 도는 것을 보장하지 않는다 (이게 당연하다고?). 탠덤은? 보장한다. 99.999% uptime 이라는 건 1년에 한 번만 리부팅을 하면 달성 불가한 목표인데 탠덤은 그걸 보장한다. 한 마디로 이유가 무엇이건 한 번 끄면 이 목표 달성 불가다. 탠덤 회장이 다르게 생각했던 부분은 "하드웨어는 원래 실패하는 것이다, 10년동안 실패하지 않고 작동하는 하드웨어는 없다" 이다. 다른 벤더는 "하드웨어가 실패하지 않아야 한다. 하드웨어가 실패하면 OS 도는 것 당연 보장 못한다" 였지. 지금도 그렇고. 그럼 탠덤 회장이 뭘 했겠나? 파워를 포함한 모든 장치를 다 이중화 했고, 모든 장치를 셧다운 없이 앞쪽에서 당겨서 뽑을 수 있게 슬롯화하여 불량 하드웨어 메인터넌스는 신입사원도 수행 가능케 했지. 셀프 진단 모뎀을 기계에 붙여 글로벌 3교대로 전세계 시스템을 감시. 결과는? 고객이 하드웨어 불량을 인지하는 경우는 거의 없고 먼저 탠덤이 고객 서버의 불량을 인지하고 교체 장비 들고 가서 앞문 열고 뽑고 꽂아서 정비 끝. 이렇게 non-stop 시스템이 태어났다. 50번은 (예를 들면) HDD failure 가 있으면 당연히 OS는 죽어야지 뭔 소리냐 그런 얘기하고 있는 중이고 (또 그걸 당연하다고 맞장구치는 몇몇도 있고) 다른 사람들은 아니 그런 failure 가능성이 있으면 그걸 가능한 한 없애고 HDD failure 가 있어도 어떻게든 OS가 살아남아 개선책을 제시할 생각을 해야지 뭔 소리냐 그런 얘기를 하고 있는 것이다. malloc은 실패해서는 안된다는 생각을 가진 전자에 속하는 사람이 개발한 제품은 꾸준히 크래시할 것이고 malloc은 실패할 수 있다는 후자의 마인드를 가진 사람이 개발한 제품은 꾸준히 업그레이드 되어 언젠가 non-stop 시스템 처럼 될 것이다

<kids bbs>

,