책내용 정리/인프라 엔지니어의 첫걸음

인프라 엔지니어링의 첫걸음(4)

Saranf 2018. 10. 18. 21:29


안녕하세요, 사라이 입니다.

이 글은 "인프라 엔지니의 첫걸음"의 책 내용을 정리한 글 입니다.

틀린 대목이 있을 수도 있으니 어디까지나 참고로 활용하여 주시면 감사하겠습니다.



출처: http://mas.click/entry/인프라-엔지니어링의-첫걸음3 [무무와 사라이]

안녕하세요, 사라이 입니다.

이 글은 "인프라 엔지니의 첫걸음"의 책 내용을 정리한 글 입니다.

틀린 대목이 있을 수도 있으니 어디까지나 참고로 활용하여 주시면 감사하겠습니다.



출처: http://mas.click/entry/인프라-엔지니어링의-첫걸음3 [무무와 사라이]

안녕하세요, 사라이 입니다.

이 글은 "인프라 엔지니의 첫걸음"의 책 내용을 정리한 글 입니다.

틀린 대목이 있을 수도 있으니 어디까지나 참고로 활용하여 주시면 감사하겠습니다.



출처: http://mas.click/entry/인프라-엔지니어링의-첫걸음3 [무무와 사라이]

안녕하세요, 사라이 입니다.

이 글은 "인프라 엔지니의 첫걸음"의 책 내용을 정리한 글 입니다.

틀린 대목이 있을 수도 있으니 어디까지나 참고로 활용하여 주시면 감사하겠습니다.



출처: http://mas.click/entry/인프라-엔지니어링의-첫걸음3 [무무와 사라이안ㄴ안이

이 포스팅은 "인프라 엔지니어링의 첫걸음" 책을 정리한 포스팅 입니다.

지극히 주관적으로 정리되어 있으니 어디까지나 참고 자료로 활용해 주시길 부탁드립니다.


운용

: 감시 도구를 사용해서 24시간,365일 동안 시스템 이상을 감시하는 것이다.


운용의 단계

설계 단계

: 운용 설계


구축 단계

: 운용 구축, 운용 담당자와 정보 공유, 감시 항목 결정/설정, 요건 공유, 대응 문서 작성


배포 단계

: 배포 준비/테스트, 배포 테스트, 전환 테스트, 스트레스 테스트, 경보 통지 테스트, 장애 대응 테스트


운용 단계 

: 장애 대응, 일상적인 작업



허용할 수 있는 다운 타임


- 돈을 다루는 시스템인가?

: 높은 수준의 보안 필요


- 생명과 관련된 시스템인가?

: 매우  높은 가용성 필요


-개인 정보나 민감한 정보를 다루는 시스템인가?

: 부정한 접근 여부를 어떻게 확인할 것인지 대책까지 생각해 두기


-인허가 사업과 관련된 시스템인가?

: 장애 허용성과 보안 대책을 어느 정도 요구하는가?

: 다운타임을 어느 정도로 짧게 해야 하는가?

: 비용을 어느 정도 줄여야 하는가?

: 장애 발생을 어느 정도 허용하더라도 복구를 빠르게 하는 접근 방법을 사용할 것인가?



운용 체제 구축

-구성에 단일 지점이 있는지 확인하기
: 개발 환경은 단일 서버 구성 문제 없지만 실제 서버는 단일 구성으로 하면 안됨
--> 서버와 어플리케이션이 중지되었을 때 서비스 전체에 영향을 줄 수 있음

-장애 발생 시 생길 수 있는 다운 타임 가능성 확인하기
: 단일 지점이 있는 경우는 서비스 자체를 아예 제공하지 못할 가능성이 있음
: 확장 서버 구성에도 자동 전환(페일오버/페일백) 을 제대로 하지 않으면 다운 타임 발생

-특수 설정 확인하기
: 직접 전환해야 하는지, 클러스터가 제대로 구성되어 있는지, 라이센스 갱신이 필요한 소프트웨어가 있는지, 소스 설치 여부,  미들웨어에 특수 설정이 있는지 모두 확인해야 한다.

- 보안 정책 파악하기
: 서버가 어떤 보안 정책을 사용하는지 등을 파악해야 한다

감시 항목 설정
: Nagios ( https://www.nagios.org/ )  , Zabbix ( https://www.zabbix.com/ ) , Munin ( http://munin-monitoring.org/ ) 등의 감시 도구들이 있다.

메일로 통지 해야 하는 것

- URL 감시
: 웹 사이트 출력 속도 확인
-포트 감시
: Listen상태 확인
-프로세스 감시
: 프로세스 수 확인
- 디스크 또는 inode(파일 생성 가능 수)사용량
: 디스크 또는 inode사용량
- 읽기 평균(load Average) 값
: 시스템 전체의 부하 상태를 나타내는 값
- 메모리의 스왑(Swap) 사용량
: 메모리의 스왑 사용량
- 애플리케이션 로그
: 오류 문자열
- 하드웨어 고장
: 하드웨어 관련 고장
----> 서버 벤더가 제공하는 하드웨어 관리 도구 사용



 데이터로 수집해야 하는 것


- 읽기 평균값
: 시스템 전체의 부하 상태를 나타내는 값
-메모리 또는 swap사용량
: 메모리 또는 swap사용량
-디스크 지연 시간
: 디스크를 읽고 쓰는 응답 속도
-트래픽 IN/OUT
: 트래픽 흐름 추이
-서버의 CPU사용량
: 서버의 총 CPU사용량
-방화벽의 세션 수
: 방화벽에 연결하러 온 세션의 합계
-방화벽의 CPU사용량
: 방화벽의 CPU사용량
-디스크 또는 inode사용량
: 디스크 또는 inode사용량
-웹 서버의 동시 접속 수
: 웹 서버의 동시 접속 수
-데이터베이스의 동시 접속 수
: 데이터베이스의 동시 접속 수
- 데이터베이스의 select 명령 실행에 걸리는 시간
: 데이터베이스의 select 명령 실행에 걸리는 시간 (시간지연)
-데이터베이스의 update 명령 실행에 걸리는 시간
: 데이터베이스의 update 명령 실행에 걸리는 시간(시간지연)


조건 공유 문서 만들기


: 제공하는 서비스의 개요

----> 어떤 부분을 운용하는지 , 운용팀 전체의 담당자 까지 올릴수 있다.

: 시스템 개요, 사용하는 인프라 기반

---> 구성상의 단일 지점, 장애 발생시의 다운타임 가능성, 특수설정, 보안정책, 사용 인프라 관련된 정보

: 구성도 관계 자료

---> 구성도와 물리 배선도 등의 관계 자료

: 안건과 관련된 회사 이름과 담당자 이름

: 커뮤니케이션 도구의 계정과 사용 용도 공유

: 장애 발생시 대응 절차

: 긴급 상황이 발생했을 때의 연락망

: 정시 작업

---> 라이센스 변경, 보안 정보 수집 등 정기적으로 해야하는 요소

: 매뉴얼 제작

---> 기술자용, 비기술자용