운영 및 관리

Devops

Rook-Ceph

운영 및 관리

8️⃣ 운영 및 관리 Best Practices

Ceph 클러스터의 운영과 관리는 단순히 설치 이후가 아닌, 확장성, 모니터링, 성능 최적화, 장애 분석까지 고려해야 합니다.
이 섹션에서는 실전 운영에 필요한 베스트 프랙티스를 소개합니다.

1. Ceph Cluster 확장 (노드/디스크 추가)

🧩 노드/디스크 추가 구조

flowchart LR
    NewNode[New Node with Disk]
    Rook[rook-ceph-operator]
    Cluster[Ceph Cluster]

    NewNode -->|join| Rook
    Rook -->|Update CR| Cluster
    Cluster -->|Rebalance| PGs

💡 실습 예시: 디스크 추가를 위한 OSD CR 구성

# ceph-cluster.yaml 내 device 지정
storage:
  useAllNodes: true
  useAllDevices: false
  nodes:
    - name: "worker-node-3"
      devices:
        - name: "sdb"

kubectl apply -f ceph-cluster.yaml

✅ rook-ceph-osd-prepare가 새로운 디스크를 인식하여 자동으로 OSD로 구성합니다.

2. Pool 설정 튜닝 (replica, EC 등)

🎯 Pool 종류

타입	설명	장점	단점
Replicated	기본 3-way 복제	빠른 성능, 쉬운 구성	높은 디스크 사용률
EC (Erasure Coding)	RAID-like 분산 저장	저장 공간 절약	성능 낮음, 블록에 부적합

💡 예시: 복제 Pool 생성

ceph osd pool create replicated-pool 128
ceph osd pool set replicated-pool size 3

💡 예시: EC Pool 생성

ceph osd erasure-code-profile set ec-profile k=2 m=1
ceph osd pool create ec-pool 128 128 erasure ec-profile

3. Ceph CLI 사용법 (ceph, rados, rbd, cephfs-shell)

🛠 주요 CLI 예시

📌 클러스터 상태 확인

ceph -s

📌 Pool 정보

ceph osd pool ls detail

📌 RBD 볼륨 생성 및 매핑

rbd create my-vol --size 10240 --pool=replicated-pool
rbd map replicated-pool/my-vol

📌 RADOS 객체 확인

rados -p replicated-pool ls

📌 CephFS CLI

ceph fs ls
ceph fs volume create myfs
ceph fs subvolume create myfs mysub

4. Ceph 매니저 모듈 설정 (Prometheus, Alertmanager)

📈 Prometheus 연동 아키텍처

graph TD;
  CephMgr --> Prometheus --> Alertmanager --> Slack/Email

💡 설정 방법

ceph mgr module enable prometheus

이후 Rook Operator는 Prometheus용 ServiceMonitor, Endpoints, ConfigMap 자동 생성

kubectl get servicemonitor -n rook-ceph

🔔 Alertmanager를 통해 Slack, Email, Webhook 알림 구성 가능

5. 로그 분석 및 문제 해결

🧪 로그 위치

Pod 로그: kubectl logs -n rook-ceph <pod-name>
Ceph 내부 로그:

ceph config get mgr mgr/cephadm/log_to_cluster
ceph config set global log_to_file true

/var/log/ceph/ 경로에 로그 저장

🧠 문제 해결 팁

문제 상황	체크 항목
OSD 다운	`ceph osd tree`, OSD Pod Crash 확인
PG inactive	`ceph pg dump`, `ceph health detail`
Disk full	`ceph df`, 디스크 확장 고려
성능 저하	RBD latency, Prometheus 대시보드 분석

✅ 마무리 요약

항목	요약 내용
노드/디스크 확장	Rook CR 수정으로 자동 반영
Pool 설정 튜닝	사용 목적에 맞게 Replica/EC 선택
CLI 도구 사용	ceph, rados, rbd, cephfs-shell 필수
모니터링/알림	Prometheus + Alertmanager
로그/장애 분석	CLI + Dashboard + 로그 조합

RSS Feed

마지막 수정일자 April 21, 2025

고가용성(HA) 및 장애 복구 백업과 마이그레이션