운영 및 관리

운영 및 관리

8️⃣ 운영 및 관리 Best Practices

Ceph 클러스터의 운영과 관리는 단순히 설치 이후가 아닌, 확장성, 모니터링, 성능 최적화, 장애 분석까지 고려해야 합니다.
이 섹션에서는 실전 운영에 필요한 베스트 프랙티스를 소개합니다.


1. Ceph Cluster 확장 (노드/디스크 추가)

🧩 노드/디스크 추가 구조

flowchart LR
    NewNode[New Node with Disk]
    Rook[rook-ceph-operator]
    Cluster[Ceph Cluster]

    NewNode -->|join| Rook
    Rook -->|Update CR| Cluster
    Cluster -->|Rebalance| PGs

💡 실습 예시: 디스크 추가를 위한 OSD CR 구성

# ceph-cluster.yaml 내 device 지정
storage:
  useAllNodes: true
  useAllDevices: false
  nodes:
    - name: "worker-node-3"
      devices:
        - name: "sdb"
kubectl apply -f ceph-cluster.yaml

rook-ceph-osd-prepare가 새로운 디스크를 인식하여 자동으로 OSD로 구성합니다.


2. Pool 설정 튜닝 (replica, EC 등)

🎯 Pool 종류

타입 설명 장점 단점
Replicated 기본 3-way 복제 빠른 성능, 쉬운 구성 높은 디스크 사용률
EC (Erasure Coding) RAID-like 분산 저장 저장 공간 절약 성능 낮음, 블록에 부적합

💡 예시: 복제 Pool 생성

ceph osd pool create replicated-pool 128
ceph osd pool set replicated-pool size 3

💡 예시: EC Pool 생성

ceph osd erasure-code-profile set ec-profile k=2 m=1
ceph osd pool create ec-pool 128 128 erasure ec-profile

3. Ceph CLI 사용법 (ceph, rados, rbd, cephfs-shell)

🛠 주요 CLI 예시

  • 📌 클러스터 상태 확인
ceph -s
  • 📌 Pool 정보
ceph osd pool ls detail
  • 📌 RBD 볼륨 생성 및 매핑
rbd create my-vol --size 10240 --pool=replicated-pool
rbd map replicated-pool/my-vol
  • 📌 RADOS 객체 확인
rados -p replicated-pool ls
  • 📌 CephFS CLI
ceph fs ls
ceph fs volume create myfs
ceph fs subvolume create myfs mysub

4. Ceph 매니저 모듈 설정 (Prometheus, Alertmanager)

📈 Prometheus 연동 아키텍처

graph TD;
  CephMgr --> Prometheus --> Alertmanager --> Slack/Email

💡 설정 방법

ceph mgr module enable prometheus
  • 이후 Rook Operator는 Prometheus용 ServiceMonitor, Endpoints, ConfigMap 자동 생성
kubectl get servicemonitor -n rook-ceph

🔔 Alertmanager를 통해 Slack, Email, Webhook 알림 구성 가능


5. 로그 분석 및 문제 해결

🧪 로그 위치

  • Pod 로그: kubectl logs -n rook-ceph <pod-name>
  • Ceph 내부 로그:
ceph config get mgr mgr/cephadm/log_to_cluster
ceph config set global log_to_file true
  • /var/log/ceph/ 경로에 로그 저장

🧠 문제 해결 팁

문제 상황 체크 항목
OSD 다운 ceph osd tree, OSD Pod Crash 확인
PG inactive ceph pg dump, ceph health detail
Disk full ceph df, 디스크 확장 고려
성능 저하 RBD latency, Prometheus 대시보드 분석

✅ 마무리 요약

항목 요약 내용
노드/디스크 확장 Rook CR 수정으로 자동 반영
Pool 설정 튜닝 사용 목적에 맞게 Replica/EC 선택
CLI 도구 사용 ceph, rados, rbd, cephfs-shell 필수
모니터링/알림 Prometheus + Alertmanager
로그/장애 분석 CLI + Dashboard + 로그 조합

RSS Feed
마지막 수정일자