운영 및 관리
8️⃣ 운영 및 관리 Best Practices
Ceph 클러스터의 운영과 관리는 단순히 설치 이후가 아닌, 확장성, 모니터링, 성능 최적화, 장애 분석까지 고려해야 합니다.
이 섹션에서는 실전 운영에 필요한 베스트 프랙티스를 소개합니다.
1. Ceph Cluster 확장 (노드/디스크 추가)
🧩 노드/디스크 추가 구조
flowchart LR
NewNode[New Node with Disk]
Rook[rook-ceph-operator]
Cluster[Ceph Cluster]
NewNode -->|join| Rook
Rook -->|Update CR| Cluster
Cluster -->|Rebalance| PGs💡 실습 예시: 디스크 추가를 위한 OSD CR 구성
# ceph-cluster.yaml 내 device 지정
storage:
useAllNodes: true
useAllDevices: false
nodes:
- name: "worker-node-3"
devices:
- name: "sdb"kubectl apply -f ceph-cluster.yaml✅
rook-ceph-osd-prepare가 새로운 디스크를 인식하여 자동으로 OSD로 구성합니다.
2. Pool 설정 튜닝 (replica, EC 등)
🎯 Pool 종류
| 타입 | 설명 | 장점 | 단점 |
|---|---|---|---|
| Replicated | 기본 3-way 복제 | 빠른 성능, 쉬운 구성 | 높은 디스크 사용률 |
| EC (Erasure Coding) | RAID-like 분산 저장 | 저장 공간 절약 | 성능 낮음, 블록에 부적합 |
💡 예시: 복제 Pool 생성
ceph osd pool create replicated-pool 128
ceph osd pool set replicated-pool size 3💡 예시: EC Pool 생성
ceph osd erasure-code-profile set ec-profile k=2 m=1
ceph osd pool create ec-pool 128 128 erasure ec-profile3. Ceph CLI 사용법 (ceph, rados, rbd, cephfs-shell)
🛠 주요 CLI 예시
- 📌 클러스터 상태 확인
ceph -s- 📌 Pool 정보
ceph osd pool ls detail- 📌 RBD 볼륨 생성 및 매핑
rbd create my-vol --size 10240 --pool=replicated-pool
rbd map replicated-pool/my-vol- 📌 RADOS 객체 확인
rados -p replicated-pool ls- 📌 CephFS CLI
ceph fs ls
ceph fs volume create myfs
ceph fs subvolume create myfs mysub4. Ceph 매니저 모듈 설정 (Prometheus, Alertmanager)
📈 Prometheus 연동 아키텍처
graph TD; CephMgr --> Prometheus --> Alertmanager --> Slack/Email
💡 설정 방법
ceph mgr module enable prometheus- 이후 Rook Operator는 Prometheus용
ServiceMonitor,Endpoints,ConfigMap자동 생성
kubectl get servicemonitor -n rook-ceph🔔 Alertmanager를 통해 Slack, Email, Webhook 알림 구성 가능
5. 로그 분석 및 문제 해결
🧪 로그 위치
- Pod 로그:
kubectl logs -n rook-ceph <pod-name> - Ceph 내부 로그:
ceph config get mgr mgr/cephadm/log_to_cluster
ceph config set global log_to_file true/var/log/ceph/경로에 로그 저장
🧠 문제 해결 팁
| 문제 상황 | 체크 항목 |
|---|---|
| OSD 다운 | ceph osd tree, OSD Pod Crash 확인 |
| PG inactive | ceph pg dump, ceph health detail |
| Disk full | ceph df, 디스크 확장 고려 |
| 성능 저하 | RBD latency, Prometheus 대시보드 분석 |
✅ 마무리 요약
| 항목 | 요약 내용 |
|---|---|
| 노드/디스크 확장 | Rook CR 수정으로 자동 반영 |
| Pool 설정 튜닝 | 사용 목적에 맞게 Replica/EC 선택 |
| CLI 도구 사용 | ceph, rados, rbd, cephfs-shell 필수 |
| 모니터링/알림 | Prometheus + Alertmanager |
| 로그/장애 분석 | CLI + Dashboard + 로그 조합 |
마지막 수정일자