운영 및 관리
8️⃣ 운영 및 관리 Best Practices
Ceph 클러스터의 운영과 관리는 단순히 설치 이후가 아닌, 확장성, 모니터링, 성능 최적화, 장애 분석까지 고려해야 합니다.
이 섹션에서는 실전 운영에 필요한 베스트 프랙티스를 소개합니다.
1. Ceph Cluster 확장 (노드/디스크 추가)
🧩 노드/디스크 추가 구조
flowchart LR NewNode[New Node with Disk] Rook[rook-ceph-operator] Cluster[Ceph Cluster] NewNode -->|join| Rook Rook -->|Update CR| Cluster Cluster -->|Rebalance| PGs
💡 실습 예시: 디스크 추가를 위한 OSD CR 구성
# ceph-cluster.yaml 내 device 지정
storage:
useAllNodes: true
useAllDevices: false
nodes:
- name: "worker-node-3"
devices:
- name: "sdb"
kubectl apply -f ceph-cluster.yaml
✅
rook-ceph-osd-prepare
가 새로운 디스크를 인식하여 자동으로 OSD로 구성합니다.
2. Pool 설정 튜닝 (replica, EC 등)
🎯 Pool 종류
타입 | 설명 | 장점 | 단점 |
---|---|---|---|
Replicated | 기본 3-way 복제 | 빠른 성능, 쉬운 구성 | 높은 디스크 사용률 |
EC (Erasure Coding) | RAID-like 분산 저장 | 저장 공간 절약 | 성능 낮음, 블록에 부적합 |
💡 예시: 복제 Pool 생성
ceph osd pool create replicated-pool 128
ceph osd pool set replicated-pool size 3
💡 예시: EC Pool 생성
ceph osd erasure-code-profile set ec-profile k=2 m=1
ceph osd pool create ec-pool 128 128 erasure ec-profile
3. Ceph CLI 사용법 (ceph, rados, rbd, cephfs-shell)
🛠 주요 CLI 예시
- 📌 클러스터 상태 확인
ceph -s
- 📌 Pool 정보
ceph osd pool ls detail
- 📌 RBD 볼륨 생성 및 매핑
rbd create my-vol --size 10240 --pool=replicated-pool
rbd map replicated-pool/my-vol
- 📌 RADOS 객체 확인
rados -p replicated-pool ls
- 📌 CephFS CLI
ceph fs ls
ceph fs volume create myfs
ceph fs subvolume create myfs mysub
4. Ceph 매니저 모듈 설정 (Prometheus, Alertmanager)
📈 Prometheus 연동 아키텍처
graph TD; CephMgr --> Prometheus --> Alertmanager --> Slack/Email
💡 설정 방법
ceph mgr module enable prometheus
- 이후 Rook Operator는 Prometheus용
ServiceMonitor
,Endpoints
,ConfigMap
자동 생성
kubectl get servicemonitor -n rook-ceph
🔔 Alertmanager를 통해 Slack, Email, Webhook 알림 구성 가능
5. 로그 분석 및 문제 해결
🧪 로그 위치
- Pod 로그:
kubectl logs -n rook-ceph <pod-name>
- Ceph 내부 로그:
ceph config get mgr mgr/cephadm/log_to_cluster
ceph config set global log_to_file true
/var/log/ceph/
경로에 로그 저장
🧠 문제 해결 팁
문제 상황 | 체크 항목 |
---|---|
OSD 다운 | ceph osd tree , OSD Pod Crash 확인 |
PG inactive | ceph pg dump , ceph health detail |
Disk full | ceph df , 디스크 확장 고려 |
성능 저하 | RBD latency, Prometheus 대시보드 분석 |
✅ 마무리 요약
항목 | 요약 내용 |
---|---|
노드/디스크 확장 | Rook CR 수정으로 자동 반영 |
Pool 설정 튜닝 | 사용 목적에 맞게 Replica/EC 선택 |
CLI 도구 사용 | ceph, rados, rbd, cephfs-shell 필수 |
모니터링/알림 | Prometheus + Alertmanager |
로그/장애 분석 | CLI + Dashboard + 로그 조합 |
마지막 수정일자