Mission Control/ 관제소

Spacewalk 인프라(AWS · NCP) 실시간 모니터링 · AI 자동 진단

STN · GC-01 · 운영자 operator

가이드

KST··:··:··

UTC··:··:··

모든 채널 정상

01·텔레메트리 · 최근 24시간정상 35/경보 0/전체 37

SYS/인프라 상태EC2 정상

17/19

ALR/활성 인시던트미해결

474건

+745% · 직전 대비

FIN/월 지출이번 달

$816USD

-37% · 직전 대비

AUT/자율 조치자율 조치

07일

-38% · 직전 대비

DAT·데이터 신선도

DAT·SOT 테이블 freshness전체 정상

5개 SOT 테이블 모두 정상

02·인프라 리소스

37/37

구분이름리전상태지표 · 24시간월 비용

EC2
EKS-NODE-engine-kube-system-maini-010e786b68c6dca71
—실행 중
2.2%CPU
$13
EC2
EKS-NODE-engine-kube-system-main-subi-005090c01d45ccbdf
—실행 중
3.3%CPU
$11
EC2
EKS-NODE-engine-linux-lh-maini-08dcd35601bf02c14
—실행 중
0.5%CPU
$13
EC2
EKS-NODE-engine-linux-lh-maini-05099dfec7853e290
—실행 중
2.7%CPU
$13
EC2
EKS-NODE-engine-linux-swk-prod-maini-08f120431f7d2b0e5
—실행 중
3.0%CPU
$5
EC2
EKS-NODE-engine-linux-swk-stage-maini-08edad41dbccf9d74
—실행 중
2.0%CPU
$13
EC2
LH가로주택 proxy serveri-03a808ab28775db09
—실행 중
0.3%CPU
$6
EC2
clipsofti-096236c5c31e418ca
—실행 중
0.3%CPU
$13
EC2
eis-routeri-021bc2a6881ff9222
—실행 중
0.1%CPU
$1
EC2
garo-landbook-api-productioni-0c27d5496f665eefa
—실행 중
0.7%CPU
$6
EC2
jay-devi-0d7a5acff0cdd834a
—실행 중
5.5%CPU
$34
EC2
lbd-fe-mei-063bd05d84060c2ed
—실행 중
0.4%CPU
$3
EC2
lbd-fe-prodi-078ab7f714c784164
—실행 중
0.3%CPU
$1
EC2
linux-swk-stage-maini-0094f6792e3c2c379
—실행 중
0.5%CPU
$13
EC2
nexusi-01a990a3ae20cd646
—실행 중
1.8%CPU
$13
EC2
reverse-proxyi-016f9d9e67b43a78c
—실행 중
0.1%CPU
$3
EC2
reverse-proxy-privatei-0bb466e2dd39c2ce0
—실행 중
0.2%CPU
$1
ES
garo-production-260309garo-production-260309
—정상
15.2%CPU
—
ES
landbook-developmentlandbook-development
—정상
15.3%CPU
—
ES
lh-garolh-garo
—정상
13.5%CPU
—
NAT
nat-05c19b170073fdb49nat-05c19b170073fdb49
—정상
vpc-067c8e87c9a7e734dVPC
—
NAT
nat-0ca60d537fffdbd75nat-0ca60d537fffdbd75
—정상
vpc-8aaba2e2VPC
—
NAT
nat-0d0880aa780851e57nat-0d0880aa780851e57
—정상
vpc-09d873c5982290031VPC
—
RDS
engine-rdb-prodengine-rdb-prod
—정상
4.8%CPU
—
RDS
engine-service-prodengine-service-prod
—정상
4.9%CPU
—
RDS
garo-landbook-building-productiongaro-landbook-building-production
—정상
3.6%CPU
—
RDS
garo-landbook-prod-2026-04-061418garo-landbook-prod-2026-04-061418
—정상
2.5%CPU
—
RDS
landbook-aptlandbook-apt
—정상
3.7%CPU
—
RDS
landbook-domain-dblandbook-domain-db
—정상
4.0%CPU
—
RDS
lh-garo-building-production-210405lh-garo-building-production-210405
—정상
4.6%CPU
—
RDS
lh-garo-production-250114lh-garo-production-250114
—정상
5.3%CPU
—
RDS
meshcore-db-dev-2026-04meshcore-db-dev-2026-04
—정상
3.4%CPU
—
RDS
plannext-service-productionplannext-service-production
—정상
4.0%CPU
—
RDS
zippit-growth-dbzippit-growth-db
—정상
3.4%CPU
—
RDS
zippit-servicezippit-service
—정상
3.5%CPU
—
EC2
leesm-devi-0599cf38b97720834
—중지됨
t3.medium타입
—
EC2
sue-devi-0ba28f751f894fae3
—중지됨
5.1%CPU
—

03·이벤트 로그

실시간

인시던트· 인시던트20분 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬 · 주의: AWS kind='process' 대상 매칭 실패] [메모리 사용량] total used free shared buff/cache available Mem: 209440 471 208616 0 353 208969 Swap: 8191 0 8191 [디스크 사용량] Filesystem
영향 범위 미확인
인시던트· 인시던트20분 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬 · 주의: AWS kind='process' 대상 매칭 실패] [메모리 사용량] total used free shared buff/cache available Mem: 209440 466 208620 0 353 208973 Swap: 8191 0 8191 [디스크 사용량] Filesystem
영향 범위 미확인
인시던트· 인시던트20분 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬] [메모리 사용량] total used free shared buff/cache available Mem: 209440 477 208610 0 353 208963 Swap: 8191 0 8191 [디스크 사용량] Filesystem Size Used Avail Use% Mounted on
영향 범위 미확인
인시던트· 인시던트20분 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬] [메모리 사용량] total used free shared buff/cache available Mem: 209440 459 208627 0 353 208980 Swap: 8191 0 8191 [디스크 사용량] Filesystem Size Used Avail Use% Mounted on
영향 범위 미확인
인시던트· 인시던트2시간 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬 · 주의: AWS kind='process' 대상 매칭 실패] [메모리 사용량] total used free shared buff/cache available Mem: 209440 356 208733 0 350 209083 Swap: 8191 0 8191 [디스크 사용량] Filesystem
영향 범위 미확인
인시던트· 인시던트2시간 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬 · 주의: AWS kind='process' 대상 매칭 실패] [메모리 사용량] total used free shared buff/cache available Mem: 209440 356 208733 0 350 209083 Swap: 8191 0 8191 [디스크 사용량] Filesystem
영향 범위 미확인
인시던트· 인시던트2시간 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬] [메모리 사용량] total used free shared buff/cache available Mem: 209440 356 208733 0 350 209083 Swap: 8191 0 8191 [디스크 사용량] Filesystem Size Used Avail Use% Mounted on
영향 범위 미확인
인시던트· 인시던트2시간 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬] [메모리 사용량] total used free shared buff/cache available Mem: 209440 363 208726 0 350 209076 Swap: 8191 0 8191 [디스크 사용량] Filesystem Size Used Avail Use% Mounted on
영향 범위 미확인
인시던트· 인시던트2시간 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬 · 주의: AWS kind='process' 대상 매칭 실패] [메모리 사용량] total used free shared buff/cache available Mem: 209440 418 208675 0 346 209022 Swap: 8191 0 8191 [디스크 사용량] Filesystem
영향 범위 미확인
인시던트· 인시던트2시간 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬 · 주의: AWS kind='process' 대상 매칭 실패] [메모리 사용량] total used free shared buff/cache available Mem: 209440 407 208686 0 346 209032 Swap: 8191 0 8191 [디스크 사용량] Filesystem
영향 범위 미확인
인시던트· 인시던트2시간 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬] [메모리 사용량] total used free shared buff/cache available Mem: 209440 406 208687 0 346 209034 Swap: 8191 0 8191 [디스크 사용량] Filesystem Size Used Avail Use% Mounted on
영향 범위 미확인
인시던트· 인시던트2시간 전
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬] [메모리 사용량] total used free shared buff/cache available Mem: 209440 394 208699 0 346 209045 Swap: 8191 0 8191 [디스크 사용량] Filesystem Size Used Avail Use% Mounted on
영향 범위 미확인
인시던트· 인시던트17시간 전
메가존(클라우드 비용 청구처)에서 어제(2026-06-07)자 일별 사용 내역을 정상적으로 받아오지 못해 비용 이상 탐지 자체를 수행할 수 없는 상태입니다. 받아온 데이터 행 수가 1건뿐이라 평소(100건 이상)에 비해 턱없이 부족해 검사가 자동으로 건너뛰어졌습니다. 즉 실제 비용이 튀어서 알람이 난 것이 아니라, 비용을 들여다볼 원본 데이터 자체가 비어 있어 점검을 못 한 상황입니다. 관제 서버의 메모리·디스크·컨테이너 상태 로그에서는 별다른 이상 징후가 보이지 않아, 원인은 외부(메가존 API) 응답 문제 쪽으로 좁혀집니다. [가능성]
비용 이상 탐지 기능이 어제 하루치에 대해 동작하지 못해, 만약 그 사이 실제로 평소보다 큰 비용 변동이 있었다 해도 자동으로 잡아내지 못합니다. 운영 중인 서비스 자체(가동 중인 DB 컨테이너, 관제 서버 자원)에는 직접적인 영향은 확인되지 않습니다. 다만 같은 문제가 며칠 더 이어지면 비용 가시성이 끊긴 채로 누적될 수 있습니다.
인시던트· 인시던트1일 전
비용·자원 이상 점검에 필요한 메가존 일일 데이터가 들어오지 않아(어제 수집 행 1건, 기준 100건 미만) 자동 진단이 건너뛰어진 상태입니다. 외부 메가존 API 응답이 비어 있거나 지연됐을 가능성이 가장 크고, 관제 서버 자체 자원(메모리 약 86% 여유, 디스크 80% 사용, 컨테이너 1개 정상)은 정상 범위입니다. 즉, 진짜 비용 이상이 발생했다기보다는 '이상 여부를 판단할 데이터가 부족해 점검 자체가 멈춘' 상황입니다. [가능성]
비용·자원 이상 자동 감지가 일시 중단돼 있어, 만약 실제로 외부 비용 급증이 발생해도 알림이 늦어질 수 있습니다. 관제 서버와 실행 중인 컨테이너 운영에는 직접적인 영향이 없습니다.
인시던트· 인시던트3일 전
메가존 비용 API 응답에서 어제(2026-06-04) 데이터가 1건만 들어와 정상 임계(100건)를 채우지 못해 비용 이상 검사 자체가 건너뛰어진 상태입니다. 실제 비용이 튀어서 발생한 알람이 아니라, 비용 데이터 수집 파이프라인이 끊겨 검사가 불가능해진 STALE 상태로 보입니다. 관제 서버의 메모리·디스크·컨테이너 상태는 모두 정상 범위로, 내부 자원 문제는 관찰되지 않습니다. (Issue #28: 메가존 v1_search_daily 응답 점검 필요) [확실]
비용 이상 탐지가 일시적으로 중단되어, 실제 AWS 비용이 평소보다 늘어났더라도 자동으로 감지·알림되지 않을 수 있습니다. 관제 서버 자체 운영(컨테이너·SSH·시스템 로그)에는 영향이 없습니다.
인시던트· 인시던트4일 전
메가존 비용 데이터 수집이 멈춰 어제(2026-06-03)분 적재 행 수가 100건 미만으로 떨어졌고, 이로 인해 비용·자원 이상 검사가 자동으로 건너뛰어진 STALE 상태입니다. 수집된 로그상 관제 서버 자체는 메모리 여유(약 27GB free)·디스크 80% 사용으로 임계 수준은 아니지만, Docker 소켓 권한 오류로 컨테이너 상태를 확인하지 못해 메가존 수집 잡의 실제 동작 여부는 이번 스냅샷만으로는 단정할 수 없습니다. 외부 메가존 v1_search_daily API 응답 이상 또는 인증 키 만료 가능성도 동등하게 검토 대상입니다 (Issue #28 연계). [가능성]
비용·자원 이상 탐지가 어제분 데이터로 작동하지 못해 메가존 청구 기반 이상치 알람이 사실상 휴면 상태입니다. 관제 서버 자체 서비스 영향은 관찰되지 않습니다.
인시던트· 인시던트4일 전
메가존 리소스/비용 일일 적재 테이블(megazone_resource_daily, megazone_cost_daily)에 데이터가 없는 상태입니다. 수집된 로그에는 관제 서버의 메모리(약 27GB 여유)·디스크(80% 사용)·시스템 상태에서 적재 작업 실패를 직접 가리키는 증거가 없어, 적재 잡 자체의 실행/외부 메가존 API 호출 단계에서 문제가 발생했을 가능성이 있습니다. 또한 Docker 소켓 접근 권한 거부로 컨테이너 상태 자체를 확인하지 못해 적재 컨테이너의 실제 동작 여부를 단정할 수 없습니다. [가설]
메가존 기반 일일 리소스 카탈로그와 비용 데이터가 비어 있어, 이 데이터에 의존하는 비용 대시보드·관리포인트 인벤토리·관련 알람이 최신 상태를 반영하지 못할 수 있습니다. 적재가 복구될 때까지 비용 추이·리소스 변동 추적은 지연됩니다.
인시던트· 인시던트4일 전
메가존 일일 데이터(리소스·비용 두 종류) 적재가 4일째 멈춰 있는 상태입니다. 수집된 로그에는 관제 서버 자체의 메모리·CPU·디스크에 임박한 이상이 보이지 않고(메모리 여유 약 87%, 디스크 사용률 80%), 데이터 수집 작업의 직접 실행 로그가 포함되지 않아 정확한 실패 지점은 잡히지 않았습니다. 따라서 메가존 외부 API 응답 지연·인증/키 만료·수집 스케줄러(크론) 미동작 등 외부·수집 파이프라인 쪽 원인일 가능성이 큽니다. [가설]
메가존 리소스·비용 대시보드와 이에 의존하는 비용 추이·소유권 분석이 4일치 누락 상태로 표시됩니다. 신규 자원·요금 변동이 관제면에 반영되지 않아 현시점 의사결정에 시차가 발생합니다.
인시던트· 인시던트5일 전
비용·자원 이상 점검을 위한 메가존 일일 데이터가 어제(2026-06-02)자에 들어오지 않아 검사가 건너뛰어진 상태입니다. v1_search_daily 응답이 비어 있어(rows=0) 정상 임계(100건 이상) 미만이며, 이는 Issue #28 로 이미 추적 중인 외부 데이터 수집 경로의 STALE 상황입니다. 관제 서버 자체 자원(메모리·디스크·시스템 로그)은 정상 범위로, 원인은 서버 내부가 아닌 메가존 API 또는 수집 파이프라인 측에 있을 가능성이 높습니다. [가능성]
비용·자원 이상 감지 기능이 일시적으로 동작하지 않아, 비정상적인 자원 증가나 비용 급등이 발생하더라도 자동 알림이 늦어질 수 있습니다. 다만 관제 서버 자체와 다른 모니터링 항목은 정상 작동 중이므로 인프라 운영 자체에는 즉시 영향이 없습니다.
인시던트· 인시던트6일 전
메가존 비용 데이터가 들어오지 않아 비용 이상 검사 자체를 건너뛴 상태입니다. 어제(2026-06-01) 수집된 비용 행이 100건 미만(0건)이라 분석을 시작할 데이터가 없으며, 이는 메가존 v1_search_daily API 응답이 비어 있거나 수집 파이프라인이 멈췄을 가능성을 시사합니다(Issue #28 추적 중). 관제 서버 자체 자원(메모리 약 53% 여유, 디스크 80% 사용)은 정상 범위로, 비용 급증 자체가 확인된 것이 아니라 '검사를 못 한' 상황입니다. [가능성]
비용 이상 감지 기능이 일시적으로 멈춰 있어, 실제 AWS 리소스 비용이 늘어도 자동 알림이 발생하지 않을 수 있습니다. 관제 서버와 일반 서비스에는 직접적 영향 없음.