Spacewalk 인프라(AWS · NCP) 실시간 모니터링 · AI 자동 진단
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬 · 주의: AWS kind='process' 대상 매칭 실패] [메모리 사용량] total used free shared buff/cache available Mem: 209440 356 208733 0 350 209083 Swap: 8191 0 8191 [디스크 사용량] Filesystem
영향 범위 미확인
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬 · 주의: AWS kind='process' 대상 매칭 실패] [메모리 사용량] total used free shared buff/cache available Mem: 209440 356 208733 0 350 209083 Swap: 8191 0 8191 [디스크 사용량] Filesystem
영향 범위 미확인
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬] [메모리 사용량] total used free shared buff/cache available Mem: 209440 356 208733 0 350 209083 Swap: 8191 0 8191 [디스크 사용량] Filesystem Size Used Avail Use% Mounted on
영향 범위 미확인
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬] [메모리 사용량] total used free shared buff/cache available Mem: 209440 363 208726 0 350 209076 Swap: 8191 0 8191 [디스크 사용량] Filesystem Size Used Avail Use% Mounted on
영향 범위 미확인
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬 · 주의: AWS kind='process' 대상 매칭 실패] [메모리 사용량] total used free shared buff/cache available Mem: 209440 418 208675 0 346 209022 Swap: 8191 0 8191 [디스크 사용량] Filesystem
영향 범위 미확인
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬 · 주의: AWS kind='process' 대상 매칭 실패] [메모리 사용량] total used free shared buff/cache available Mem: 209440 407 208686 0 346 209032 Swap: 8191 0 8191 [디스크 사용량] Filesystem
영향 범위 미확인
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬] [메모리 사용량] total used free shared buff/cache available Mem: 209440 406 208687 0 346 209034 Swap: 8191 0 8191 [디스크 사용량] Filesystem Size Used Avail Use% Mounted on
영향 범위 미확인
자동 진단 실패 — 수동 확인 필요. 수집된 로그 (일부): [데이터 소스: 관제 서버 로컬] [메모리 사용량] total used free shared buff/cache available Mem: 209440 394 208699 0 346 209045 Swap: 8191 0 8191 [디스크 사용량] Filesystem Size Used Avail Use% Mounted on
영향 범위 미확인
메가존(클라우드 비용 청구처)에서 어제(2026-06-07)자 일별 사용 내역을 정상적으로 받아오지 못해 비용 이상 탐지 자체를 수행할 수 없는 상태입니다. 받아온 데이터 행 수가 1건뿐이라 평소(100건 이상)에 비해 턱없이 부족해 검사가 자동으로 건너뛰어졌습니다. 즉 실제 비용이 튀어서 알람이 난 것이 아니라, 비용을 들여다볼 원본 데이터 자체가 비어 있어 점검을 못 한 상황입니다. 관제 서버의 메모리·디스크·컨테이너 상태 로그에서는 별다른 이상 징후가 보이지 않아, 원인은 외부(메가존 API) 응답 문제 쪽으로 좁혀집니다. [가능성]
비용 이상 탐지 기능이 어제 하루치에 대해 동작하지 못해, 만약 그 사이 실제로 평소보다 큰 비용 변동이 있었다 해도 자동으로 잡아내지 못합니다. 운영 중인 서비스 자체(가동 중인 DB 컨테이너, 관제 서버 자원)에는 직접적인 영향은 확인되지 않습니다. 다만 같은 문제가 며칠 더 이어지면 비용 가시성이 끊긴 채로 누적될 수 있습니다.
비용·자원 이상 점검에 필요한 메가존 일일 데이터가 들어오지 않아(어제 수집 행 1건, 기준 100건 미만) 자동 진단이 건너뛰어진 상태입니다. 외부 메가존 API 응답이 비어 있거나 지연됐을 가능성이 가장 크고, 관제 서버 자체 자원(메모리 약 86% 여유, 디스크 80% 사용, 컨테이너 1개 정상)은 정상 범위입니다. 즉, 진짜 비용 이상이 발생했다기보다는 '이상 여부를 판단할 데이터가 부족해 점검 자체가 멈춘' 상황입니다. [가능성]
비용·자원 이상 자동 감지가 일시 중단돼 있어, 만약 실제로 외부 비용 급증이 발생해도 알림이 늦어질 수 있습니다. 관제 서버와 실행 중인 컨테이너 운영에는 직접적인 영향이 없습니다.
메가존 비용 API 응답에서 어제(2026-06-04) 데이터가 1건만 들어와 정상 임계(100건)를 채우지 못해 비용 이상 검사 자체가 건너뛰어진 상태입니다. 실제 비용이 튀어서 발생한 알람이 아니라, 비용 데이터 수집 파이프라인이 끊겨 검사가 불가능해진 STALE 상태로 보입니다. 관제 서버의 메모리·디스크·컨테이너 상태는 모두 정상 범위로, 내부 자원 문제는 관찰되지 않습니다. (Issue #28: 메가존 v1_search_daily 응답 점검 필요) [확실]
비용 이상 탐지가 일시적으로 중단되어, 실제 AWS 비용이 평소보다 늘어났더라도 자동으로 감지·알림되지 않을 수 있습니다. 관제 서버 자체 운영(컨테이너·SSH·시스템 로그)에는 영향이 없습니다.
메가존 비용 데이터 수집이 멈춰 어제(2026-06-03)분 적재 행 수가 100건 미만으로 떨어졌고, 이로 인해 비용·자원 이상 검사가 자동으로 건너뛰어진 STALE 상태입니다. 수집된 로그상 관제 서버 자체는 메모리 여유(약 27GB free)·디스크 80% 사용으로 임계 수준은 아니지만, Docker 소켓 권한 오류로 컨테이너 상태를 확인하지 못해 메가존 수집 잡의 실제 동작 여부는 이번 스냅샷만으로는 단정할 수 없습니다. 외부 메가존 v1_search_daily API 응답 이상 또는 인증 키 만료 가능성도 동등하게 검토 대상입니다 (Issue #28 연계). [가능성]
비용·자원 이상 탐지가 어제분 데이터로 작동하지 못해 메가존 청구 기반 이상치 알람이 사실상 휴면 상태입니다. 관제 서버 자체 서비스 영향은 관찰되지 않습니다.
메가존 리소스/비용 일일 적재 테이블(megazone_resource_daily, megazone_cost_daily)에 데이터가 없는 상태입니다. 수집된 로그에는 관제 서버의 메모리(약 27GB 여유)·디스크(80% 사용)·시스템 상태에서 적재 작업 실패를 직접 가리키는 증거가 없어, 적재 잡 자체의 실행/외부 메가존 API 호출 단계에서 문제가 발생했을 가능성이 있습니다. 또한 Docker 소켓 접근 권한 거부로 컨테이너 상태 자체를 확인하지 못해 적재 컨테이너의 실제 동작 여부를 단정할 수 없습니다. [가설]
메가존 기반 일일 리소스 카탈로그와 비용 데이터가 비어 있어, 이 데이터에 의존하는 비용 대시보드·관리포인트 인벤토리·관련 알람이 최신 상태를 반영하지 못할 수 있습니다. 적재가 복구될 때까지 비용 추이·리소스 변동 추적은 지연됩니다.
메가존 일일 데이터(리소스·비용 두 종류) 적재가 4일째 멈춰 있는 상태입니다. 수집된 로그에는 관제 서버 자체의 메모리·CPU·디스크에 임박한 이상이 보이지 않고(메모리 여유 약 87%, 디스크 사용률 80%), 데이터 수집 작업의 직접 실행 로그가 포함되지 않아 정확한 실패 지점은 잡히지 않았습니다. 따라서 메가존 외부 API 응답 지연·인증/키 만료·수집 스케줄러(크론) 미동작 등 외부·수집 파이프라인 쪽 원인일 가능성이 큽니다. [가설]
메가존 리소스·비용 대시보드와 이에 의존하는 비용 추이·소유권 분석이 4일치 누락 상태로 표시됩니다. 신규 자원·요금 변동이 관제면에 반영되지 않아 현시점 의사결정에 시차가 발생합니다.
비용·자원 이상 점검을 위한 메가존 일일 데이터가 어제(2026-06-02)자에 들어오지 않아 검사가 건너뛰어진 상태입니다. v1_search_daily 응답이 비어 있어(rows=0) 정상 임계(100건 이상) 미만이며, 이는 Issue #28 로 이미 추적 중인 외부 데이터 수집 경로의 STALE 상황입니다. 관제 서버 자체 자원(메모리·디스크·시스템 로그)은 정상 범위로, 원인은 서버 내부가 아닌 메가존 API 또는 수집 파이프라인 측에 있을 가능성이 높습니다. [가능성]
비용·자원 이상 감지 기능이 일시적으로 동작하지 않아, 비정상적인 자원 증가나 비용 급등이 발생하더라도 자동 알림이 늦어질 수 있습니다. 다만 관제 서버 자체와 다른 모니터링 항목은 정상 작동 중이므로 인프라 운영 자체에는 즉시 영향이 없습니다.
메가존 비용 데이터가 들어오지 않아 비용 이상 검사 자체를 건너뛴 상태입니다. 어제(2026-06-01) 수집된 비용 행이 100건 미만(0건)이라 분석을 시작할 데이터가 없으며, 이는 메가존 v1_search_daily API 응답이 비어 있거나 수집 파이프라인이 멈췄을 가능성을 시사합니다(Issue #28 추적 중). 관제 서버 자체 자원(메모리 약 53% 여유, 디스크 80% 사용)은 정상 범위로, 비용 급증 자체가 확인된 것이 아니라 '검사를 못 한' 상황입니다. [가능성]
비용 이상 감지 기능이 일시적으로 멈춰 있어, 실제 AWS 리소스 비용이 늘어도 자동 알림이 발생하지 않을 수 있습니다. 관제 서버와 일반 서비스에는 직접적 영향 없음.
관제 서버에서 swk-pipeline-runner 서비스가 5060 포트를 사용하려 할 때마다 '포트가 이미 사용 중'이라는 오류로 즉시 종료되고, systemd가 수 초 간격으로 재시작을 반복하면서 누적 재시작 횟수가 61만 회를 넘긴 상태다. 같은 시간대에 동작해야 하는 gc-gh-drift-monthly와 gc-db-backup 크론 작업도 함께 exit=1로 실패했는데, 시스템 메모리·디스크에는 여유가 있어 자원 부족 때문은 아니다. 동일 포트를 점유하고 있는 이전 프로세스가 정리되지 않아 새 인스턴스가 매번 부팅에 실패하는 정황이다. [가능성]
파이프라인 매니저 API가 정상 기동되지 못해 관련 백그라운드 작업과 월간 GitHub drift 점검, DB 백업 크론이 함께 실패하고 있다. 관제 서버의 systemd 재시작 루프가 계속 돌아 로그가 과다하게 쌓이며, 같은 호스트에서 도는 다른 크론·서비스도 영향을 받을 수 있다.
de-data-warehouse RDS 인스턴스가 현재 'deleting' 상태입니다. 최근 60분 이벤트 로그에 'DB instance shutdown'이 기록되어 있어, 누군가 또는 자동화 프로세스가 이 데이터베이스 삭제 작업을 시작했음이 확인됩니다. 인스턴스의 DeletionProtection 설정이 꺼져 있어 삭제 요청이 막히지 않고 그대로 진행된 상태입니다. [확실]
data-warehouse 프로젝트(production 환경, data-pipeline 서비스)의 PostgreSQL 데이터베이스가 종료 중이며, 이 DB에 연결하는 모든 데이터 파이프라인과 분석 작업이 중단됩니다. 엔드포인트(de-data-warehouse.cicvuwhjlhxo.ap-northeast-2.rds.amazonaws.com:5432)로의 접근이 곧 완전히 불가능해집니다.
관제 서버에서 메가존 비용 데이터 수집이 이루어지지 않아 비용 이상 점검 자체가 건너뛰어진 상태입니다. 점검 대상 일자(2026-05-31)의 데이터가 1건만 들어와 있어 100건 임계치를 충족하지 못해 STALE로 표시되었습니다. 같은 시간대 시스템 로그에서는 swk-pipeline-runner 서비스가 5060 포트가 이미 사용 중이라는 이유로 기동에 계속 실패하며 재시작 카운터가 615,000회를 넘기고 있는데, 이 데이터 수집 파이프라인이 정상 동작하지 않는 것이 메가존 데이터 부재의 직접 원인일 가능성이 높습니다. [가능성]
비용/리소스 이상 자동 감지가 일시 중단되어, 만약 실제로 메가존 측 사용량 급등이 있어도 알람이 발생하지 않습니다. 데이터 자체는 손실되지 않았으며 디스크·메모리 등 관제 서버 리소스에는 임박한 문제가 없습니다.
두 개의 정기 작업(gc-gh-drift-monthly, gc-db-backup)이 모두 종료 코드 1로 실패했습니다. 수집된 시스템 로그에는 이 두 작업 자체의 실패 메시지가 직접 나타나 있지 않아 정확한 실패 사유를 단정할 수 없습니다. 다만 같은 서버에서 swk-pipeline-runner 서비스가 '5060 포트가 이미 사용 중'이라는 이유로 매 5~6초마다 재시작과 실패를 반복하고 있어(재시작 카운터 615,224 이상), 시스템 자원과 포트 점유 상황이 정상적이지 않은 상태입니다. 이 환경 불안정이 두 정기 작업의 실패와 시간적으로 겹쳐 있어 영향을 주었을 가능성이 있습니다. 또한 Docker 소켓 접근이 거부되어 컨테이너 상태 확인이 불가했고, 디스크 사용률이 평소보다 높은 수준(80%대)이며 스왑이 상당 부분 사용 중인 점도 작업 실패 환경에 부정적으로 작용했을 수 있습니다. [가능성]
월간 GitHub 드리프트 점검과 DB 백업 정기 작업이 이번 회차에 정상 완료되지 않았습니다. 백업이 누락된 상태가 지속되면 장애 발생 시 복구 시점이 직전 정상 백업 시점으로 밀릴 수 있습니다. 또한 같은 서버의 파이프라인 러너 서비스가 계속 재시작 실패 중이라 관련 파이프라인 API 호출도 영향을 받을 수 있습니다.