1. 프로젝트의 정의
- 프로젝트의 본질: 정해진 기간(납기) 내에 고객과 약속된 범위(요구사항)를 시스템으로 구현하여 인도하는 과정.
프로젝트란 특정 목표를 달성하기 위해, 고유한 결과물을 만들어내기 위해, 한시적으로 투입되는 일련의 노력을 말하며, 시작과 끝이 정해져 있고 시간, 범위, 비용 등의 제약 속에서 진행됩니다.
프로젝트의 주요 특징
- 일시적(Temporary): 분명한 시작과 종료 시점이 있습니다.
- 고유성(Unique): 모든 프로젝트는 이전과는 다른 고유한 제품, 서비스, 혹은 결과물을 창출합니다.
- 점진적 상세화(Progressive Elaboration): 초기에는 개략적으로 계획되고, 진행될수록 세부 사항이 구체화됩니다.
- 제약 조건: 시간(Time), 범위(Scope), 비용(Cost)이라는 3가지 핵심 요소의 제약을 받으며 관리됩니다.
2. 의료 데이터 통합 아키텍처 및 흐름
데이터는 생성(기간계) → 임시 저장(ODS) → 분석/활용(CDW)의 흐름을 따릅니다.
| 단계 | 시스템 구분 | 설명 | 데이터 상태 |
| 1단계 | 기간계/계정계 (Legacy) |
실제 업무(진료, 원무 등)가 실시간으로 일어나는 운영 시스템. | Live Data (실시간 변동) |
| 2단계 | ODS (Operational Data Store) |
ETL을 통해 기간계 데이터를 1:1로 그대로 복사해오는 임시 저장소. 정보계로 넘어가기 전의 중간 기착지. |
Raw Data (원천 그대로) |
| 3단계 | 정보계 / CDW (Clinical Data Warehouse) |
데이터를 주제별로 재구성하고 통합하여 분석 및 연구에 활용하는 시스템. (CDW는 의료 분야 특화 DW) |
Historical Data (D-1, D-2...) |
3. 데이터 동기화 방식 (ETL 및 시차)
시스템 부하를 줄이기 위해 일 배치(Daily Batch) 방식을 사용하며, 이로 인해 D-1(하루 전) 데이터가 최신 데이터가 됩니다.
- 작업 시점: 업무가 종료된 심야 시간 (예: 매일 자정 00:00).
- 작업 로직:
- 1월 6일 하루 동안 쌓인 데이터를 마감.
- 1월 7일 00:00에 기간계에서 데이터를 추출(Extract)하여 정보계로 적재(Load).
- 1월 7일 아침에 사용자가 CDW에서 조회하는 데이터는 1월 6일자(D-1) 데이터임.
- 특징:
- 실시간성(Real-time)은 없으나, 대용량 데이터 분석 시 운영 시스템(기간계)에 부하를 주지 않음.
- CDW에는 D-1, D-2, D-3... 과거의 이력 데이터가 시계열로 축적됨.
ETL은 기간계(Legacy)의 데이터를 정보계(CDW)로 옮길 때 발생하는 '데이터 이사 과정'이자, SI에서 제품 비즈니스로 넘어갈 때 데이터 표준화가 실제로 구현되는 핵심 단계입니다.
4. ETL이란 무엇인가?
ETL은 데이터 웨어하우스(CDW) 구축 시 데이터를 수집, 가공, 적재하는 3단계 프로세스를 말합니다.

- E (Extract, 추출):
- 어디서? 기간계(Legacy) 시스템의 DB에서.
- 무엇을? 어제 하루 동안 생성된(변경된) 데이터를 뽑아냅니다.
- 예: 1월 6일자 진료 기록 전체 조회.
- T (Transform, 변환):
- 어떻게? 분석하기 좋은 형태로 데이터를 다듬고, 표준화합니다.
- 작업 내용: 날짜 포맷 통일(YYYYMMDD), 코드 매핑(남/녀 → M/F), 오탈자 정제, 주민번호 암호화 등.
- 핵심: '표준화 메타시스템'에 정의된 규칙이 바로 이 단계에서 적용됩니다.
- L (Load, 적재):
- 어디로? 목적지인 정보계 시스템(ODS → CDW)으로.
- 결과: 데이터를 DB 테이블에 최종 저장합니다.
5. 전체 흐름도
SI 관점에서는 프로젝트마다 ETL을 새로 짰지만, 제품 비즈니스에서는 '표준화된 ETL 파이프라인'을 구축하여 어떤 병원의 데이터든 우리 제품(CDW) 규격에 맞게 자동으로 변환되어 들어오게 하는 것이 목표입니다.
| 단계 | 시스템 | 역할 및 데이터 상태 | ETL의 역할 |
| Source | 기간계 (Legacy) | • 실시간 업무 처리 (진료, 수납) • 데이터 구조가 병원마다 다름 |
(E) 추출 대상 운영계 부하를 피하기 위해 심야 시간에 접근 |
| ↓ | ETL 작업 | (자정 00:00 ~ 새벽) | 기간계 데이터를 퍼 올려서(E) → 그대로(ODS) 혹은 변환해서(T) → 옮김(L) |
| Target 1 | ODS | • Raw Data (원천 그대로) • 기간계와 1:1로 복사된 데이터 |
1차 적재 (Load) 데이터 정합성 검증을 위한 임시 저장소 |
| Target 2 | 정보계 / CDW | • Standardized Data (표준화됨) • 주제별(환자, 질병 등)로 통합된 데이터 • **D-1 (어제 데이터)**가 최신 |
2차 변환 및 적재 (Transform & Load) ODS 데이터를 분석용 모델에 맞춰 표준화하여 저장 |