Ch2. 데이터 보호 체계

데이터 분류, 보존, 암호화, 국외이전·위탁 통제를 제품에 내재화하는 방법

핵심 요약

AI 제품의 보안 사고는 모델보다 데이터 경계를 정해두지 않은 데서 시작되므로 데이터 분류와 수명주기를 먼저 고정합니다.
데이터를 P0(규제·민감)~P3(공개)로 4등급 분류하고, P0는 저장·전송 암호화와 접근 승인 2인 등 등급별 최소 통제를 강제합니다.
수집-저장-추론-보관-파기 수명주기 단계마다 필수 질문(필요 항목만 수집했나, 복구 불가 삭제인가)과 통제를 매핑합니다.
Data Minimization Ratio(필수 필드÷수집 필드)가 0.6 미만이면 과수집 리스크가 높아 분기별 우선 정리 대상입니다.

AI 제품의 보안 사고는 모델 자체보다 데이터 경계가 정의되지 않은 상태에서 시작될 때가 많습니다. 데이터 분류와 수명주기를 먼저 고정해 두면 이후 통제는 기술적으로 단순해지고 운영도 예측할 수 있습니다.

데이터 분류, 마스킹, 암호화, 보존과 파기 경계가 계층적으로 연결된 보호 지도

데이터 분류 표준

등급	정의	예시	최소 통제
P0	규제/민감 정보	주민등록번호, 계좌번호, 건강정보	저장·전송 암호화, 접근 승인 2인
P1	고객 식별 가능 정보	이메일, 전화번호, 고객ID	RBAC, 감사 로그, 보존기간 강제
P2	내부 운영 정보	에러 로그, 운영 메모	최소 권한, 보존 정책
P3	공개 가능 정보	제품 문서, 공개 공지	무결성 검증

수명주기 기반 통제

단계	필수 질문	통제 예시
수집	정말 필요한 항목만 수집하는가	목적 외 수집 금지, 필수/선택 분리
저장	누가 복호화 가능한가	KMS, 키 로테이션
추론	모델 입력에 민감정보가 포함되는가	PII 탐지·마스킹
보관	보존기한은 근거가 있는가	TTL 정책, 자동 삭제
파기	복구 불가능한 삭제인가	삭제 증적 로그

데이터 최소화 원칙

\text{Data Minimization Ratio} = \frac{\text{필수 필드 수}}{\text{수집 필드 수}}

비율이 낮을수록 과수집 리스크가 커집니다. 분기마다 0.6 미만 항목을 먼저 정리하세요.

실무 적용 가이드

기능별 데이터 사전(Data Dictionary)을 작성합니다.
필수/선택 수집 근거를 약관 및 개인정보 처리방침과 정합성 검증합니다.
동의 철회 시 삭제 경로를 API 레벨에서 보장합니다.

프롬프트 전처리에서 P0/P1 자동 마스킹을 수행합니다.
외부 LLM 전송 전 목적/보존/지역(리전) 정책을 점검합니다.
RAG 인덱스에 민감정보가 남지 않도록 분리 인덱스(또는 분리 저장소)로 설계합니다.

원문 프롬프트 로그 저장은 기본 금지합니다.
디버깅 목적의 임시 저장이 필요하면 만료시간(TTL)을 강제합니다.
감사용 로그와 분석용 로그를 분리 저장합니다.

운영 기준

법적 요건을 충족하더라도 고객 기대 수준을 벗어나면 신뢰를 잃습니다. 데이터 처리는 할 수 있느냐가 아니라 설명할 수 있느냐를 기준으로 설계하세요.

개인정보영향평가(PIA) 프로세스

AI 시스템은 대량의 개인정보를 처리하므로 서비스 출시 전에 PIA를 반드시 수행합니다.

대상 식별

처리 대상 개인정보 항목과 데이터 흐름을 매핑합니다.
데이터 분류 표준(P0~P3)을 적용하여 민감도를 확정합니다.
AI 학습 데이터, 추론 입력, 로그 데이터를 모두 범위에 포함합니다.

위험 분석

각 처리 단계별 위협 시나리오를 도출합니다(유출, 오용, 비인가 접근 등).
발생 가능성과 영향도를 조합하여 위험 등급(상/중/하)을 산정합니다.
AI 특유의 위험(모델 역추론, 멤버십 추론, 학습 데이터 추출)을 별도 평가합니다.

영향 평가

정보주체에 미치는 권리 침해 정도를 정량·정성 평가합니다.
규제 위반 시 과징금, 서비스 중단 등 사업적 영향을 산정합니다.
평가 결과를 문서화하고 이해관계자(DPO, 법무, 보안)에게 공유합니다.

보호 조치 설계

식별된 위험별 기술적·관리적 보호 조치를 설계합니다.
잔여 위험이 수용 가능한 수준인지 검증합니다.
비용 대비 효과(Cost-Benefit)를 고려하여 우선순위를 확정합니다.

승인 및 모니터링

DPO 또는 개인정보보호 책임자의 최종 승인을 받습니다.
평가 결과와 보호 조치를 내부 레지스트리에 등록합니다.
연 1회 이상 재평가를 수행하고, 주요 변경 시 즉시 재평가를 트리거합니다.

국외이전·위탁 통제 매트릭스

AI 서비스는 외부 LLM API, 클라우드 인프라에 의존하므로 국외이전 통제가 핵심입니다.

이전 유형	법적 근거	필수 통제	계약 요건	모니터링
클라우드 LLM API 호출	정보주체 동의 또는 개인정보보호법 제28조의8	전송 암호화(TLS 1.3), PII 마스킹 후 전송, API 요청 로깅	데이터 처리 위탁계약(DPA), 재위탁 금지 조항, SLA 명시	API 호출 로그 실시간 모니터링, 월간 접근 감사
해외 벤더 위탁처리	정보주체 동의 + 보호위원회 고시 준수	국가별 적정성 평가, 접근 권한 최소화, 데이터 현지화 검토	위탁계약서(이전국가·항목·기간 명시), 손해배상 조항, 감사권 보장	분기별 위탁처리 감사, 연간 현장 점검
글로벌 서비스 리전	정보주체 동의 또는 표준계약조항(SCC)	리전 선택 정책(한국 우선), 리전 간 데이터 이동 제한, 암호화 키 국내 보관	리전별 데이터 처리 범위 명시, 장애 시 리전 전환 절차 합의	리전별 데이터 흐름 대시보드, 비정상 이전 알림

실무 팁

클라우드 LLM API를 호출할 때 프롬프트에 P0/P1 데이터가 섞이지 않도록 전처리 파이프라인에서 마스킹을 거치면 국외이전 동의 부담을 크게 줄일 수 있습니다.

한국 개인정보보호법 매핑

조항	핵심 내용	핸드북 통제 항목	관련 챕터
제15조 (수집·이용)	목적 내 수집, 최소 수집 원칙	데이터 분류 표준(P0~P3), Data Minimization Ratio, 데이터 사전 작성	Ch2 데이터 보호 체계
제17조 (제3자 제공)	제공 목적·항목 고지, 정보주체 동의	국외이전 통제 매트릭스, DPA 계약, API 호출 로깅	Ch2 데이터 보호 체계
제28조의2 (가명정보 처리)	통계·연구 목적 가명처리, 재식별 금지	PII 마스킹, 가명처리 파이프라인, 재식별 위험 평가	Ch2 데이터 보호 체계, Ch3 보안 아키텍처
제39조의3 (정보통신서비스)	이용자 권리 보장, 파기 의무, 동의 철회	수명주기 기반 통제, TTL 정책, 동의 철회 API, 삭제 증적	Ch2 데이터 보호 체계
제28조의8 (국외이전)	보호 수준 확보, 보호위원회 인정	국외이전 통제 매트릭스, SCC, 적정성 평가	Ch2 데이터 보호 체계
제29조 (안전조치 의무)	기술적·관리적 보호조치	암호화 기준, 접근통제, 감사 로그	Ch2 데이터 보호 체계, Ch5 접근제어·비밀관리

Data Retention Score

\text{Data Retention Score} = \text{policy} \times 0.3 + \text{auto} \times 0.4 + \text{audit} \times 0.3

점수 구간	등급	조치
80 이상	우수	현행 유지, 연간 점검
70~79	양호	분기별 개선 과제 도출
50~69	미흡	월간 개선 계획 수립, 경영진 보고
50 미만	위험	즉시 개선 착수, 보호위원회 보고 검토

수명주기별 암호화 기준

데이터가 디스크, 데이터베이스, 오브젝트 스토리지 등에 저장된 상태에서의 암호화 기준입니다.

항목	기준
암호화 알고리즘	AES-256-GCM (대칭), RSA-2048 이상 (비대칭)
키 관리	AWS KMS / GCP Cloud KMS / Azure Key Vault 등 관리형 서비스 사용
키 로테이션	최소 연 1회, P0 데이터는 분기 1회
데이터베이스	TDE(Transparent Data Encryption) 활성화
백업 암호화	원본과 동일 수준 암호화 적용, 백업 키 별도 관리
AI 모델 가중치	민감 데이터로 학습한 모델은 암호화 저장, 접근 로그 기록

네트워크를 통해 데이터가 이동하는 구간의 암호화 기준입니다.

항목	기준
프로토콜	TLS 1.3 필수 (TLS 1.2 이하 비활성화)
인증서 관리	자동 갱신(Let's Encrypt 또는 관리형 인증서), 만료 30일 전 알림
내부 통신	서비스 간 mTLS(상호 TLS) 적용
API 호출	HTTPS 강제, HSTS 헤더 설정
LLM API 전송	TLS 1.3 + PII 마스킹 전처리 후 전송
키 교환	ECDHE (Elliptic Curve Diffie-Hellman Ephemeral) 권장

메모리에서 데이터를 처리하는 동안의 보호 기준입니다. 완전한 In-Use 암호화는 기술적으로 제한이 있으므로, 가용한 보호 수단을 조합합니다.

항목	기준
기밀 컴퓨팅	Intel SGX, AMD SEV, AWS Nitro Enclaves 등 TEE(Trusted Execution Environment) 활용
메모리 보호	민감 데이터 처리 후 즉시 메모리 제로화(zeroing)
동형암호(HE)	연구/실험 단계, 특정 집계 연산에 한해 적용 검토
차분 프라이버시	AI 학습 시 DP-SGD 적용으로 개별 데이터 보호
접근 통제	처리 서버 접근 최소화, 세션 기반 임시 권한 부여
로깅	민감 데이터 처리 시작/종료 시점 감사 로그 기록

AI 학습 데이터 관리

AI 학습 데이터 PII 주의

AI 모델 학습에 쓰는 데이터셋에는 의도치 않은 개인정보가 섞여 들어올 수 있습니다. 학습 데이터의 **출처 추적(Data Provenance)**을 반드시 수행하고 다음 사항을 점검하세요:

학습 데이터 수집 경로별 동의 여부 확인 및 라이선스 검증
데이터셋 내 PII 자동 스캔(NER 기반 탐지) 및 마스킹/제거 파이프라인 구축
학습 완료 후에도 모델이 학습 데이터를 그대로 출력(Memorization)하지 않는지 검증
데이터 출처·버전·처리 이력을 메타데이터로 관리(Data Lineage)
정보주체의 삭제 요청 시 재학습(Machine Unlearning) 또는 모델 폐기 절차 수립

완료 산출물

Ch2 완료 기준

이 장을 적용한 뒤에는 Data Inventory, P0~P3 분류표, 데이터 처리 흐름도, 보존·파기 정책, PIA 결과, 국외이전·위탁 통제 매트릭스가 남아 있어야 합니다.