본문 바로가기

컴퓨터 공학/데이터 큐레이션

Week13) 데이터 큐레이션 실습 : Preservation Action 데이터 보존하기

데이터 이전 (migration) + 재평가 (re-appraisal)

1. 데이터 보존하기

  • 데이터의 권위적인 상태 유지를 위해 장기 보존과 유지를 보장하는 과정
  • 목적 : 데이터 무결성 진실성 신뢰성 유지
  • 주요 활동
    • 데이터 정리하기
    • 확인하기
    • 보존 메타데이터 부여
    • 표현 정보 부여
    • 수용 가능한 데이터 구조 또는 파일 형식 보장

2. 이전 Migration

데이터 보존 방식의 일종

  • 데이터 장기적 보존을 위해 필요한 활동
  • 비정기적 활동
  • 데이터 이전은 미디어 사용 만료, 기술적 지원 만료 등의 이유로 이전하는 것

3. 보존의 목표

  • authenticity
    • 진실성
    • 데이터 조작, 위조, 대체되지 않음
    • 원본 유지
  • integrity
    • 무결성
    • 추가적인 조작이 없는 상태
  • longevity
    • 지속성
    • 현재 미래 모두 데이터 이용 가능
  • accessibility
    • 접근성
    • 미래에도 수용 가능한 방식으로 찾을 수 있고 사용되는 것

4. 보존 활동

  • 원본 디지털 형태 함께 보존
  • 데이터 정리하고 확인하며 관리
  • 발젼 재사용 보존 가능성을 높이기 위해 고품질의 보존 메타데이터, 표현 정보 추가
  • 수용 가능한 데이터 구조, 파일 형식 보장 → 미래에도 사용에 제약에 없는 것
  • 좋은 데이터 관리 실천 적용
  • 안전한 저장

5. 보존 방법

5.1 기술 보존

  • 원천 자료 과정 유지
  • 원본 자료의 소프트웨어 및 하드웨어 시스템 함께 보존해두기
  • 단기간으로만 사용 가능한 방식
  • 시스템 문서 필요

5.1.1 장점

  • 하드웨어와 소프트웨어가 여전히 기능하는 해당 플랫홈 기능적 외관 느낌 유지
  • 장기 보존의 필요성을 미룰 수 있음

5.1.2 단점

  • 자원 집약적
  • 하드웨어 교체 부품 및 유지를 위한 지식 필요

5.2 에뮬레이션

  • 원래 자료가 원본과 같은 느낌 및 모습을 유지하도록 표현하는 새로운 과정 개발 → 구현
  • 현재 및 미래 세대의 컴퓨터에서 구식 시스템을 구현하는 소프트웨어를 개발하는 과정
  • 디지털 원본에 대한 접근을 가능하게 함 → 백업에 좋음
  • 구현 어렵고 정확한 문서가 필요함

5.2.1 장점

  • 디지털 자료 재창조하여 동적 콘텐츠를 제공 → 원본과 같은 경험 제공
  • 반복적인 이전보다 대규모 수집 보존에 효율적

5.3.2 단점

  • 비용 많이 들고
  • 구현 어려움
  • 관련 시스템 문서화 필요
  • 에뮬레이터 이전도 필요
  • 에뮬레이터 개발에 저작권 문제가 걸릴 수 있음

5.3 정보 이전

  • 새로운 시스템에서 표현될 수 있도록 변환
  • 디지털 자료를 한 세대의 기술 → 다른 기술로 이전
  • 다른 방식의 기본이 되는 방식
  • 메타데이터에 완전히 문서화되어야 함
  • 엄격한 품질 관리 절차 필요

5.3.1 장점

  • 절차가 잘 확립되어 있음
  • 비교적 간단함
  • 일부 포맷의 변환 소프트웨어 쉽게 구할 수 있음

5.3.2 단점

  • 조금씩 반복적 이전은 주요 변경을로 누적됨
  • 기능성 상식, 무설경 손상
  • 장기적 이전 → 비용 상당함

5.4 추가

  • 디지털 포렌식
    • 디지털 고고학
    • 접근 불가능해진 자료를 복구하는 기법 적용
    • 광범위한 데이터 복구가 가능
    • 메타데이터 문서 없거나 이해할 수 없는 경우 볼구하지 않음
  • 데이터 형식 표준화 normalization
    • 디지털 자료 더 오래사용하게 함
    • 개방되고 잘 지원되는 파일 형식으로 변환하는 것
    • 장기적 보존 전략은 아님 → 표준화한 파일 형식이 미래에 쓸오 없어지는 것을 늦출 뿐
    • 데이터 포맷 표준화를 위한 명확한 정책, 가이드, 변환 프로세스, 품질 관리 표준 필요
    • 자원 효율성 높은 방식
    • 특정 하드웨어 소프트웨어 제약 없음
    • 관련 표현 정보 메타데이터 많은 경우 적합하지 않음
  • 캡슐화
    • 디지털 자료 + 접근 제공 수단 함께 포장
    • 널리 사용되는 전략
    • 데이터 + 메타데이터 + 표현 정보
    • 용량이 너무 클 수 있음

6. 보존 방법 선택 기준

  • 보존될 데이터의 상태
  • 요구되는 기술적 기반 시설 → 현 상황
  • 비용
  • 조직적 요인
  • 권리, 권한 → 이전 또는 변환을 위한 권한이 있는지

References

  • 성균관대학교 문헌정보학과 김영식 교수님 2021-1 <데이터 큐레이션 실습>