본문 바로가기

컴퓨터 공학/데이터 큐레이션

Week12) Ingesting Data 데이터 입수하기

conceptualize → create and receive → appraise and select → dispose or ingest 데이터 평가 이후 어떤 데이터를 아카이브에 저장할지 선택한 후, 아카이브에 실질적으로 저장하기 위해 데이터를 수집하는 단계

  • 데이터를 아카이브 등 관리 센터로 이전하기
  • 문서화된 가이드라인 정책 법률적 요건 따르기
  • SIP → AIP 로 만드는 단계 (submission information package → archieve information package)
  • 즉, 데이터와 디지털 자료를 생산자의 손에서 큐레이터의 손으로 완전히 옮기는 과정
  • 입수 : 데이터를 아카이브에 추가하기 위해 준비하고, 실제로 추가하는 과정
  • 이전에 평가 및 선택 단계 등을 거쳐 데이터가 아카이브에 이전되는 조건이 동의되었음을 가정

1. 입수에서 이루어지는 활동

  • 입수에 대한 정책 개발 및 유지
  • 입수 과정 절차 개발
  • 입수 과정에 사용되는 도구 확인
  • 평가된 데이터 받기
  • 평가된 데이터 장기 저장을 위한 준비
    • 영구식별자 부여
    • 데이터 내부에 바이러스 없음을 확인
    • 관련 설명 및 표현 정보 추출 작성 추가
    • 무결성 확인을 위한 고정값 생성
    • 기술적 세부사항 확인
    • 압축 또는 암호 해제
    • 데이터(SIP) + 설명 및 표현 정보 = Archival information package 로 묶기

2. OAIS 모델과 ingestion 입수

  • ingestion : OAIS 모델 7개의 주요 기능 중 하나

2.1 information package

  • SIP(Submission informatin package) : 디지털 자료 입수 활동의 시작시 제시되는 관련 메타데이터
  • AIP(Archival information package) : SIP에 보존 관리를 위해 보존 설명 PSI(preservation description information)로 구성됨

2.2 PDI (Preservation description information) 구성요소

  • 참조 정보 : 유일하고 영구적인 식별자
  • 생성 정보 : 보존된 자료의 역사
  • 배경 정보 : 다른 자료와의 관계, 아카이브 내 위계 구조 등
  • 고정 정보 : 해쉬값과 같은 진실성 증명을 위한 정보

2.3 입수 과정

  • SIP를 받고 수용
  • 보관 관리를 위한 SIP 준비
  • SIP 품질 보장
  • AIP 만들기 위한 파일 형식 변환 시작
  • AIP 만들기
  • AIP로부터 설명 정보 추출 (검색을 위한 메타데이터 생성)
  • 업데이트 반영 (AIP를 저장소로 보내고 설명 정보를 데이터베이스에 보내기)
  • AIP가 영구적 저장소에 추가된 것을 확인

2.4 입수 도구들

  • 관련 도구들 비용이 높음
  • 데이터를 받아서 아카이브에 넣기 위해 해당 아카이브에 맞는 포맷으로 변환해줘야 하는데 이 작업을 하는 것이 비싸기 때문에
  • 관련 활동들 노동집약적
  • 따라서 자동화 필요함
  • 입수 과정 자동화 관련 다양한 도구들이 활용 가능해짐

3. 입수를 위한 정책

  • 효율적 입수를 위해 정책과 지침이 잘 개발되어 있어야함
  • 정책은 잘 문서화되어야 함
    • 문서화를 통해 책임과 의사소통경로를 명확히함
    • 표준화를 장려,
    • 위험을 관리할 수 있게 됨
    • 법률적 준수 문제 해결
  • 최신의 상태를 유지해야 함
    • 법률적 요건의 변화와 실제 입수 현실을 잘 반영해야 함

3.1 입수 정책 예시

  • 저장소에 제출하는 파일 형식에 대한 정책을 가지고 있는가?
  • 입수되는 파일 형식에 암호 또는 압축 등의 제한이 없는가?
  • 저장소는 제출된 형식을 변환해야 하는가?

4. 자동화의 필요성

  • 입수 과정은 특히 노동집약적인 활동이기 때문에 대량의 데이터를 입수하기 위해선 자동화가 필수적
  • 현재에도 그 방식이 충분하지 않은 상황
  • 자동화 도구들이 개발되는 중

References

  • 성균관대학교 문헌정보학과 김영식 교수님 2021-1 <데이터 큐레이션 실습>