본문 바로가기

컴퓨터 공학/데이터 큐레이션

Week5) 데이터 큐레이션 실습 : 큐레이션의 특징

DDC 큐레이션 생애 주기 모델 

  • 상호의존성(interdependent) : 각 컴포넌트들이 독립적으로 존재하는 것이 아니라 이웃 컴포넌트들과 밀접한 연관을 가지며 의존한다. 
  • 큐레이트와 보존(preserve)
  • 관리(administration)와 운영(management) 필요 : 큐레이트와 보존을 위해 관리와 운영이 필수적으로 요구된다.

디지털 보존

목표 

  • 데이터, 디지털 자료, 데이터베이스가 그들의 생산과 초기 관리에 사용되었던 소프트웨어나 하드웨어의 수명 이상으로 미래에도 지속적으로 접근 가능하도록 보장하는 것
  • 데이터를 다양한 형태로 계속해서 접근이 가능하도록 관리
  • 자료의 지속적 접근성을 장기간 보장하기 위한 모든 활동 

디지털 큐레이션 

  • 디지털 보존보다 상위 개념
  • 적극적인 데이터 관리 
  • 디지털 보존은 디지털 큐레이션의 필요 조건 / 충분조건 아님
  • 데이터의 적극적인 관리와 평가가 필요

목표

  • 미래에 유용하고 사용가능한 데이터를 확보하며 가치를 증가시키는 일 
  • 보존 + 데이터의 가치를 높이고 신뢰할 수 있는 정보를 제공하는 것 

특징 1) 지속성 Longevity

  • 데이터의 현재와 미래의 사용자들이 요구할 때 데이터가 존재하여 지속적으로 제공 가능하게 하는 것 
  • 데이터는 적절한 조치 없이 수명이 짧아질 수 밖에 없음 
  • 관련 소프트웨어나 하드웨어의 기대 수명도 데이터가 이용되는 기간보다 길어져야 함 

지속성 확보하기

  • refreshing data 데이터를 새롭게 만들기 : 데이터를 같은/새로운 저장장치로 이동시킴
  • 리프레쉬한 데이터 결과의 정확성 확인
  • 리프레쉬 과정 문서화하여 메타데이터 저장
  • 여러개의 디지털 복본 만들기
  • 보전에 영향을 주는 하드웨어, 소프트웨어, 파일 형식, 표준 등의 변화를 지속적으로 기록

특징 2) 무결성 Integrity

  • authenticity
  • 데이터가 조작, 위조, 대체 되지 않은 완전한 상태
  • 디지털 보존 기술이 불완전하여 데이터가 변형될 수 있음 
  • 데이터의 기원적, 상황적 특징을 살펴 진위를 증명할 수 있어야 함
    • 기원적 특징 : 데이터가 어떻게 생겨났는지
    • 상황적 특징 :  데이터의 생산, 수집, 저장, 사용, 다른 데이터와의 관계 등 

무결성을 확보하기

  • 데이터 리프레싱, 결과 정확성 확인, 과정 문서화하여 메타데이터 저장
  • 데이터의 보안, 백업, 오류 검사를 통해 관리 및 보호
  • 여러 디지털 복본 만들기
  • 지적재산권 및 다른 권리사항 관리 

특징 3) 접근성 Accessibility

  • 보존의 중요한 특징 중 하나
  • 미래에 데이터가 필요한 집단에 적절한 형태로 찾을 수 있고 이용이 가능한 것
  • 특정 소프트웨어에서만 사용되는 것이 아니라 미래에 다양한 소프트웨어에서 사용할 수 있어야 함

접근성 관리하기

  • peresistent identifier (ex) DOI)영구 식별자를 부여하여 찾기 쉽게 하기
  • 디지털 자료에 충분한 대표정보 기록하여 미래에도 이해할 수 있도록 함
  • 개방된 표준 형식으로 생산, 관리, 보존 형식 한정 (표준 개발) 
  • 디지털 보전에 영향을 주는 하드웨어, 소프트웨어, 파일 형식, 표준 등의 변화를 지속적으로 기록

디지털 큐레이터의 역할

  • 오픈 소스 소프트웨어나 개방형 표준을 적용하여 다른 종류의 소프트웨어나 하드웨어 플랫폼에서 상호 운용성 확보
  • 메타데이터와 주석을 작성하여 디지털 자료 재사용될 수 있도록 함
  • 관련 연구 자료를 연결하고 링크가 지속적으로 이용 가능하도록 함
  • 영구 식별자를 사용 
  • 일관적인 인용형식 사용
  • 장기적인 관점에서 어떤 디지털 자료를 큐레이트할지 결정
  • 최신의 데이터 저장 장치 유지
  • 바뀐 데이터 검증 및 무결성 증명 

데이터 큐레이터 연구 사례

  • work of eScience Professionals 
  • data
  • people
  • things

데이터 큐레이션의 이해관계 집단

  • 관련 집단 (학문, 단체, 국민)
  • 조직 (대학, 회사, 정부)
  • 데이터 생산자 (연구자 및 일반인)
  • 데이터 사용자와 재사용자 (연구자 및 기관)
  • 데이터 큐레이터 (데이터 사서, 데이터 관리자)

큐레이션을 관리 및 운영하기

  • 디지털 큐레이션의 목표 : 지속성, 무결성, 접근성의 차원에서 디지털 자료를 생산, 관리, 운영 하는 것
  • 다양한 이해관계 집단의 관점에서 필요한 관리와 운영의 측면에서 고려
  • 데이터를 큐레이트 하는 것은 관리와 운영이 적용되는 지속적인 과정을 의미함
  • 다양한 측면을 고려하여 데이터의 가치를 창출하는 일! 

References

  • 성균관대학교 문헌정보학과 김영식 교수님 2021-1 <데이터 큐레이션 실습>