본문 바로가기

컴퓨터 공학/데이터 큐레이션

Week6) 데이터 큐레이션 실습 : description & representation information

Week6) 데이터 큐레이션 실습 : description & reprentation information 

DCC 데이터 큐레이션 Life cycle model 중 description and representation information 에 대한 내용을 다룸 
curation의 대상이 되는 database, information 등의 디지털 객체를 설명(메타 데이터) 및 표현 정보를 어떻게 구성해야 하는지에 대한 내용 

1. Describe & Represent

Describe information 

  • 적절한 표준을 바탕으로 장기적 관리를 위해 관리적, 묘사적, 기술적, 구조적, 보존적 메타데이터를 이용하여 디지털 자료를 설명하는 것 
  • administrative, descriptive, technical, structural, preservation

1.2 Representation information

  • 디지털 자료와 관련 메타데이터를 이해하고 변환하는데 필요한 표현 정보 수집 및 부여 
  • 디지털 자료를 일반인도 이해할 수 있도록 표현 
  • 정보 자체를 내부적으로 설명하고, 외부적으로 표현하는 것 

2. OAIS 모델과 정보 모음 

  • 설명 정보와 표현 정보는 OAIS reference 모델을 바탕으로 함
  • 정보 모음 (information package)은 디지털 자료 + 설명, 표현 정보를 포함 (SIP, AIP, DIP)
  • 설명 정보 : 자료를 이해시킬 수 있도록 묘사하고, 장기적 관리를 위해 필요
  • 표현 정보 : 디지털 자료 및 관련 메타데이터를 이해하고 변환하기 위해 필요, 외부적으로 적절하고 지속적인 대표 정보를 의미함 

3. 설명 및 표현 정보 관련 활동

  • 필요성 파악
  • 어디에 요구되는지 
  • 관련 중요 표준 이해
  • 적용되는 정책 개발 - 내부적으로 기록 방식, 권리 범위, 표준 적용 방식 등에 대한 규칙 

3.1 설명 및 표현 정보의 필요성 

  • 사용자가 데이터 생산 배경 및 다른 자료와의 관계를 이해하는데 필수적 
  • 이해 및 관리, 접근을 용이하게 함
  • 설명 정보 : 디지털 자료의 속성, 배경, 구조 파악에 도움, 이해 및 사용에 도움
  • 표현 정보 : 디지털 자료 이동 시 경로 파악, 접근 용이하게 함 

4. 설명 정보 Description Information (= metadata) 

  • 디지털 자료를 묘사하는 메타데이터 
  • 데이터를 설명하고, 찾고, 관리하는 것을 용이하게 하는 구조화된 정보
  • 메타데이터가 없으면 디지털 자료 큐레이션 불가능

4.1 설명 정보의 목적

  • 설명적 메타데이터 : 디지털 자료 설명
  • 구조적 메타데이터 : 위치를 아려줌 
  • 기술적 메타데이터 : 자료 사용에 필요한 기술적 정보 제공
  • 관리적 보존적 메타데이터 : 자료가 큐레이션 되면서 발생한 일들을 기록 

4.2 설명적 메타데이터 Descriptive Metadata

  • 데이터를 찾을 수 있게 하고 
  • 검색 요청에 연결되어 데이터 제공
  • ex) 데이터 생산자 이름, 문서 작성자 이므

4.3 구조적 메타데이터 Structural Metadata

  • 복합적인 디지털 자료가 어떻게 구성되었는지 설명 
  • ex) TIFF 이미지가 변환된 이미지와의 관련 설명, 포토샵된 PSD 파일의 구조적 정보 

4.4 기술적 메타데이터 Technical Metadata

  • 데이터를 사용하는데 필요한 기술적 정보
  • ex) 파일 포맷, 압축 형식, 암호화 키 등
  • 전체적인 시스템 환경에 대한 정보
  • ex) 하드웨어, 운영체제, 제작 및 이용 소프트웨어 

4.5 관리적 메타데이터 Administrative Metadata

  • 디지털 자료의 시간이 지남에 따른 사용, 관리, 변환 과정 정보 제공
  • ex) 데이터 생산 및 후속 업데이트, 변환, 통합, 복제 정보

4.6 보존 메타데이터 Preservation Metadata

  • 데이터에 적용된 보존 활동 기록
  • ex) 데이터 속성 (저장 방식) 

4.7  영구 식별자 Persistent Identifier 

  • 디지털 자료에 붙여진 표식자
  • 자료가 어디에 위치하든 정보가 바뀌지 않음 (영구적)
  • 이용자가 데이터에 접근할 수 있는 데이터의 주소와 같은 역할
  • ex) DOI (Digital Object Identifier), URN (Uniform Resource Name) 
    • DOI : 사용자가 가지고 있는 DOI로 DOI 데릭토리에서 겁색해서 URL로 바꿔 서버에 요청을 보내 응답을 받음 

5. 표현 정보 Representation Information 

  • 디지털 자료와 관련된 메타데이터를 이해하고 표현하는데 필요한 정보
  • 디지털 자료 = 0,1 로 표현
  • 데이터 해석할 수 있는 표현 정보가 있어야 이해 가능 
  • 원래의 데이터를 보다 의미있는 정보로 변환시켜주는 구조적이고 시멘틱 정보

5.1 구조적 정보 Structural Information 

  • 디지털 자료를 처리하고 표현하는데 필요 정보
  • 데이터 형식 및 구조를 정의
  • ex) 파일을 보여주는데 필요한 파일 형식 프로세스 

5.2 시멘틱 정보 Semantic Information

  • 디지털 자료 내부 관계를 보여주는 추가 정보
  • ex) 시소러스 (동의/유의어 사전) , 온톨로지, 데이터 측정에 사용된 측정 단위 및 내용

5.3 다른 표현 정보 Other Representation Information 

  • 자료를 해석하고 표현하는데 필요한 정보
  • ex) 관련 소프투웨어, 압축 알고리즘 

6. 설명 및 표현 정보와 정책 

  • 누가 어떤 상황에서 설명 및 표현 정보에 접근하고 사용, 재사용할 수 있는지 정의
  • 재사용할 때 어떤 선행 승인이 필요하고,
  • 어떤 목적으로 재사용될 수 있고,
  • 다른 조직에 얼마나 공개해야 할지를 고려해야 함

7. 메타데이터와 자동화 

  • 대량 생산되는 정보 자동적 큐레이션 필요
  • 메타데이터는 디지털 자료의 자동화된 관리 필수적
  • 이상적으로는, 데이터가 생산될 때 자동적으로 메타데이터도 생산되어야 하며
  • 큐레이션 모델에서 평가되고 받아들여 질때 사용가능하도록 하는 것이 중요
  • 현재는 부족한 실정 

References

  • 성균관대학교 문헌정보학과 김영식 교수님 2021-1 데이터 큐레이션 실습