본문 바로가기

컴퓨터 공학/데이터 큐레이션

Week10) 데이터 큐레이션 실습 : Creating Data 데이터 생산하기

1. 데이터 생산 및 수집하기

  • 과학자, 학자, 개인들이 데이터 생산
  • 이 데이터들은 큐레이션과 미래의 공유 및 재사용을 고려하여 생산되어야 함

1.1 데이터 생산 및 수집의 주요 활동

  • 데이터 생산시 관리적, 설명적, 구조적, 기술적 메타데이터 부여
  • 문서화된 수집 정책을 바탕으로 데이터 생산자, 아카이브 등으로부터 데이터 수집시에도 관련 메타데이터 부여
  1. 데이터 + 관련 설명 및 표현 정보 생산
  2. 데이터를 외부로부터 수집하여

→ 큐레이션 될 수 있는 상태로 준비

1.2 데이터 생산 및 수집의 구체적 활동

  • 수집 및 생산 관련 정책 개발 및 문서화
  • 생산자들이 큐레이션 친화적 데이터를 생산하도록 함
  • 구조화 : 표준 데이터 형식, 파일 포맷에 따라 데이터를 생산하여 오픈 소스나 문서화된 프로그램으로 처리될 수 있게 함
  • 데이터 수집 자동화 : 데이터 수집 과정을 개발하고 적용
  • 데이터 형식, 소프트웨어, 사용 약관, provenance 에 대한 문서를 수집하고 유지

2. 데이터 생산 및 수집 정책

  • 관련 정책은 데이터 생산자와 큐레이션 책임과 요건을 상세하게 기술
  • 데이터 형식, 품질, 저장과정, 권리, 소유권 관련 정책 필요
  • 개발된 정책은 문서화
  • 데이터 생산 수집 과정에 정책 적용
  • 필요시 정책 수정

2.1 정책에 포함되어야 하는 것

  • 아카이브에 데이터를 저장할 수 있는 권한을 부여하는 기준
  • 데이터 품질 요구사항
  • 메타데이터 여부
  • 비밀 보장 및 공개 범위
  • 데이터 접근 상황 ex) 엠바고
  • 데이터 관련 권리 및 소유권
  • 데이터 파일 형식 → 오픈 데이터가 선호됨
  • 수집된 데이터의 크기 제한
  • 관련 정책

3. 큐레이션 친화적 데이터

  • 큐레이션에 적합하도록 구조화된 데이터
  • 좋은 데이터의 요건
    • 사용 및 재사용을 고려한 관리와 처리
    • 접근, 사용, 재사용을 고려해서 관리
    • 조회할 것을 고려

3.1 사용 및 재사용을 위한 데이터 구조화

  • 데이터 처리 능력 유지를 도모함
  • authentic, accurate, renderable
  • 데이터는 진실되고, 정확하고, 제공 가능해야 하고, 지속성을 보장해야 함
  • 고려되어야 할 점
    • 파일 형식의 지속적 생존성 Ongoing viability
    • 개방 형식과 개방 원천 open formats and open source
    • 중요 특징들과 진실성 significant properties and authenticity
    • 문서 작성 documentation
    • 데이터 생산자에게의 영향 influencing data creators

3.1.1 파일 형식의 지속적 생존성

  • 파일 형식의 지속적 생존성을 예측하기 위해 사용되는 요인
    • 개방성 openness : 개방 여부, 암호화 여부
    • 이식성 portability : 소프트웨어 및 하드웨어, 특정 기관 및 개인으로부터 독립여부
    • 품질 quality : 완전하고 단순하고 충분히 테스트를 거치고 빠진 부분이 없는지

3.1.2 개방 형식과 개방 원천

  • 표준을 기반으로 잘 문서화된 소프트웨어 프로그램 사용
  • 사용 가능한 파일 종류로 생산
  • 오픈 소스 프로그램 사용
  • 공공이 접근 가능하고 암호화 X
  • 무료 ex) pdf, jpeg 등

3.1.3 중요 특징들과 진실성

  • 내용 : 문자, 이미지
  • 배경: 누가, 언제, 왜
  • 모습 : 글씨체, 크기, 색깔 등 css
  • 행동 : 하이퍼텍스트 링크, js
  • 구조 : 삽입된 파일, 페이지 번호, 제목 서식
  • 위조 및 변경되지 않은 특성 = 진실성 → 관련 구조, 배용, 배경 등의 증거를 바탕으로 결정, 유지하도록 도와줌

3.1.4 문서 작성 Documentation

  • 디지털 자료에 대한 지속적 접근을 위해 관련 문서에 접근해야 함
  • 디지털 자료에 대한 구체적 설명을 담고 있는 문서
  • 생산 방법, 구조, 내용, 자료에 대한 설명
  • 데이터가 미래에도 이해가능하도록 도움
  • 문서 포함 내용 : 데이터 생산 수집 배경, 방법, 집합 구조, 생산 이후 수정, 관련 조항

3.1.5 데이터 생산자에게의 영향

  • 데이터 제공자에게 지원, 돈을 주는 것 → 큐레이션 친화적 데이터 생산하도록 독려
  • 정부 아카이브 → 생산자에게 가이드라인 제공 및 의무 부여
  • 디지털 아카이브 → 디지털 파일 형식 및 표준 적용
  • 도서관 → 작가에게 영향 미치기 어려움

3.2 관리를 위한 데이터 구조화하기

3.2.1 데이터 관리

  • 지속적 접근을 위해 관리 필요
  • 데이터 관리에 필요한 파일 형식의 특징
    • 메타데이터 지원 metadata support
      • 설명 및 표현 정보는 데이터 큐레이션에 필수적
      • 자동 생산되기도 하고
      • 생산자 및 관리자에 의해 직접 만들어지기도 함
    • 상호호환성 Interoperability
      • 다른 환경으로의 이동가능한 것
      • 플랫폼 독립적
      • 다양한 소프트웨어에 적용 가능
    • 생존성 Viability
      • 일부 손상되더라도 접근 가능한 것
      • 생존성보다는 개방성이 더 중요하게 여겨짐

3.2.2 데이터 품질

  • 큐레이션 과정의 기반 활동
  • 모든 연구 활동에서 중요한 활동
  • 품질이 높아야 지속적 관리와 재사용 활동이 최선의 결과로 이어짐
  • 데이터 생산, 분석 전 준비, 확인될 때 품직 확보가 중요함

3.3 발견 용이성을 위한 데이터 구조화

  • discoverability를 확보할 수 있도록 데이터 큐레이션 필요
  • 자료 설명 및 확인에 표준적인 방법 적용
  • 설명적 메타데이터와 밀접한 관련이 있는 구조화

4. 큐레이션을 위한 데이터 수집

  • 큐레이션이 가능한 데이터를 수집
  • 높은 품질
  • 큐레이션 친화적
  • 오픈 소스 소프트웨어를 사용한 개방적 데이터
  • 메타데이터 충분히 있는 데이터
  • 자동화 증가 추세

4.1 데이터 수집 활동

  • 데이터 이전이 가능하도록 분류하고 목록 작성하기 (파일 형식, 저장 형식, 운영체제, 프로그램 생산자, 생산목적, 생산 시기, 메타데이터 등)
  • 제공자 동의서 작성 확인
  • 데이터 이송 방법 확인
  • 수집된 데이터의 저장 범위 검토
  • 제출 과정에서 무결성 확인
  • 메타데이터 정확성 검토
  • 영구식별자 추가
  • 품질 평가

References

  • 성균관대학교 문헌정보학과 김영식 교수님의 2021-1 <데이터큐레이션실습> 수업을 듣고 정리한 내용입니다.