본문 바로가기

컴퓨터 공학/데이터 큐레이션

Week11) 데이터 큐레이션 실습 : Determining Data to maintain 데이터 평가 및 선택

1. 평가와 선택

1.1 appraise & select

  • 어떤 데이터와 디지털 자료를 장기적으로 보존할 것인지
  • 어떤 것을 버릴 것인지
  • 결정하는 기준을 개발하고 그것을 적용하는 과정

1.2 reappraise & dispose

  • 평가와 선택의 연속적 활동
  • 재평가 : 보존 단계에서 기준을 충족하지 못한 경우 재평가됨
  • 처분 : 평가 결과 → 선택되지 못한 것은 처분 과정을 거침 → transfer or destory / 평가 과정의 potential result (평가 결과가 될 수 있는 것)

1.3 주요활동

  • 평가와 선택에 대한 정책 개발, 문서화, 적용
    • 전담 공동체 정하기
    • 보존 데이터 특징 파악
    • 유지 기간 결정
  • 평가 기준 개발
  • 평가한 데이터 유지 여부 결정

1.4 평가란?

  • 어떤 정보 자료의 중요도를 결정하는 과정
  • 어떤 기록물을 유지할지, 얼마나 유지할지, 어떤 것을 처분할지 결정하기 위한 과정
  • 어떤 것에 우리가 부여하는 유용함과 가치와 밀접한 관련이 있음
  • 기준에 의존해서 평가
  • 평가의 본질 : 중요도 결정하는 것 → 절대적일 수는 없고, 경제적 정치적 문화적 사회적 요인에 의해 결정됨

2. 어떤 데이터를 유지하길 원하는가?

  • 법률적, 조직의 안전을 위해 선택 및 보존 필요
  • 데이터 + 관련 문서 (메타데이터) 함께 보존
  • 학문 분야별로 선택 평가 보존 정책이 다름

2.1 고려해야 할 것

  • 왜 유지해야 하는가
  • 어떤 데이터를 유지해야 하는가
  • 얼마나 보존해야 하는가
  • 미래에 완전히 작동되어야 하는가

2.2 데이터 보존하기 위한 추진 요인

  • 연구비 지원 기관이나 출판사, 데이터 공유처의 요구에 따르는 것 ⇒ 데이터 큐레이션 증가 추진 요인
  • 추진 요인을 이해하고 관련 요건을 만족하는 것이 평가의 일부
  • 데이터 유지 / 유지 하지 않을 경우의 혜택과 위험 → 데이터큐레이션에 영향을 미침
    • 데이터 유지하지 않는 것에 대한 결과
    • 미래에 데이터 재생산을 위한 비용과 재생산 가능 여부

3. 위기 관리 Risk Management

위험한 사건을 파악해서 그 발생 확률을 줄이거나 발생시 그 영향을 줄이기 위한 활동을 통해 위험을 관리하는 것

  • 조직은 위험을 완전히 제거할 수 없기 때문에 수용 가능한 위험 수준 정의 필요
  • 일반적으로 위기 관리를 위해 수행되어야 할 단계
    • 어떤 자료가 위험에 처했는지 결정
    • 위험 수준에 따라 그 우선순위 결정

3.1 위험 매트릭스

4. 왜 모든 것을 보존할 수 없는가?

  • 대량의 데이터 유지 비용
  • 조직 역량 부족
  • 기술 인력 부족
  • 큐레이션을 위한 가용 자원 제한적

⇒ 평가를 거쳐 유지할 데이터를 선택해야 함!

4.1 반대 의견

모든 데이터를 유지해야 한다는 입장

  • 저장 비용 감소
  • 대량 데이터에서 정보 검색 능력 향상
  • 데이터의 중요도와 미래의 사용 여부 예측은 불가능
  • 평가와 선택은 가치 판단적이기 때문에 편견이 개입될 수 있음

5. 얼마나 오래 보존해야 하는가?

5.1 고려해야 할 것

  • 기술 변화
  • 데이터 큐레이션 조직 임무
  • 사용자 요구사항

5.2 보존 개념

  • 장기 : 데이터의 무한한 접근 제공
  • 중기 : 데이터에 한정된 시간동안 데이터에 지속적 접근 보장
  • 단기 : 기술 변화가 데이터에 접근을 막거나 데이터가 사용되는 기간 동안까지만 데이터 접근을 유지하는 것을 보장

6. 평가과 선택의 정책

6.1 주요 질문

  • 데이터 유지 여부
  • 데이터 유비 필요성
  • 데이터 유지 기간

⇒ 위 질문들에 대한 대답에 대한 타당 이유를 만들기 위해 정책 개발

6.2 네덜란드 공식 연구데이터 평가 및 선택 가이드라인

  • 데이터 보존해서 그것들이 사용되거나 재사용되도록 하는데 어떤 의무가 있는가
  • 검증의 목적으로 데이터를 보존해야 하는 의무가 있는가
  • 비학문적이나 일반 목적들을 위해서 데이터가 보존되어야 하는 이유가 있는가

6.3 다루는 주제

  • 미래 사용자 (지정된 공동체)
  • 보존의 실행 가능성 (경제적, 기술적 실행 가능성)
  • 법률적, 지적 재산 권리
  • 데이터가 임무 중심적인지 (어떤 프로젝트 또는 조직의 성공에 필수적인지)
  • 관련 데이터 (메타데이터, 설명 및 표현 정보)

7. 누가 평가와 선택을 결정하는가?

  • 정보 전문가
  • 데이터 생산자
    • 데이터 생산시 메타데이터 , 관련 문서 및 큐레이션 형식 보장
  • 이해 관계 당사자들의 의견을 기반으로 개발 (designated community)
    • designated community = consultative committe for Space data systems

8. 재평가

  • 큐레이션 생애 주기 모델에서 간헐적으로 발생하는 활동
  • 보존 단계에서 결정의 결과
  • 검증 과정을 통과하지 못한 데이터를 추가적인 평가와 재선택을 위해 돌려보내는 것
  • 자원 집중적
  • 전통적으로 기록이 생산된 이후 장기간에 걸쳐 이루어짐

8.1 주요 임무

  • 재평가의 계기가 되는 조건 구체화
  • 평가 기준에 근거하여 그 조건을 만족하는 데이터 평가

9. 처분

  • 큐레이션 생애 주기 모델에서 간헐적으로 발생하는 활동
  • 평가와 선택, 재평가 단계에서 이루어지는 결정의 결과
  • 문서화된 정책, 가이트, 법적 요건에 따라 장기적 큐레이션 및 보존에 선택되지 않은 데이터를 처분하는 것
  • 이 단계에서 선택지
    • 자른 저장소로 이동 transfer
    • 안전한 방식으로 없내는 것 destroy