1. 데이터 생산 및 수집하기
- 과학자, 학자, 개인들이 데이터 생산
- 이 데이터들은 큐레이션과 미래의 공유 및 재사용을 고려하여 생산되어야 함
1.1 데이터 생산 및 수집의 주요 활동
- 데이터 생산시 관리적, 설명적, 구조적, 기술적 메타데이터 부여
- 문서화된 수집 정책을 바탕으로 데이터 생산자, 아카이브 등으로부터 데이터 수집시에도 관련 메타데이터 부여
- 데이터 + 관련 설명 및 표현 정보 생산
- 데이터를 외부로부터 수집하여
→ 큐레이션 될 수 있는 상태로 준비
1.2 데이터 생산 및 수집의 구체적 활동
- 수집 및 생산 관련 정책 개발 및 문서화
- 생산자들이 큐레이션 친화적 데이터를 생산하도록 함
- 구조화 : 표준 데이터 형식, 파일 포맷에 따라 데이터를 생산하여 오픈 소스나 문서화된 프로그램으로 처리될 수 있게 함
- 데이터 수집 자동화 : 데이터 수집 과정을 개발하고 적용
- 데이터 형식, 소프트웨어, 사용 약관, provenance 에 대한 문서를 수집하고 유지
2. 데이터 생산 및 수집 정책
- 관련 정책은 데이터 생산자와 큐레이션 책임과 요건을 상세하게 기술
- 데이터 형식, 품질, 저장과정, 권리, 소유권 관련 정책 필요
- 개발된 정책은 문서화
- 데이터 생산 수집 과정에 정책 적용
- 필요시 정책 수정
2.1 정책에 포함되어야 하는 것
- 아카이브에 데이터를 저장할 수 있는 권한을 부여하는 기준
- 데이터 품질 요구사항
- 메타데이터 여부
- 비밀 보장 및 공개 범위
- 데이터 접근 상황 ex) 엠바고
- 데이터 관련 권리 및 소유권
- 데이터 파일 형식 → 오픈 데이터가 선호됨
- 수집된 데이터의 크기 제한
- 관련 정책
3. 큐레이션 친화적 데이터
- 큐레이션에 적합하도록 구조화된 데이터
- 좋은 데이터의 요건
- 사용 및 재사용을 고려한 관리와 처리
- 접근, 사용, 재사용을 고려해서 관리
- 조회할 것을 고려
3.1 사용 및 재사용을 위한 데이터 구조화
- 데이터 처리 능력 유지를 도모함
- authentic, accurate, renderable
- 데이터는 진실되고, 정확하고, 제공 가능해야 하고, 지속성을 보장해야 함
- 고려되어야 할 점
- 파일 형식의 지속적 생존성 Ongoing viability
- 개방 형식과 개방 원천 open formats and open source
- 중요 특징들과 진실성 significant properties and authenticity
- 문서 작성 documentation
- 데이터 생산자에게의 영향 influencing data creators
3.1.1 파일 형식의 지속적 생존성
- 파일 형식의 지속적 생존성을 예측하기 위해 사용되는 요인
- 개방성 openness : 개방 여부, 암호화 여부
- 이식성 portability : 소프트웨어 및 하드웨어, 특정 기관 및 개인으로부터 독립여부
- 품질 quality : 완전하고 단순하고 충분히 테스트를 거치고 빠진 부분이 없는지
3.1.2 개방 형식과 개방 원천
- 표준을 기반으로 잘 문서화된 소프트웨어 프로그램 사용
- 사용 가능한 파일 종류로 생산
- 오픈 소스 프로그램 사용
- 공공이 접근 가능하고 암호화 X
- 무료 ex) pdf, jpeg 등
3.1.3 중요 특징들과 진실성
- 내용 : 문자, 이미지
- 배경: 누가, 언제, 왜
- 모습 : 글씨체, 크기, 색깔 등 css
- 행동 : 하이퍼텍스트 링크, js
- 구조 : 삽입된 파일, 페이지 번호, 제목 서식
- 위조 및 변경되지 않은 특성 = 진실성 → 관련 구조, 배용, 배경 등의 증거를 바탕으로 결정, 유지하도록 도와줌
3.1.4 문서 작성 Documentation
- 디지털 자료에 대한 지속적 접근을 위해 관련 문서에 접근해야 함
- 디지털 자료에 대한 구체적 설명을 담고 있는 문서
- 생산 방법, 구조, 내용, 자료에 대한 설명
- 데이터가 미래에도 이해가능하도록 도움
- 문서 포함 내용 : 데이터 생산 수집 배경, 방법, 집합 구조, 생산 이후 수정, 관련 조항
3.1.5 데이터 생산자에게의 영향
- 데이터 제공자에게 지원, 돈을 주는 것 → 큐레이션 친화적 데이터 생산하도록 독려
- 정부 아카이브 → 생산자에게 가이드라인 제공 및 의무 부여
- 디지털 아카이브 → 디지털 파일 형식 및 표준 적용
- 도서관 → 작가에게 영향 미치기 어려움
3.2 관리를 위한 데이터 구조화하기
3.2.1 데이터 관리
- 지속적 접근을 위해 관리 필요
- 데이터 관리에 필요한 파일 형식의 특징
- 메타데이터 지원 metadata support
- 설명 및 표현 정보는 데이터 큐레이션에 필수적
- 자동 생산되기도 하고
- 생산자 및 관리자에 의해 직접 만들어지기도 함
- 상호호환성 Interoperability
- 다른 환경으로의 이동가능한 것
- 플랫폼 독립적
- 다양한 소프트웨어에 적용 가능
- 생존성 Viability
- 일부 손상되더라도 접근 가능한 것
- 생존성보다는 개방성이 더 중요하게 여겨짐
- 메타데이터 지원 metadata support
3.2.2 데이터 품질
- 큐레이션 과정의 기반 활동
- 모든 연구 활동에서 중요한 활동
- 품질이 높아야 지속적 관리와 재사용 활동이 최선의 결과로 이어짐
- 데이터 생산, 분석 전 준비, 확인될 때 품직 확보가 중요함
3.3 발견 용이성을 위한 데이터 구조화
- discoverability를 확보할 수 있도록 데이터 큐레이션 필요
- 자료 설명 및 확인에 표준적인 방법 적용
- 설명적 메타데이터와 밀접한 관련이 있는 구조화
4. 큐레이션을 위한 데이터 수집
- 큐레이션이 가능한 데이터를 수집
- 높은 품질
- 큐레이션 친화적
- 오픈 소스 소프트웨어를 사용한 개방적 데이터
- 메타데이터 충분히 있는 데이터
- 자동화 증가 추세
4.1 데이터 수집 활동
- 데이터 이전이 가능하도록 분류하고 목록 작성하기 (파일 형식, 저장 형식, 운영체제, 프로그램 생산자, 생산목적, 생산 시기, 메타데이터 등)
- 제공자 동의서 작성 확인
- 데이터 이송 방법 확인
- 수집된 데이터의 저장 범위 검토
- 제출 과정에서 무결성 확인
- 메타데이터 정확성 검토
- 영구식별자 추가
- 품질 평가
References
- 성균관대학교 문헌정보학과 김영식 교수님의 2021-1 <데이터큐레이션실습> 수업을 듣고 정리한 내용입니다.
'컴퓨터 공학 > 데이터 큐레이션' 카테고리의 다른 글
Week12) Ingesting Data 데이터 입수하기 (0) | 2021.05.11 |
---|---|
Week11) 데이터 큐레이션 실습 : Determining Data to maintain 데이터 평가 및 선택 (0) | 2021.05.03 |
Week9) 데이터 큐레이션 실습 : Designing Data (0) | 2021.04.19 |
Week8) 데이터 큐레이션 실습 : Sharing Knowledge and Collaborating (Community Watch and Participation) (0) | 2021.04.12 |
Week7) 데이터 큐레이션 실습 : Preservation Planning & Policy (0) | 2021.04.05 |