본문 바로가기

컴퓨터 공학/데이터 큐레이션

Week2 ) 데이터 큐레이션 실습 : 데이터 큐레이션의 동향

Week 2 : The Chaning Landscape


Lecture 2-1 

1. e-science의 최근 동향

  • e-science =cyberscholarship
    • 데이터 큐레이션의 중요성 증대 
  • 과학, 학문, 연구 분야 뿐만 아니라 정부 기관들도 데이터를 활용하는 업무가 많아졌기 때문에 데이터 큐레이션이 중요해졌다.
  • 이러한 새로운 업무 방식은 데이터 큐레이션을 지원하는 사이버 인프라의 필요성을 증대시켰다. 
  • 학문 분야는 이미 잠재적으로 data-driven 한 방식을 취하고 있으며 이 방식이 확장되는 중이다. 
  • 사이버 학문은 네트워크, 데이터, 학문간 협업 등을 나타내기 위한 용어이다. 
    • cyberscholarship => data curation + cyber-infrastructure (tech + human resource) 

2. Cyberscholarship : 업무의 새로운 방식 

  • 사이버 스칼라십은 컴퓨터 네트워크를 통해서 학술 자료들을 디지털 형태로 이용 가능해지는 것을 기반으로 한다. 
  • 도서관이나 아카이브에 저장되어 있던 아날로그 자원들을 디지털 형식으로 변환하여 더 방대한 양의 과학적 자료들을 포괄한다. 
  • 이러한 새로운 방식은 컴퓨터의 발전에 의존한다. 

3. Cyberscholarship의 특징

  • 모든 자료들을 디지털 형태로 사용할 수 있는 정도에 의존한다. 
  • 학자들이 더 많은 데이터를 수집하고 이용할 수 있게 하기 때문에 더 많은 양의 데이터를 생산한다. 
  • 데이터를 공유하고 재사용하는 것을 크게 강조한다. 
  • 새로운 협력적 구조
  • 큰 데이터를 다룰 수 있는 컴퓨팅 능력의 발전 

4. Cyberscholarship의 활용

eBird 프로젝트 : citizen science

  • 코넬 대학에서 시작되었다.
  • 과학자가 아닌, 프로젝트 참가자들은 주변에 새를 발견하면 사진을 찍고, 간단한 설명을 적어놓는다.
  • 이 프로젝트로 새들의 행동 양식, 움직임 등을 파악할 수 있었다. 

Data.gov 

  • 정부에 의해 만들어진 데이터셋을 대중이 접근할 수 있도록 하는 프로젝트
  • 고 가치의 기계가독의 데이터 셋을 쉽게 접근할 수 있도록 하고, 필요한 툴도 제공
  • 이러한 고가치의 데이터로 새로운 서비스나 제품을 창출할 수 있다. 
  • 이 프로젝트 역시 데이터 큐레이션이 필요하다. 

5. Cyberscholarship의 requirements & challenges

  • 컴퓨터 네트워크, 라이브러리, 아카이브 등 많은 사이버 인프라가 필요하다. 
  • Arms는 다음과 같이 필요 조건을 유형화하였다. (2008)
    • content
    • tools and services
    • expertise

Content

  • 데이터 그 자체가 content이다.  
  • 데이터에 접근하여 새로운 데이터를 수집하고 확인하여 새로운 지식을 만들어 내기 때문에 데이터에 접근하는 것은 높은 수준의 학문의 기초이다.
  • 하지만 현실적으로 데이터는 잘 정리되어 있지 않고, 아카이빙이나 정리 등이 잘 되어 있지 않아서 데이터 접근이 쉽지 않다. 
  • 지적 권리와 사적 법률이 다투고 있는 실정이다. 

Tools & Services

  • 사이버 인프라의 중요한 컴포넌트로, 데이터를 위치시키고, 관리하고, 분석하고, 시각화하고, 저장하는데 효율적이고 쉬운 방법을 제공하는 것이다. 
  • 큐레이션 업무에 사용된다. 
    • 새로운 포맷으로 변경하기 
    • 데이터 변화 추적하기
    • 데이터의 증명성을 입증하기 등  

Expertise

  • 방대한 양의 데이터를 수집하고 저장하고, 집단에 집중시키는 역량이 필요하다. 
  • 구글이나 아마존 같은 클라우드 제공자나 인터넷 아카이브 등
    • 대표되는 정보를 생산하고 유지하는 것
    • 하드웨어나 소프트웨어 관련 정보를 공유
    • 디지털 객체의 당위성
    • 디지털 권리
    • 영속적인 식별자 
    • 보증된 레포지토리

Lecture 2-2

1. Digial Curation : 새로운 직업

데이터 큐레이터의 주요 역할

  • 관련 정책과 서비스를 개발하고 구현
  • 현존하는 디지털 콘텐츠를 분석하고 이것으로 어떤 서비스를 창출하면 좋을지 고안
  • 데이터 생산자와 사용자, 재사용자들에게 조언 제공 
  • 데이터가 데이터 레포지토리에 저장되게 보장
  • 데이터 사용에 필요한 법적 조건 agreement 협상
  • 데이터의 질을 보장 
  • 데이터에 접근, 전달, 저장, 유지하여 데이터 구조화를 보장
  • 데이터의 사용 및 재사용을 가능하게 함
  • 데이터를 사용하려는 사람들이 필요한 데이터를 발견하고 얻을 수 있도록 도움
  • 보존 계획을 세우고 지켜야 함 (백업, 유지 방법, 노후화 모니터링 등) 
  • 상호 운용성 증진
  • 데이터가 적재적소에 사용되고 전달되고 정확한 정보를 제공할 수 있도록 관련 정책과 서비스 유지 

데이터 큐레이션의 주요 기술

  • 데이터 생산자 : 데이터 전처리, 메타데이터 생성, 데이터 모니터링 등 
  • 데이터 관리자 : 데이터 유지 보수, 위험 관리, 권리 등의 법적 문제 다룸, 진위성, 접근 보안, 데이터 상태 관리, 데이터 보존 등 
  • 데이터 사서 : 주요 펀딩 기관의 가이드라인을 따라 관리, 협상, 
  • 데이터 과학자 : 데이터 큐레이션이 데이터 관리와 정리에 관련된 기술이라면 데이터 과학자는 데이터를 통합하고 분석하는데 초점을 맞춤  

데이터 큐레이션에 필요한 스킬 

* SHERPA : Securing a Hybrid Environment for Research Reservation and Access

데이터 큐레이터 교육훈련

  • 최신 스킬과 지식리 필요하다. 
  • 넓은 분야의 워크샵과 수업이 제공되어야 함 
  • 디지털 큐레이션을 인지하는 훈련과 스킬이 많은 국가에서 제공되고 있음
  • blue ocean이라고 생각됨  

References

  • 2021-1 성균관대학교 문헌정보학과 <데이터 큐레이션 실습>, 김영식 교수님 수업을 들으며 정리한 내용입니다. 
  • 2021.03.02