Week 2 : The Chaning Landscape
Lecture 2-1
1. e-science의 최근 동향
- e-science =cyberscholarship
- 데이터 큐레이션의 중요성 증대
- 과학, 학문, 연구 분야 뿐만 아니라 정부 기관들도 데이터를 활용하는 업무가 많아졌기 때문에 데이터 큐레이션이 중요해졌다.
- 이러한 새로운 업무 방식은 데이터 큐레이션을 지원하는 사이버 인프라의 필요성을 증대시켰다.
- 학문 분야는 이미 잠재적으로 data-driven 한 방식을 취하고 있으며 이 방식이 확장되는 중이다.
- 사이버 학문은 네트워크, 데이터, 학문간 협업 등을 나타내기 위한 용어이다.
- cyberscholarship => data curation + cyber-infrastructure (tech + human resource)
2. Cyberscholarship : 업무의 새로운 방식
- 사이버 스칼라십은 컴퓨터 네트워크를 통해서 학술 자료들을 디지털 형태로 이용 가능해지는 것을 기반으로 한다.
- 도서관이나 아카이브에 저장되어 있던 아날로그 자원들을 디지털 형식으로 변환하여 더 방대한 양의 과학적 자료들을 포괄한다.
- 이러한 새로운 방식은 컴퓨터의 발전에 의존한다.
3. Cyberscholarship의 특징
- 모든 자료들을 디지털 형태로 사용할 수 있는 정도에 의존한다.
- 학자들이 더 많은 데이터를 수집하고 이용할 수 있게 하기 때문에 더 많은 양의 데이터를 생산한다.
- 데이터를 공유하고 재사용하는 것을 크게 강조한다.
- 새로운 협력적 구조
- 큰 데이터를 다룰 수 있는 컴퓨팅 능력의 발전
4. Cyberscholarship의 활용
eBird 프로젝트 : citizen science
- 코넬 대학에서 시작되었다.
- 과학자가 아닌, 프로젝트 참가자들은 주변에 새를 발견하면 사진을 찍고, 간단한 설명을 적어놓는다.
- 이 프로젝트로 새들의 행동 양식, 움직임 등을 파악할 수 있었다.
Data.gov
- 정부에 의해 만들어진 데이터셋을 대중이 접근할 수 있도록 하는 프로젝트
- 고 가치의 기계가독의 데이터 셋을 쉽게 접근할 수 있도록 하고, 필요한 툴도 제공
- 이러한 고가치의 데이터로 새로운 서비스나 제품을 창출할 수 있다.
- 이 프로젝트 역시 데이터 큐레이션이 필요하다.
5. Cyberscholarship의 requirements & challenges
- 컴퓨터 네트워크, 라이브러리, 아카이브 등 많은 사이버 인프라가 필요하다.
- Arms는 다음과 같이 필요 조건을 유형화하였다. (2008)
- content
- tools and services
- expertise
Content
- 데이터 그 자체가 content이다.
- 데이터에 접근하여 새로운 데이터를 수집하고 확인하여 새로운 지식을 만들어 내기 때문에 데이터에 접근하는 것은 높은 수준의 학문의 기초이다.
- 하지만 현실적으로 데이터는 잘 정리되어 있지 않고, 아카이빙이나 정리 등이 잘 되어 있지 않아서 데이터 접근이 쉽지 않다.
- 지적 권리와 사적 법률이 다투고 있는 실정이다.
Tools & Services
- 사이버 인프라의 중요한 컴포넌트로, 데이터를 위치시키고, 관리하고, 분석하고, 시각화하고, 저장하는데 효율적이고 쉬운 방법을 제공하는 것이다.
- 큐레이션 업무에 사용된다.
- 새로운 포맷으로 변경하기
- 데이터 변화 추적하기
- 데이터의 증명성을 입증하기 등
Expertise
- 방대한 양의 데이터를 수집하고 저장하고, 집단에 집중시키는 역량이 필요하다.
- 구글이나 아마존 같은 클라우드 제공자나 인터넷 아카이브 등
- 대표되는 정보를 생산하고 유지하는 것
- 하드웨어나 소프트웨어 관련 정보를 공유
- 디지털 객체의 당위성
- 디지털 권리
- 영속적인 식별자
- 보증된 레포지토리
Lecture 2-2
1. Digial Curation : 새로운 직업
데이터 큐레이터의 주요 역할
- 관련 정책과 서비스를 개발하고 구현
- 현존하는 디지털 콘텐츠를 분석하고 이것으로 어떤 서비스를 창출하면 좋을지 고안
- 데이터 생산자와 사용자, 재사용자들에게 조언 제공
- 데이터가 데이터 레포지토리에 저장되게 보장
- 데이터 사용에 필요한 법적 조건 agreement 협상
- 데이터의 질을 보장
- 데이터에 접근, 전달, 저장, 유지하여 데이터 구조화를 보장
- 데이터의 사용 및 재사용을 가능하게 함
- 데이터를 사용하려는 사람들이 필요한 데이터를 발견하고 얻을 수 있도록 도움
- 보존 계획을 세우고 지켜야 함 (백업, 유지 방법, 노후화 모니터링 등)
- 상호 운용성 증진
- 데이터가 적재적소에 사용되고 전달되고 정확한 정보를 제공할 수 있도록 관련 정책과 서비스 유지
데이터 큐레이션의 주요 기술
- 데이터 생산자 : 데이터 전처리, 메타데이터 생성, 데이터 모니터링 등
- 데이터 관리자 : 데이터 유지 보수, 위험 관리, 권리 등의 법적 문제 다룸, 진위성, 접근 보안, 데이터 상태 관리, 데이터 보존 등
- 데이터 사서 : 주요 펀딩 기관의 가이드라인을 따라 관리, 협상,
- 데이터 과학자 : 데이터 큐레이션이 데이터 관리와 정리에 관련된 기술이라면 데이터 과학자는 데이터를 통합하고 분석하는데 초점을 맞춤
데이터 큐레이션에 필요한 스킬
데이터 큐레이터 교육과 훈련
- 최신 스킬과 지식리 필요하다.
- 넓은 분야의 워크샵과 수업이 제공되어야 함
- 디지털 큐레이션을 인지하는 훈련과 스킬이 많은 국가에서 제공되고 있음
- blue ocean이라고 생각됨
References
- 2021-1 성균관대학교 문헌정보학과 <데이터 큐레이션 실습>, 김영식 교수님 수업을 들으며 정리한 내용입니다.
- 2021.03.02
'컴퓨터 공학 > 데이터 큐레이션' 카테고리의 다른 글
Week6) 데이터 큐레이션 실습 : description & representation information (0) | 2021.03.29 |
---|---|
Week5) 데이터 큐레이션 실습 : 큐레이션의 특징 (0) | 2021.03.22 |
Week4) 데이터 큐레이션 실습 : 데이터 정의 (0) | 2021.03.16 |
Week3) 데이터 큐레이션 실습 : 데이터 큐레이션의 개념적 모델 (0) | 2021.03.09 |
Week 1) 데이터 큐레이션 실습 (0) | 2021.02.23 |