빅데이타에 대한 비판적인 질문

1.
신문을 읽을 때 습관이 하나 있습니다. 어떤 글을 읽다가 마음에 드는 글을 보고 그 글은 또다른 원문을 인용한 글이라고 하면 꼭 원문을 찾아봅니다. 만약 이런 방식으로 신문을 읽으면 하루에 읽어야 하는 글이 무척 많을 듯 합니다. 만약 원문이 영어이고 출처도 명확하지 않으면 시간은 더 많이 들어갑니다. 블로그에 소개하였던 많은 글들은 이렇게 찾은 것들입니다.

몇 일전 한겨레신문이 오철우기자가 소개한 논문이 하나 있습니다. Critical Questions For Big Data입니다. 기자는 칼럼속에서 아래와 같이 소개하였습니다.

[유레카] ‘빅 데이터 현상’

최근 트위터 친구 한 분의 소개로 알게 된 논문 한 편을 흥미롭게 읽었다. 방대한 데이터를 수집·처리하고 분석함으로써, 거기에서 예전엔 몰랐던 새로운 통찰과 가치를 발굴해낸다는 ‘빅 데이터’의 시대에, 이를 비판적으로 조명하는 논문이었다. 미국 마이크로소프트연구소 연구자들이 지난 3월 국제학술지 <정보·소통·사회>에 낸 논문(‘빅 데이터에 대한 비판적 질문’, goo.gl/acgQu)은 빅 데이터의 유행에 휩쓸려 정작 놓치기 쉬운 가치는 없는지 따져보기를 하는 셈이다.

논문에서 빅 데이터라는 용어의 엄밀성은 논란거리다. 애초엔 빅 데이터가 슈퍼컴퓨터에서나 처리할 수 있을 정도로 방대한 데이터라는 뜻으로 쓰였으나 컴퓨터 성능이 날로 발전해 예전의 빅 데이터는 이제는 빅 데이터가 아니게 됐는데도, 이 말은 데이터, 계산, 수치를 강조할 때 흔히 널리 쓰인다. 이런 점에서 빅 데이터는 시대의 현상이다.

이들이 지적하는 몇 가지 과신과 오해는 이렇다. 빅 데이터는 객관성을 제공한다지만 데이터를 걸러내고 계산 알고리즘을 짜야 하는 것은 여전히 주관적인 인간임을 잊지 말라고 한다. 데이터는 클수록 더 좋다는 믿음도 경계하라고 한다. 아무리 방대한 데이터라도 데이터의 맥락이 고려되지 않는다면 엉뚱한 해석에 이를 수 있다. 특히 표본의 대표성을 확인하기 힘든 트위터 데이터를 분석한 결론을 사용할 땐 더욱 주의해야 한다. 또한 데이터 프라이버시의 문제는 계속되는 논란임을 환기시킨다.

데이터 대량 수집과 빠르고 효율적인 처리 기법이 중시되며 데이터의 해석과 예측에 관심이 쏠리는 시대엔 세상도 데이터 중심으로 나뉜다고 한다. 데이터를 생산하는 자, 수집 수단을 소유한 자, 전문으로 분석하는 자가 구분되고 ‘데이터 부자’인 사회미디어기업의 역할은 커진다. 빅 데이터의 의미와 한계를 헤아리며 적절하게 사용하는 방법을 익힐 때에야 빅 데이터는 유익한 통찰과 가치를 가져다줄 것이다.

2.
Information, Communication & Society Volume 15, Issue 5, 2012에 실린 원문입니다.

아래는 위 논문을 PPT로 정리한 자료입니다.

같은 말의 반복이지만 저자가 강조한 것중 꼭 잊지 말아야 하는 것은 “빅 데이터는 객관성을 제공한다지만 데이터를 걸러내고 계산 알고리즘을 짜야 하는 것은 여전히 주관적인 인간”이라는 점입니다. 저자인 Danah Boyd에 대한 소개입니다.그런데 이런 논문을 마이크로소프트에서 소속된 분들이 썼다는 점이 놀랐습니다.

Danah Boyd is Senior Researcher at Microsoft Research, Research Assistant Professor at New York University, and Fellow at Harvard’s Berkman Center for Internet & Society. Her work focuses on how people integrate social media into their everyday practices, with a particular eye towards youth’s socio-technical practices. Her next book is called It’s Complicated: The Social Lives of Networked Teens (Yale University Press).

2 Comments

  1. 무장독립군

    아주 오래전에 드라마에서 그런 걸 본 기억이 납니다…
    A: “평화의 댐은 말도 안되는 사기극이야. 말도 안되는 이야기라고…”
    B: “평화의 댐이, 북한의 물폭탄이 사기고 아니고는 중요한게 아니야. 중요한 건 그곳에 눈먼돈이 널렸다는 거야. 우린 그걸 주워담으면 되는거야”
    A: “,,,”

    빅데이터에 관심을 가지는 여러 IT기업들…
    한군데도 빠짐없이 B의 모드로 시장을 보고 있습니다.
    IT에 철학이 사라지고 있습니다.

    Reply
    1. smallake (Post author)

      동의합니다. 꼭 IT만은 아닐 듯 합니다. 어디서 무엇을 하든, 돈은 가깝고 가치는 멉니다. 돈은 편하고 가치는 불편입니다.

      Reply

Leave a Comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.