이야기 12. 당신은 데이터 문맹(Data Illiterate) 인가?

디지털 시대에 기업의 문화가 변화를 할 수 있고 데이터가 힘을 가지게 할 수 있는 원동력은 기술과 사람이다. 최근에 Forbes에 과거 동료였던 지인의 글이 하나 실렸는데 그 내용이 필자가 오늘 말하고 싶은 많은 부분을 언급하고 있어서 이 글에 실린 사례와 아이디어를 인용해보도록 하겠다.(Why Companies Must Close The Data Literacy Divide by Brent Dykes, https://www.forbes.com/sites/brentdykes/2017/03/09/why-companies-must-close-the-data-literacy-divide/#185700cf369d)

Gartner에 의하면 2017년, 전세계적으로 데이터 분석 및 BI 시장이183억 달러 시장(대략 21조원)이 될 것으로 전망을 한다. 기업들이 도입한 많은 솔루션들을 이해하고 데이터의 사용 능력(Data Literacy)을 내재화하는 것에 그 어느때 보다도 많은 관심이 많아지게 되었고, 사내의 경영진부터 말단 사원에 이르기까지 데이터의 독해 능력은 매우 중요한 트랜드가 되고 있는 것이 사실이다. 나의 경험으로만 봐도 과거 광고나 마케팅 에이전시에 데이터의 제공이나 분석을 일임을 하던 많은 고객들이 사내에 전문가들을 고용하거나 기존의 직원들을 교육시켜서 데이터를 직접 보고 분석하고자하는 분위기로 전환되는 광경을 많이 목격한다.

최근 기업들이 가지고 있는 의식의 변화 중 중요한 점은 “소수의 데이터 전문가의 손에 있는 데이터는 여전히 강력한 힘을 발휘하겠지만, 다수의 사람들의 손끝에 있는 데이터는 진정으로 변혁을 가져올 수 있다” 고 생각하기 시작했다는 것이고, 이것은 여러모로 매우 의미가 있는 변화다. 그런데 여전히 이 부분에서 기업이 고민하는 것은 ‘단순히 데이터를 보다 보편적으로 접근 가능하게 만드는 것만으로는 충분하지 않다는 것’이다. 예를 들면 멋진 도서관 시설에 좋은 책들을 많이 보관하고 있다고 치자. 그런데  그 책들을 활용할 사람들이 책을 읽지못하는 문맹이면, 도대체 좋은 도서관 시설과 무수한 책들이 무슨 소용인가. 유사한 예로 시각화와 BI 로 무장이 된 좋은 분석툴들을 기업이 도입했다고 치자.  데이터 분석 능력이 부족한 사용자들, 관리자들들 때문에 도입된 툴들이 제대로 그 가치나 역할을 못하고 있거나,  데이터를 읽을 줄 아는 자와 그렇지 못한 자 사이의  데이터 사용 능력이 격차가 점점 더 벌어지는 문제 때문에  기업이 투자한 만큼의  결과를 얻지 못하는 상황이 발생하게 된다.

어떤 사람들은 기술이 이런 부분의 이슈까지 해결을 할 수 있도록 도와줘야하는 것이 아닌가 하고 생각하지만, 기술의 발전이 데이타 문맹을 구제하지는 못한다. 기술 진보 속도를 보면 2020년까지 데이타 사이언티스트들이 하는 업무의 40% 가 자동화가 될 것이라고 한다. 그런데 이것은 이미 숙력된 인력들에게 큰 혜택으로 돌아올 것이라는 의미이지, 데이타 이해 능력이 전혀없는 직원들을 위한 기술적인 해결책은 아니라는 의미이다. 글을 읽지 못하는데 로봇 사용설명서를 주면서 로봇을 사용하라고 하면 제대로 사용할 수 있겠는가. 그러므로 디지털 시대에 디지털 이해 능력이란, 인간이 읽고 쓰고 셈하고 말하는 것과 같은 차원의 기본적인 차원의 소통 수단으로 이해되어야 한다.

원론적으로 본다면 이런 교육이 어떤 형태로든 대학등의 고등 교육 기관에서 제대로 교육하도록 하는 것이 가장 이상적인 방법이긴 하다. 그런데 전세계 어느 국가도 데이터를 제대로 읽고 해석하고 비즈니스에 활용하도록 하는 교육 과정은 별로 없다. 우리 나라의 경우를 봐도 고등 교육을 받은 많은 기업의 인재들이 통계학은 어떤 경로로든 한번쯤으로 접해보았을 것이다. 그런데 그에 비해 수나 데이터를 이해하고 해석하는 수준은 그다지 높지는 않다. 좀 더 충격적인 사실은, 우리나라 중고생의 수학 능력 수준은 전세계적으로 매우 높다고 알려져있지만, 실상 16-65세 성인을 대상으로 한 글의 독해능력, 숫자 이해능력, 기술환경에서 문제를 해결하는 능력에 대한 연구에서 보면, 연구에 참여한 나라 중 우리나라는 중간 정도에 미치는 정도 수준이며, 일본이나 북유럽 다수의 국가들, 호주 보다도 뒤쳐져있음을 볼 수 있다. 관심있는 분들은 이글을 참고하시길 바란다. (https://nces.ed.gov/pubs2014/2014008.pdf)

최소한의 데이터 활용 능력을 키우기 위한 실용적인 방법 4가지

그럼 데이터 문맹이 되지 않으려면 어떻게 해야 할까. 먼저 데이터 활용 능력은 다양한 스킬을 포괄 할 수 있으므로 기능적 기준선을 수립하는 것이 중요하다. 글을 잘 쓰고 말하기 위해 모든 사람이 국문과를 가야하는 것은 아니다. 마찬가지로 데이터를 잘 읽고 이해하기 위해 모든 사람들이 R이나 Python 같은 언어를 배워야하는 것은 아니다. 이상적으로는 리포트나 대시보드에 있는 그래프나 데이터를 이해하기위해 그 데이터가 어떻게 생성이 되어 어디로부터 오는 것인지를 모두를 이해할 수 있으면 가장 좋겠으나 반드시 그래야하는 것은 아니다. 여기 원본의 저자가 조언하는 데이터문맹을 탈출하게 하는 최소한의 4가지 스킬에 대해 보자. 여러 해 많은 고객들을 교육하면서 개인적으로도 매우 공감이 하는 부분이다.

 1.     데이터에 대한 지식 (Data Knowledge)

각 기업별로 산업군별로 그 회사에만 해당하는 데이터의 종류들이 있다. 우리 회사의 비즈니스에서는 먼저 어떤 데이터가 존재하고 어떤 데이터가 중요하고, 어떻게 이 데이터가 사용이 되는지 아는 것이 먼저다. 비즈니스 관점으로 데이터가 어떻게 활용되는 지 아는 직원이 많아질수록, 그 데이터가 제대로 자리를 잡고 활용이 될 수 있는 분위기 만들어진다.   조금 더 확장이 가능하면 기초적인 통계의 기초를 통해 데이터간의 연관관계의 이해, 정량적 혹은 정성적인 데이터의 의미가 무엇이지 이해하는 것도 좋다.

2.     데이터와 친해지기 (Data Assimilation)

새로운 데이터를 이해하기 위해 데이터와 처음 만났을때, 예전부터 보아왔던 데이터가 아닐 경우 데이터와 익숙해지기 위한 일종의 의식이 필요하다. 이것은 마치 소개팅에서 만난 상대를 알기 위해 이것 저것 물어보고 알아가기 위한 과정과 비슷하다. 데이터를 잘 알기 위해서 다음의 내용을 확인하면 어떨까.

  • Title & Labels : 테이블이나 차트의 제목이나 범례들이 어떤 의미인지 명확한가
  • Time Frame : 내가 분석하고자 하는 기간이 맞나
  • Data Source : 이 데이터는 어디서 왔는가
  • Units of Measure : 이 테이블이나 차트에서 사용되는 지표가 어떤 의미인지 명확한가
  • Calculated Metrics : 비율을 위해서 추가적으로 정의된 지표의 정의는 무엇이며, 이 지표의 의미를 이해하고 있는가
  • Dimensions : 데이터를 정리하거나 혹은 그룹핑한 차원이나 카테고리가 의미있는가.
  • Filters : 데이터를 필터링한 결과가 명확한가.
  • Sorting : 데이터를 특별한 조건으로 정렬했을 경우와 그렇지 않은 경우 차이가 있나. 그 조건이 의미가 있는가.
  • Targets : 리포트나 테이블에 목적이 분명하게 명시되어있고, 이 리포트는 이 목적에 부합하는 데이터를 보여주고 있는가

3.     데이터 해석 (Data interpretation)

데이터와 친해진 단계를 지나면 이제 데이터를 분석해야 한다. 여러가지 방법이 있지만 우선 가장 일반적인 몇개의 방법을 소개해 본다.

  • Trends : 특정 기간동안 이 지표가 어떤 추세를 보이나
  • Patterns : 이 데이터에서 어떤 양상의 패턴을 발견할 수 있나. 예를 들면 계절별 패턴 등
  • Gaps : 데이터에서 눈에 띄는 차이점이나 누락된 부분이 있나
  • Clusters : 어떤 부분에서 어떤 데이터들이 군집하는 경우가 있나
  • Skewness : 값들이 어느 한쪽으로 집중이되거나 비대칭스럽게 편향되는가
  • Outliers : 무리에서 멀리 떨어진 특정한 포인트 즉 아웃라이어가 있는가
  • Focus : 특성한 부분에 집중 조명되어야 할 부분이 있는가
  • Noise : 특정한 매우 특이한 데이터가 포함이 될 경우에 전체 분석의 결과에 영향을 줄 수 있는 포인트들이 존재하는가
  • Logical : 그 데이터가 비즈니스의 질문에 대답을 해 줄 수 있으며, 의사결정을 도출하는데 도움을 줄 수 있는가.

4.     데이터에 대한 의혹 또는 호기심 (Data skepticism & Curiosity)

데이터를 분석하고 해석을 할때 또하나 중요한 관점은 비판적인 시각으로 데이터를 관찰하는 것이다. 조금 더 자세하게 본다면,

  • Collection method : 이 데이터를 수집하는 방법이 분석의 최종 결과에 영향을 미칠까
  • Credibility : 이 데이터의 소스를 얼마나 신뢸할 수 있을까
  • Bias : 이 데이터를 만든 쪽과 사용하는 쪽에서 잠재적으로 가질 수 있는 선입견이 있을 수도 있을까
  • Truthful : 이 데이터가 의도적으로 혹은 의도치 않게 조작이 되어 잘못 해석이 될 수 있는 여지를 줄 수도 있을까
  • Assumptions : 이 데이터가 가지고 있는 기본적인 가정은 무엇인가
  • Context : 이 데이터를 읽을때 고려할 혹은 누락이 된 행간의 의미나 배경은 무엇일까
  • Comparisons : 비교 분석을 할 수 있는 추가 요소들, 예를 들면 기간별 분석 등이 분석에 고려가 되면 어떨가
  • Causation : 상관 관계 분석에 영향을 줄만한 인과관계의 인자들은 어떤 것이 있을 수 있을까
  • Significance : 이 데이터가 통계적으로 혹은 실질적으로 유효한가
  • Outliers: 이 아웃라이어는 의미가 있나
  • Quality : 당신은 이 데이터가 안정적이지 않은지 혹은 여전히 유용한지 구별할 수 있는가

이야기를 정리하다보니, 사실은 최소한의 역량이라기보다는 거의 모든 역량이라도 해도 될만큼 중요한 포인트를 원본의 저자가 정리해 주었다. 데이터가 기업의 중요한 성장 동력으로 다가온 지금, 데이터를 이해하는 자와 이해하지 못하는 자의 격차는 생각보다 더 많이 기업의 디지털 성장의 장애 요인으로 작용할 수 있다. 그 차이를 줄이는 노력은 기업과 개인이 동시에 고민할 부분이지만, 아는 자로 살아갈 것인가 말까하는 선택은 결국 당신의 몫이다.

댓글 남기기

%d 블로거가 이것을 좋아합니다: