*이 글은HBR, NOVEMBER 12, 2015 에 실렸던 The Ethics Conversation We’re Not Having About Data by Kaiser Fung 의 내용을 기반으로 작성되었습니다
지난 이야기 10 , 머신 러닝에 대한 이야기를 소개 했을 때 제 글을 보신 어떤 분께서 데이터가 구현되는 로직을 블랙 박스로 표현했던 머신 러닝의 개념에 대해서, 블랙 박스로 표현된 이 접근 방식에 대해서는 지양해야한다는 의견을 주셨다. 매우 의미있는 조언이라는 생각이 들었다. 그래서 이번 에피소드는 조금 다른 포인트이긴 하지만, 기업이 데이터을 활용하고 구현하는데 있어서 한번쯤은 생각해보았으면 하는 데이터의 윤리에 대해 적어보고자 한다.
의사 결정을 하는 경영자의 입장에서 머신 러닝 혹은 AI의 결과를 도출하는데 사용된 데이터와 알고리즘의 디테일을 모두 이해할 필요는 없을 수도 있겠으나, 실제 시스템을 구축하는 데이터 분석가 혹은 데이터사이언티스트의 경우라면 어떤 데이타와 어떤 알고리즘으로 결과를 얻을 것인가 선별하고 구현하는 것은 매우 중요한 주제가 된다. 그런데 여기서 우리가 간과한 부분이 있다. 어떤 시스템이 되었든 기업이 고객으로 부터 수집한 이 데이터 소스를 제대로 관리 감독하고 활용하는 것에 대한 사회적 책임 혹은 윤리적인 책임에 대한 부분이 바로 그 부분이다.
데이터 사이언스가 기업의 비즈니스에서 중요한 영역으로 자리매김하면서, 데이터에 대한 유쾌하지 않은 스캔들의 패턴이 나타나기 시작했다. 폭스바겐이 미국 자동차 배출가스 환경기준을 회피하기 위해 폭스바겐과 아우디의 디젤 승용차에 배출가스 저감장치를 조작하는 차단장치(defeat device) 소프트웨어를 설치해서 성능과 연비를 조작하려했던 것은 그 예 중의 하나다. 또한 몇 년 전ㅇ 미국에서는 유기농 농산물을 파는 것으로 브랜딩을 했던 Whole Food Market이 농산물과 육류의 무게를 과장하는 등 제품 데이터를 조작 한 것으로 판명되어 곤욕을 치루었고, 소셜네트워크에서 파트너를 찾아주는 서비스를 하는 Ashley Madison 가 해커에 의해 고객의 개인정보를 도난 당하는 일이 발생해서 크게 논란이 되기도 했다.
그런데 사실 이런 모든 논란의 중심에 어느 하나 기술팀들이 연관이 안되어있는 부분이 없다. 엔지니어, 소프트웨어 개발자 및 제품 관리자 외에도 급증하는 데이터 과학자 커뮤니티는 이런 기만을 가능하게하는 개념, 알고리즘 및 소프트웨어를 개발하는 데 열중하고 있다. 그야말로 예전 어른들 말씀에 “구더기 무서워 장 못 담그나” 했던 것 같은 딜레마를 겪고 있는 것이다. 이런 이슈가 발생할 때 마나, 이를 기술적인 해결책을 요구하는 기술적인 문제로 국한하여 취급하기 때문에 언제든 이런 이슈는 다시 발생할 수 밖에 없다. 그런데 이 부분에서 경영자들은 중요한 부분을 놓치고 있다. 이슈가 발생했을때 이것들을 잠재우는데만 혈안이 되어있지 정작 데이터를 수집, 저장, 관리 및 처리하는 사람들(그들의 직원들)이 윤리적 기준에 어긋나지 않게 일하고 있는가에는 별로 신경을 쓰지 않는다. 떠오르는 데이터 과학 분야가 급속도로 확대되어가고는 있지만 일상적인 업무에서의 윤리적 의미에 대해 생각하는 직원은 거의 없을 것이다.
데이터 관점에서, 곤욕을 겪었던 Ashley Madison가 다음과 해명한 내용은 그런 면에서 매우 당황스럽고 따라서 이 문제에 대해 심각하게 살펴보아야 한다. 1) 웹 사이트 고객은 아마도 사이트 소유자가 자신의 데이터를 비공개로 유지하려는 강한 의욕을 가지고 있다고 생각하시겠지만, 웹 사이트는 여전히 해커를 막지 못합니다. 2)프로필에 가명을 사용했기 때문에 익명으로 취급하는 사용자정보는, 사실은 데이터 분석가가 신용 카드를 통해 신원을 밝혀 내고 그들의 정보는 데이터베이스에 정보를 저장됩니다. 3) 고객이 데이터 삭제를 요청한 경우라도, 고객의 데이터는 계속 서버에 상주합니다.4) 프로그래머가 실수로 1 천만 개가 넘는 암호화된 패스워드가 해독이 될 수 있도록 알고리즘을 만들었습니다.. 이 말도 안되는 해명의 예는 기술의 문제라고 하기 보다는 사람의 문제이고, 데이터를 가지고 비즈니스를 하는 그 회사의 데이터 윤리과 기술에 대한 윤리적 적용의 문제다. 우리나라의 많은 기업들의 데이터 담당자들이 이런 마인드로 일하고 있지 않기를.
많은 기업의 경영진 및 기술 관리자는 제품 혁신, 사용자 경험, 시장 요구 사항, 경쟁 전략 및 투자 수익과 같은 주제에 대해 토론하고 논의한다. 그런데 정작 결정적인 순간에 회사를 한방에 무너뜨릴 수 있는 데이터의 윤리적 사용에 대한 고민은 아주 드문 경우가 아니고서는 절대로 부각되지 않고, 이러한 태만은 일반적으로 관심, 인식 또는 민감성 부족으로 인한 경우가 많다.
“우리가 하는 일을 좋아하지 않는다면 서비스를 이용할 필요가 없다”는 식의 용기는 과연 데이터의 윤리적 활용에 관심을 가지고, 그것의 악용 혹은 오용에 우려를 표명하는 많은 고객들에게도 통할 것인가.이런 일련의 스캔들은 비즈니스 공동체에서 데이터의 윤리에 관해 진지한 대화를 해야하다는 강한 메세지를 준다.
그래서 무엇을 해야할까? 구더기가 무서우니 장을 담그지 말아야 할까? 보안이 염려가 되니 가능한 다 막아버리는 네트워크를 구축해야할까? 겹겹히 보안 솔루션을 설치해야하는 것이 유일한 답일까?
우선 기업은 데이터의 윤리에 대한 기준을 만들어야 하고, 모든 기술 및 데이터 팀이 데이터 사용의 윤리를 다루는 교육 프로그램을 제공해야한다. 이러한 가버넌스를 만들려면 비용과 시간과 인력이 투자되어야 함은 당연하다. 엔지니어와 데이터 과학자를 다양한 조건에 명시된 법적 책임에 노출시키는 것이 좋은 출발점이지만, 윤리적인 관행은 그 보다 조금 더 보수적일 필요도 있다. 이는 단순히 기술팀이 고민해야할 몫으로 돌리는 것이 아니라 기업 내의 직업 윤리로 인식하게 하는 것이 중요하다. 그러기 위해서 팀 구성원들이 윤리에 대한 토론을 시작하기에 편한 문화를 만들어하는 것 또한 기업이 노력해야 할 부분 중의 하나다.
조금 더 확대해서 보면, 많은 교육 기관들이 많은 학교들이 데이터사이언스나 분석에 대해 너도나도 과정을 열고 가르치고 있는 요즘, 정작 데이타의 윤리에 대해 가르치고 있는 교육기관이나 학교는 거의 없다. 어쩌면 디지털 시대에 당장 급해 보이진 않아도, 매우 중요한 과제 하나를 놓치고 있는 것 같은 아닌가 하는 우려가 드는 대목이다.