본문 바로가기
경제·경영/<슈퍼 팩트>

04. 인공지능에게 결정권을 주지 말라

by BOOKCAST 2022. 10. 31.
반응형

 


 

인공지능에게 결정권을 주지 말라
 
알고리즘은 사람과 마찬가지로 일반적인 범주로서 신뢰할 만하지도, 불신할 만하지도 않다. 그래서 사람을 대할 때와 마찬가지로 “알고리즘을 신뢰해야 할까?”라고 물을 것이 아니라 “어느 알고리즘을 신뢰할 수 있고, 어떤 일을 믿고 맡겨도 될까?”라고 물어야 한다.
 
오노라 오닐은 신뢰성을 증명하고 싶다면 결정의 토대가 “지적 개방성”을 지녀야 한다고 주장한다. 그는 지적 개방성을 지닌 결정의 네 가지 속성에 대한 점검 목록을 제안한다.
 


오닐의 네 가지 원칙은 비유하자면 범죄자 석방 여부를 결정하거나 아동 학대에 대한 대응 방법을 결정할 때 우리가 숙고해야 하는 여러 사항과 같다. 즉, 알고리즘에게 인간 삶을 바꾸는 문제를 맡길 상황이라면 오닐의 네 가지 원칙은 반드시 고려되어야 한다는 뜻이다. 그리고 거기에 따라 외부 전문가가 내부에 접근하여 컴퓨터가 결정을 내리는 방식을 확인할 수 있어야 한다.
 

인공지능에게
윤리를 가르칠 수 있을까

가령 인종이나 성 성향 또는 젠더에 대한 차별을 금지하는 법적 보호책이 있다면, 우리가 사람에게 기대하는 것과 같은 기준을 알고리즘이 충족하도록 해야 한다. 최소한 이는 법정에서 알고리즘을 조사할 수 있게 만드는 것을 뜻한다.
 
《대량살상 수학무기》를 쓴 캐시 오닐은 데이터 과학자들이 의사들처럼 직업적 윤리강령을 가진 협회를 만들어야 한다고 주장한다. 이는 최소한 내부고발자를 위한 창구를 제공한다. 오닐은 “그러면 고용주(가령 페이스북)가 비윤리적이거나 적어도 우리 모두 동의하는 책임성 기준에 미치지 못하는 일을 지시할 때 고발할 사람이 생긴다”고 말한다.
 
의학과 알고리즘 활용의 또 다른 유사점은 중요한 알고리즘을 무작위 대조시험으로 검사해야 한다는 것이다. 어느 알고리즘이 교사를 해고하거나 용의자를 보석하도록 권할 것이라고 주장하면 우리는 “증명하라”고 요구해야 한다. 의학의 역사를 살펴보면 일견 타당해 보이는 아이디어도 공정한 시험을 거친 후 보완이 필요했던 사례를 발견할 수 있다.
 
알고리즘은 약품이 아니다. 그래서 단지 식품의약품청(FDA) 같은 조직을 알고리즘용으로 만들어봤자 소용이 없다. 그 대신 더 빠른 기간에 시험을 진행하고 사전동의에 대해 다른 시각을 가져야 한다(임상시험은 참가자들의 동의를 구하는 일에 높은 기준을 적용한다. 반면에 교사나 용의자를 평가하는 알고리즘에 이 기준을 어떻게 적용해야 할지는 명확하지 않다).
 
알고리즘의 유효성을 자신하는 사람은 기꺼이 공정하고 엄격한 시험을 통해 자격을 입증해야 한다. 또한 학교와 법원이 중요한 기관은 스스로 증명하기 전에는 이런 알고리즘을 대규모로 활용하지 말아야 한다.
 

유튜브와 넷플릭스의
알고리즘은 인종차별을 배웠을까

물론 모든 알고리즘이 이런 중대한 우려를 제기하는 것은 아니다. 유아복 할인 쿠폰 발급의 기준을 강제하는 게 공공 이익에 명백히 기여하는 건 아니듯이 말이다. 따라서 사례별로 살필 필요가 있다. 우리가 어느 정도의 책임성이나 투명성을 원하는지는 해결하려는 문제에 좌우된다.
 
가령 동영상을 추천하는 유튜브의 알고리즘과 영화를 추천하는 넷플릭스의 알고리즘은 구분하는 것이 좋다. 유튜브에는 불쾌한 콘텐츠가 많다. 게다가 추천 엔진은 갈수록 주류에서 벗어난 음모론적 동영상을 제안하는 뚜렷한 경향을 보여 악명이 높아졌다. 유튜브가 극단화를 조장하는 엔진이라는 주장을 뒷받침하는 증거가 있는지는 불명확하다. 다만 투명성을 높이지 않으면 그렇지 않다고 확신하기 어렵다.
 
넷플릭스는 다른 문제를 예시한다. 바로 경쟁이다. 넷플릭스의 추천 알고리즘은 회원이 어떤 영화를 시청했는지에 대한 방대하고 비밀스러운 데이터세트를 활용한다. 아마존도 마찬가지로 대외비의 유사 데이터세트를 보유하고 있다.
 


내가 새로운 알고리즘에 대한 좋은 아이디어를 가진 젊은 창업자라고 가정하자. 이 알고리즘은 기존 시청 습관을 토대로 사람들이 어떤 영화를 좋아할지 예측한다. 그러나 그것을 시험할 데이터가 없으면 결코 나의 좋은 아이디어를 실현할 수 없다. 우리가 아마존과 넷플릭스의 알고리즘이 어떻게 작동하는지 걱정할 이유는 딱히 없다. 다만 알고리즘 설계에 경쟁을 일으켜서 궁극적으로 소비자들에게 혜택을 주도록 영화 시청 데이터세트를 공개하라고 강제하는 것이 타당할까?
 

알고리즘이 인종을 기반으로 ‘타깃팅’을 하기 시작하면 콘텐츠 편향이 뒤섞이기 시작한다. OTT 기업들은 자사의 인구 통계 정보를 알고리즘에 사용하지 않는다고 주장한다. 하지만 이용자의 인종에 일치하는 특정 콘텐츠 타이틀 카드가 우선 표시되는 경향은 분명히 존재하며 종종 인종 바이럴 트렌드 문제로 이어졌다.
 


아웃팅 때문에
고소당한 넷플릭스

데이터세트의 공개를 강제하면 한 가지 우려 사항이 생긴다. 바로 알고리즘의 프라이버시 침해 문제이다. 이는 쉽게 해결할 수 있는 문제라고 생각할지 모른다. 그냥 기록에서 이름만 제거하면 데이터가 익명이 되니까 말이다. 하지만 그렇게 간단한 문제가 아니다. 풍부한 데이터세트를 확보하고, 다른 데이터세트와 교차 참조하면 #961860384로 표시된 개인이 실제로 누구인지 알아내는 일이 놀랄 정도로 쉬워진다.
 
넷플릭스는 더 나은 추천 알고리즘을 찾는 대회의 일환으로 익명화된 데이터세트를 연구자들에게 배포한 적이 있다. 안타깝게도 거기에 포함된 한 고객이 넷플릭스에서 본 가족영화에 대한 감상평을 실명으로 인터넷 무비 데이터베이스(Internet Movie Database) 사이트에 동일하게 올린 것으로 드러났다.
 
더 이상 익명이 아닌 그녀의 넷플릭스 감상평은 그녀가 다른 여성에게 이끌렸다는 사실을 드러냈다. 이는 그녀가 비밀로 하고 싶었던 내용이었다. 그녀는 ‘아우팅(outing)’을 당했다며 넷플릭스를 고소했다. 이 소송은 공개되지 않은 조건에 따라 합의로 마무리되었다.
 
그래도 진전의 여지는 있다. 한 가지 방법은 허가받은 연구자들에게 보안 접근을 허용하는 것이다. 또 다른 방법은 모든 개인적인 세부 사항이 약간 다르지만, 여전히 전체 인구에 대해 엄격한 결론을 내릴 수 있는 ‘모호한’ 데이터를 배포하는 것이다.
 
구글과 페이스북 같은 기업들은 자사의 데이터세트를 이용해 엄청난 경쟁 우위를 얻는다. 그래서 소규모 경쟁사의 싹을 잘라버리거나, 한 서비스(가령 구글 검색)에서 확보한 데이터를 활용하여 다른 서비스(가령 구글지도나 안드로이드)를 홍보한다.
 
이 데이터 중 일부가 공개된다면 다른 기업들은 거기서 정보를 얻고, 더 나은 서비스를 만들며, 대기업에 도전할 수 있다. 과학자와 사회과학자들도 많이 배울 수 있다. 한 가지 가능한 모델은 사적인 ‘빅데이터’ 세트를 적절한 익명성의 보호와 함께 일정한 시간이 지난 후 공개하도록 요구하는 것이다.
 
3년이 지난 데이터는 많은 상업적 목적에는 유용하지 않다. 그래도 과학적 용도로는 여전히 엄청난 가치를 지닐 수 있다. 예를 들어 특허권자들은 지식재산권의 보호받으려면 그 내용을 공개해야 한다. 어쩌면 대규모 데이터세트를 보유한 민간기업에 비슷한 조건을 제시하거나 강제할 수 있을지 모른다.

반응형

댓글