데이터 과학자처럼 생각하기

✋🏾 <린분석_한빛미디어> 를 참고해 작성한 포스팅입니다.


링크드인의 데이터 과학자 모니카 로가티는
스타트업이 수집한 데이터를 분석할 때
피해야 할 10가지 함정을 제시하고 있다.

1.데이터에 결점이 없다고 가정하는 것

수집한 데이터의 결점을 없애는 일이 분석 작업에 대부분을 차지할 때도 자주 있다.
그리고 데이터의 결점을 없애기만 해도 중요한 패턴이 드러나기도 한다.

모니카는 이렇게 말한다.

"측정 오류 때문에 숫자의 30%가 null 값이 되지는 않나요?
정말 우편번호 90210 지역에 그렇게 많은 사용자가 살고있나요?"

수집한 데이터가 유효하고 유용할 수 있도록 확인하라.

2.표준화하지 않는 것

결혼식 장소로 인기 있는 도시의 목록을 만들고 있다고 가정해 보자.

이런 목록을 만들려면 결혼식에 참석하기 위해
어떤 도시로 비행기를 타고 온 사람들의 수를 셀 수 있는데,

이때, 그 도시를 방문하는 전 항공 승객 수를 고려하지 않으면
그저 비행기를 이용하는 방문객 수가 많은 도시들의 목록이 될 수도 있다.

3.열외의 사용자들을 배제하는 것

어떤 웹사이트를 하루에 천 번 이상 방문하는 사람들은
웹사이트의 열혈 팬일 수도 있지만 콘텐츠를 수집해가는 검색 봇일지도 모른다.

어떤 경우든 이들을 무시하는 것은 실수일 수 있다.

4.열외의 사용자들을 포함시키는 것

하루에도 천 번 이상 웹사이트를 방문하는 사람들은
예상치 못했던 것을 알려줄 수도 있으므로

정성적인 관점에서는 흥미로울 수도 있지만
일반 모델을 구축할 때는 도움이 되지 않는다.

"데이터 기반 제품을 구축할 때는 이런 사용자들을 배제해야 합니다.
그렇지 않으면 웹사이트의 '추천' 기능에서 하드코어 팬들이 좋아하는 아이템을 모든 사람들에게 추천할 겁니다.'
라고 모니카는 조언을 한다.

5.계절적 변동을 무시하는 것

패턴을 살펴볼 때 시간,요일,월에 따른
변화를 고려하지 않으면 잘못된 의사결정으로 이어진다.

"올해 성장률이 가장 높은 직업이 '인턴'이란 말이야?
잠깐, 지금은 6월이잖아"

6.성장을 평가할 때 전체 규모를 무시하는 것

정황 정보는 매우 중요하다.
모니카는 이렇게 말한다.

"사업을 막 시작했을 때는 가족이 회원 가입만 해주셔도
사용자 수가 두 배로 증가할 수 있습니다."

7.지나치게 많아 의미를 잃은 데이터

대시보드가 있어도 어떤 데이터를 봐야 할지 모르면 아무 소용이 없다.

8.거짓 경보를 울리는 지표

여러분은 어떤 문제가 발생하면 빨리 수습하기 위해
문제발생을 알려주는 경보 시스템을 구축한다.

그러나 경보를 울리는 기준이 지나치게 예민해서
너무 자주 경보가 울리면 결국 여러분은 경보를 무시하게 될 것이다.

9.직접 수집한 데이터만 인정하는 배타적 태도

"여러분의 데이터와 다른 곳에서 수집한 데이터를 합치면
매우 소중한 정보를 얻을 수 있습니다."라고 모니카는 말한다.

"최고의 고객들이 스시 식당이 밀집된 지역에 주로 살고 있습니까?"

그렇다면 이로부터 다음에 어떤 실험을 실시할지 좋은 아이디어를 얻을 수 있다.

또는 심지어 성장 전략을 짜는데 영향을 줄 수 도 있다.

10.잡음에 초점을 두는 것

'인간의 속성은 패턴이 없는데도 패턴을 발견하도록 되어 있습니다"
라고 모니카는 경고한다.
"허상 지표는 무시하고 한 발 물러서서 더 큰 그림을 볼 줄 알아야 합니다."

✋🏾 출처 : https://velog.io/@datata29