데이터분석

필요한 데이터가 없는 분석 환경에 놓인다면?

TEO2 2024. 10. 26. 20:44

내 업무 현장에서 분석 환경을 돌아보며

 최근에 나의 분석 환경에 대해 뒤돌아볼 기회가 있었는데, 이때 각 상황에 따라 어떤 선택이 최선이었을지 회고를 해보려고한다.

 ㅇㅇ님, 저희 사업부가 전국 치킨 판매량을 알고 싶은데,
현재는 치킨 판매 데이터가 없는 걸로 알고 있어요.
혹시 데이터 추출이 가능할까요?

 

 언젠가 나에게 위와 같은 요청이 왔다. 데이터를 추출해서 유관부서에 지원을 하고 싶은데, 치킨 판매 로그를 쌓아놓은 DB가 없다.

 

가장 먼저 무엇을 하는 게 좋을까?

 

1. 기존에 있는 대체 가능한 데이터를 활용해서 치킨 판매량을 '예상'할 수 있도록 한다.

  • 전국 치킨 판매량을 예상할 수 있는 다른 관점을 빠르게 추출하여 전달해 볼까?
  • 이때 대체 가능한 데이터가 무엇인지에 대한 도메인 지식도 필요하고, 그 데이터가 어디에 놓여있는지에 대한 웨어하우스를 이해하고 있어야 할 수 있다.

 

2. 관련 팀(API 수집, DB 테이블 등을 데이터 수집팀)에 요청 혹은 직접 데이터 수집을 한다.

  • 말 그대로 치킨 구매 데이터를 수집하여 정확한 데이터로 전국 치킨 판매량을 추출하여 전달해 볼까?
  • 이때 필요한 데이터를 직접 추출하기 위한 파이썬, 에어플로우 등의 접근과 활용이 가능해야 한다. 혹은 이를 추출할 수 있는 유관부서에 대한 R&R이해가 필요할 수 있다.

S.O.S

 

 정답은 없겠지만, 데드라인에 따라 유동적으로 1, 2번을 선택하는 것이 좋을 것 같다. 나는 두 가지 상황 모두 선택해본 경험이 있는데, 각 상황의 전제조건에 따라 선택이 달라졌다.

  1. 긴급한 의사결정이 필요해서 1번 방법을 이용한 적이 있다.
    • 기존에 수집 중인 로그데이터나 개발의 여러 테이블에서 비슷한 관점의 데이터를 추출해 보자.
    • 예를 들어 치킨 판매량에 대한 정확한 수치를 알 수는 없지만, 각 어플리케이션의 가맹점별 유저의 클릭 수는 있다고 가정했을 때 이것이 실제 주문으로 도달하는데 괴리는 있을 수 있지만, 갖가지 패턴을 이용해서 판매량을 예상할 수 있을 것이다.
    • 대신 이 방법이 필요하다고 판단했다면, 요청 온 부서와 꽤 많은 티키타카가 필요하다. 기본적으로 타겟 데이터가 없기 때문에 어떤 식으로 대체할 수 있을지에 대한 소통이 중요하다.
    • 즉, 1번 방법은 요청 부서와의 협업이 중요하다.
  2. 정확한 데이터로 나갈 여유가 있다면 2번이 적절하다고 생각한다.  
    • 나는 웬만하면 필요한 데이터를 제공하고자 했었다. 이런 노력이 나중에 비슷한 요청이 들어왔을 때, 내 리소스를 훨씬 줄일 수 있었던 적이 많았다.
    • 추가로, 이럴 경우에는 주변 팀과 긍정적인 관계를 유지하면 도움이 많이 되었다. 요청을 하는 입장과 받는 입장에서 친밀한 관계를 유지했을 때, 플러스알파의 요청, 그리고 더 상세한 요구사항으로 정확한 결과물을 얻는데 도움이 되었다.
    • 2번 방법은 데이터 수집 파이프라인에 대한 이해도 필요하고, 수집팀이 있다면 협업이 중요하다.


정리를 해보자면

 이 외에도 1, 2번 케이스를 선택할 수밖에 없는 다양한 이유가 있을 것 같은데, 결국 추출 데이터가 필요한 팀에게 만족스러운 결과물을 전달해야 한다는 목표의식을 가지고, 해결해 나가려고 하는 방향이 중요하다고 생각한다.

 

 본인이 선택할 수 없는 환경은 과거에 의해 존재하지만 어떠한 환경에도 긍정적인 방향으로 목표를 달성해보는 것이 중요할 것이다.

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형