본문 바로가기

Data-science/lesson & learn

[업무 관련 이야기] 최근 데이터 분석 과정에서 배운 것들

728x90

좋았던 점

  • 데이터 선정때 부터 어떤 feature들을 이용할 지 확실하게 정하고 가니, ETL & 취합 과정이 빨랐다.

  • 처음부터 모든 데이터를 분석 하려고 했으면 일이 수월하지 않았을 것이다. pilot을 진행한 것은 잘한 일이다.

미숙했던 점

  • 아이디어 선정 단계

    • 1. 인구 이동 데이터 (유동 인구 데이터, 출발/목적지간 OD 데이터, 관광지 방문객 데이터)

    • 2. 라이프 스타일 데이터 ( 사람의 기호, 취향과 관련된 데이터 [app 사용량, 특정 장소 방문 횟수에 따라 라이프 스타일 정의])

    • 어떤 데이터를 이용할 수 있는지 명확히 몰랐다. 단지 유동인구 데이터만 있는지 알았다. 유동인구 데이터만을 이용해서 나올 수 있는 아이디어가 한정적이었다. 어제 부장님과 통화를 통해 알게 된 데이터는 크게 2가지 였다.

  • 상대방의 입장이 아닌, 우리의 입장에서 생각한 것

    • 리포트의 주 목적을 몰랐다. (그들 입장에선 고객들이 리포트를 보고 흥미로워하고, 구매를 원하거나, 분석을 의뢰하게끔 만드는 게 주 목적이었다.)

    • 우리 입장에선 크롤링을 통한 SNS 분석 경험이 강점이었다. 그렇지만, 사실 크롤링도 배워서 잘 할 수 있게 된 것이다. 그보단, 레포트를 이용하는 대상, 상대방이 무엇을 원하는 가에 더 초점을 맞추었어야 했다.

  • 데이터 수집 단계

    • 데이터를 수집할 때 동일한 포멧으로 수집하지 못했다. 표준화된 규칙에 맞춰 데이터를 적재하면 프로세스가 좀 더 빠르게 진행될 수 있었다.

    • 크롤링 결과를 .xlsx나 .csv로 저장할 경우, 일정 글자 수 이상의 셀은 잘려서 저장이 되었다. 그 결과 크롤링을 다시하기도 했다.

  • 고객과의 원활하지 못한 피드백

    • pilot 계획이 나왔을 때, 계획에 대한 피드백을 확실하게 받았어야 했다. 메일을 보냈다고 해서 상대가 읽었다고 착각했던 건 우리의 실수였다.

앞으로 적용할 점

  • 데이터 분석 관련 아이디어를 낼 때, 분석 혹은 리포트의 주 목적을 고려한다. 이미 선정된 아이디어라도 한 번 더 리포트의 주 목적에 맞는지 점검해 본다. 

  • 초기 단계에 사용할 수 있는 데이터가 어떤 것인지 명확하게 파악한다. 우리는 pilot을 다 진행하고 나서야 이 단계를 거쳤다. 초기에 데이터 파악의 중요성을 여실히 느꼈다.

  • 이 분석을 통해서 상대방은 어떤 결과물을 얻을 수 있는지에 대한 관점에서 브레인스토밍을  해본다.

  • DB를 구축한다.

  • 상대방이 귀찮아할 수 있지만, 그걸 무릅쓰고서라도 자주 통화하고, 짧은 주기로 피드백을 받는다. 이 과정만으로도 시간은 어마어마하게  단축될 것이다.