비즈니스 데이터 과학 도서 리뷰

Ryan Kim
4 min readJul 23, 2022

--

수집한 데이터를 어떻게 비즈니스 관점에서 활용하는지에 대한 고찰을 제공하는 도서 리뷰

이 도서는 “한빛미디어 <나는 리뷰어다> 활동”을 위해서 책을 제공받아 작성된 서평입니다.

어느덧 7월이다.

한빛미디어 도서 서평단으로 2월달에 시작해서 7월까지, 벌써 6권의 책을 받아 읽어보게 되었다.

업무와 이런 저런 일들로 하루가 순식간에 지나가지만, 내가 주로 책을 읽는 시간은 출퇴근 할 때 (인천 — 여의도 왕복 2시간), 퇴근하고 나서 한 시간, 그리고 주말 2시간씩 해서 구글 시계로 시간을 지정해서 읽고 있다.

읽어야하는 시간대에 못 읽으면 다른 업무나 개인 활동이 있기 때문에, 이 시간을 최대한 활용하여 책을 읽고자 시도하고 있고, 일주일에 대략 19시간의 책 읽는 시간이 주어지는 것이다 (즉, 하루라는 시간을 책 읽는데 줄 수 있다)

그러나 하루 동안 주구장창 책을 읽는 것과 이렇게 쪼개서 읽는 것에는 생산성의 큰 차이가 있고, 주식도 분할 매수를 하는 것처럼 하나의 일을 쪼개서 하는 것이 내게는 조금 더 생산성 있는 일을 할 수 있는 방법으로 다가온다.

머신러닝이나 데이터 사이언스를 다루는 책을 읽으면 늘 그렇지만, 이번에 읽은 “비즈니스 데이터 과학” 이라는 이번에 읽은 책은 산업 현장에서 모은 데이터를 어떻게 비즈니스 관점으로 해석해서 활용하는지에 대해 다루는 도서다.

여기서 “비즈니스 관점”이라는 것이 상당히 중요한데, 결국 아무리 좋은 데이터라 하더라도 raw data 상태에 머무는 것은 어떠한 인사이트도 뽑아낼 수 없다.

Data → Insight 가 되기 위해서는 데이터로부터 사람이 명확하게 얻고자하는 포인트에 대해 인지하는 것이 필요한데, 이 책에서는 주로 “데이터 사이언스”에서 데이터를 가공하기 위해 사용하는 기법과 이론들을 다루고, 약간의 인공지능과 관련한 내용을 풀어낸다.

학부생 때 데이터 과학 수업을 수강한 내 입장에선 이 책 한 권이 한 학기 동안 배울 수 있는 데이터 과학에 대한 이론 + 실습에 대한 모든 내용을 다루고 있다고 느낄 정도로 책 내용이 알차다는 생각이 들었다.

학부 과정에서 수강했던 데이터 과학 과목에서는,

  • 데이터 과학 분야에서 사용되는 여러 이론들 (회귀, 정규화, 분류 등)
  • 이론을 증명해보기 위한 실습 (파이썬을 사용하여 UC Berkeley 의 DS101 수업 프로그래밍 진행)
  • 중간/기말고사

였는데, 이 책에서는 각 챕터 별로 이론과 수식을 설명하고 (개인적으로 수식 부분은 익숙하지 않아서 그런지, 아직 어렵다) R을 사용해서 실습을 진행한다.

(R에서 사용하는 데이터 과학 모듈이나 라이브러리는 거의 대부분 파이썬에서 호환되기 때문에 파이썬만 사용해 온 내겐 큰 문제가 되지 않았다)

본격적으로 ML 분야에서 근무를 시작하기 전엔, K-Fold, Random Forest와 같은 방법들이 현업에서는 거의 사용되지 않는 방법이라고 생각했다.

그렇게 생각할 수 밖에 없는 것이, 캐글이나 데이콘 같은 대회에서나 종종 튜토리얼 코드로 활용되지, 수상자들의 코드는 좀 더 트렌디하거나 생소한 기법들이 많이 등장했기 때문이다.

그런데 현업으로 넘어와보니, 사이킷런만 사용해서 모델을 구성하는 경우도 종종 있어서 어느 분야든 기본이 되는 지식은 잊고 넘어갈 수 없는 것 같다.

리눅스가 나온지 30년이 넘었는데 아직까지 현대 컴퓨팅 시스템의 기본이 되는 것처럼 말이다.

스마트폰의 보급으로 SNS가 활발하게 사용되면서 비정형 데이터가 기하급수적으로 생성되고 있다.

데이터 사이언스 분야에서 데이터를 통해 인사이트를 얻고자 하는 행위는 결국 책에 언급된 것처럼 “과거의 데이터를 토대로 미래에 발생할 일도 비슷하게 흘러갈 것이다”라는 전제하에 진행된다.

즉, 과거에 전혀 사례가 없던 상황이나 사건이 미래에 발생하면, 과거의 데이터로부터 얻은 정보는 많은 부분에서 추측이 빗나갈 가능성이 농후하다.

분명 방대한 자료가 쌓이는 것은 비즈니스 상황에서 리스크를 줄이고 사업적으로 다양한 기회를 발견할 수 있는 것은 부정할 수 없으나, 비즈니스 담당자가 데이터에 전적으로 의존하면 안된다는 것이다.

주식 거래에 대한 tick 데이터가 아무리 많이 쌓이더라도, 사람이 예측할 수 없는 상황 (이번 우크라이나 전쟁, 인플레이션, 경기 침체 등)은 과거와 다른 패턴 또는 상황에 의해 발생하므로 되려 파이낸스 분야에서 활용하려 했다면, 아마 큰 손해를 봐야만 했을 것이다.

아마 데이터가 충분히 확보되더라도 사업적으로 불확실성 자체를 해결하는 것은 불가능에 가까울 것이다.

그럼에도 데이터를 확보해서 가공하고, 정보를 얻으려는 행위를 지속하는 이유는 사업의 목표에 대한 최선을 달성할 수 있는 방법에 대해 탐구하는 행위 그 자체가 아닐까 싶다.

7월 책은 자투리 시간을 잘 활용해서 읽어 그런지, 심리적으로 만족감이 높다.

Ryan

--

--

Ryan Kim
Ryan Kim

No responses yet