실무로 통하는 ML 문제 해결 도서 리뷰

Ryan Kim
4 min readMay 26, 2024

ML 기본 도서 술술 읽기

“한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”

이번 달 리뷰 도서!

MLOps 라는 포지션은 정말 많은 범위에서의 역량을 요구하는 것 같다.

특히 기업별 업무 소개란을 천천히 읽어보면, 어떤 업체는 ML 작업에 필요한 인프라 전반에 대해 언급하고, 어떤 업체는 CUDA 최적화 및 경량화에 대한 역량을, 그리고 다른 소개서에는 데이터 가공, 그리고 LLM이나 모델 서빙에 대한 업무를 소개하곤 한다.

오히려 이런 포지션에 대한 설명을 보고 있자면, 아직 MLOps 라는 직군에 대한 업무 범위가 명확히 지정이 안된 것 같고, 여기에 GenOps, LLMOps 등 파생 직군에 대한 설명이 생겨나면서 직군에 대한 범위가 세분화 해나가는 것 같다.

즉, MLOps 라는 포지션에서 설명하는 업무 범위가 무척 넓다는 것을 의미한다.

도서 리뷰 서두에 MLOps 포지션에 대해 얘기하는 이유는 이 책에서 언급하는 “전처리부터 딥러닝까지” 라는 부제의 내용은 단순히 모델 개발 뿐만 아니라 데이터 가공 업무와 품질 관리 부분이 포함되어 있다는 것을 의미하며, 여기에 책 제목에는 언급되어 있지 않지만, 책 말미에 모델 서빙에 대한 챕터를 별도로 다루고 있다.

요즘 개발 관련 도서를 서점에서 찾아보면, 프로젝트형 도서가 주를 이루고 있다.

아마 구독자를 취준생 또는 사이드 프로젝트를 준비하는 사람들을 대상으로 작성했을 가능성이 높을 것 같은데, 보통 주제를 정하고 책을 서술하다보니 좀더 코드 베이스로 주제에 대한 깊은 설명을 해주는 방향으로 접근한다.

하지만, 이 책은 프로젝트 주제를 설정하고 서술하는 내용을 담고 있지는 않다.

책의 원문 제목은 “Machine Learning with Python Cookbook”으로 말그대로 파이썬으로 머신러닝 업무를 수행할 때 필요한 레시피? 같은 책으로 사용하길 의도한 것으로 보이는데 업무에서 보편적으로 사용되는 스킬들에 대해 서술하는 것이 중점적으로 언급되어 있다.

가령 책 앞부분에 Pandas를 사용해 여러 종류의 데이터 타입과 source를 서술하는 부분은 흡사 Pandas 공식 문서를 요약해 읽는 듯한 느낌을 준다.

업무에서 겪었던 것들은 주석처럼 직접 작성해주면서 기록하자.

단, 이 책을 활용하기위해 내가 추가던 내용들은 내가 현업에서 겪었던 에러나 문제 사항들을 함께 주석처럼 기록했던 점이다.

예를 들어, Pandas 2.2.0 이상의 버전에서는 sqlalchemy의 버전과 상관없이 에러가 발생한다. (참조 문헌)

Pandas 특성상 DB 커넥션으로 연결해 작업을 시도하는 행위가 꽤 많은데, 이러한 부분들을 함께 기록하면 이 책은 나만의 Custom 실무 도서가 된다.

추가로 책 정리하다가 알게 되었는데 회사에서 현재 Deprecated 되어 있는 한국어 파싱 라이브러리를 사용하고 있어서, 이를 AI Product 팀에 리포팅하게 되었다.

라이브러리 명칭은 pyeunjeon으로 mecab 한국어 형태소 분석기를 개발한 분이 더 이상 업데이트하지 않는 것을 알게 되었다! (뒷걸음질치다 얻어걸렸다!)

NLTK 라이브러리 챕터 보다가 회사 한국어 형태소 분석기 버전을 찾아봤던 것이었는데, 이렇게 도서 리뷰 과정이 도움이 될 줄 생각도 못했다.

ML 관련 실무 도서를 이제 몇 권 읽어봐서 그런지 용어나 개념들이 조금씩 빨리 읽힌다.

완벽하게 이해했다고는 전혀 생각하지는 않지만, 감을 잡아가고 있다는 생각은 확실히 든다.

지금 On-Device ML을 공부 중인데, 필요한 부분은 틈틈이 참고서로 사용해야겠다.

Ryan

--

--