스타트업의 스케일업에 가장 큰 영향을 미치는 데이터 옵스와 데이터 품질 관리
“한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”
예전에 회사 동료와 대화를 주고 받다가 토스의 데이터 파이프라인에 대해 얘기를 들은 적이 있다.
토스의 경우, 전사 직원 모두가 볼 수 있게 데이터 대시보드가 사무실에 떠 있고, 데이터 관리를 효율적으로 하기 위한 파이프라인이 구축되어 있다는 것이다.
주변에 알고 있는 토스에 근무하고 있는 직원이 없어서 확인할 길은 없지만, 국내에서 IT 기술력 분야에서 높은 수준을 자랑하는 토스에서도 데이터 관리라는 부분이 비즈니스 운영에 있어 무척 우선순위가 높은 핵심 분야라고 할 수 있고, 짧게 나눈 몇 마디에서도 이해가 되는 것이 “데이터 인프라 구축에 많은 시간과 비용을 투자했을 것”이 이해가 되었다.
MLOps 업무를 하면서 23년 5월에는 주로 ZFS 파일 시스템을 기반으로 한 핫 스토리지 구축 및 PostgresDB 온프레미스 서버 구축 업무를 수행했고, 5월 말에 이 구축한 서버들을 IDC에 넣을 예정이다.
소위 개발을 하면서 많이 얘기 나오는 부분들이 “이미 만들어진 바퀴를 다시 처음부터 만들지 말라”라는 것을 많이 듣는다.
풀어서 말하면, 이미 잘 만들어져있는 오픈소스나 솔루션을 사용했을 때 비즈니스적인 비용을 많이 감소 시킬 수 있다면 처음부터 개발하는 것보다 이미 잘 만들어진 것들을 활용하는 것의 편익이 더 크다는 점이다.
데이터 엔지니어링 업무에도 위에 언급한 말이 동일하게 반영된다.
이미 RDBMS에 관련한 충분히 검증된 소프트웨어들 (Postgres, MySQL, MSSQL, OracleDB 등)이 시장에서 사용되고 있고 스노우플레이크, 레드 시프트, 클릭하우스, 드루이드, 카프카, 컨플루언트, 레드 판다 등 나름대로의 강점들을 설명하면서 시장에 진입하고 더 높은 퍼포먼스를 보여주는 서비스들이 매년 출시되기 때문이다.
그 관점에서 데이터를 다룰 때 어떤 소프트웨어를 사용해야할지, 그리고 데이터 파이프라인 구축을 어떻게 해야하는지에 대해 마치 저자가 옆에 앉아 직접 설명해주는 듯한 느낌을 준다.
내가 업무적으로 데이터 서버 구축할 때 제일 걱정하고 어려웠던 점은 올플래시(쉽게 말해, 메모리 급 성능을 SSD 디스크로 상시 퍼포먼스를 보여주는 엔터프라이스 스토리지) 핫스토리지를 구축할 때 어떻게하면 충분히 퍼포먼스를 출력하면서 데이터의 복구 및 안정성을 추구하는지에 대한 부분이었다.
이런 부분은 구글링해도 자료가 안나오고, 대부분 벤치마크 성능만이 나오기 때문에 실제로 우리 상황에 적용했을 때 출력이 잘 나오는지 안나오는지 확인하기가 무척 어렵다.
되려 소스코드를 작성하는 시점이 더 그리울 수 있다는 말이다.
그래서 구매처의 세일즈 엔지니어와 상시 소통하면서 데이터 로그는 어떻게 관리하는지, 로그에서 의미있는 정보를 어떻게 추출하는지, RBAC 등 관리는 떻게 하는지, 핫스토리지를 사용하는 유저들이 사용할만한 괜찮은 앱은 무엇이 있는지 등을 하나하나 물어보면서 접근했고, 결과적으로 꽤 의미있는 정보들을 많이 얻어낼 수 있었다.
업무를 보다 보면 내가 잘 모르는 분야에 대해 업무를 수행하는데 구글링이나 chatGPT에서도 원하는 결과를 못 얻을 때가 많다.
그럴 때 필요한 분야의 지식을 책에서 얻으면 이 만큼 반가울 수가 없다.
마치 내가 “데이터 웨어하우스 구축 관련하여 조언 주실 분 찾습니다.”라고 했을 때 “원하는 답변일지는 모르겠지만, 제가 답변할 수 있을 것 같습니다”하고 담당자가 툭 튀어나오는 느낌이다.
그리고 이 책 챕터 3에서는 직접적으로 언급은 없지만, 사실 서술하는 순서가 MLOps의 데이터 정제 단계와 거의 일치한다.
즉, 데이터 옵스 분야가 MLOps 업무에 포함되는 범위라고 볼 수 있는 것이다.
그리고 국내 데이터 엔지니어들이라면 거의 모두가 Airflow를 알거나 써봤을 경우가 대부분일텐데, 이 Airflow에서 영감을 받은 Prefect, Flyte, Dagster 들이 파생된 것을 보면 DE와 MLOps는 뗄레야 뗄 수 없는 관계인 것이다.
이쯤 되면 한빛 미디어 도서 리뷰 담당하시는 분이 내 블로그 글을 쭉 읽어보고 필요한 책만 보내주시는 것 같은데, 매번 좋은 책을 공짜로 보고 있어 금전적으로 많은 도움이 되고 있다.
만들어야할 것이 참 많지만, 비즈니스 단계에서 도입하는 것들은 비슷비슷한 생각을 갖고 만들어지는 경우가 많아서 이렇게 누군가의 usecase를 보고 참조하면 업무 생산성이 무척 높아진다.
개발 업무하면서 최근 발간된 책들을 꾸준히 읽어야할 이유가 한 가지 늘었다.