[책] [AI/MLOps] 쿠브플루 운영 가이드 (Kubeflow Operations Guide)
[키워드]
- AI/MLOps
- 쿠브플루 vs 쿠버네티스
데이터사이언티스트로서 핵심에 더 집중하기 위해 쿠브플루 운영 가이드에 대해 알아보자.
ㅁ 목차
목차는 총 8까지 있으며, 쿠브플로우를 설치, 운영하는 방법 다양한 환경에 적용해서 설명하고 있는 점이 좋았다. 온프레미스 환경부터 다양한 클라우드 환경까지 다루고 있어서 어떤 환경에서 작업을 하던 무관하게 이 책 한권만 있으면 되는거다!
CHAPTER 1 쿠브플로 소개
CHAPTER 2 쿠브플로 아키텍처와 모범 사례
CHAPTER 3 쿠브플로 설치 계획
CHAPTER 4 온프레미스에 쿠브플로 설치
CHAPTER 5 구글 클라우드 쿠브플로 운영
CHAPTER 6 아마존 웹 서비스 쿠브플로 운영
CHAPTER 7 애저 쿠브플로 운영
CHAPTER 8 모델 서빙과 통합
ㅁ 주요 내용
1. Kubeflow는 무엇인가?
- 쿠브플루는 확장 가능하고(saclable) 포터블(portable)한 머신러닝 작업 워크로드(workload)를 개발, 오케스트레이션, 배포, 운영하기 위한 오픈소스 쿠버네티스 네이티브 플랫폼이고 구글의 내부 ML파이프라인에 기초한 클라우드 네이티브 플랫폼
- 쿠브플로는 쿠버네티스와 텐서플로의 합성어
(참고) Kubeflow vs Kubernetes (또는 k8s)
- 쿠브플로 프로젝트는 쿠버네티스에 ML(머신러닝) 워크플로를 배포하는 것을 단순하고, 포터블하게 하며, 확장 가능하도록 하는 데 전념합니다.
- 쿠퍼네티스는 컨테이너들을 위한 오케스트레이션 시스템
2. Kubeflow는 언제 쓰나?
- 머신러닝 모델을 다른 환경(로컬, 온프레미스, 클라우드 등)에서 트레인(train)하고, 서빙(serve)하고 싶은 경우
- 머신러닝 트레이닝 잡(텐서플로 잡 이외에도)을 주피터 노트북을 이용해 관리하는 경우
- 개인 컴퓨터에서 접근이 불가능한 추가 CPU, GPU 같은 리소스를 이용해 트레이닝 잡을 시작하는 경우
- 머신러닝 코드를 다른 라이브러리로부터 합치려고 하는 경우
3. Kubeflow는 어떤 문제를 해결할까?
: 쿠브플로 목표는 머신러닝 워크플로를 쿠버네티스에 배포하는 것을 단순화 하는 것이다.
- 더 빠르고 일관적인 배포
- 안전한 보안을 위해 포트나 컴포넌트 접근에 대한 더 나은 통제
- 리소스 공급과잉에 대한 보호로 비용 절감
- 완성된 일이 할당 해지되는 것을 보호하여 비용 절감
- 워크플로 오케스트레이션과 메타데이터 수집
- 중앙화된 모니터링과 로깅
- 모델을 안전하고 확장이 가능하도록 프로덕션으로 옮기는 인프라스트럭처
4. 쿠브플로 구성요소
쿠브플로 플랫폼은 크게 3가지로 구성되어 있다. ML도구, 애플리케이션과 스캐폴딩, 플랫폼/클라우드로 말이다.
플랫폼/클라우드 레이어를 보면, 온프레미스에서 Google의 GCP, Amazon의 AWS, Microsoft의 Azure까지 지원함을 알 수 있다.
5. 쿠브플로 사용자 인터페이스 (UI)
- Pipelines
- Experiments
- Artifacts
- Executions
등의 메뉴가 있으며, 사용자가 편리하게 조작 가능하다.
ㅁ 서평
어떤 사람이 이 책을 보면 좋을까? ML/AIOps를 고민하는 인프라아키텍트나 데이터사이언티스트 또는 쿠버네티스환경에서 어려움을 겪고 있는분들께 적합한 책으로 보인다. 학습된 모델을 배포, 서빙할 때 필요한 요소들이 많은데 쿠브플로우로 파이프라인을 쉽고 빠르게 만들 수 있다고 생각한다.
ㅁ 참고 - 읽어보면 좋은글
https://www.jetbrains.com/ko-kr/teamcity/ci-cd-guide/
https://m.hanbit.co.kr/channel/category/category_view.html?cms_code=CMS6152523308
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."