Vertex AI 소개, Vertex AI의 MLOps는 최적의 성능과 시스템의 안정성과 신뢰성을 향상시키는 일련의 관행

작성자

biolove2

작성일

2025-12-04 18:45

조회

Vertex AI 개요 및 소개

Vertex AI는 ML 모델과 AI 애플리케이션을 학습 및 배포하고 AI 기반 애플리케이션에서 사용할 대규모 언어 모델(LLM)을 맞춤설정할 수 있게 해주는 머신러닝(ML) 플랫폼입니다. Vertex AI는 데이터 엔지니어링, 데이터 과학, ML 엔지니어링 워크플로를 결합합니다. 이를 통해 팀에서 공통 도구 모음을 사용하여 공동으로 작업하고 Google Cloud이점을 활용하여 애플리케이션을 확장할 수 있습니다.

Vertex AI는 모델 학습 및 배포를 위한 여러 옵션을 제공합니다.

AutoML을 사용하면 코드를 작성하거나 데이터 분할을 준비하지 않고도 테이블 형식 데이터나 이미지 데이터를 학습시킬 수 있습니다. 이러한 모델은 온라인 추론을 위해 배포되거나 일괄 추론을 위해 직접 쿼리될 수 있습니다.(AutoML : 머신러닝 모델 개발 과정의 일부를 자동화하여 누구나 더 빠르고 쉽게 AI 모델을 만들 수 있게 해주는 기술)
Vertex AI 서버리스 학습을 사용하면 학습 프로세스를 완전하게 제어할 수 있습니다. ML 프레임워크를 사용하여 자체 학습 코드를 제공합니다. 그러면 Vertex AI에서 작업 기간 동안 주문형으로 필요한 리소스를 프로비저닝합니다. 이 사용량 기반 요금 모델은 유연한 실험 작업과 프로덕션 작업에 적합합니다.(프로비저닝은 사용자가 필요로 하는 IT 자원(서버, 소프트웨어, 스토리지, 사용자 계정 등)을 할당, 배치, 설정하여 사용할 수 있도록 준비하는 과정)
Vertex AI 학습 클러스터는 대규모 고성능 학습 전용으로 예약된 컴퓨팅을 제공합니다. 영구 클러스터를 만들면 완전 관리형 환경 내에서 미션 크리티컬 ML 워크로드의 용량과 더 빠른 작업 시작을 달성할 수 있습니다.
Vertex AI 기반 Ray는 오픈소스 Ray 프레임워크를 사용하여 분산 Python 및 ML 워크로드를 실행하고 확장할 수 있는 관리형 서비스를 제공합니다. 이는 영구 클러스터에서 대화형 개발을 위해 Ray의 라이브러리를 사용하려는 사용자에게 적합합니다.(Ray 프레임워크: AI 및 Python 애플리케이션을 **여러 대의 컴퓨터(클러스터)**로 확장하여 실행할 수 있게 해주는 오픈 소스 통합 프레임워크)
Model Garden을 사용하면 Vertex AI를 검색, 테스트, 맞춤설정, 배포하고 오픈소스 모델과 애셋을 선택할 수 있습니다.(Model Garden : Google Cloud의 Vertex AI 플랫폼 내에 있는 AI 모델 라이브러리)
생성형 AI는 여러 모달(텍스트, 코드, 이미지, 음성)에 대한 Google의 대규모 생성형 AI 모델에 대한 액세스를 제공합니다. 필요에 맞게 Google의 LLM을 조정한 후 AI 기반 애플리케이션에서 사용하도록 배포할 수 있습니다.

모델을 배포한 후에는 Vertex AI의 엔드 투 엔드 MLOps 도구를 사용하여 ML 수명 주기 전반에 걸쳐 프로젝트를 자동화하고 확장합니다. 이러한 MLOps 도구는 성능 및 예산 요구사항에 따라 맞춤설정할 수 있는 완전 관리형 인프라에서 실행됩니다.

Vertex AI SDK for Python을 사용하여 Jupyter 노트북 기반 개발 환경인 Vertex AI Workbench에서 전체 머신러닝 워크플로를 실행할 수 있습니다. Vertex AI와 통합된 Colaboratory 버전인 Colab Enterprise에서 모델을 개발하기 위해 팀과 협력할 수 있습니다. 기타 사용 가능한 인터페이스로는 Google Cloud 콘솔, Google Cloud CLI 명령줄 도구, 클라이언트 라이브러리, Terraform(제한적으로 지원)이 있습니다. ( Jupyter 노트북(Jupyter Notebook) : 코딩과 문서 작성을 하나의 웹 기반 환경에서 결합한 대화형 컴퓨팅 플랫폼, Colab : 구글이 제공하는 무료 클라우드 기반의 Jupyter 노트북 환경, Terraform : HashiCorp에서 개발한 오픈 소스 코드형 인프라(IaC, Infrastructure as Code) 도구)

Vertex AI 및 머신러닝(ML) 워크플로(Machin Learnning Workflow)

데이터 준비: 데이터 세트를 추출하고 정리한 후 탐색적 데이터 분석(EDA)을 수행하여 ML 모델에서 예상하는 데이터 스키마와 특성을 파악합니다. 데이터 변환 및 특성 추출을 모델에 적용하고 데이터를 학습, 검증, 테스트 세트로 분할합니다.

- Vertex AI Workbench 노트북을 사용하여 데이터를 탐색하고 시각화합니다. Vertex AI Workbench는 Cloud Storage 및 BigQuery와 통합되어 더욱 빠른 데이터 액세스 및 처리를 지원합니다.

- 대규모 데이터 세트의 경우 Vertex AI Workbench 노트북에서 Dataproc Serverless Spark를 사용하여 Dataproc 클러스터를 직접 관리할 필요 없이 Spark 워크로드를 실행합니다.

모델 학습: 모델 학습 방법을 선택하고 성능을 위해 조정합니다.

- 코드를 작성하지 않고 모델을 학습시키려면 AutoML 개요를 참조하세요. AutoML은 테이블 형식 데이터나 이미지 데이터를 지원합니다.

- Vertex AI 서버리스 학습을 사용하여 완전 관리형 환경에서 주문형으로 커스텀 학습 코드를 실행합니다. Vertex AI 서버리스 학습 개요를 참조하세요.

- 전용으로 예약된 액셀러레이터 클러스터에서 보장된 용량이 필요한 대규모 작업에 Vertex AI 학습 클러스터를 사용합니다. Vertex AI 학습 클러스터 개요를 참조하세요.

- Vertex AI 기반 Ray를 사용하여 관리형 대화형 클러스터에서 오픈소스 Ray 프레임워크를 사용해 Python 및 ML 워크로드를 확장합니다. Vertex AI 기반 Ray 개요를 참조하세요.

- Vertex AI Vizier는 복잡한 머신러닝(ML) 모델에서 초매개변수를 미세 조정합니다.

- Vertex AI Experiments를 사용하여 다양한 ML 기법을 사용해 모델을 학습시키고 결과를 비교합니다.

- 학습된 모델을 버전 관리 및 프로덕션에 전달할 Vertex AI Model Registry에 등록합니다. Vertex AI Model Registry는 모델 평가 및 엔드포인트와 같은 검증 및 배포 기능과 통합됩니다.

모델 평가 및 반복: 학습된 모델을 평가하고, 평가 측정항목을 기준으로 데이터를 조정하고, 모델을 반복합니다.

- 정밀도, 재현율과 같은 모델 평가 측정항목을 사용하여 모델의 성능을 평가하고 비교합니다. Vertex AI Model Registry를 통해 평가를 만들거나 Vertex AI Pipelines 워크플로에 평가를 포함합니다.

모델 서빙: 모델을 프로덕션에 배포하고 온라인 추론을 수행하거나 일괄 추론을 위해 직접 쿼리합니다.

- 사전 빌드된 또는 커스텀 컨테이너를 사용하여 커스텀 학습 모델을 배포하여 실시간 온라인 추론을 수행합니다(HTTP 추론이라고도 함).

- 엔드포인트에 배포할 필요가 없는 비동기 일괄 추론을 수행합니다.

- 최적화된 TensorFlow 런타임을 사용하면 오픈소스 기반 사전 빌드된 TensorFlow Serving 컨테이너보다 가격이 저렴하고 지연 시간이 짧은 TensorFlow 모델을 제공할 수 있습니다.

- 테이블 형식 모델이 있는 온라인 서빙 사례의 경우 Vertex AI Feature Store를 사용하여 중앙 저장소의 특성을 서빙하고 특성 상태를 모니터링합니다.

- Vertex Explainable AI는 각 특성이 모델 추론(특성 기여 분석)에 어떻게 기여하는지 이해하고 학습 데이터 세트에서 라벨이 잘못 지정된 데이터를 찾는 데 도움이 됩니다(예시 기반 설명).

- BigQuery ML로 학습된 모델에 대한 온라인 추론을 배포하고 수행합니다.

모델 모니터링: 배포된 모델의 성능을 모니터링합니다. 수신되는 추론 데이터로 모델을 재학습시켜 성능을 향상시킵니다.

- Vertex AI Model Monitoring은 학습-서빙 편향과 추론 드리프트에 대해 모델을 모니터링하고 수신 추론 데이터 편향이 학습 기준에서 너무 멀리 벗어나면 알림을 전송합니다.

Vertex AI의 MLOps

이 섹션에서는 머신러닝(ML) 워크플로로 머신러닝 작업(MLOps)을 구현하는 데 도움이 되는 Vertex AI 서비스를 설명합니다.
모델을 배포한 후에는 최적의 성능을 발휘하고 관련성을 유지할 수 있도록 환경의 데이터 변경 상황에 대응해야 합니다. MLOps는 ML 시스템의 안정성과 신뢰성을 향상시키는 일련의 관행입니다.

Vertex AI MLOps 도구는 AI팀 간 공동작업을 수행하고 예측 모델 모니터링, 알림, 진단, 활용 가능한 설명을 통해 모델을 개선하는 데 도움이 됩니다. 모든 도구는 모듈식이므로 필요에 따라 기존 시스템에 통합할 수 있습니다.

워크플로 조정

모델을 수동으로 학습시키고 제공하는 데 시간이 오래 걸리고 오류가 발생하기 쉬운데 프로세스를 여러 번 반복해야 하는 경우 특히 그렇습니다.

Vertex AI Pipelines는 ML 워크플로를 자동화, 모니터링, 제어하는 데 도움이 됩니다.

학습 작업 관리 및 확장

학습을 위한 컴퓨팅 리소스를 효율적으로 관리하는 것은 특히 실험에서 프로덕션으로 확장할 때의 핵심 MLOps 과제입니다. Vertex AI Training은 전체 ML 수명 주기에 적합한 컴퓨팅 옵션이 포함된 유연한 완전 관리형 서비스를 제공하여 이 문제를 해결합니다.

실험 및 가변 워크로드의 경우 커스텀 학습에 리소스를 주문형으로 프로비저닝하는 기본 서버리스 플랫폼이 포함되어 최대한의 유연성을 제공합니다.
대규모의 예측 가능한 워크로드의 경우 예약된 클러스터의 Vertex AI 관리형 학습이 리소스 가용성을 보장하고 안정적인 성능을 제공하며 사용률이 많은 팀의 비용을 최적화하는 데 도움이 되는 영구적인 전용 환경을 제공합니다.

ML 시스템에서 사용되는 메타데이터 추적

데이터 과학에서 ML 워크플로에서 사용되는 매개변수, 아티팩트, 측정항목을 추적하는 것이 중요합니다. 특히 워크플로를 여러 번 반복하는 경우 더욱 그렇습니다.

Vertex ML Metadata를 사용하면 ML 시스템에서 사용되는 메타데이터, 매개변수, 아티팩트를 기록할 수 있습니다. 그런 다음 ML 시스템 또는 ML 시스템에서 생성하는 아티팩트의 성능을 분석, 디버깅, 감사하는 데 도움이 되도록 해당 메타데이터를 쿼리할 수 있습니다.

사용 사례에 가장 적합한 모델 식별

새 학습 알고리즘을 시도할 때는 어떤 학습된 모델이 가장 우수한 성능을 발휘하는지 알아야 합니다.

Vertex AI Experiments를 사용하면 다양한 모델 아키텍처, 초매개변수, 학습 환경을 추적하고 분석하여 사용 사례에 가장 적합한 모델을 식별할 수 있습니다
Vertex AI 텐서보드는 ML 실험을 추적, 시각화, 비교하여 모델이 성능을 잘 발휘하는지 측정하는 데 도움이 됩니다.

모델 버전 관리

모델을 중앙 저장소에 추가하면 모델 버전을 추적할 수 있습니다

Vertex AI Model Registry는 모델 개요를 제공하므로 새 버전을 더욱 효과적으로 구성 및 추적하고 학습시킬 수 있습니다. Model Registry에서 모델을 평가하고 모델을 엔드포인트에 배포하고 일괄 추론을 만들며 특정 모델과 모델 버전에 대한 세부정보를 볼 수 있습니다.

특성 관리

여러 팀에서 ML 특성을 재사용하는 경우 특성을 공유하고 제공할 수 있는 빠르고 효율적인 방법이 필요합니다.

Vertex AI Feature Store는 ML 특성을 구성, 저장, 제공할 수 있는 중앙 집중식 저장소를 제공합니다. 중앙 집중식 피처스토어를 사용하면 조직에서 ML 특성을 대규모로 재사용하고 새 ML 애플리케이션을 개발하고 배포하는 속도를 높일 수 있습니다.

모델 품질 모니터링

프로덕션에 배포된 모델은 학습 데이터와 유사한 추론 입력 데이터에서 최고의 성능을 발휘합니다. 입력 데이터가 모델을 학습시키는 데 사용된 데이터와 다르면 모델 자체가 변경되지 않았더라도 모델 성능이 저하될 수 있습니다.

Vertex AI Model Monitoring은 학습-서빙 편향과 추론 드리프트에 대해 모델을 모니터링하고 수신 추론 데이터 편향이 학습 기준에서 너무 멀리 벗어나면 알림을 전송합니다. 알림 및 특성 배포를 사용하여 모델을 다시 학습시켜야 하는지 여부를 평가할 수 있습니다.

AI 및 Python 애플리케이션 확장

Ray는 AI 및 Python 애플리케이션을 확장하기 위한 오픈소스 프레임워크입니다. Ray는 머신러닝(ML) 워크플로에 대해 분산형 계산과 병렬 처리를 수행하기 위한 인프라를 제공합니다.

Vertex AI 기반 Ray는 같은 오픈소스 Ray 코드를 사용하여 최소한의 변경만으로 Vertex AI에서 프로그램을 작성하고 애플리케이션을 개발할 수 있도록 설계되었습니다. 그런 다음 Vertex AI Inference나 BigQuery와 같은 다른 Google Cloud 서비스와 Vertex AI의 통합 기능을 머신러닝(ML) 워크플로의 일부로 사용할 수 있습니다.

전체 0

« DevOps(데브옵스)의 모델, 원칙, 도구, 장단점, 도입 방법 등 전반적인 내용을 상세하게 정리

Vertex AI Agent Builder(버텍스 AI빌더)의 기능, 작동방식, 일반적인 용도 »

목록보기 답글쓰기

전체 200

번호	제목	작성자	작성일	추천	조회
공지사항	"최악의 호스팅 서비스 경험 - 카페24 이용 후기 (실제 피해 사례)" biolove2 \| 2025.09.23 \| 추천 0 \| 조회 236	biolove2	2025.09.23	0	236
199	하드파싱(Hard parsing)과 소프트파싱(Soft parsing) ? biolove2 \| 2026.02.07 \| 추천 0 \| 조회 30	biolove2	2026.02.07	0	30
198	111 biolove2 \| 2026.01.03 \| 추천 0 \| 조회 21	biolove2	2026.01.03	0	21
197	[심화 학습 #4] 한국 공공기관 도입을 위한 필수 체크리스트: 보안 가이드라인과 CSAP biolove2 \| 2025.12.21 \| 추천 0 \| 조회 72	biolove2	2025.12.21	0	72
196	한국 공공기관 도입의 필수 관문: CSAP와 보안 가이드라인 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 75	biolove2	2025.12.21	0	75
195	[심화 학습 #3] AI 도입의 최종 관문: "데이터 거버넌스 및 보안" biolove2 \| 2025.12.21 \| 추천 0 \| 조회 60	biolove2	2025.12.21	0	60
194	[심화 학습 #2] 텍스트를 넘어 이미지와 도표를 읽다: "멀티모달 RAG" biolove2 \| 2025.12.21 \| 추천 0 \| 조회 59	biolove2	2025.12.21	0	59
193	[심화 학습 #1] AI의 답변 품질을 결정짓는 "Advanced RAG" 핵심 기술 총정리 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 54	biolove2	2025.12.21	0	54
192	비정형 데이터 (PDF, 엑셀, 매뉴얼 파일) 벡터화 및 임베딩 과정 (Chunking & Vectorization) biolove2 \| 2025.12.21 \| 추천 0 \| 조회 69	biolove2	2025.12.21	0	69
191	[GCP 시리즈 #5] 5분 완성! Compute Engine으로 나만의 웹 서버 만들기 (실전편) biolove2 \| 2025.12.21 \| 추천 0 \| 조회 61	biolove2	2025.12.21	0	61
190	[GCP 시리즈 #4] 내 서버를 지키는 철통 보안: VPC와 방화벽 완벽 가이드 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 56	biolove2	2025.12.21	0	56
189	[GCP 시리즈 #3] 쓰고 보니 1,000만 원? Compute Engine 요금 폭탄 피하는 5가지 전략 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 57	biolove2	2025.12.21	0	57
188	[GCP 시리즈 #2] 접속자가 폭주해도 평온한 이유: 오토스케일링과 로드밸런싱 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 56	biolove2	2025.12.21	0	56
187	[GCP 시리즈 #1] 클라우드의 심장, Compute Engine이란 무엇인가? biolove2 \| 2025.12.21 \| 추천 0 \| 조회 53	biolove2	2025.12.21	0	53
186	[GCP 시리즈 #1] 클라우드의 심장, Compute Engine이란 무엇인가? biolove2 \| 2025.12.21 \| 추천 0 \| 조회 51	biolove2	2025.12.21	0	51
185	국내 최대 클라우드 관리 전문 기업: 메가존클라우드(MegazoneCloud) 심층 분석 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 60	biolove2	2025.12.21	0	60
184	일반 호스팅 vs. GCP + MSP , 비용 비교, 구글 클라우드 MSP 업체, AS 방법 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 57	biolove2	2025.12.21	0	57
183	마켓플레이스에서 워드프레스 vs 일반 호스팅(카페24 등) 비교, 장.단점, 이용방법 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 67	biolove2	2025.12.21	0	67
182	Google Cloud Marketplace란? 상품 종류, 활용 시나리오, biolove2 \| 2025.12.21 \| 추천 0 \| 조회 56	biolove2	2025.12.21	0	56
181	AMP와 PWA: 2025년 SEO에 더 유리한 것은 무엇일까요? biolove2 \| 2025.12.20 \| 추천 0 \| 조회 64	biolove2	2025.12.20	0	64
180	피지컬 AI의 감각 기관: 데이터 수집 수단 (Sensor Taxonomy) biolove2 \| 2025.12.19 \| 추천 0 \| 조회 69	biolove2	2025.12.19	0	69

제목	작성일
AGI(범용 인공지능, Artificial General Intelligence), 초지능 인공지능(ASI, Artificial Super Intelligence)	2026.01.28
'의료보험법상 입원 기간 제한'에 대해- 법적으로 "며칠 이상 입원할 수 없다"라고 못 박아둔 절대적인 기간 제한은 없음	2025.12.24
[감동 실화] 전장의 기적, 미 해병대 하사가 된 한국의 군마 '레클리스(Reckless)'	2025.12.18
췌장 (Pancreas)의 구조와 기능 상세 설명	2025.10.06
고함량 미네랄, 왜 음식으로는 안전한가?	2025.10.01

제목	작성일
아시아 경제의 지각변동: 1인당 GDP 역전과 산업 구조의 비밀 -1970~2025 분석	2025.12.22
한국, 중국, 베트남, 대만, 싱가포르의 1970년부터 현재까지의 경제성장률 추이를 정리	2025.12.22
[긴급 분석] 10.15 부동산 대책, 시장의 판도를 바꿀 핵심 요약 및 전망	2025.10.19
미국 경제 패권의 구조적 이완: 정책 충격, 탈동맹화, 그리고 다극화 시대의 전략적 전망	2025.10.05
니어쇼어링(Nearshoring), 오프쇼어링(Offshoring), 리쇼어링(Reshoring), 온쇼어링(Onshoring)	2025.10.05

제목	작성일
중국 동북공정 대응 전략: 우리의 새로운 무기들	2025.12.17
AI 기반 동북공정 대응 전략 (The AI Counter-Offensive)	2025.12.17
역사 전쟁, 이제 '생존 전략'으로 대응하자..강단 사학 vs. 재야 사학	2025.12.17
환단고기 논쟁 6부작 특별 보고서 - 잃어버린 고대사를 찾아서	2025.12.16
동대문역사박물관은 오세훈 시장이 정치적 의도 및 전시행정 논란으로 태어났다.	2025.11.19