Vertex AI 소개, Vertex AI의 MLOps는 최적의 성능과 시스템의 안정성과 신뢰성을 향상시키는 일련의 관행
Vertex AI 개요 및 소개
Vertex AI는 ML 모델과 AI 애플리케이션을 학습 및 배포하고 AI 기반 애플리케이션에서 사용할 대규모 언어 모델(LLM)을 맞춤설정할 수 있게 해주는 머신러닝(ML) 플랫폼입니다. Vertex AI는 데이터 엔지니어링, 데이터 과학, ML 엔지니어링 워크플로를 결합합니다. 이를 통해 팀에서 공통 도구 모음을 사용하여 공동으로 작업하고 Google Cloud이점을 활용하여 애플리케이션을 확장할 수 있습니다.
Vertex AI는 모델 학습 및 배포를 위한 여러 옵션을 제공합니다.
- AutoML을 사용하면 코드를 작성하거나 데이터 분할을 준비하지 않고도 테이블 형식 데이터나 이미지 데이터를 학습시킬 수 있습니다. 이러한 모델은 온라인 추론을 위해 배포되거나 일괄 추론을 위해 직접 쿼리될 수 있습니다.(AutoML : 머신러닝 모델 개발 과정의 일부를 자동화하여 누구나 더 빠르고 쉽게 AI 모델을 만들 수 있게 해주는 기술)
- Vertex AI 서버리스 학습을 사용하면 학습 프로세스를 완전하게 제어할 수 있습니다. ML 프레임워크를 사용하여 자체 학습 코드를 제공합니다. 그러면 Vertex AI에서 작업 기간 동안 주문형으로 필요한 리소스를 프로비저닝합니다. 이 사용량 기반 요금 모델은 유연한 실험 작업과 프로덕션 작업에 적합합니다.(프로비저닝은 사용자가 필요로 하는 IT 자원(서버, 소프트웨어, 스토리지, 사용자 계정 등)을 할당, 배치, 설정하여 사용할 수 있도록 준비하는 과정)
- Vertex AI 학습 클러스터는 대규모 고성능 학습 전용으로 예약된 컴퓨팅을 제공합니다. 영구 클러스터를 만들면 완전 관리형 환경 내에서 미션 크리티컬 ML 워크로드의 용량과 더 빠른 작업 시작을 달성할 수 있습니다.
- Vertex AI 기반 Ray는 오픈소스 Ray 프레임워크를 사용하여 분산 Python 및 ML 워크로드를 실행하고 확장할 수 있는 관리형 서비스를 제공합니다. 이는 영구 클러스터에서 대화형 개발을 위해 Ray의 라이브러리를 사용하려는 사용자에게 적합합니다.(Ray 프레임워크: AI 및 Python 애플리케이션을 **여러 대의 컴퓨터(클러스터)**로 확장하여 실행할 수 있게 해주는 오픈 소스 통합 프레임워크)
- Model Garden을 사용하면 Vertex AI를 검색, 테스트, 맞춤설정, 배포하고 오픈소스 모델과 애셋을 선택할 수 있습니다.(Model Garden : Google Cloud의 Vertex AI 플랫폼 내에 있는 AI 모델 라이브러리)
- 생성형 AI는 여러 모달(텍스트, 코드, 이미지, 음성)에 대한 Google의 대규모 생성형 AI 모델에 대한 액세스를 제공합니다. 필요에 맞게 Google의 LLM을 조정한 후 AI 기반 애플리케이션에서 사용하도록 배포할 수 있습니다.
모델을 배포한 후에는 Vertex AI의 엔드 투 엔드 MLOps 도구를 사용하여 ML 수명 주기 전반에 걸쳐 프로젝트를 자동화하고 확장합니다. 이러한 MLOps 도구는 성능 및 예산 요구사항에 따라 맞춤설정할 수 있는 완전 관리형 인프라에서 실행됩니다.
Vertex AI SDK for Python을 사용하여 Jupyter 노트북 기반 개발 환경인 Vertex AI Workbench에서 전체 머신러닝 워크플로를 실행할 수 있습니다. Vertex AI와 통합된 Colaboratory 버전인 Colab Enterprise에서 모델을 개발하기 위해 팀과 협력할 수 있습니다. 기타 사용 가능한 인터페이스로는 Google Cloud 콘솔, Google Cloud CLI 명령줄 도구, 클라이언트 라이브러리, Terraform(제한적으로 지원)이 있습니다. ( Jupyter 노트북(Jupyter Notebook) : 코딩과 문서 작성을 하나의 웹 기반 환경에서 결합한 대화형 컴퓨팅 플랫폼, Colab : 구글이 제공하는 무료 클라우드 기반의 Jupyter 노트북 환경, Terraform : HashiCorp에서 개발한 오픈 소스 코드형 인프라(IaC, Infrastructure as Code) 도구)
Vertex AI 및 머신러닝(ML) 워크플로(Machin Learnning Workflow)

- 데이터 준비: 데이터 세트를 추출하고 정리한 후 탐색적 데이터 분석(EDA)을 수행하여 ML 모델에서 예상하는 데이터 스키마와 특성을 파악합니다. 데이터 변환 및 특성 추출을 모델에 적용하고 데이터를 학습, 검증, 테스트 세트로 분할합니다.
- Vertex AI Workbench 노트북을 사용하여 데이터를 탐색하고 시각화합니다. Vertex AI Workbench는 Cloud Storage 및 BigQuery와 통합되어 더욱 빠른 데이터 액세스 및 처리를 지원합니다.
- 대규모 데이터 세트의 경우 Vertex AI Workbench 노트북에서 Dataproc Serverless Spark를 사용하여 Dataproc 클러스터를 직접 관리할 필요 없이 Spark 워크로드를 실행합니다.
- 모델 학습: 모델 학습 방법을 선택하고 성능을 위해 조정합니다.
- 코드를 작성하지 않고 모델을 학습시키려면 AutoML 개요를 참조하세요. AutoML은 테이블 형식 데이터나 이미지 데이터를 지원합니다.
- Vertex AI 서버리스 학습을 사용하여 완전 관리형 환경에서 주문형으로 커스텀 학습 코드를 실행합니다. Vertex AI 서버리스 학습 개요를 참조하세요.
- 전용으로 예약된 액셀러레이터 클러스터에서 보장된 용량이 필요한 대규모 작업에 Vertex AI 학습 클러스터를 사용합니다. Vertex AI 학습 클러스터 개요를 참조하세요.
- Vertex AI 기반 Ray를 사용하여 관리형 대화형 클러스터에서 오픈소스 Ray 프레임워크를 사용해 Python 및 ML 워크로드를 확장합니다. Vertex AI 기반 Ray 개요를 참조하세요.
- Vertex AI Vizier는 복잡한 머신러닝(ML) 모델에서 초매개변수를 미세 조정합니다.
- Vertex AI Experiments를 사용하여 다양한 ML 기법을 사용해 모델을 학습시키고 결과를 비교합니다.
- 학습된 모델을 버전 관리 및 프로덕션에 전달할 Vertex AI Model Registry에 등록합니다. Vertex AI Model Registry는 모델 평가 및 엔드포인트와 같은 검증 및 배포 기능과 통합됩니다.
- 모델 평가 및 반복: 학습된 모델을 평가하고, 평가 측정항목을 기준으로 데이터를 조정하고, 모델을 반복합니다.
- 정밀도, 재현율과 같은 모델 평가 측정항목을 사용하여 모델의 성능을 평가하고 비교합니다. Vertex AI Model Registry를 통해 평가를 만들거나 Vertex AI Pipelines 워크플로에 평가를 포함합니다.
- 모델 서빙: 모델을 프로덕션에 배포하고 온라인 추론을 수행하거나 일괄 추론을 위해 직접 쿼리합니다.
- 사전 빌드된 또는 커스텀 컨테이너를 사용하여 커스텀 학습 모델을 배포하여 실시간 온라인 추론을 수행합니다(HTTP 추론이라고도 함).
- 엔드포인트에 배포할 필요가 없는 비동기 일괄 추론을 수행합니다.
- 최적화된 TensorFlow 런타임을 사용하면 오픈소스 기반 사전 빌드된 TensorFlow Serving 컨테이너보다 가격이 저렴하고 지연 시간이 짧은 TensorFlow 모델을 제공할 수 있습니다.
- 테이블 형식 모델이 있는 온라인 서빙 사례의 경우 Vertex AI Feature Store를 사용하여 중앙 저장소의 특성을 서빙하고 특성 상태를 모니터링합니다.
- Vertex Explainable AI는 각 특성이 모델 추론(특성 기여 분석)에 어떻게 기여하는지 이해하고 학습 데이터 세트에서 라벨이 잘못 지정된 데이터를 찾는 데 도움이 됩니다(예시 기반 설명).
- BigQuery ML로 학습된 모델에 대한 온라인 추론을 배포하고 수행합니다.
- 모델 모니터링: 배포된 모델의 성능을 모니터링합니다. 수신되는 추론 데이터로 모델을 재학습시켜 성능을 향상시킵니다.
- Vertex AI Model Monitoring은 학습-서빙 편향과 추론 드리프트에 대해 모델을 모니터링하고 수신 추론 데이터 편향이 학습 기준에서 너무 멀리 벗어나면 알림을 전송합니다.
Vertex AI의 MLOps
이 섹션에서는 머신러닝(ML) 워크플로로 머신러닝 작업(MLOps)을 구현하는 데 도움이 되는 Vertex AI 서비스를 설명합니다.
모델을 배포한 후에는 최적의 성능을 발휘하고 관련성을 유지할 수 있도록 환경의 데이터 변경 상황에 대응해야 합니다. MLOps는 ML 시스템의 안정성과 신뢰성을 향상시키는 일련의 관행입니다.
Vertex AI MLOps 도구는 AI팀 간 공동작업을 수행하고 예측 모델 모니터링, 알림, 진단, 활용 가능한 설명을 통해 모델을 개선하는 데 도움이 됩니다. 모든 도구는 모듈식이므로 필요에 따라 기존 시스템에 통합할 수 있습니다.
워크플로 조정
모델을 수동으로 학습시키고 제공하는 데 시간이 오래 걸리고 오류가 발생하기 쉬운데 프로세스를 여러 번 반복해야 하는 경우 특히 그렇습니다.
- Vertex AI Pipelines는 ML 워크플로를 자동화, 모니터링, 제어하는 데 도움이 됩니다.
학습 작업 관리 및 확장
학습을 위한 컴퓨팅 리소스를 효율적으로 관리하는 것은 특히 실험에서 프로덕션으로 확장할 때의 핵심 MLOps 과제입니다. Vertex AI Training은 전체 ML 수명 주기에 적합한 컴퓨팅 옵션이 포함된 유연한 완전 관리형 서비스를 제공하여 이 문제를 해결합니다.
- 실험 및 가변 워크로드의 경우 커스텀 학습에 리소스를 주문형으로 프로비저닝하는 기본 서버리스 플랫폼이 포함되어 최대한의 유연성을 제공합니다.
- 대규모의 예측 가능한 워크로드의 경우 예약된 클러스터의 Vertex AI 관리형 학습이 리소스 가용성을 보장하고 안정적인 성능을 제공하며 사용률이 많은 팀의 비용을 최적화하는 데 도움이 되는 영구적인 전용 환경을 제공합니다.
ML 시스템에서 사용되는 메타데이터 추적
데이터 과학에서 ML 워크플로에서 사용되는 매개변수, 아티팩트, 측정항목을 추적하는 것이 중요합니다. 특히 워크플로를 여러 번 반복하는 경우 더욱 그렇습니다.
Vertex ML Metadata를 사용하면 ML 시스템에서 사용되는 메타데이터, 매개변수, 아티팩트를 기록할 수 있습니다. 그런 다음 ML 시스템 또는 ML 시스템에서 생성하는 아티팩트의 성능을 분석, 디버깅, 감사하는 데 도움이 되도록 해당 메타데이터를 쿼리할 수 있습니다.
사용 사례에 가장 적합한 모델 식별
새 학습 알고리즘을 시도할 때는 어떤 학습된 모델이 가장 우수한 성능을 발휘하는지 알아야 합니다.
- Vertex AI Experiments를 사용하면 다양한 모델 아키텍처, 초매개변수, 학습 환경을 추적하고 분석하여 사용 사례에 가장 적합한 모델을 식별할 수 있습니다
- Vertex AI 텐서보드는 ML 실험을 추적, 시각화, 비교하여 모델이 성능을 잘 발휘하는지 측정하는 데 도움이 됩니다.
모델 버전 관리
모델을 중앙 저장소에 추가하면 모델 버전을 추적할 수 있습니다
- Vertex AI Model Registry는 모델 개요를 제공하므로 새 버전을 더욱 효과적으로 구성 및 추적하고 학습시킬 수 있습니다. Model Registry에서 모델을 평가하고 모델을 엔드포인트에 배포하고 일괄 추론을 만들며 특정 모델과 모델 버전에 대한 세부정보를 볼 수 있습니다.
특성 관리
여러 팀에서 ML 특성을 재사용하는 경우 특성을 공유하고 제공할 수 있는 빠르고 효율적인 방법이 필요합니다.
- Vertex AI Feature Store는 ML 특성을 구성, 저장, 제공할 수 있는 중앙 집중식 저장소를 제공합니다. 중앙 집중식 피처스토어를 사용하면 조직에서 ML 특성을 대규모로 재사용하고 새 ML 애플리케이션을 개발하고 배포하는 속도를 높일 수 있습니다.
모델 품질 모니터링
프로덕션에 배포된 모델은 학습 데이터와 유사한 추론 입력 데이터에서 최고의 성능을 발휘합니다. 입력 데이터가 모델을 학습시키는 데 사용된 데이터와 다르면 모델 자체가 변경되지 않았더라도 모델 성능이 저하될 수 있습니다.
- Vertex AI Model Monitoring은 학습-서빙 편향과 추론 드리프트에 대해 모델을 모니터링하고 수신 추론 데이터 편향이 학습 기준에서 너무 멀리 벗어나면 알림을 전송합니다. 알림 및 특성 배포를 사용하여 모델을 다시 학습시켜야 하는지 여부를 평가할 수 있습니다.
AI 및 Python 애플리케이션 확장
Ray는 AI 및 Python 애플리케이션을 확장하기 위한 오픈소스 프레임워크입니다. Ray는 머신러닝(ML) 워크플로에 대해 분산형 계산과 병렬 처리를 수행하기 위한 인프라를 제공합니다.
- Vertex AI 기반 Ray는 같은 오픈소스 Ray 코드를 사용하여 최소한의 변경만으로 Vertex AI에서 프로그램을 작성하고 애플리케이션을 개발할 수 있도록 설계되었습니다. 그런 다음 Vertex AI Inference나 BigQuery와 같은 다른 Google Cloud 서비스와 Vertex AI의 통합 기능을 머신러닝(ML) 워크플로의 일부로 사용할 수 있습니다.
| 번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
| 공지사항 |
"최악의 호스팅 서비스 경험 - 카페24 이용 후기 (실제 피해 사례)"
biolove2
|
2025.09.23
|
추천 0
|
조회 88
|
biolove2 | 2025.09.23 | 0 | 88 |
| 160 |
전산팀도 반기는 똑똑한 AI 도입법 - 전산팀의 부담을 줄이는 '저항 제로' 무중단 연동 전략
biolove2
|
2025.12.17
|
추천 0
|
조회 8
|
biolove2 | 2025.12.17 | 0 | 8 |
| 159 |
[전문가 가이드] 공공기관 AI 도입, '사이트 다운'과 '보안' 걱정 없는 완벽 전략
biolove2
|
2025.12.17
|
추천 0
|
조회 7
|
biolove2 | 2025.12.17 | 0 | 7 |
| 158 |
국산 클라우드(K-Cloud)와 글로벌 클라우드(GCP)의 기술적 차이 및 공공 부문 RAG 도입 시 핵심 보안 고려사항
biolove2
|
2025.12.17
|
추천 0
|
조회 8
|
biolove2 | 2025.12.17 | 0 | 8 |
| 157 |
한국 공공기관 및 지자체의 클라우드 도입 현황과 AWS 비중
biolove2
|
2025.12.17
|
추천 0
|
조회 9
|
biolove2 | 2025.12.17 | 0 | 9 |
| 156 |
GCP와 AWS 선택의 득과 실 - 개발자 vs 클라이언트
biolove2
|
2025.12.17
|
추천 0
|
조회 7
|
biolove2 | 2025.12.17 | 0 | 7 |
| 155 |
개발 측면과 클라이언트 측면(사용업체)의 난이도 및 비용을 비교 분석
biolove2
|
2025.12.17
|
추천 0
|
조회 6
|
biolove2 | 2025.12.17 | 0 | 6 |
| 154 |
글로벌 클라우드 빅3(GCP, AWS, Azure) 비교 가이드, 기술 영역별 상세 비교
biolove2
|
2025.12.17
|
추천 0
|
조회 8
|
biolove2 | 2025.12.17 | 0 | 8 |
| 153 |
AWS EC2 (Elastic Compute Cloud) 개념, 구성요소, 핵심 특징, 요금 모델, EC2 vs 다른 서비스
biolove2
|
2025.12.17
|
추천 0
|
조회 8
|
biolove2 | 2025.12.17 | 0 | 8 |
| 152 |
VM (가상 머신, Virtual Machine) 핵심 개념 -가상화(Virtualization), 구성 요소, 장점, 주요 서비스
biolove2
|
2025.12.17
|
추천 0
|
조회 8
|
biolove2 | 2025.12.17 | 0 | 8 |
| 151 |
구글 클라우드 플랫폼(GCP) 용어를 쉽게 이해하고 오래 기억할 수 있는 효과적인 학습 전략
biolove2
|
2025.12.17
|
추천 0
|
조회 6
|
biolove2 | 2025.12.17 | 0 | 6 |
| 150 |
IaaS, PaaS, SaaS, CaaS 비교(비유)설명, 서비스형태 예시
biolove2
|
2025.12.17
|
추천 0
|
조회 8
|
biolove2 | 2025.12.17 | 0 | 8 |
| 149 |
클러스터 컨트롤 플레인 (Cluster Control Plane)의 개념 및 역할, 4가지 핵심 구성 요소, 고가용성
biolove2
|
2025.12.17
|
추천 0
|
조회 6
|
biolove2 | 2025.12.17 | 0 | 6 |
| 148 |
워크로드 (Workload) 정의 및 중요성, 주요 유형, 클라우드 환경에서 장점
biolove2
|
2025.12.17
|
추천 0
|
조회 8
|
biolove2 | 2025.12.17 | 0 | 8 |
| 147 |
RAG 시스템의 현재 시장 단계, Vertex AI 인력 희소성
biolove2
|
2025.12.17
|
추천 0
|
조회 10
|
biolove2 | 2025.12.17 | 0 | 10 |
| 146 |
Google Cloud 기반 RAG 시스템 업종별 적용 사례
biolove2
|
2025.12.17
|
추천 0
|
조회 8
|
biolove2 | 2025.12.17 | 0 | 8 |
| 145 |
Geolocation API (지리적 위치 API) 개념 및 핵심, 주요 기능 및 메서드, 반환되는 위치 정보 객체 (Position), 활용 사례
biolove2
|
2025.12.16
|
추천 0
|
조회 8
|
biolove2 | 2025.12.16 | 0 | 8 |
| 144 |
Google Cloud CLI (gcloud CLI) 상세 설명, GUI vs CLI, 주요 구성 요소, 주요 명령어
biolove2
|
2025.12.16
|
추천 0
|
조회 11
|
biolove2 | 2025.12.16 | 0 | 11 |
| 143 |
Google Cloud Bigtable 상세 설명, 모델 (구조), 용도, RDBMS와의 차이
biolove2
|
2025.12.16
|
추천 0
|
조회 9
|
biolove2 | 2025.12.16 | 0 | 9 |
| 142 |
인스턴스(Instance), 클러스터(Cluster), 노드(Node) - 개념 정리, 관계도 (구조)
biolove2
|
2025.12.16
|
추천 0
|
조회 10
|
biolove2 | 2025.12.16 | 0 | 10 |
| 141 |
MCP(Model Context Protocol) 상세 설명, 등장한 배경, 작동 구조, 장점, 활용 예시
biolove2
|
2025.12.14
|
추천 0
|
조회 10
|
biolove2 | 2025.12.14 | 0 | 10 |