챗봇을 개발할때 Google Cloud Storage에 저장된 비정형 데이터 저장 및 활용 기술 받는 방법

작성자

biolove2

작성일

2025-12-05 12:48

조회

121

Google Cloud Storage(GCS)에서 비정형 데이터를 저장하고 이를 Vertex AI 기반 챗봇(에이전트) 개발에 활용하는 방식은 텍스트 데이터와는 다르게 접근해야 합니다. 단순 텍스트 파일을 JSON으로 벡터화하여 저장하는 것은 RAG의 기본적인 접근 방식입니다.

하지만 문서, PDF, 이미지(PNG, JPG) 등의 비정형 데이터를 다룰 때는, 파일을 그대로 벡터화하는 것이 아니라 **파일에서 필요한 정보를 추출(Extraction)**하여 벡터화합니다.

비정형 데이터 저장 및 활용 기술

Vertex AI Agent Builder 환경에서 비정형 데이터를 저장하고 챗봇에 활용하는 주요 단계와 기술은 다음과 같습니다.

1. Google Cloud Storage에 원본 파일 저장

저장 방식: PDF, PNG, JPG, Word 문서 등 원본 파일 그대로 GCS 버킷에 저장합니다. GCS는 대용량 비정형 데이터를 안정적으로 보관하는 데 최적화되어 있습니다.
목적: 이는 LLM이 처리할 수 있는 형태로 변환하기 위한 '원본 데이터 레이크' 역할을 합니다.

2. 정보 추출 및 변환 (Extraction & Conversion)

GCS에 저장된 파일은 LLM이 바로 이해할 수 없으므로, Vertex AI의 다양한 서비스를 이용하여 LLM이 이해할 수 있는 형태(텍스트 또는 임베딩)로 변환해야 합니다.

파일 유형	추출 기술 (Vertex AI/Google Cloud)	추출 결과
PDF, Word, Docx	Document AI (DocAI)	문서의 텍스트, 표 구조, 레이아웃 정보가 추출된 정형화된 JSON 또는 TXT 파일
PNG, JPG (이미지)	Vertex AI Vision (멀티모달 LLM)	이미지 내의 OCR(광학 문자 인식) 텍스트 및 이미지 설명 캡션
동영상, 음성 파일	Speech-to-Text API 또는 Vertex AI Video Intelligence	타임스탬프가 포함된 텍스트 스크립트

3. 추출된 텍스트의 벡터화 및 저장

추출된 텍스트는 RAG 시스템에서 활용할 수 있도록 벡터로 변환되어 저장됩니다.

청크 분할 (Chunking): 추출된 텍스트는 의미 단위로 나누어집니다. (예: 500 토큰 단위)
임베딩 (Embedding): Vertex AI의 텍스트 임베딩 모델을 사용하여 각 청크를 고차원 벡터로 변환합니다.
저장소: 벡터화된 데이터는 다음과 같은 곳에 저장됩니다.

Vertex AI Vector Search (권장): Google Cloud에서 제공하는 관리형 벡터 데이터베이스로, 고성능의 유사성 검색에 최적화되어 있습니다.

Google Cloud Storage (GCS): 일부 RAG 구현 방식에서는 벡터 데이터 자체를 GCS에 JSON, CSV 또는 Parquet 파일 형태로 저장하고, 필요할 때 로드하여 사용하기도 합니다.

4. Vertex AI Agent Builder와의 연동

Agent Builder는 이 모든 과정을 **'데이터 스토어(Data Store)'**라는 개념으로 통합하여 처리합니다.

데이터 스토어 연결: Agent Builder에서 GCS 버킷을 데이터 스토어로 지정합니다.
자동 처리: Agent Builder는 GCS에 새로운 문서가 업로드되면, Document AI 등의 내부 파이프라인을 자동으로 트리거하여 텍스트를 추출하고, 이를 벡터화하여 Vector Search에 자동으로 적재하는 과정을 관리합니다.
활용: 챗봇이 질문을 받으면, Agent Builder는 Vector Search에서 관련 벡터를 검색하여 Gemini 모델에 전달함으로써 비정형 데이터 기반의 정확한 답변을 생성하게 됩니다.

결론적으로, 비정형 데이터는 GCS에 원본 파일로 저장되지만, 챗봇이 활용하기 위해서는 Document AI나 멀티모달 LLM을 통해 텍스트로 추출된 후에야 비로소 벡터화되어 Vector Search에 저장됩니다.

GCS 원본 파일을 제거하면 안 되는 이유

1. RAG 시스템의 데이터베이스 업데이트 및 재구축의 필요성

RAG 시스템은 한 번 구축되었다고 끝나는 것이 아닙니다. 기업의 정책, 재판 기록 등 데이터는 지속적으로 업데이트되며, 때로는 시스템을 완전히 재구축해야 하는 경우가 발생합니다.

데이터 업데이트 및 증분 처리: 새로운 문서가 추가되거나 기존 문서가 수정되면, RAG 시스템은 해당 원본 파일을 다시 읽어와서 새로운 임베딩을 생성하고 Vector DB에 **증분 업데이트(Incremental Update)**를 해야 합니다.
모델 교체 및 재임베딩: 나중에 더 성능이 좋은 새로운 임베딩 모델이 출시되거나, Vector DB의 알고리즘을 변경해야 할 수 있습니다. 이때, Vector DB의 모든 벡터는 **새로운 모델을 사용하여 원본 파일로부터 다시 생성(Re-embedding)**되어야 합니다. 원본 파일이 없으면 이 재구축 작업 자체가 불가능해집니다.

2. LLM의 정확성 검증 (Tracing & Audit)

법률 기록과 같이 민감하고 중요한 데이터를 다룰 때는, LLM이 생성한 답변이 어떤 원본 문서를 근거로 했는지 추적하고 확인하는 것이 필수적입니다.

원본 출처 연결: RAG 시스템은 일반적으로 벡터 검색 시 **원본 파일의 메타데이터(GCS 경로, 파일명)**를 함께 저장합니다. 최종 답변에 근거 문서를 표시하려면 GCS의 원본 파일 위치가 필요합니다.
감사 및 규정 준수 (Compliance): 만약 챗봇이 잘못된 정보를 제공했을 경우, 어떤 원본 파일 때문에 오류가 발생했는지 **감사(Audit)**를 하려면 GCS의 원본 파일 기록이 반드시 필요합니다.

3. 멀티모달 기능의 지속적 활용

이미지(JPG, PNG)나 PDF 원본 파일은 다음과 같은 이유로도 필요합니다.

원문 확인 링크: 사용자에게 답변 근거와 함께 원본 문서의 링크를 제공할 때 GCS의 원본 파일 URL이 사용됩니다.
미래 기술 대비: 나중에 챗봇에 시각적인 Q&A 기능을 추가하여 사용자에게 원본 PDF의 특정 페이지를 보여주거나 이미지의 일부분을 강조하여 보여주는 기능을 개발할 때 원본 파일이 필요합니다.

데이터 관리 권장 사항

따라서, GCS의 원본 파일은 제거하는 대신, 보안과 비용 효율성을 높이는 방향으로 관리해야 합니다.

보안 강화: GCS 버킷에 대한 접근 권한(IAM)을 최소한의 서비스 계정으로 제한하고, 외부 접근을 엄격히 차단해야 합니다.
비용 최적화: 자주 접근하지 않는 오래된 원본 파일은 GCS의 **저비용 스토리지 클래스(Nearline 또는 Coldline)**로 전환하여 저장 비용을 크게 절감할 수 있습니다.

전체 0

« Vertex AI기반으로 만든 챗봇에서 단순 텍스트 이외애 도표, 사진으로 출력시킬 수 있는가?

텐서플로 (TensorFlow) 주요 개념 및 특징, 주요 기능 및 구성 요소, 주요 활용 분야 »

목록보기 답글쓰기

전체 200

번호	제목	작성자	작성일	추천	조회
공지사항	"최악의 호스팅 서비스 경험 - 카페24 이용 후기 (실제 피해 사례)" biolove2 \| 2025.09.23 \| 추천 0 \| 조회 322	biolove2	2025.09.23	0	322
199	하드파싱(Hard parsing)과 소프트파싱(Soft parsing) ? biolove2 \| 2026.02.07 \| 추천 0 \| 조회 88	biolove2	2026.02.07	0	88
198	111 biolove2 \| 2026.01.03 \| 추천 0 \| 조회 40	biolove2	2026.01.03	0	40
197	[심화 학습 #4] 한국 공공기관 도입을 위한 필수 체크리스트: 보안 가이드라인과 CSAP biolove2 \| 2025.12.21 \| 추천 0 \| 조회 105	biolove2	2025.12.21	0	105
196	한국 공공기관 도입의 필수 관문: CSAP와 보안 가이드라인 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 118	biolove2	2025.12.21	0	118
195	[심화 학습 #3] AI 도입의 최종 관문: "데이터 거버넌스 및 보안" biolove2 \| 2025.12.21 \| 추천 0 \| 조회 95	biolove2	2025.12.21	0	95
194	[심화 학습 #2] 텍스트를 넘어 이미지와 도표를 읽다: "멀티모달 RAG" biolove2 \| 2025.12.21 \| 추천 0 \| 조회 94	biolove2	2025.12.21	0	94
193	[심화 학습 #1] AI의 답변 품질을 결정짓는 "Advanced RAG" 핵심 기술 총정리 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 90	biolove2	2025.12.21	0	90
192	비정형 데이터 (PDF, 엑셀, 매뉴얼 파일) 벡터화 및 임베딩 과정 (Chunking & Vectorization) biolove2 \| 2025.12.21 \| 추천 0 \| 조회 117	biolove2	2025.12.21	0	117
191	[GCP 시리즈 #5] 5분 완성! Compute Engine으로 나만의 웹 서버 만들기 (실전편) biolove2 \| 2025.12.21 \| 추천 0 \| 조회 100	biolove2	2025.12.21	0	100
190	[GCP 시리즈 #4] 내 서버를 지키는 철통 보안: VPC와 방화벽 완벽 가이드 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 97	biolove2	2025.12.21	0	97
189	[GCP 시리즈 #3] 쓰고 보니 1,000만 원? Compute Engine 요금 폭탄 피하는 5가지 전략 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 87	biolove2	2025.12.21	0	87
188	[GCP 시리즈 #2] 접속자가 폭주해도 평온한 이유: 오토스케일링과 로드밸런싱 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 85	biolove2	2025.12.21	0	85
187	[GCP 시리즈 #1] 클라우드의 심장, Compute Engine이란 무엇인가? biolove2 \| 2025.12.21 \| 추천 0 \| 조회 91	biolove2	2025.12.21	0	91
186	[GCP 시리즈 #1] 클라우드의 심장, Compute Engine이란 무엇인가? biolove2 \| 2025.12.21 \| 추천 0 \| 조회 93	biolove2	2025.12.21	0	93
185	국내 최대 클라우드 관리 전문 기업: 메가존클라우드(MegazoneCloud) 심층 분석 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 91	biolove2	2025.12.21	0	91
184	일반 호스팅 vs. GCP + MSP , 비용 비교, 구글 클라우드 MSP 업체, AS 방법 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 94	biolove2	2025.12.21	0	94
183	마켓플레이스에서 워드프레스 vs 일반 호스팅(카페24 등) 비교, 장.단점, 이용방법 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 106	biolove2	2025.12.21	0	106
182	Google Cloud Marketplace란? 상품 종류, 활용 시나리오, biolove2 \| 2025.12.21 \| 추천 0 \| 조회 98	biolove2	2025.12.21	0	98
181	AMP와 PWA: 2025년 SEO에 더 유리한 것은 무엇일까요? biolove2 \| 2025.12.20 \| 추천 0 \| 조회 100	biolove2	2025.12.20	0	100
180	피지컬 AI의 감각 기관: 데이터 수집 수단 (Sensor Taxonomy) biolove2 \| 2025.12.19 \| 추천 0 \| 조회 107	biolove2	2025.12.19	0	107

제목	작성일
AGI(범용 인공지능, Artificial General Intelligence), 초지능 인공지능(ASI, Artificial Super Intelligence)	2026.01.28
'의료보험법상 입원 기간 제한'에 대해- 법적으로 "며칠 이상 입원할 수 없다"라고 못 박아둔 절대적인 기간 제한은 없음	2025.12.24
[감동 실화] 전장의 기적, 미 해병대 하사가 된 한국의 군마 '레클리스(Reckless)'	2025.12.18
췌장 (Pancreas)의 구조와 기능 상세 설명	2025.10.06
고함량 미네랄, 왜 음식으로는 안전한가?	2025.10.01

제목	작성일
아시아 경제의 지각변동: 1인당 GDP 역전과 산업 구조의 비밀 -1970~2025 분석	2025.12.22
한국, 중국, 베트남, 대만, 싱가포르의 1970년부터 현재까지의 경제성장률 추이를 정리	2025.12.22
[긴급 분석] 10.15 부동산 대책, 시장의 판도를 바꿀 핵심 요약 및 전망	2025.10.19
미국 경제 패권의 구조적 이완: 정책 충격, 탈동맹화, 그리고 다극화 시대의 전략적 전망	2025.10.05
니어쇼어링(Nearshoring), 오프쇼어링(Offshoring), 리쇼어링(Reshoring), 온쇼어링(Onshoring)	2025.10.05

제목	작성일
40년 만에 광주광역시와 전라남도를 하나의 지방정부로 합치는 프로젝트	2026.02.26
중국 동북공정 대응 전략: 우리의 새로운 무기들	2025.12.17
AI 기반 동북공정 대응 전략 (The AI Counter-Offensive)	2025.12.17
역사 전쟁, 이제 '생존 전략'으로 대응하자..강단 사학 vs. 재야 사학	2025.12.17
환단고기 논쟁 6부작 특별 보고서 - 잃어버린 고대사를 찾아서	2025.12.16