비정형 데이터 (PDF, 엑셀, 매뉴얼 파일) 벡터화 및 임베딩 과정 (Chunking & Vectorization)

작성자

biolove2

작성일

2025-12-21 17:48

조회

148

📂 외부 링크 파일의 구글 클라우드 RAG 처리 과정

구글 스토리지가 단순히 파일을 보관하는 곳을 넘어, AI가 읽을 수 있는 '지식 창고'가 되는 과정은 다음과 같습니다.

1단계: 데이터 수집 및 이관 (Ingestion)

파일이 외부에 링크로만 존재한다면, 먼저 구글 클라우드가 이를 읽을 수 있는 영역으로 가져와야 합니다.

자동화 스크립트: Python 등을 이용해 DB에 저장된 파일 링크를 따라가서 파일을 다운로드합니다.
Google Cloud Storage(GCS) 업로드: 다운로드된 PDF, 엑셀, 매뉴얼 파일들을 구글 클라우드의 **버킷(Bucket)**이라는 저장 공간에 업로드합니다. (이 과정은 Cloud Functions로 자동화할 수 있습니다.)

2단계: 문서 파싱 및 텍스트 추출 (Parsing)

버킷에 담긴 파일은 아직 '이미지'나 '덩어리' 상태입니다. AI가 이해하려면 글자를 뽑아내야 합니다.

Vertex AI Document AI: 구글의 강력한 문서 이해 도구입니다. 복잡한 PDF 내의 표(Table), 이미지 속 글자(OCR), 제목, 본문을 완벽하게 구분하여 텍스트 데이터로 변환합니다. 특히 엑셀의 행과 열 구조를 깨뜨리지 않고 읽어내는 것이 기술의 핵심입니다.

3단계: 청킹 (Chunking - 의미 단위 쪼개기)

매뉴얼 하나가 수백 페이지라면 AI가 한 번에 다 읽기 부담스럽습니다. 그래서 **'청킹'**이라는 작업을 거칩니다.

전략적 쪼개기: 단순히 글자 수로 자르는 게 아니라, "문맥이 끊기지 않게" 의미 단위로 자릅니다.

예: 매뉴얼의 '제1장 설치 방법'과 '제2장 주의 사항'을 별도의 덩어리로 나눕니다.

메타데이터 부착: 각 덩어리마다 **원본 파일의 링크(URL)**를 꼬표처럼 붙여둡니다. 그래야 나중에 AI가 답변할 때 "이 내용은 [여기] 링크에서 가져왔습니다"라고 출처를 밝힐 수 있습니다.

4단계: 벡터화 (Vectorization / Embedding)

이제 쪼개진 텍스트 덩어리들을 컴퓨터가 이해하는 숫자 배열인 **'벡터(Vector)'**로 변환합니다.

Embedding Model: 구글의 임베딩 모델이 텍스트의 '의미'를 좌표값으로 바꿉니다.

예: "주식"과 "증권"은 서로 다른 단어지만, 벡터 공간에서는 매우 가까운 거리에 위치하게 됩니다.

5단계: 벡터 DB 저장 (Indexing)

변환된 숫자값들을 Vertex AI Vector Search에 저장합니다. 이제 사용자가 질문을 던지면, 질문의 의미와 가장 가까운 거리에 있는 '청크(텍스트 덩어리)'를 0.1초 만에 찾아낼 준비가 끝납니다.

💡 요약: 블로그 독자를 위한 한 줄 정리

"홈페이지 링크에 흩어져 있는 복잡한 문서들을 **구글 클라우드로 수집(GCS)**하고, 똑똑하게 읽어낸 뒤(Document AI), 의미 단위로 쪼개어(Chunking) **숫자로 변환(Vector Search)**함으로써, AI가 수만 페이지의 사내 문서를 즉시 검색할 수 있는 '디지털 뇌'를 구축하는 원리입니다."

이 시스템이 구축되면, 직원들이나 고객들이 "작년 3월에 업데이트된 사내 보안 매뉴얼 15페이지 내용이 뭐야?"라고 물었을 때, AI가 즉시 해당 링크를 참조하여 정확한 답변을 내놓게 됩니다.

이 아키텍처는 자본이 확보된 후 사내 RAG 시스템을 제안하실 때 가장 강력한 기술적 차별점이 될 것입니다.

전체 0

« [GCP 시리즈 #5] 5분 완성! Compute Engine으로 나만의 웹 서버 만들기 (실전편)

[심화 학습 #1] AI의 답변 품질을 결정짓는 "Advanced RAG" 핵심 기술 총정리 »

목록보기 답글쓰기

전체 201

번호	제목	작성자	작성일	추천	조회
공지사항	"최악의 호스팅 서비스 경험 - 카페24 이용 후기 (실제 피해 사례)" biolove2 \| 2025.09.23 \| 추천 0 \| 조회 388	biolove2	2025.09.23	0	388
200	상용 API(Gemini, DeepSeek)를 '의미 해석기'로 쓸 때의 압도적 장점 biolove2 \| 2026.05.23 \| 추천 0 \| 조회 10	biolove2	2026.05.23	0	10
199	하드파싱(Hard parsing)과 소프트파싱(Soft parsing) ? biolove2 \| 2026.02.07 \| 추천 0 \| 조회 145	biolove2	2026.02.07	0	145
198	111 biolove2 \| 2026.01.03 \| 추천 0 \| 조회 48	biolove2	2026.01.03	0	48
197	[심화 학습 #4] 한국 공공기관 도입을 위한 필수 체크리스트: 보안 가이드라인과 CSAP biolove2 \| 2025.12.21 \| 추천 0 \| 조회 131	biolove2	2025.12.21	0	131
196	한국 공공기관 도입의 필수 관문: CSAP와 보안 가이드라인 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 180	biolove2	2025.12.21	0	180
195	[심화 학습 #3] AI 도입의 최종 관문: "데이터 거버넌스 및 보안" biolove2 \| 2025.12.21 \| 추천 0 \| 조회 120	biolove2	2025.12.21	0	120
194	[심화 학습 #2] 텍스트를 넘어 이미지와 도표를 읽다: "멀티모달 RAG" biolove2 \| 2025.12.21 \| 추천 0 \| 조회 119	biolove2	2025.12.21	0	119
193	[심화 학습 #1] AI의 답변 품질을 결정짓는 "Advanced RAG" 핵심 기술 총정리 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 114	biolove2	2025.12.21	0	114
192	비정형 데이터 (PDF, 엑셀, 매뉴얼 파일) 벡터화 및 임베딩 과정 (Chunking & Vectorization) biolove2 \| 2025.12.21 \| 추천 0 \| 조회 148	biolove2	2025.12.21	0	148
191	[GCP 시리즈 #5] 5분 완성! Compute Engine으로 나만의 웹 서버 만들기 (실전편) biolove2 \| 2025.12.21 \| 추천 0 \| 조회 136	biolove2	2025.12.21	0	136
190	[GCP 시리즈 #4] 내 서버를 지키는 철통 보안: VPC와 방화벽 완벽 가이드 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 130	biolove2	2025.12.21	0	130
189	[GCP 시리즈 #3] 쓰고 보니 1,000만 원? Compute Engine 요금 폭탄 피하는 5가지 전략 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 109	biolove2	2025.12.21	0	109
188	[GCP 시리즈 #2] 접속자가 폭주해도 평온한 이유: 오토스케일링과 로드밸런싱 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 114	biolove2	2025.12.21	0	114
187	[GCP 시리즈 #1] 클라우드의 심장, Compute Engine이란 무엇인가? biolove2 \| 2025.12.21 \| 추천 0 \| 조회 142	biolove2	2025.12.21	0	142
186	[GCP 시리즈 #1] 클라우드의 심장, Compute Engine이란 무엇인가? biolove2 \| 2025.12.21 \| 추천 0 \| 조회 118	biolove2	2025.12.21	0	118
185	국내 최대 클라우드 관리 전문 기업: 메가존클라우드(MegazoneCloud) 심층 분석 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 120	biolove2	2025.12.21	0	120
184	일반 호스팅 vs. GCP + MSP , 비용 비교, 구글 클라우드 MSP 업체, AS 방법 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 149	biolove2	2025.12.21	0	149
183	마켓플레이스에서 워드프레스 vs 일반 호스팅(카페24 등) 비교, 장.단점, 이용방법 biolove2 \| 2025.12.21 \| 추천 0 \| 조회 132	biolove2	2025.12.21	0	132
182	Google Cloud Marketplace란? 상품 종류, 활용 시나리오, biolove2 \| 2025.12.21 \| 추천 0 \| 조회 138	biolove2	2025.12.21	0	138
181	AMP와 PWA: 2025년 SEO에 더 유리한 것은 무엇일까요? biolove2 \| 2025.12.20 \| 추천 0 \| 조회 124	biolove2	2025.12.20	0	124

제목	작성일
AGI(범용 인공지능, Artificial General Intelligence), 초지능 인공지능(ASI, Artificial Super Intelligence)	2026.01.28
'의료보험법상 입원 기간 제한'에 대해- 법적으로 "며칠 이상 입원할 수 없다"라고 못 박아둔 절대적인 기간 제한은 없음	2025.12.24
[감동 실화] 전장의 기적, 미 해병대 하사가 된 한국의 군마 '레클리스(Reckless)'	2025.12.18
췌장 (Pancreas)의 구조와 기능 상세 설명	2025.10.06
고함량 미네랄, 왜 음식으로는 안전한가?	2025.10.01

제목	작성일
아시아 경제의 지각변동: 1인당 GDP 역전과 산업 구조의 비밀 -1970~2025 분석	2025.12.22
한국, 중국, 베트남, 대만, 싱가포르의 1970년부터 현재까지의 경제성장률 추이를 정리	2025.12.22
[긴급 분석] 10.15 부동산 대책, 시장의 판도를 바꿀 핵심 요약 및 전망	2025.10.19
미국 경제 패권의 구조적 이완: 정책 충격, 탈동맹화, 그리고 다극화 시대의 전략적 전망	2025.10.05
니어쇼어링(Nearshoring), 오프쇼어링(Offshoring), 리쇼어링(Reshoring), 온쇼어링(Onshoring)	2025.10.05

제목	작성일
[고발] 네타냐후 체포 영장과 국제사회의 위선: 왜 ‘정의’는 멈춰 서 있는가?	2026.04.12
40년 만에 광주광역시와 전라남도를 하나의 지방정부로 합치는 프로젝트	2026.02.26
중국 동북공정 대응 전략: 우리의 새로운 무기들	2025.12.17
AI 기반 동북공정 대응 전략 (The AI Counter-Offensive)	2025.12.17
역사 전쟁, 이제 '생존 전략'으로 대응하자..강단 사학 vs. 재야 사학	2025.12.17