과학.IT.AI

비정형 데이터 (PDF, 엑셀, 매뉴얼 파일) 벡터화 및 임베딩 과정 (Chunking & Vectorization)

작성자
biolove2
작성일
2025-12-21 17:48
조회
12

📂 외부 링크 파일의 구글 클라우드 RAG 처리 과정

구글 스토리지가 단순히 파일을 보관하는 곳을 넘어, AI가 읽을 수 있는 '지식 창고'가 되는 과정은 다음과 같습니다.

1단계: 데이터 수집 및 이관 (Ingestion)

파일이 외부에 링크로만 존재한다면, 먼저 구글 클라우드가 이를 읽을 수 있는 영역으로 가져와야 합니다.

  • 자동화 스크립트: Python 등을 이용해 DB에 저장된 파일 링크를 따라가서 파일을 다운로드합니다.
  • Google Cloud Storage(GCS) 업로드: 다운로드된 PDF, 엑셀, 매뉴얼 파일들을 구글 클라우드의 **버킷(Bucket)**이라는 저장 공간에 업로드합니다. (이 과정은 Cloud Functions로 자동화할 수 있습니다.)

2단계: 문서 파싱 및 텍스트 추출 (Parsing)

버킷에 담긴 파일은 아직 '이미지'나 '덩어리' 상태입니다. AI가 이해하려면 글자를 뽑아내야 합니다.

  • Vertex AI Document AI: 구글의 강력한 문서 이해 도구입니다. 복잡한 PDF 내의 표(Table), 이미지 속 글자(OCR), 제목, 본문을 완벽하게 구분하여 텍스트 데이터로 변환합니다. 특히 엑셀의 행과 열 구조를 깨뜨리지 않고 읽어내는 것이 기술의 핵심입니다.

3단계: 청킹 (Chunking - 의미 단위 쪼개기)

매뉴얼 하나가 수백 페이지라면 AI가 한 번에 다 읽기 부담스럽습니다. 그래서 **'청킹'**이라는 작업을 거칩니다.

  • 전략적 쪼개기: 단순히 글자 수로 자르는 게 아니라, "문맥이 끊기지 않게" 의미 단위로 자릅니다.

예: 매뉴얼의 '제1장 설치 방법'과 '제2장 주의 사항'을 별도의 덩어리로 나눕니다.


  • 메타데이터 부착: 각 덩어리마다 **원본 파일의 링크(URL)**를 꼬표처럼 붙여둡니다. 그래야 나중에 AI가 답변할 때 "이 내용은 [여기] 링크에서 가져왔습니다"라고 출처를 밝힐 수 있습니다.

4단계: 벡터화 (Vectorization / Embedding)

이제 쪼개진 텍스트 덩어리들을 컴퓨터가 이해하는 숫자 배열인 **'벡터(Vector)'**로 변환합니다.

  • Embedding Model: 구글의 임베딩 모델이 텍스트의 '의미'를 좌표값으로 바꿉니다.

예: "주식"과 "증권"은 서로 다른 단어지만, 벡터 공간에서는 매우 가까운 거리에 위치하게 됩니다.


5단계: 벡터 DB 저장 (Indexing)

변환된 숫자값들을 Vertex AI Vector Search에 저장합니다. 이제 사용자가 질문을 던지면, 질문의 의미와 가장 가까운 거리에 있는 '청크(텍스트 덩어리)'를 0.1초 만에 찾아낼 준비가 끝납니다.


💡 요약: 블로그 독자를 위한 한 줄 정리


"홈페이지 링크에 흩어져 있는 복잡한 문서들을 **구글 클라우드로 수집(GCS)**하고, 똑똑하게 읽어낸 뒤(Document AI), 의미 단위로 쪼개어(Chunking) **숫자로 변환(Vector Search)**함으로써, AI가 수만 페이지의 사내 문서를 즉시 검색할 수 있는 '디지털 뇌'를 구축하는 원리입니다."


이 시스템이 구축되면, 직원들이나 고객들이 "작년 3월에 업데이트된 사내 보안 매뉴얼 15페이지 내용이 뭐야?"라고 물었을 때, AI가 즉시 해당 링크를 참조하여 정확한 답변을 내놓게 됩니다.

이 아키텍처는 자본이 확보된 후 사내 RAG 시스템을 제안하실 때 가장 강력한 기술적 차별점이 될 것입니다.

전체 0

전체 198
번호 제목 작성자 작성일 추천 조회
공지사항
"최악의 호스팅 서비스 경험 - 카페24 이용 후기 (실제 피해 사례)"
biolove2 | 2025.09.23 | 추천 0 | 조회 112
biolove2 2025.09.23 0 112
197
[심화 학습 #4] 한국 공공기관 도입을 위한 필수 체크리스트: 보안 가이드라인과 CSAP
biolove2 | 18:41 | 추천 0 | 조회 7
biolove2 18:41 0 7
196
한국 공공기관 도입의 필수 관문: CSAP와 보안 가이드라인
biolove2 | 18:40 | 추천 0 | 조회 7
biolove2 18:40 0 7
195
[심화 학습 #3] AI 도입의 최종 관문: "데이터 거버넌스 및 보안"
biolove2 | 18:27 | 추천 0 | 조회 9
biolove2 18:27 0 9
194
[심화 학습 #2] 텍스트를 넘어 이미지와 도표를 읽다: "멀티모달 RAG"
biolove2 | 18:14 | 추천 0 | 조회 10
biolove2 18:14 0 10
193
[심화 학습 #1] AI의 답변 품질을 결정짓는 "Advanced RAG" 핵심 기술 총정리
biolove2 | 18:03 | 추천 0 | 조회 10
biolove2 18:03 0 10
192
비정형 데이터 (PDF, 엑셀, 매뉴얼 파일) 벡터화 및 임베딩 과정 (Chunking & Vectorization)
biolove2 | 17:48 | 추천 0 | 조회 12
biolove2 17:48 0 12
191
[GCP 시리즈 #5] 5분 완성! Compute Engine으로 나만의 웹 서버 만들기 (실전편)
biolove2 | 13:32 | 추천 0 | 조회 13
biolove2 13:32 0 13
190
[GCP 시리즈 #4] 내 서버를 지키는 철통 보안: VPC와 방화벽 완벽 가이드
biolove2 | 13:21 | 추천 0 | 조회 15
biolove2 13:21 0 15
189
[GCP 시리즈 #3] 쓰고 보니 1,000만 원? Compute Engine 요금 폭탄 피하는 5가지 전략
biolove2 | 13:18 | 추천 0 | 조회 12
biolove2 13:18 0 12
188
[GCP 시리즈 #2] 접속자가 폭주해도 평온한 이유: 오토스케일링과 로드밸런싱
biolove2 | 13:11 | 추천 0 | 조회 12
biolove2 13:11 0 12
187
[GCP 시리즈 #1] 클라우드의 심장, Compute Engine이란 무엇인가?
biolove2 | 13:04 | 추천 0 | 조회 9
biolove2 13:04 0 9
186
[GCP 시리즈 #1] 클라우드의 심장, Compute Engine이란 무엇인가?
biolove2 | 12:53 | 추천 0 | 조회 10
biolove2 12:53 0 10
185
국내 최대 클라우드 관리 전문 기업: 메가존클라우드(MegazoneCloud)  심층 분석
biolove2 | 12:49 | 추천 0 | 조회 12
biolove2 12:49 0 12
184
일반 호스팅 vs. GCP + MSP , 비용 비교, 구글 클라우드 MSP 업체, AS 방법
biolove2 | 12:35 | 추천 0 | 조회 14
biolove2 12:35 0 14
183
마켓플레이스에서 워드프레스 vs 일반 호스팅(카페24 등) 비교, 장.단점, 이용방법
biolove2 | 12:19 | 추천 0 | 조회 13
biolove2 12:19 0 13
182
Google Cloud Marketplace란? 상품 종류, 활용 시나리오,
biolove2 | 11:23 | 추천 0 | 조회 12
biolove2 11:23 0 12
181
AMP와 PWA: 2025년 SEO에 더 유리한 것은 무엇일까요?
biolove2 | 2025.12.20 | 추천 0 | 조회 21
biolove2 2025.12.20 0 21
180
피지컬 AI의 감각 기관: 데이터 수집 수단 (Sensor Taxonomy)
biolove2 | 2025.12.19 | 추천 0 | 조회 23
biolove2 2025.12.19 0 23
179
시스템이 잘 돌아가는지 감시하는 '가시성(Observability), RAG 에 거버넌스와 시각화 적용
biolove2 | 2025.12.19 | 추천 0 | 조회 22
biolove2 2025.12.19 0 22
178
 [비유로 이해하기] 데이터 거버넌스와 시각화의 결합
biolove2 | 2025.12.19 | 추천 0 | 조회 20
biolove2 2025.12.19 0 20