과학.IT.AI

비정형 데이터 (PDF, 엑셀, 매뉴얼 파일) 벡터화 및 임베딩 과정 (Chunking & Vectorization)

작성자
biolove2
작성일
2025-12-21 17:48
조회
69

📂 외부 링크 파일의 구글 클라우드 RAG 처리 과정

구글 스토리지가 단순히 파일을 보관하는 곳을 넘어, AI가 읽을 수 있는 '지식 창고'가 되는 과정은 다음과 같습니다.

1단계: 데이터 수집 및 이관 (Ingestion)

파일이 외부에 링크로만 존재한다면, 먼저 구글 클라우드가 이를 읽을 수 있는 영역으로 가져와야 합니다.

  • 자동화 스크립트: Python 등을 이용해 DB에 저장된 파일 링크를 따라가서 파일을 다운로드합니다.
  • Google Cloud Storage(GCS) 업로드: 다운로드된 PDF, 엑셀, 매뉴얼 파일들을 구글 클라우드의 **버킷(Bucket)**이라는 저장 공간에 업로드합니다. (이 과정은 Cloud Functions로 자동화할 수 있습니다.)

2단계: 문서 파싱 및 텍스트 추출 (Parsing)

버킷에 담긴 파일은 아직 '이미지'나 '덩어리' 상태입니다. AI가 이해하려면 글자를 뽑아내야 합니다.

  • Vertex AI Document AI: 구글의 강력한 문서 이해 도구입니다. 복잡한 PDF 내의 표(Table), 이미지 속 글자(OCR), 제목, 본문을 완벽하게 구분하여 텍스트 데이터로 변환합니다. 특히 엑셀의 행과 열 구조를 깨뜨리지 않고 읽어내는 것이 기술의 핵심입니다.

3단계: 청킹 (Chunking - 의미 단위 쪼개기)

매뉴얼 하나가 수백 페이지라면 AI가 한 번에 다 읽기 부담스럽습니다. 그래서 **'청킹'**이라는 작업을 거칩니다.

  • 전략적 쪼개기: 단순히 글자 수로 자르는 게 아니라, "문맥이 끊기지 않게" 의미 단위로 자릅니다.

예: 매뉴얼의 '제1장 설치 방법'과 '제2장 주의 사항'을 별도의 덩어리로 나눕니다.


  • 메타데이터 부착: 각 덩어리마다 **원본 파일의 링크(URL)**를 꼬표처럼 붙여둡니다. 그래야 나중에 AI가 답변할 때 "이 내용은 [여기] 링크에서 가져왔습니다"라고 출처를 밝힐 수 있습니다.

4단계: 벡터화 (Vectorization / Embedding)

이제 쪼개진 텍스트 덩어리들을 컴퓨터가 이해하는 숫자 배열인 **'벡터(Vector)'**로 변환합니다.

  • Embedding Model: 구글의 임베딩 모델이 텍스트의 '의미'를 좌표값으로 바꿉니다.

예: "주식"과 "증권"은 서로 다른 단어지만, 벡터 공간에서는 매우 가까운 거리에 위치하게 됩니다.


5단계: 벡터 DB 저장 (Indexing)

변환된 숫자값들을 Vertex AI Vector Search에 저장합니다. 이제 사용자가 질문을 던지면, 질문의 의미와 가장 가까운 거리에 있는 '청크(텍스트 덩어리)'를 0.1초 만에 찾아낼 준비가 끝납니다.


💡 요약: 블로그 독자를 위한 한 줄 정리


"홈페이지 링크에 흩어져 있는 복잡한 문서들을 **구글 클라우드로 수집(GCS)**하고, 똑똑하게 읽어낸 뒤(Document AI), 의미 단위로 쪼개어(Chunking) **숫자로 변환(Vector Search)**함으로써, AI가 수만 페이지의 사내 문서를 즉시 검색할 수 있는 '디지털 뇌'를 구축하는 원리입니다."


이 시스템이 구축되면, 직원들이나 고객들이 "작년 3월에 업데이트된 사내 보안 매뉴얼 15페이지 내용이 뭐야?"라고 물었을 때, AI가 즉시 해당 링크를 참조하여 정확한 답변을 내놓게 됩니다.

이 아키텍처는 자본이 확보된 후 사내 RAG 시스템을 제안하실 때 가장 강력한 기술적 차별점이 될 것입니다.

전체 0

전체 200
번호 제목 작성자 작성일 추천 조회
공지사항
"최악의 호스팅 서비스 경험 - 카페24 이용 후기 (실제 피해 사례)"
biolove2 | 2025.09.23 | 추천 0 | 조회 235
biolove2 2025.09.23 0 235
199
하드파싱(Hard parsing)과 소프트파싱(Soft parsing) ?
biolove2 | 2026.02.07 | 추천 0 | 조회 30
biolove2 2026.02.07 0 30
198
비밀글 111
biolove2 | 2026.01.03 | 추천 0 | 조회 21
biolove2 2026.01.03 0 21
197
[심화 학습 #4] 한국 공공기관 도입을 위한 필수 체크리스트: 보안 가이드라인과 CSAP
biolove2 | 2025.12.21 | 추천 0 | 조회 72
biolove2 2025.12.21 0 72
196
한국 공공기관 도입의 필수 관문: CSAP와 보안 가이드라인
biolove2 | 2025.12.21 | 추천 0 | 조회 75
biolove2 2025.12.21 0 75
195
[심화 학습 #3] AI 도입의 최종 관문: "데이터 거버넌스 및 보안"
biolove2 | 2025.12.21 | 추천 0 | 조회 60
biolove2 2025.12.21 0 60
194
[심화 학습 #2] 텍스트를 넘어 이미지와 도표를 읽다: "멀티모달 RAG"
biolove2 | 2025.12.21 | 추천 0 | 조회 59
biolove2 2025.12.21 0 59
193
[심화 학습 #1] AI의 답변 품질을 결정짓는 "Advanced RAG" 핵심 기술 총정리
biolove2 | 2025.12.21 | 추천 0 | 조회 54
biolove2 2025.12.21 0 54
192
비정형 데이터 (PDF, 엑셀, 매뉴얼 파일) 벡터화 및 임베딩 과정 (Chunking & Vectorization)
biolove2 | 2025.12.21 | 추천 0 | 조회 69
biolove2 2025.12.21 0 69
191
[GCP 시리즈 #5] 5분 완성! Compute Engine으로 나만의 웹 서버 만들기 (실전편)
biolove2 | 2025.12.21 | 추천 0 | 조회 60
biolove2 2025.12.21 0 60
190
[GCP 시리즈 #4] 내 서버를 지키는 철통 보안: VPC와 방화벽 완벽 가이드
biolove2 | 2025.12.21 | 추천 0 | 조회 55
biolove2 2025.12.21 0 55
189
[GCP 시리즈 #3] 쓰고 보니 1,000만 원? Compute Engine 요금 폭탄 피하는 5가지 전략
biolove2 | 2025.12.21 | 추천 0 | 조회 57
biolove2 2025.12.21 0 57
188
[GCP 시리즈 #2] 접속자가 폭주해도 평온한 이유: 오토스케일링과 로드밸런싱
biolove2 | 2025.12.21 | 추천 0 | 조회 56
biolove2 2025.12.21 0 56
187
[GCP 시리즈 #1] 클라우드의 심장, Compute Engine이란 무엇인가?
biolove2 | 2025.12.21 | 추천 0 | 조회 52
biolove2 2025.12.21 0 52
186
[GCP 시리즈 #1] 클라우드의 심장, Compute Engine이란 무엇인가?
biolove2 | 2025.12.21 | 추천 0 | 조회 50
biolove2 2025.12.21 0 50
185
국내 최대 클라우드 관리 전문 기업: 메가존클라우드(MegazoneCloud)  심층 분석
biolove2 | 2025.12.21 | 추천 0 | 조회 60
biolove2 2025.12.21 0 60
184
일반 호스팅 vs. GCP + MSP , 비용 비교, 구글 클라우드 MSP 업체, AS 방법
biolove2 | 2025.12.21 | 추천 0 | 조회 57
biolove2 2025.12.21 0 57
183
마켓플레이스에서 워드프레스 vs 일반 호스팅(카페24 등) 비교, 장.단점, 이용방법
biolove2 | 2025.12.21 | 추천 0 | 조회 67
biolove2 2025.12.21 0 67
182
Google Cloud Marketplace란? 상품 종류, 활용 시나리오,
biolove2 | 2025.12.21 | 추천 0 | 조회 56
biolove2 2025.12.21 0 56
181
AMP와 PWA: 2025년 SEO에 더 유리한 것은 무엇일까요?
biolove2 | 2025.12.20 | 추천 0 | 조회 64
biolove2 2025.12.20 0 64
180
피지컬 AI의 감각 기관: 데이터 수집 수단 (Sensor Taxonomy)
biolove2 | 2025.12.19 | 추천 0 | 조회 69
biolove2 2025.12.19 0 69