Langchain - preface, pdf.ai (한)
pdf.ai는 수십장에 달하는 pdf를 입력하고, 유저의 질문을 입력하면, 유저의 질문에 대한 대답을 해준다. 이 과정은 어떻게 이루어 질까? 먼저 pdf의 텍스트를 전부 긁고, 그 아래에 유저의 질문을 덧붙이는 것을 생각해보자.아마 제한된 텍스트만을 gpt에 입력 가능하기에, 이는 좋은 아이디어가 아니다.그리고 많은 텍스트 입력은 결국, 비용 증가로 이어지게 된다. 다른 방법으론,유저가 pdf를 입력한다면, 모든 텍스트를 추출하고, 이 텍스트를 단위로 나누어서,해당 단위들에 대한 요약을 각각 저장한후, 여기에 유저의 질문을 덧붙이는 방법이 있다.이러한 텍스트 단위는 , 엠베딩 생성 알고리즘에 따라, 1536개의 벡터(실수 집합)으로 변환되고, 특수한 데이터 베이스에 저장이 된다. 이렇게 저장된 벡터를..
2024. 7. 8.