본문 바로가기

생성형 AI4

Langchain 1 - preface, pdf.ai (Eng) pdf.ai processes a multi-page PDF, and when a user inputs a question, it provides an answer related to that question.  How does this process work? First, let's consider dragging and copying all the text from the PDF, appending the user's question at the end.Since only alimited amount of text can be input into GPT, this is not a good idea. Additionally, inputting a large amount of text eventually.. 2024. 7. 8.
Langchain - preface, pdf.ai (한) pdf.ai는 수십장에 달하는 pdf를 입력하고, 유저의 질문을 입력하면, 유저의 질문에 대한 대답을 해준다.  이 과정은 어떻게 이루어 질까? 먼저 pdf의 텍스트를 전부 긁고, 그 아래에 유저의 질문을 덧붙이는 것을 생각해보자.아마 제한된 텍스트만을 gpt에 입력 가능하기에, 이는 좋은 아이디어가 아니다.그리고 많은 텍스트 입력은 결국, 비용 증가로 이어지게 된다. 다른 방법으론,유저가 pdf를 입력한다면, 모든 텍스트를 추출하고, 이 텍스트를 단위로 나누어서,해당 단위들에 대한 요약을 각각 저장한후, 여기에 유저의 질문을 덧붙이는 방법이 있다.이러한 텍스트 단위는 , 엠베딩 생성 알고리즘에 따라, 1536개의 벡터(실수 집합)으로 변환되고, 특수한 데이터 베이스에 저장이 된다. 이렇게 저장된 벡터를.. 2024. 7. 8.
RAG란 무엇인가?(1) RAG란 무엇인가? LLM은 현시점 우리 어디에나 존재하고 있다. 어느 순간에는 정말 놀랄만큼 맞는 답을 내놓기도 하고, 때로는 전혀 다른 답을 내놓기도 한다. RAG라는 기술은 생성형AI가 좀 더 정확하고 최신의 정보를 가져올 수 있도록 돕는다. 할루시네이션이나, 거짓 정보들은 비단 LLM만 저지르는 실수는 아니다. 인간들도 신뢰성 없는 구식의 정보를 가지고. 종종 할루시 네이션이나 거짓 정보를 내놓기도 한다. LLM또한 pre trained 되는 과정속에서 이러한 문제에 빠지게 된다. 이를 해결하기 위해서는 대답하기 이전에 인터넷과 같은 개방형이나, 폐쇄 형식의 데이터 베이스. 즉 콘텐츠 저장소에 관련 정보를 검색하도록 지시함으로써 이러한 문제를 해결할 수 있다. 이렇게 데이터 검색을 통합함으로써 L.. 2024. 4. 18.
생성형 AI 시대에서 어떻게 살아남고 어떻게 성장할 것인가? 명령어를 주고 실행시키는 전통적인 컴퓨터 시대와는 다르게, GPT는 사고를 할 수 있고, 심지어 창의적 능력까지 갖추고 있는 것으로 보인다. 우리는 GPT의 시대에 살고 있다. 이 거대한 뇌는, 가상의 공간에 떠다니며, 우리는 방대한 분야에 대한 지식을 물을 수 있다. 아직 이 모델이 한계가 있다는 이야기들도 많이 나오고 있지만(할루시네이션과 보거스 인포), 사실 가장 중요한 것은 우리가 얼마나 더 상상력 있게, 모델과 소통하는지가 될 것이다. AI는 이전부터 머신러닝과 딥러닝의 형태로 존재해 왔다. GPT란 무엇이 어떻게 다른가? Genarative GPT라는 것은 그저 존재하는 데이터를 찾거나, 분류해주는 것을 넘어, 새로운 오리지널 컨텐츠를 생성해준다. Pre trained LLM은 마치 뉴런과 뇌.. 2024. 4. 18.