Multiple Documents QnA

Birden fazla belgeyi doğru şekilde nasıl sorgulayacağınızı öğrenin

Son Web Scrape QnA örneğinde yalnızca 1 web sitesini ekleyip sorguluyoruz. Peki ya birden fazla web sitemiz ya da birden fazla belgemiz varsa? Bir göz atalım ve bunu nasıl başarabileceğimizi görelim.

Bu örnekte, APPLE ve TESLA'nın FORM-10K'sı olan 2 PDF üzerinde QnA gerçekleştireceğiz.

Upsert

Marketplace templates'lerinden - Conversational Retrieval QA Chain adlı örnek akışı bulun.
PDF File Loader'ı kullanacağız ve ilgili dosyaları yükleyeceğiz:

3. PDF Dosya Yükleyicinin Additional Parameters (Ek Parametreler) öğesine tıklayın ve metadata nesnesini belirtin. Örneğin, Apple FORM-10K yüklenmiş PDF Dosyası {source: apple} metadata nesnesine sahip olabilirken, Tesla FORM-10K yüklenmiş PDF Dosyası {source: tesla} nesnesine sahip olabilir. Bu, geri alma sırasında belgeleri ayırmak için yapılır.

Pinecone için kimlik bilgilerini doldurduktan sonra Upsert'e tıklayın:

Pinecone konsolunda eklenen yeni vektörleri görebileceksiniz.

Query

Verilerin Pinecone'a eklendiğini doğruladıktan sonra, artık sohbette soru sormaya başlayabiliriz!

Ancak, yanıtı döndürmek için kullanılan alınan bağlam hem APPLE hem de TESLA belgelerinin bir karışımıdır. Source Documents'dan da görebileceğiniz gibi:

Pinecone düğümünden bir metadata filtresi belirleyerek bunu düzeltebiliriz. Örneğin, yalnızca APPLE FORM-10K'dan içerik almak istiyorsak, Upsert adımında daha önce belirlediğimiz metadataya bakabilir, ardından aynısını aşağıdaki Metadata Filter'da kullanabiliriz:

Aynı soruyu tekrar soralım, şimdi alınan tüm içeriğin gerçekten APPLE FORM-10K'dan olduğunu görmeliyiz:

Her vektör veritabanı sağlayıcısının farklı filtreleme syntax biçimi vardır, ilgili vektör veritabanı belgelerini okumanızı öneririz

Ancak bununla ilgili sorun, metadata filtrelemenin bir tür “sabit kodlu” olmasıdır. İdeal olarak, LLM'nin soruya dayalı olarak hangi belgeyi alacağına karar vermesine izin vermeliyiz.

Tool Agent

Tool Agent kullanarak "hard-coded" metadata filtresi sorununu çözebiliriz.

Temsilciye toollar sağlayarak, soruya bağlı olarak hangi toolun kullanılmasının uygun olacağına karar vermesini sağlayabiliriz.

Aşağıdaki ad ve açıklama ile bir Retriever Tool oluşturun:

Açıklama

search_apple

Apple Inc (APPL) hakkındaki kullanıcı sorularını yanıtlamak için bu işlevi kullanın. Apple Inc'in (APPL) 2022 dönemine ait finansallarını açıklayan bir SEC Form 10K dosyası içerir.

Metadata filtresi {source: apple} ile Pinecone düğümüne bağlanın

Aynısını Tesla için de tekrarlayın:

Açıklama

Pinecone Metadata Filter

search_tsla

Tesla Inc (TSLA) hakkındaki kullanıcı sorularını yanıtlamak için bu işlevi kullanın. Tesla Inc'in (TSLA) 2022 dönemi için finansallarını açıklayan bir SEC Form 10K dosyası içerir.

{source: tesla}

Açık ve özlü bir açıklama belirtmek önemlidir. Bu, LLM'nin hangi aracı ne zaman kullanacağına daha iyi karar vermesini sağlar

Flow'unuz aşağıdaki gibi görünmelidir:

Şimdi, Tool Agent için genel bir talimat oluşturmamız gerekiyor. Düğümün Additional Parameters (Ek Parametreler) öğesine tıklayın ve System Message (Sistem Mesajı) öğesini belirtin. Örneğin:

You are an expert financial analyst that always answers questions with the most relevant information using the tools at your disposal.
These tools have information regarding companies that the user has expressed interest in.
Here are some guidelines that you must follow:
* For financial questions, you must use the tools to find the answer and then write a response.
* Even if it seems like your tools won't be able to answer the question, you must still use them to find the most relevant information and insights. Not using them will appear as if you are not doing your job.
* You may assume that the users financial questions are related to the documents they've selected.
* For any user message that isn't related to financial analysis, respectfully decline to respond and suggest that the user ask a relevant question.
* If your tools are unable to find an answer, you should say that you haven't found an answer but still relay any useful information the tools found.
* Dont ask clarifying questions, just return answer.

The tools at your disposal have access to the following SEC documents that the user has selected to discuss with you:
- Apple Inc (APPL) FORM 10K 2022
- Tesla Inc (TSLA) FORM 10K 2022

The current date is: 2024-01-28

Chatflow'u kaydedin ve soru sormaya başlayın!

Tesla ile takip edin:

Artık tools + agent kullanarak metadata filtrelemesini “ hard-coding ” yapmadan daha önce vektör veritabanına eklediğimiz herhangi bir belge hakkında soru sorabiliyoruz.

XML Agent'i

Bazı LLM'ler için fonksiyon çağırma özellikleri desteklenmez. Bu durumda, sağlanan araçları kullanmak amacıyla LLM'yi daha yapılandırılmış bir formatta/syntaxta sorgulamak için XML Agent'ı kullanabiliriz.

Temel komut prompt'una sahiptir:

You are a helpful assistant. Help the user answer any questions.

You have access to the following tools:

{tools}

In order to use a tool, you can use <tool></tool> and <tool_input></tool_input> tags. You will then get back a response in the form <observation></observation>
For example, if you have a tool called 'search' that could run a google search, in order to search for the weather in SF you would respond:

<tool>search</tool><tool_input>weather in SF</tool_input>
<observation>64 degrees</observation>

When you are done, respond with a final answer between <final_answer></final_answer>. For example:

<final_answer>The weather in SF is 64 degrees</final_answer>

Begin!

Previous Conversation:
{chat_history}

Question: {input}
{agent_scratchpad}

Sonuç

Conversational Retrieval QA Chain kullanımını ve birden fazla belgeyi sorgularken sınırlamasını ele aldık. Ve OpenAI Function Agent/XML Agent + Tools kullanarak sorunun üstesinden gelmeyi başardık. Şablonları aşağıda bulabilirsiniz:

JSON DOSYALARI LİNKİ!!

PreviousInteracting with API NextSQL QnA

Last updated 1 year ago

hashtagUpsert

hashtagQuery

hashtagTool Agent

hashtagXML Agent'i

hashtagSonuç

Upsert

Query

Tool Agent

XML Agent'i

Sonuç