Apify Website Content Crawler

Apify Web Sitesi İçerik Tarayıcısından veri yükleyin.

Apify, Actors adı verilen binden fazla hazır bulut aracı içeren bir uygulama mağazası sağlayan bir web kazıma ve veri çıkarma platformudur.

The Website Content Crawler Actor, web sitelerini derinlemesine tarayabilir, çerez modlarını, altbilgileri veya gezinmeyi kaldırarak HTML'lerini temizleyebilir ve ardından HTML'yi Markdown'a dönüştürebilir. Bu Markdown daha sonra semantik arama veya Alma-Artırılmış Üretim (Retrieval-Augmented Generation(RAG)) için bir vektör veritabanında saklanabilir.

Apify Website Content Crawler Düğümü

Bütün Web Sitesini Tarayın

  1. (İsteğe bağlı) Text Splitters'ı bağlayın.

  2. Apify API'yi bağlayın (Apify API belirtecinizle yeni bir kimlik bilgisi oluşturun).

  3. Tarayıcının başlayacağı yere bir veya daha fazla URL (virgülle ayırarak) girin, örneğin https://docs.aifinex.com/.

  4. Tarayıcı türünü seçin. Daha fazla bilgi için Web Sitesi İçerik Tarayıcısı belgelerine bakın.

  5. (İsteğe bağlı) Maksimum tarama derinliği ve taranacak maksimum sayfa sayısı gibi ek parametreler belirtin.

Çıktı

Web sitesi içeriğini Belge olarak yükler.

Kaynaklar

Last updated