Recherche vectorielle (RAG) — la nouvelle interne de votre site
Bases vectorielles + LLM remplacent la recherche full-text classique. Implications pour l'expérience et le SEO interne.
La recherche interne d’un site est traditionnellement full-text (Algolia, Elastic). En 2026, on la remplace de plus en plus par du RAG (Retrieval-Augmented Generation) : le visiteur pose une question, un LLM répond en citant vos pages.
Pourquoi c’est différent
Full-text cherche des mots. Vectoriel cherche du sens.
- Requête utilisateur : “comment réduire ma facture d’électricité”
- Full-text : trouve les pages avec “réduire” + “facture” + “électricité”
- Vectoriel : trouve les pages sur “économies d’énergie”, “consommation”, “tarif heures creuses” — même sans les mots exacts
L’architecture en 2026
- Ingestion : PDF, articles de blog, FAQ, fiches produit → chunking sémantique (300-500 tokens)
- Embeddings : OpenAI
text-embedding-3-largeou Cohere → vecteurs 1024-3072 dim - Stockage : Pinecone, Qdrant, ou pgvector (Postgres)
- Reranker : Cohere Rerank ou BGE — score les top 50 résultats
- Génération : Claude / GPT-4o synthétise une réponse en citant les sources
Le coût vrai
- Indexation : 500 documents × 5 pages = 0.50€ une fois
- Stockage Pinecone : ~10€/mois pour 10k vecteurs
- Génération : 0.5-2 centimes par requête utilisateur
L’impact SEO
Indirect mais réel :
- Time on site augmente (utilisateurs trouvent vraiment leur réponse)
- Bounce rate baisse
- Pages vues augmentent (citations cliquables)
- Conversion : entre 1.5x et 3x sur les requêtes longues
Quand ne PAS faire de RAG
- Site de moins de 50 pages → recherche classique suffit
- Contenu très volatile (news quotidiennes) → coût d’indexation continue
- Pas de budget pour un fallback humain
Notre offre
Mise en place RAG sur-mesure (Pinecone/Qdrant/pgvector au choix), modèle Claude ou GPT, intégration sur votre stack. En parler.