Si estás creando un chatbot con RAG para tu empresa, probablemente ya te has dado cuenta: subir documentos sin más no funciona. El bot confunde temas, da respuestas incorrectas, o directamente inventa información.
La buena noticia: puedes usar la propia IA para preparar el contenido correctamente. En este artículo te damos los prompts exactos para hacerlo paso a paso.
Por qué tu chatbot RAG da respuestas incorrectas
Los sistemas RAG funcionan dividiendo tus documentos en fragmentos pequeños llamados chunks. Cuando un usuario hace una pregunta, el sistema busca los chunks más relevantes y genera una respuesta.
El problema es que:
- Los chunks pierden contexto: Un fragmento puede contener información sin indicar a qué se refiere.
- Temas similares se confunden: "Política de devoluciones" y "Política de cambios" suenan parecido.
- El contenido tiene basura: Menús, footers, código HTML que confunden al sistema.
Paso 1: Extrae todo el contenido de tu web
Lo primero es extraer todo el contenido. Modelos como Claude pueden analizar webs completas y extraer el contenido estructurado.
Analiza la web [URL] completa. Navega por todas las secciones y páginas internas. Extrae todo el contenido relevante (textos, información de servicios, datos de contacto, preguntas frecuentes, etc.). Organízalo por categorías lógicas. Ignora menús de navegación, footers y elementos repetitivos.
Paso 1.1: Si la web bloquea el acceso
Algunas webs tienen protecciones anti-bots y la IA no puede acceder directamente. No te preocupes — si no te da miedo sentirte como un auténtico hacker durante 5 minutos, hay solución.
Pídele a la IA que te genere un script que puedas ejecutar en tu terminal. Este script recorrerá todas las páginas de tu web, guardará el contenido en archivos de texto, y los comprimirá en un ZIP. Luego solo tienes que pasarle ese ZIP a la IA y continuar con el paso 2.
Suena complicado pero no lo es. Literalmente es copiar, pegar y darle a Enter. La IA te guía paso a paso.
¿Que prefieres no complicarte? En Bravos AI podemos hacer esto por ti. Aunque lo nuestro es el código, ya hemos organizado y limpiado la información para varios clientes. Simplemente, contáctanos y lo vemos.
Paso 2: Limpia el contenido
El contenido web viene con basura: código HTML residual, menús repetidos, textos duplicados.
Limpia este contenido para usarlo en un sistema RAG: 1. Elimina duplicados 2. Elimina basura HTML/CSS 3. Elimina menús de navegación y footers repetidos 4. Corrige errores de encoding 5. Elimina secciones sin valor informativo [PEGA AQUÍ TU CONTENIDO]
Paso 3: Optimiza los títulos
Este es el paso más importante. Los títulos genéricos hacen que el RAG confunda temas similares.
Revisa estos títulos y optimízalos para un sistema RAG: 1. Identifica títulos que podrían confundirse entre sí 2. Reescríbelos con palabras clave únicas 3. Hazlos descriptivos Ejemplo: - Malo: "Devoluciones" y "Cambios" - Bueno: "DEVOLVER PRODUCTO - REEMBOLSO" y "CAMBIAR TALLA O MODELO" [PEGA AQUÍ TUS TÍTULOS]
Paso 4: Añade contexto que sobreviva al chunking
Cuando el sistema divide tu documento en chunks, cada fragmento debe poder entenderse solo.
Antes de nada, investiga qué tamaño de chunks usa tu aplicación. Suele venir en la documentación o configuración. Por ejemplo, en Bravos AI usamos chunks de 800 caracteres con 150 de solapamiento. Adapta el prompt a tu caso.
Reformatea este contenido para un sistema RAG: 1. Añade el nombre de la organización al título de cada sección 2. Añade 1-2 frases de contexto al inicio 3. Añade marcadores de contexto cada ~500 caracteres [PEGA AQUÍ TU CONTENIDO]
Paso 5: Verifica los enlaces
No hay nada peor que un chatbot que da enlaces rotos.
Extrae todas las URLs de este contenido y verifícalas: 1. Lista todas las URLs encontradas 2. Comprueba si están bien formadas 3. Identifica posibles errores [PEGA AQUÍ TU CONTENIDO]
Paso 6: Configura el System Prompt
Incluso con el mejor contenido, el chatbot puede inventar información si no le dices explícitamente que no lo haga.
REGLAS IMPORTANTES: 1. Si no encuentras la información en tu base de conocimiento, di que no la tienes. NO la inventes. 2. NUNCA inventes teléfonos, direcciones, precios, horarios o nombres. 3. Cuando no estés seguro, es mejor decir "no tengo esa información".
Paso 7: Prueba con preguntas críticas
Antes de lanzar, prueba tu chatbot con dos tipos de preguntas:
- Preguntas de confusión: Pregunta por temas que podrían confundirse.
- Preguntas trampa: Pregunta algo que NO está en tu base de conocimiento.
Basándote en este contenido, genera: 1. 10 preguntas que podrían confundir al RAG 2. 5 preguntas trampa sobre información que NO está en el contenido [PEGA AQUÍ TU CONTENIDO]
Checklist final
- Contenido extraído completamente
- Basura y duplicados eliminados
- Títulos diferenciados con palabras clave únicas
- Contexto introductorio en cada sección
- Marcadores de contexto cada ~500 caracteres
- Enlaces verificados
- System prompt con reglas anti-invención
- Pruebas pasadas (confusión + trampa)
Conclusión
Preparar bien el contenido es la diferencia entre un chatbot que frustra a tus clientes y uno que realmente les ayuda. Sí, lleva tiempo hacerlo bien. Pero con los prompts de esta guía, puedes usar la propia IA para hacer el trabajo pesado.
Si después de seguir todos estos pasos tu chatbot sigue dando respuestas incorrectas o inventando información, el problema probablemente no es tu contenido — es cómo el sistema busca y recupera la información. Ahí es donde entra la tecnología RAG bien implementada, y es exactamente lo que hemos construido en Bravos AI.
