Si estás creando un chatbot con RAG para tu empresa, probablemente ya te has dado cuenta: subir documentos sin más no funciona. El bot confunde temas, da respuestas incorrectas, o directamente inventa información.

La buena noticia: puedes usar la propia IA para preparar el contenido correctamente. En este artículo te damos los prompts exactos para hacerlo paso a paso.

Por qué tu chatbot RAG da respuestas incorrectas

Los sistemas RAG funcionan dividiendo tus documentos en fragmentos pequeños llamados chunks. Cuando un usuario hace una pregunta, el sistema busca los chunks más relevantes y genera una respuesta.

El problema es que:

Los chunks pierden contexto: Un fragmento puede contener información sin indicar a qué se refiere.
Temas similares se confunden: "Política de devoluciones" y "Política de cambios" suenan parecido.
El contenido tiene basura: Menús, footers, código HTML que confunden al sistema.

Paso 1: Extrae todo el contenido de tu web

Lo primero es extraer todo el contenido. Modelos como Claude pueden analizar webs completas y extraer el contenido estructurado.

Prompt para extraer contenido

Analiza la web [URL] completa. Navega por todas las secciones y páginas internas. Extrae todo el contenido relevante (textos, información de servicios, datos de contacto, preguntas frecuentes, etc.). Organízalo por categorías lógicas. Ignora menús de navegación, footers y elementos repetitivos.

Paso 1.1: Si la web bloquea el acceso

Algunas webs tienen protecciones anti-bots y la IA no puede acceder directamente. No te preocupes — si no te da miedo sentirte como un auténtico hacker durante 5 minutos, hay solución.

Pídele a la IA que te genere un script que puedas ejecutar en tu terminal. Este script recorrerá todas las páginas de tu web, guardará el contenido en archivos de texto, y los comprimirá en un ZIP. Luego solo tienes que pasarle ese ZIP a la IA y continuar con el paso 2.

Suena complicado pero no lo es. Literalmente es copiar, pegar y darle a Enter. La IA te guía paso a paso.

¿Que prefieres no complicarte? En Bravos AI podemos hacer esto por ti. Aunque lo nuestro es el código, ya hemos organizado y limpiado la información para varios clientes. Simplemente, contáctanos y lo vemos.

Paso 2: Limpia el contenido

El contenido web viene con basura: código HTML residual, menús repetidos, textos duplicados.

Prompt para limpiar

Limpia este contenido para usarlo en un sistema RAG:
1. Elimina duplicados
2. Elimina basura HTML/CSS
3. Elimina menús de navegación y footers repetidos
4. Corrige errores de encoding
5. Elimina secciones sin valor informativo

[PEGA AQUÍ TU CONTENIDO]

Paso 3: Optimiza los títulos

Este es el paso más importante. Los títulos genéricos hacen que el RAG confunda temas similares.

Prompt para optimizar títulos

Revisa estos títulos y optimízalos para un sistema RAG:
1. Identifica títulos que podrían confundirse entre sí
2. Reescríbelos con palabras clave únicas
3. Hazlos descriptivos

Ejemplo:
- Malo: "Devoluciones" y "Cambios"
- Bueno: "DEVOLVER PRODUCTO - REEMBOLSO" y "CAMBIAR TALLA O MODELO"

[PEGA AQUÍ TUS TÍTULOS]

Paso 4: Añade contexto que sobreviva al chunking

Cuando el sistema divide tu documento en chunks, cada fragmento debe poder entenderse solo.

Antes de nada, investiga qué tamaño de chunks usa tu aplicación. Suele venir en la documentación o configuración. Por ejemplo, en Bravos AI usamos chunks de 800 caracteres con 150 de solapamiento. Adapta el prompt a tu caso.

Prompt para añadir marcadores

Reformatea este contenido para un sistema RAG:
1. Añade el nombre de la organización al título de cada sección
2. Añade 1-2 frases de contexto al inicio
3. Añade marcadores de contexto cada ~500 caracteres

[PEGA AQUÍ TU CONTENIDO]

Paso 5: Verifica los enlaces

No hay nada peor que un chatbot que da enlaces rotos.

Prompt para verificar enlaces

Extrae todas las URLs de este contenido y verifícalas:
1. Lista todas las URLs encontradas
2. Comprueba si están bien formadas
3. Identifica posibles errores

[PEGA AQUÍ TU CONTENIDO]

Paso 6: Configura el System Prompt

Incluso con el mejor contenido, el chatbot puede inventar información si no le dices explícitamente que no lo haga.

Añade estas reglas a tu System Prompt

REGLAS IMPORTANTES:
1. Si no encuentras la información en tu base de conocimiento, di que no la tienes. NO la inventes.
2. NUNCA inventes teléfonos, direcciones, precios, horarios o nombres.
3. Cuando no estés seguro, es mejor decir "no tengo esa información".

Importante:Este paso es crítico. Sin estas reglas, tu chatbot puede inventar datos que no existen.

Paso 7: Prueba con preguntas críticas

Antes de lanzar, prueba tu chatbot con dos tipos de preguntas:

Preguntas de confusión: Pregunta por temas que podrían confundirse.
Preguntas trampa: Pregunta algo que NO está en tu base de conocimiento.

Prompt para generar preguntas de prueba

Basándote en este contenido, genera:
1. 10 preguntas que podrían confundir al RAG
2. 5 preguntas trampa sobre información que NO está en el contenido

[PEGA AQUÍ TU CONTENIDO]

Checklist final

Contenido extraído completamente
Basura y duplicados eliminados
Títulos diferenciados con palabras clave únicas
Contexto introductorio en cada sección
Marcadores de contexto cada ~500 caracteres
Enlaces verificados
System prompt con reglas anti-invención
Pruebas pasadas (confusión + trampa)

Conclusión

Preparar bien el contenido es la diferencia entre un chatbot que frustra a tus clientes y uno que realmente les ayuda. Sí, lleva tiempo hacerlo bien. Pero con los prompts de esta guía, puedes usar la propia IA para hacer el trabajo pesado.

Si después de seguir todos estos pasos tu chatbot sigue dando respuestas incorrectas o inventando información, el problema probablemente no es tu contenido — es cómo el sistema busca y recupera la información. Ahí es donde entra la tecnología RAG bien implementada, y es exactamente lo que hemos construido en Bravos AI.

¿Tu chatbot sigue fallando?

Prueba Bravos AI gratis y compara los resultados.

Probar gratis

¿Tu Chatbot Inventa Respuestas? Así Puedes Solucionarlo