Cuando se publica una investigación de IA con números llamativos, suele pasar una de dos cosas: o no la lee casi nadie, o todo el mundo se inventa lo que dice. PixelRAG es del segundo grupo. Los hilos virales afirman que «mata al RAG textual», que mejora la precisión un 18% con la mitad de tokens, que ya no tiene sentido entrenar embeddings de texto.
Hemos leído el trabajo entero, descargado el código y calculado costes reales con precios de mercado actuales. Lo que sigue es la explicación honesta para alguien que está evaluando si PixelRAG sirve para su chatbot empresarial: qué es, cómo funciona por dentro, qué dicen los datos reales (no los titulares), cuánto cuesta en producción y cuándo aporta de verdad. Con citas literales del propio trabajo.
Qué es PixelRAG (en cristiano)
PixelRAG es un sistema de RAG (Retrieval-Augmented Generation, la técnica que usan la mayoría de chatbots con IA para responder con tu información en vez de inventar) publicado en junio de 2026 por investigadores de UC Berkeley, Princeton, EPFL, Databricks y Renmin University. La diferencia con el RAG tradicional no está en el modelo de lenguaje, está en cómo se prepara y se recupera la información.
El RAG textual —el que usa el 99% de las plataformas de chatbot, Bravos AI incluida— hace lo siguiente: coge tus documentos (un PDF, una web, un catálogo), los trocea en fragmentos de texto, los convierte en vectores numéricos llamados embeddings y los guarda en una base de datos vectorial. Cuando un cliente pregunta algo, el sistema busca los fragmentos más parecidos a su pregunta y se los pasa al modelo de lenguaje para que responda. Funciona muy bien para texto: preguntas frecuentes, descripciones, políticas, manuales.
PixelRAG cambia el primer paso. En vez de extraer el texto de tus documentos, renderiza cada página como una imagen (una captura de pantalla, literalmente) y guarda esa imagen. Cuando un cliente pregunta, el sistema busca las imágenes más relevantes y le pasa las imágenes (no texto) a un modelo de lenguaje multimodal —uno que entiende imágenes, tipo GPT-4o o Qwen3-VL— para que las lea como las leería una persona y responda.
¿Por qué hacer eso? Porque el texto, cuando se extrae de un PDF maquetado, pierde un montón de información: las tablas se rompen, los gráficos desaparecen, los layouts dejan de tener sentido. Un PDF financiero con una tabla de ratios pasa a ser una lista de números sueltos sin contexto. Una infografía pasa a no existir. PixelRAG conserva todo eso porque trata cada página como una imagen.
Cómo funciona por dentro
El flujo completo del sistema, según el documento técnico en sus secciones 3.1 y 3.2:
- Renderizado. Cada página de cada documento se renderiza como imagen con un navegador sin interfaz gráfica (Chromium vía Playwright). Para Wikipedia entera (7 millones de artículos) tardan unos 2 días en una infraestructura con 128 núcleos, 2 TB de RAM y 8 GPUs H100.
- Troceado en piezas. Cada imagen se trocea en piezas rectangulares (los autores las llaman tiles) de 875 píxeles de ancho por 1024 de alto, sin solapamiento.
- Embedding. Cada pieza se convierte en un vector de 2048 dimensiones usando Qwen3-VL-Embedding-2B, un modelo de lenguaje-visión de 2.000 millones de parámetros con un fine-tuning propio sobre datos de capturas de pantalla.
- Indexación. Los vectores se guardan en un índice FAISS IVF. Para los 30 millones de piezas que cubren toda Wikipedia, el índice ocupa unos 120 GB y las imágenes en disco ocupan 5,6 TB.
- Búsqueda. Cuando llega una pregunta, se convierte en vector con el mismo modelo y se buscan las piezas más cercanas (por defecto las 3 mejores, según el trabajo).
- Lectura. Las piezas seleccionadas (imágenes) se pasan a un modelo multimodal final —el lector por defecto es Qwen3-VL-4B— que «lee» las imágenes y genera la respuesta.
Es una arquitectura coherente. Resuelve un problema real: el RAG textual pierde estructura visual. Y lo resuelve a escala (30 millones de piezas para Wikipedia) sin caer en multivector tipo ColPali, que sería prohibitivo en memoria a esa escala.
La pregunta no es si la arquitectura es buena. Es si el problema que resuelve es tu problema.
PixelRAG vs RAG textual: lo que cambia
La diferencia más intuitiva: ante una página de Wikipedia con una tabla, esto es lo que «ve» cada sistema antes de pasársela al modelo de lenguaje:
Madrid capital de España población.
3 223 334 habitantes área urbana.
6 751 251 área metropolitana.
Densidad 5 437 hab/km².
Coordenadas 40°25′N 3°42′O.
(la tabla se ha roto en frases sueltas sin contexto)
Madrid
| País | España |
| Población | 3,2 M |
| Área metro | 6,7 M |
| Densidad | 5.437 hab/km² |
(la tabla se conserva como imagen, el modelo multimodal la lee como una persona)
Esa es la promesa. Cuando el contenido es texto plano —una sección de preguntas frecuentes de tu clínica dental, las políticas de devolución de tu tienda, la descripción de tus servicios—, no hay diferencia. El RAG textual extrae el texto perfectamente. La promesa de PixelRAG es para contenido donde el layout aporta información: tablas, infografías, fichas técnicas, manuales con diagramas.
Esta tabla resume las diferencias técnicas reales (no las del marketing):
| Dimensión | RAG textual | PixelRAG |
|---|---|---|
| Almacenamiento | Texto plano + vectores. Algunos GB para Wikipedia. | 5,6 TB de imágenes + 120 GB de índice para Wikipedia. |
| Indexación | Minutos en CPU para corpus medianos. | ~2 días en 8× H100 para Wikipedia. |
| Tokens por consulta | ~1.700 (texto). | ~2.625 visuales (3 piezas × 875). |
| Latencia | Sub-segundo para la búsqueda. | No reportada en el documento. Procesar imágenes en el LLM es más lento. |
| Idiomas | Multilingüe (100+ con embeddings de OpenAI). | Solo inglés. Sin transferencia probada a otros idiomas. |
| Brilla en | Texto plano, preguntas frecuentes, descripciones, políticas. | Tablas, fichas con borde, layouts visuales. |
| Fracasa en | PDFs maquetados con tablas/gráficos complejos. | Listas, contenido sin estructura visual, navegación entre páginas vía enlaces. |
Los resultados reales (el +18% que no es +18%)
El titular que circula es «PixelRAG mejora la precisión un 18% sobre el RAG textual». Esa cifra aparece en el resumen del documento, sí. Pero es la mejora en la evaluación donde mejor rinde, no la mejora media. Cuando desglosas las 6 evaluaciones reales que reporta el trabajo, la cosa cambia:
Mejora real de PixelRAG sobre el mejor baseline textual
El pico de +15,5 puntos porcentuales está en EVQA (Encyclopedic Visual Question Answering), una evaluación de preguntas sobre infografías y elementos visuales de Wikipedia. Justo el sitio donde se esperaría que un sistema basado en imágenes brillara. En preguntas de texto típicas (Natural Questions), la mejora es de menos de 3 puntos. En tablas (NQ-Tables) la mejora es de 6,3 puntos, decente pero no espectacular.
Y hay otra cosa que el titular oculta. La sección 5.2 del trabajo desglosa qué tipo de evidencia recupera PixelRAG mejor en SimpleQA (tabla 2):
- Tablas: +9,1 puntos (donde de verdad brilla).
- Fichas con borde: +4,6 puntos.
- Párrafos: +7,9 puntos (sorprendentemente alto; los autores lo atribuyen a que las fichas «desplazan» párrafos relevantes del top-3 en el RAG textual).
- Listas: +0,5 puntos (esencialmente sin ganancia, dentro del margen de error).
Y el detalle más importante de todos para esta discusión: las 6 evaluaciones son sobre Wikipedia y artículos de prensa (CNN, BBC, AP). Ninguna toca catálogos de producto, preguntas frecuentes corporativas, manuales de software, descripciones de servicios, políticas legales ni nada que se parezca a lo que un chatbot empresarial real maneja. Lo dice la propia sección 5.1.
La segunda métrica que circula es «10× menos tokens». Esa cifra es real, pero también engaña fuera de contexto. Aparece en la sección 5.4 y se refiere al uso en agentes de tipo ReAct: un modelo que hace múltiples búsquedas y razona en bucle, con hasta 20 pasos por pregunta. En un chatbot empresarial típico —pregunta, búsqueda única, respuesta— esa reducción no aplica. Lo que aplica es la comparación de tokens por consulta única, y ahí PixelRAG consume más tokens (los visuales) que el RAG textual.
Cuánto cuesta de verdad
El trabajo no publica costes monetarios completos. Hemos calculado los costes reales para un chatbot empresarial típico (10.000 mensajes al mes) con precios oficiales actuales:
| Configuración | Coste por consulta | 10.000 mensajes/mes | Notas |
|---|---|---|---|
| RAG textual estándar (embedding-3-small + GPT-4.1-mini) | ~0,00092 $ | ~9,20 $ | Lo que usa el 99% de plataformas SaaS hoy. |
| PixelRAG con Qwen3-VL-4B en infraestructura propia | ~0,00015 $ de API | ~1,50 $ + GPU | Requiere mantener una GPU dedicada (200-500 $/mes adicionales). |
| PixelRAG con GPT-4o como lector (o un modelo multimodal comercial equivalente) | ~0,0066 $ | ~66 $ | 7× más caro que el RAG textual estándar. |
Y eso es solo el coste de inferencia por consulta. La indexación inicial también pesa. Para un corpus pequeño de 1.000 páginas, PixelRAG necesita ~0,55 $ en GPU para procesar las imágenes. El RAG textual con embeddings de OpenAI procesa lo mismo por unos 0,20 $. No es la diferencia más grande, pero se acumula si reindexas con frecuencia.
Y luego está el almacenamiento. Las 5,6 TB que ocupan las imágenes de Wikipedia frente a unos pocos GB que ocuparía la misma cantidad en texto. En la nube, eso son ~110 $ al mes solo de S3 estándar (a 0,023 $/GB). Para un corpus empresarial mediano (50.000 páginas de documentos internos) las cifras son más razonables, pero siempre 100 a 1.000 veces mayores que las del RAG textual equivalente.
Las limitaciones que reconocen los propios autores
El apéndice E del documento, titulado «Limitations», es una de las páginas más honestas que hemos leído últimamente en una publicación de IA. Los autores enumeran sin tapujos las cinco limitaciones serias del sistema. Tres impactan directamente a cualquier chatbot empresarial:
1. Solo funciona en inglés
«all datastores in this work are English-only [...] introducing a language bias»
— Apéndice E del trabajo de PixelRAG
Los datos de entrenamiento del fine-tuning son capturas de Wikipedia en inglés. No hay evidencia de que el sistema funcione bien en español, francés, alemán o cualquier idioma que no sea el inglés. Para un chatbot empresarial que opera en mercados hispanos o multilingües, esto es un veto directo a corto plazo.
2. Pierde los enlaces
«hyperlinks are visually rendered (e.g., as blue underlined text) but are not directly actionable; the system cannot follow a link to retrieve the target page»
— Apéndice E del trabajo de PixelRAG
El sistema ve los enlaces como dibujos azules subrayados, no como rutas a otros documentos. Si tu chatbot necesita responder cosas tipo «según la política de devoluciones (enlace)…» navegando entre páginas, no puede. Para chatbots empresariales con bases de conocimiento interconectadas (preguntas frecuentes que referencian políticas, productos que referencian fichas técnicas), esto rompe el flujo.
3. Moderación de contenido más difícil
«screenshot-based retrieval faithfully preserves whatever appears on a rendered page, including potentially harmful, misleading, or private content. Unlike text pipelines, where filtering can operate on extracted strings, pixel content is harder to moderate automatically»
— Apéndice E del trabajo de PixelRAG
En un chatbot de comercio electrónico o de atención médica, donde puede haber datos sensibles en la base de conocimiento, filtrar contenido en imágenes es operativamente más caro y menos fiable que filtrarlo en texto. Para empresas con requisitos de RGPD o HIPAA, esto añade fricción de cumplimiento.
Las otras dos limitaciones que reconocen son el sobrecoste de almacenamiento (mencionado arriba) y la decisión de usar un único vector por pieza en vez de multivector tipo ColPali, que les obliga a perder granularidad fina dentro de cada pieza.
Cuándo PixelRAG sí tiene sentido
Para que el artículo no se quede en «todo malo», vamos a los casos donde PixelRAG sí aporta algo que el RAG textual no puede dar. Son nicho, pero existen. Tres perfiles concretos:
Perfil 1: archivos históricos, museos, hemerotecas digitales
Si tu base de conocimiento son periódicos antiguos escaneados, mapas históricos, cartas manuscritas, fichas catalográficas, fotos con leyendas —contenido donde el texto plano no existe o no está disponible—, un sistema que procesa imágenes directamente es claramente superior. Aquí el RAG textual ni siquiera entra a competir: primero tendrías que pasar todo por OCR, perdiendo información de layout y de elementos no textuales. PixelRAG (o ColPali, o sistemas similares) es el camino correcto.
Perfil 2: documentación técnica con muchos diagramas y esquemas
Manuales industriales, fichas de seguridad, esquemas eléctricos, planos de despiece, documentación de ingeniería con muchos gráficos donde la información está en los dibujos, no en el texto. Si tu chatbot tiene que responder «dónde está el regulador de presión en este modelo» y la respuesta está en un esquema, PixelRAG puede aportar. Pero ojo: el modelo multimodal final tiene que entender el dominio (esquemas eléctricos no son lo mismo que infografías de Wikipedia). En la mayoría de casos vas a necesitar fine-tuning específico, lo que multiplica el coste.
Perfil 3: documentos financieros y legales con tablas y maquetación compleja
Informes anuales con tablas de ratios, contratos con cláusulas en tablas multinivel, balances trimestrales, fichas de fondos de inversión. Aquí PixelRAG compite con AWS Textract y Unstructured.io, que llevan años extrayendo este tipo de tablas a texto estructurado. PixelRAG puede aportar precisión adicional, sobre todo si los layouts son muy variados. Si tu volumen lo justifica, merece la pena evaluar.
Cuándo no (la mayoría de chatbots empresariales)
Para los casos típicos de chatbot empresarial —los que vemos a diario en Bravos AI—, PixelRAG no aporta ventajas y añade costes. Algunos casos concretos donde el RAG textual sigue siendo claramente la opción correcta:
- Comercio electrónico con catálogo en CSV o JSON. «Zapatillas de menos de 60 € en talla 42» es una consulta estructurada que se resuelve mejor con filtrado SQL sobre los datos estructurados que tienes. Convertir el catálogo a imágenes y pasarlo por un modelo multimodal es matar moscas a cañonazos. (Esto lo desarrollamos en nuestra guía sobre chatbot para catálogo de productos.)
- Preguntas frecuentes de clínicas, restaurantes, asesorías, gestorías. Texto plano, descripciones de servicios, horarios, precios. El RAG textual los recupera sin perder nada.
- Políticas, términos legales, condiciones de uso. Aunque a veces están en PDF, suelen ser texto plano. El RAG textual los maneja bien.
- Documentación de soporte de SaaS. Artículos de ayuda, guías de uso, documentación técnica de APIs. Texto, código, capturas puntuales. RAG textual cubre el 95%.
- Listados inmobiliarios, hoteles, restaurantes, eventos. Datos estructurados (precio, fecha, ubicación, capacidad). De nuevo, SQL + texto.
- Cualquier caso multilingüe. Si tu chatbot opera en español, alemán o cualquier idioma que no sea inglés, PixelRAG no está validado.
- Cualquier caso donde la latencia importe. Procesar imágenes en el modelo final añade latencia. Para un chatbot donde el cliente espera respuesta en menos de 2 segundos, el coste de latencia puede no compensar.
Estos casos son el 90% (o más) de los chatbots empresariales reales. Para ellos, PixelRAG es una solución cara para un problema que no tienes.
Las alternativas que ya existen (y llevan años en producción)
Si tu problema sí es preservar layout visual de documentos complejos, PixelRAG no es la primera ni la única opción. Llevan años existiendo herramientas para esto, y algunas ya están en producción en miles de empresas:
| Herramienta | Enfoque | Coste | Madurez |
|---|---|---|---|
| AWS Textract | Extrae tablas a JSON estructurado, integrable en RAG textual estándar. | 1,50 $/1.000 páginas. | Producción desde 2019. |
| Unstructured.io | Procesador híbrido (reglas + ML) que preserva tablas como HTML/JSON. | Código abierto o 0,01-0,10 $/página vía API. | Madura, integrada en LlamaIndex y LangChain. |
| pdfplumber / PyMuPDF | Extracción local de texto y tablas. | Gratis (código abierto). | Madura. |
| Claude / GPT-4o con visión directa | Pasas el PDF como imagen al modelo. Sin proceso aparte. | ~0,003 $/página con Sonnet 4. | Producción, ya soportado por las APIs. |
| ColPali | RAG visual con multivector. Antecesor académico de PixelRAG (ICLR 2025). | Memoria intensiva, ~256 KB/página. | Validado en revisión por pares. Vespa y Qdrant lo soportan. |
Para la mayoría de empresas con documentos PDF maquetados, una combinación de Textract o Unstructured.io para preprocesado + RAG textual resuelve el 90% del problema a un coste razonable. Para casos muy demandantes, Claude con visión directa o ColPali son alternativas validadas. PixelRAG entra como sexta opción, no como la primera.
Test rápido: ¿es para tu chatbot?
Cinco preguntas. Cuenta cuántas respondes con «sí»:
1. Mi base de conocimiento principal son PDFs maquetados con muchas tablas, diagramas o infografías complejas.
2. Mi chatbot opera solo en inglés.
3. Tengo presupuesto para mantener infraestructura GPU propia (más de 200 $/mes adicionales) o estoy bien con pagar 60-100 $/mes en API multimodal.
4. La latencia no es crítica (puedo aceptar 5-10 segundos por respuesta).
5. Tengo un equipo técnico para integrar código de investigación (sin soporte comercial) y mantenerlo.
- 4-5 síes: merece la pena hacer una prueba de concepto con PixelRAG. Compara contra ColPali y contra Claude con visión directa antes de decidir.
- 2-3 síes: mira primero AWS Textract o Unstructured.io combinados con RAG textual estándar. Es muy probable que cubran tu caso a una décima parte del coste.
- 0-1 sí: RAG textual estándar es tu opción. PixelRAG resuelve un problema que tú no tienes.
Titulares virales frente a lo que dice el trabajo
Repaso final, con citas. Cinco afirmaciones que circulan en titulares y lo que realmente dice la publicación:
| Titular viral | Lo que dice el trabajo |
|---|---|
| «+18% mejor precisión que el RAG textual» | Pico de +15,5 puntos en EVQA (Wikipedia visual). En text Wikipedia QA, +2,8 a +7,2 puntos. (Sección 5.2, tabla 1.) |
| «10× menos tokens que el RAG textual» | En agentes ReAct con varios pasos y hasta 20 búsquedas por pregunta. No en chatbots de un solo turno. (Sección 5.4.) |
| «El fin del RAG textual» | Los autores proponen explícitamente un sistema híbrido texto + visión en la sección de trabajo futuro. (Apéndice E, p. 32.) |
| «Funciona sin ajustes» | Requiere fine-tuning específico por dominio. El fine-tune sobre Wikipedia no transfiere bien a noticias, según el propio trabajo. (Sección 5.2.) |
| «Listo para producción empresarial» | Sin arXiv, sin revisión por pares, 6 meses de existencia, 0 debate técnico adversarial en HN/Reddit. Es código de investigación de calidad, no plataforma comercial. |
Cómo lo hacemos en Bravos AI
En Bravos AI cubrimos los casos típicos de chatbot empresarial —preguntas frecuentes, catálogos de producto, descripciones de servicios, políticas— en español, inglés y otros 12+ idiomas, con latencia por debajo de los 2 segundos. Planes desde 19 €/mes con mensajes ilimitados.
¿Vamos a evaluar PixelRAG o algún descendiente suyo? Sí, cuando se den tres cosas a la vez: revisión por pares publicada, soporte multilingüe validado y coste por consulta por debajo del precio de mercado SaaS con un modelo multimodal de calidad. Hoy no se da ninguna de las tres. Cuando se den, lo evaluamos. Mientras tanto, sería mala ingeniería migrar.
En resumen
- PixelRAG es un avance técnico genuino para un problema concreto: preservar el layout visual de documentos cuando el texto plano lo destruye.
- El «+18%» de los titulares es el pico en una evaluación visual de Wikipedia (EVQA). En text QA típico, la mejora es de 2,8 a 7,2 puntos porcentuales.
- El «10× menos tokens» aplica en agentes ReAct con varios pasos, no en chatbots de un solo turno.
- Solo está validado en inglés. Sin transferencia probada a otros idiomas.
- Con un modelo multimodal comercial (GPT-4o como lector), sale 7 veces más caro que el RAG textual. El «PixelRAG barato» solo es real si alojas Qwen3-VL en infraestructura propia.
- Los propios autores reconocen tres limitaciones serias: solo inglés, pierde enlaces, moderación de contenido más difícil.
- Para los casos típicos de chatbot empresarial (preguntas frecuentes, catálogos, políticas, descripciones), RAG textual + filtrado SQL sigue siendo la respuesta.
- Para nicho con tablas complejas, manuales con diagramas o archivos visuales, evalúa también AWS Textract, Unstructured.io, Claude con visión directa o ColPali antes de decidirte por PixelRAG.
¿Qué es PixelRAG en pocas palabras?
Un sistema de RAG que, en vez de extraer el texto de los documentos, los renderiza como imágenes (capturas), las indexa y se las pasa a un modelo de lenguaje multimodal para que las lea como si fuera una persona. Lo publicaron investigadores de Berkeley, Princeton, EPFL, Databricks y Renmin University en junio de 2026, bajo licencia Apache 2.0.
¿Es PixelRAG mejor que el RAG textual?
Depende del tipo de contenido. Para preguntas sobre tablas, infografías y elementos visuales de páginas tipo Wikipedia, sí: el trabajo reporta mejoras de 6 a 15 puntos porcentuales en precisión. Para texto plano, preguntas frecuentes, descripciones de productos, políticas y la mayoría de contenido empresarial típico, no aporta y sale más caro.
¿Cuánto cuesta PixelRAG en producción?
Depende de qué modelo uses como lector. Con Qwen3-VL-4B alojado en infraestructura propia, ~1,50 $ al mes en API para 10.000 mensajes, pero necesitas mantener una GPU dedicada (200-500 $/mes adicionales). Con GPT-4o como lector (o un modelo multimodal comercial equivalente), ~66 $ al mes, que es 7 veces más caro que un RAG textual estándar.
¿Funciona PixelRAG en español?
No hay evidencia de que funcione bien en español ni en ningún idioma que no sea inglés. El fine-tuning del modelo de embeddings se hizo solo sobre datos en inglés y los propios autores reconocen el sesgo en el apéndice de limitaciones. Para un chatbot que opera en mercados hispanos, esto es un veto.
¿Necesito migrar mi chatbot a PixelRAG?
Casi seguro que no. Si tu chatbot maneja preguntas frecuentes, descripciones de servicios, políticas, catálogos de productos en CSV o JSON, o cualquier contenido típico empresarial, el RAG textual + filtrado SQL sigue siendo mejor y más barato. PixelRAG resuelve un problema (preservar layout visual) que la mayoría de chatbots no tiene.
¿Es PixelRAG mejor que ColPali?
Son enfoques distintos del mismo problema. ColPali (Faysse et al, ICLR 2025) usa búsqueda multivector con un modelo más pequeño; PixelRAG usa un único vector por pieza con un modelo más grande para escalar a colecciones tipo Wikipedia. ColPali tiene revisión por pares, está más maduro y ya tiene integraciones de producción (Vespa, Qdrant). PixelRAG está más fresco y escala a más documentos, pero es 6 meses más joven y sin revisión por pares.
¿Cuándo merecerá la pena PixelRAG?
Cuando se den tres cosas a la vez: que el coste de los modelos multimodales (token visual) baje al menos 5 veces, que aparezca soporte multilingüe validado, y que la comunidad académica audite los resultados con revisión por pares. Razonablemente, dentro de 12 a 18 meses una variante madura de este paradigma será relevante para algunos casos de uso empresarial. Hoy no.
Fuentes
- Trabajo original de PixelRAG (PDF): github.com/StarTrail-org/PixelRAG/assets/pixelrag-paper.pdf — Wang et al, junio de 2026. UC Berkeley, Princeton, EPFL, Databricks, Renmin University. Apache 2.0.
- Repositorio oficial: github.com/StarTrail-org/PixelRAG
- ColPali (antecesor académico): Faysse et al, «ColPali: Efficient Document Retrieval with Vision Language Models», ICLR 2025.
- VisRAG: Yu et al, «VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents», ICLR 2025.
- Documentación de AWS Textract: docs.aws.amazon.com/textract
- Unstructured.io: unstructured.io
- Precios oficiales de OpenAI (texto y visión): openai.com/pricing
Monta tu chatbot empresarial sin humo
En Bravos AI montamos chatbots empresariales que responden bien sobre preguntas frecuentes, catálogos, políticas y descripciones de servicios. En español, inglés y otros 12+ idiomas, con latencia por debajo de los 2 segundos. Prueba PRO de 7 días sin permanencia: te avisamos antes de cobrar y si cancelas antes del día 7 no pagas nada.
Probar PRO gratis 7 días