Búsquedas Híbridas en Qdrant: BM25/TF-IDF y Vectores Dispersos

By - admin12cb
Posted on 28 de febrero de 2026
Posted in Vector Databases

Búsquedas Híbridas en Qdrant: BM25/TF-IDF y Vectores Dispersos

Las búsquedas híbridas en Qdrant combinan búsqueda semántica (vectores densos) con búsqueda léxica (BM25/TF-IDF) para mejorar la precisión. Aquí te explico cómo funciona:

1. Cómo Qdrant maneja BM25/TF-IDF

Qdrant no tiene un motor BM25/TF-IDF integrado directamente, pero ofrece dos enfoques:

A. Vectores Dispersos (Sparse Vectors) – Enfoque Nativo

Los modelos como SPLADE generan representaciones vectoriales dispersas que capturan la importancia de términos específicos similar a TF-IDF
Se configuran como vectores adicionales en las colecciones:

from qdrant_client import QdrantClient
from qdrant_client.http import models

client.create_collection(
    collection_name="hybrid_collection",
    vectors_config=models.VectorParams(
        size=384,  # Vector denso
        distance=models.Distance.COSINE
    ),
    sparse_vectors_config={
        "text-sparse": models.SparseVectorParams()  # Vector disperso
    }
)

B. Integración con Motores Externos

Puedes usar Elasticsearch, Meilisearch u otros para búsqueda léxica
Luego fusionas los resultados con los de Qdrant

2. Enfoques para Combinar Resultados

Fusión (Fusion) – Método Recomendado

Reciprocal Rank Fusion (RRF): Estándar del sector, soportado por Qdrant
Combina listas de resultados basándose en sus rankings

# Búsqueda por lotes para vectores densos y dispersos
search_requests = [
    models.SearchRequest(
        vector=models.NamedVector(
            name="text-dense",
            vector=dense_query_vector
        ),
        limit=10
    ),
    models.SearchRequest(
        vector=models.NamedSparseVector(
            name="text-sparse",
            vector=sparse_query_vector
        ),
        limit=10
    )
]

results = client.search_batch(
    collection_name="hybrid_collection",
    requests=search_requests
)
# Luego fusionas los resultados con RRF

Reordenamiento (Reranking) – Para Mayor Precisión

Toma candidatos iniciales y los reordena con modelos más precisos
Ejemplo: Cross-Encoders o ColBERT para análisis de contenido

3. ⚠️ Advertencia Crítica: NO uses Combinación Lineal

No hagas esto:

# ❌ MAL: Esto no funciona bien
final_score = 0.7 * vector_score + 0.3 * bm25_score

Por qué no funciona:

Las distribuciones de relevancia de BM25 y similitud vectorial no son linealmente separables
Los puntos relevantes y no relevantes no se pueden distinguir con una combinación lineal simple
(RAG: Documento 1) «La evidencia visual muestra que los puntos relevantes y no relevantes no son linealmente separables en el espacio definido por las puntuaciones de BM25 y similitud de vectores»

4. Pipeline Completo Recomendado

# 1. Búsqueda inicial híbrida
dense_results = client.search(
    collection_name="docs",
    query_vector=dense_embedding,
    limit=50
)

sparse_results = client.search(
    collection_name="docs",
    sparse_vector=sparse_embedding,
    limit=50
)

# 2. Fusión con RRF
fused_results = reciprocal_rank_fusion(
    [dense_results, sparse_results],
    k=60  # Parámetro de suavizado
)

# 3. Reordenamiento opcional (si necesitas máxima precisión)
reranked = cross_encoder_rerank(
    query=user_query,
    candidates=fused_results[:20]
)

5. Configuración de Vectores Dispersos

# Configuración de colección híbrida
sparse_vectors_config:
  text-sparse:
    # Configuración específica para vectores dispersos
    # Se almacenan eficientemente con compresión

6. Casos de Uso y Recomendaciones

Para colecciones pequeñas/medianas:

Usa fusión RRF con vectores densos + dispersos
Es simple y efectivo

Para colecciones grandes o máxima precisión:

Implementa pipeline de dos etapas:
1. Recuperación rápida con búsqueda híbrida
2. Reordenamiento con Cross-Encoder

Para documentos técnicos/legales:

Los vectores dispersos son especialmente útiles para términos específicos
La búsqueda híbrida captura tanto significado como palabras clave exactas

7. Métricas a Monitorear

Precision@K: Precisión en los primeros K resultados
Recall@K: Capacidad de recuperar documentos relevantes
MRR (Mean Reciprocal Rank): Calidad del ranking
Tiempo de respuesta: Latencia del pipeline completo

Conclusión

Las búsquedas híbridas en Qdrant se implementan mejor mediante:

Vectores dispersos para capturar aspectos léxicos tipo BM25
Fusión RRF para combinar resultados de búsquedas densas y dispersas
Reordenamiento opcional con modelos más complejos para casos críticos

Recuerda: La combinación lineal simple de puntuaciones es inefectiva. Prefiere métodos de fusión basados en ranking como RRF o pipelines de reordenamiento multietapa.

Entradas recientes

🏗️ La Visión de Mark Papermaster sobre Hardware para IA en AMD

¿Quién es Mark Papermaster? Mark Papermaster es Chief Technology Officer (CTO) y Executive Vice President de AMD desde 2011. Es el arquitecto técnico detrás del resurgimiento de AMD: supervisó la transición a la arquitectura Zen (CPU) y la estrategia de chiplets, y hoy lidera la visión de hardware para la era de la IA. Antes de AMD fue VP en Apple (lideró hardware... Lee más

Bionemo: la inteligencia molecular que redefine la IA en Pharma”

Descubrir un nuevo fármaco hoy cuesta ~$2.600M de dólares y toma entre 10 y 15 años. El 90% de los candidatos que entran a ensayos clínicos fracasan. NVIDIA no quiere hacer fármacos. Quiere ser la infraestructura de cómputo y los modelos base que permitan a farmacéuticas y biotecnológicas descubrirlos en una fracción del tiempo y costo. 🧩 El ecosistema NVIDIA para... Lee más

🧠 ¿Qué es la ASI? Una mirada desde NVIDIA y Simon See

📌 El acrónimo: Artificial Super Intelligence (Superinteligencia Artificial) Cuando hablamos de ASI en el contexto de NVIDIA y Simon See —Senior Director, Chief Solution Architect y Global Head del NVIDIA AI Technology Center (NVAITC)— nos referimos a la Superinteligencia Artificial (Artificial Superintelligence). Simon See presentó una keynote titulada «The Pathway to Artificial Super Intelligence (ASI)» en la conferencia NVIDIA GTC, donde expuso la visión de NVIDIA sobre cómo llegar... Lee más

Grady Booch y la «Tercera Edad de Oro» del software con IA

Grady Booch (n. 1955) es un ingeniero de software estadounidense, IBM Fellow, pionero en diseño orientado a objetos y co-creador del Lenguaje Unificado de Modelado (UML) junto a Ivar Jacobson y James Rumbaugh («los Tres Amigos»). También acuñó el término Integración Continua (CI) en 1991. Es autor del libro Object-Oriented Analysis and Design with Applications y una de las voces más respetadas sobre... Lee más

Gray Swan: repensando la seguridad de la IA como un problema semántico, no solo técnico

La IA no falla con estrépito, falla en silencio Un modelo de lenguaje desplegado en producción rara vez colapsa de forma visible. Lo habitual es algo más insidioso: el sistema sigue respondiendo, sigue pareciendo funcional, pero poco a poco empieza a ceder ante entradas que nadie anticipó. El fallo no se anuncia; lo descubre un... Lee más

Mejores poker online dinero real.

Comprobar nÃºmero loterÃa nacional sÃ¡bado.

Casino los arcos lagos de moreno.

sanchezpares.com

Búsquedas Híbridas en Qdrant: BM25/TF-IDF y Vectores Dispersos

1. Cómo Qdrant maneja BM25/TF-IDF

2. Enfoques para Combinar Resultados

3. ⚠️ Advertencia Crítica: NO uses Combinación Lineal

4. Pipeline Completo Recomendado

5. Configuración de Vectores Dispersos

6. Casos de Uso y Recomendaciones

7. Métricas a Monitorear

Conclusión

Previous Article

Next Article

Deja una respuesta Cancelar la respuesta

Entradas recientes

Comentarios recientes

Mejores poker online dinero real.

Comprobar nÃºmero loterÃ­a nacional sÃ¡bado.

Casino los arcos lagos de moreno.

sanchezpares.com

Búsquedas Híbridas en Qdrant: BM25/TF-IDF y Vectores Dispersos

1. Cómo Qdrant maneja BM25/TF-IDF

2. Enfoques para Combinar Resultados

3. ⚠️ Advertencia Crítica: NO uses Combinación Lineal

4. Pipeline Completo Recomendado

5. Configuración de Vectores Dispersos

6. Casos de Uso y Recomendaciones

7. Métricas a Monitorear

Conclusión

Previous Article

Next Article

Deja una respuesta Cancelar la respuesta

Entradas recientes

Comentarios recientes

Comprobar nÃºmero loterÃa nacional sÃ¡bado.