Saltearse al contenido

Entrenamiento de Agentes

El entrenamiento es el proceso de proporcionar al agente la información necesaria para que pueda responder con precisión sobre tu negocio. En Atendium, dispones de cinco métodos principales para gestionar este conocimiento.

1. Datos Básicos

Aquí es donde configuras la información esencial y estática de tu empresa o proyecto.

  • Contenido: Nombre de la empresa, datos de contacto (teléfono, email), enlaces a redes sociales, una breve descripción de “quiénes somos” y qué servicios ofrecemos.
  • Uso: Esta información sirve como la “carta de presentación” que el agente usará para orientar a los usuarios en sus primeras consultas.

2. Archivos: Entrenamiento vs. Recursos

Puedes subir archivos en formatos como PDF, DOCX o TXT, pero es vital entender la diferencia en su uso:

  • Archivos de Entrenamiento: El sistema procesa y “lee” estos documentos. El agente aprende su contenido y lo utiliza para razonar y generar respuestas.
  • Archivos de Recursos: Son archivos (como folletos en PDF) que el agente no “aprende” palabra por palabra, sino que sirve para entregarlos al usuario durante la conversación cuando este los solicita.

Formatos recomendados para vectorizar (buenas prácticas)

No todos los formatos se comportan igual al entrenar un agente. Para obtener mejores respuestas, prioriza contenido limpio y estructurado.

1. Texto plano (los mejores)

  • .txt (ideal)
  • .md (Markdown, recomendado)
  • .rst (menos común)

Ventajas:

  • Cero ruido de formato.
  • Sin parsing complejo.
  • Control total del contenido.

Recomendación: si puedes elegir, usa Markdown para documentación de agentes.

2. Documentos estructurados

  • .pdf
  • .docx

Para PDF:

  • Debe ser texto real (no escaneado).
  • Evita archivos con columnas complejas o maquetados muy densos.

Riesgos comunes:

  • Encabezados y pies repetidos.
  • Saltos de línea y bloques basura.

Recomendación: preprocesar, limpiar y recién luego vectorizar.

3. Datos estructurados (excelentes para agentes operativos)

  • .csv
  • .json
  • .jsonl
  • .yaml / .yml

Ideal para:

  • FAQs
  • Reglas de negocio
  • Configuraciones
  • Catálogos
  • Bases de conocimiento

Recomendación: un JSON bien diseñado suele rendir mejor que un PDF “bonito”.

4. Web / HTML

  • .html
  • .htm
  • Contenido extraído de sitios web (scraping)

Antes de vectorizar:

  • Limpia tags y estructura.
  • Elimina navegación, footer, banners y anuncios.

Formatos que requieren procesamiento previo

Evita vectorizar estos formatos “directo” sin transformación:

  • .pptx (presentaciones)
  • .xlsx (conviene exportar a .csv)
  • .odt (exportarlo a docx)
  • PDF escaneado (requiere OCR)

Formatos no recomendados para entrenamiento directo

  • Audio (.mp3, .wav) sin transcripción.
  • Video (.mp4) sin transcripción.
  • Binarios propietarios.
  • ZIP sin procesar.

Ranking práctico (mejor a peor)

  1. Markdown (.md)
  2. Texto plano (.txt)
  3. JSON / JSONL
  4. CSV
  5. DOCX
  6. PDF con texto real
  7. PDF escaneado

Reglas de oro para entrenar agentes

  • No priorices “documentos lindos”; prioriza conocimiento explícito.
  • Mantén chunking claro.
  • Una idea por bloque.
  • Prioriza contexto útil por encima del formato visual.

Un agente no “lee páginas” completas: recupera fragmentos relevantes.

Pipeline recomendado (best practice)

  1. Ingesta: recopila fuentes.
  2. Limpieza: elimina ruido, duplicados y formato innecesario.
  3. Estructura: organiza por tema, una idea por bloque.
  4. Chunking: define fragmentos claros y consistentes.
  5. Metadatos: etiqueta origen, versión y fecha.
  6. Vectorización: procesa solo contenido limpio.
  7. Validación: prueba consultas reales y ajusta.

3. Textos Planos

Este método es ideal para volcar información rápida que no está formalmente documentada o que cambia con frecuencia.

  • Ventaja: Es extremadamente simple de editar o borrar directamente desde el dashboard. Úsalo para promociones semanales, avisos temporales o aclaraciones específicas que surgen del feedback de los clientes.

4. Páginas Web

Permite que el agente extraiga conocimiento directamente desde una URL.

  • Sincronización: Puedes configurar la frecuencia de lectura (diaria, semanal, etc.) para que el agente esté siempre al día con los cambios en tu sitio web.

5. Google Drive

Sincroniza tus documentos de Google Drive (como un Google Doc con FAQs) de forma directa.

  • Actualización Automática: Al igual que con las páginas web, puedes definir la frecuencia de actualización.