Saltar al contenido principal
Currently operating as a brainstorming page

Enrutamiento de solicitudes

Flujo de procesamiento de solicitudes (ambos)
  • Validación de solicitud: Middleware de validación de OpenAPI valida la estructura de la solicitud
  • Selección de sesión: AISessionManager selecciona el orquestador adecuado según la capacidad del modelo
  • Procesamiento de pagos: Calcula el pago en función del número de píxeles para los puntos finales no en vivo
  • Ejecución del modelo: Envía la solicitud al trabajador de IA con el modelo especificado

Solicitudes de transcodificación

Las solicitudes tradicionales de transcodificación de video se manejan a través de:
  • Ingestión RTMP: Puerto 1935 por defecto
  • HTTP push: /live/{streamKey} punto de conexión cuando -httpIngestestá habilitado
  • Salida HLS: Secuencias de velocidad de bits adaptativa para reproducción

Solicitudes de IA

Las solicitudes de procesamiento de IA se enrutan a través de puntos finales dedicadosai_mediaserver.go
(fixme) OpenAPI Spec is here: ai/worker/api/openapi.json
/text-to-image
json
Generate images from text prompts. Uses jsonDecoder for parsing
/image-to-image
multipart/form-data
Transform images with prompts. Uses multipartDecoder for file uploads
/image-to-video
multipart/form-data
Create videos from images. Uses multipartDecoder for file uploads
/upscale
multipart/form-data
Upscale (enhance) images to higher resolution. Uses multipartDecoder for file uploads
/live/video-to-video/{stream}/start
multipart/form-data
Apply transformations to a live video streamed to the returned endpoints. Live video endpoint has specialized handling for real-time streaming with MediaMTX integration

Modelos de pago

La configuración dual maneja dos modelos de pago diferentes:

Pagos de transcodificación

Base: Por segmento de video procesado Método: Boletos de pago enviados con cada segmento Verificación: Verificación multi-orquestador para garantía de calidad

Pagos de IA

Base: Por píxel procesado (ancho × alto × salidas) Método: Cálculo de pago basado en píxeles Vídeo en vivo: Pagos basados en intervalos durante la transmisión

Consideraciones operativas

Asignación de recursos

Al ejecutar una configuración dual, considere:
  • Recursos de GPU: Compartidos entre la transcodificación y las cargas de trabajo de IA
  • Memoria: Los modelos de IA requieren una cantidad significativa de RAM cuando están cargados (“calientes”)
  • Red: Ancho de banda para la ingestión de transmisiones y las solicitudes/respuestas de IA

Monitoreo

Monitorear ambos tipos de carga de trabajo:
  • Codificación: Latencia de procesamiento de segmentos, tasas de éxito
  • IA: Tiempos de carga de modelos, latencia de inferencia, tasas de procesamiento de píxeles

Estrategias de escalado

  • Horizontal: Implementar múltiples instancias de puerta de enlace detrás de un balanceador de carga
  • Vertical: Asignar más recursos de GPU para paralelismo de modelos de IA
  • Especializados: Nodos separados para transcodificación vs IA basado en patrones de carga de trabajo
Last modified on March 1, 2026