Currently operating as a brainstorming page
Enrutamiento de solicitudes
Flujo de procesamiento de solicitudes (ambos)- Validación de solicitud: Middleware de validación de OpenAPI valida la estructura de la solicitud
- Selección de sesión: AISessionManager selecciona el orquestador adecuado según la capacidad del modelo
- Procesamiento de pagos: Calcula el pago en función del número de píxeles para los puntos finales no en vivo
- Ejecución del modelo: Envía la solicitud al trabajador de IA con el modelo especificado
Solicitudes de transcodificación
Las solicitudes tradicionales de transcodificación de video se manejan a través de:- Ingestión RTMP: Puerto
1935por defecto - HTTP push:
/live/{streamKey}punto de conexión cuando-httpIngestestá habilitado - Salida HLS: Secuencias de velocidad de bits adaptativa para reproducción
Solicitudes de IA
Las solicitudes de procesamiento de IA se enrutan a través de puntos finales dedicadosai_mediaserver.go (fixme) OpenAPI Spec is here: ai/worker/api/openapi.json
Generate images from text prompts.
Uses
jsonDecoder for parsingTransform images with prompts.
Uses
multipartDecoder for file uploadsCreate videos from images.
Uses
multipartDecoder for file uploadsUpscale (enhance) images to higher resolution.
Uses
multipartDecoder for file uploadsApply transformations to a live video streamed to the returned endpoints.
Live video endpoint has specialized handling for real-time streaming with MediaMTX integration
Modelos de pago
La configuración dual maneja dos modelos de pago diferentes:Pagos de transcodificación
Base: Por segmento de video procesado Método: Boletos de pago enviados con cada segmento Verificación: Verificación multi-orquestador para garantía de calidadPagos de IA
Base: Por píxel procesado (ancho × alto × salidas) Método: Cálculo de pago basado en píxeles Vídeo en vivo: Pagos basados en intervalos durante la transmisiónConsideraciones operativas
Asignación de recursos
Al ejecutar una configuración dual, considere:- Recursos de GPU: Compartidos entre la transcodificación y las cargas de trabajo de IA
- Memoria: Los modelos de IA requieren una cantidad significativa de RAM cuando están cargados (“calientes”)
- Red: Ancho de banda para la ingestión de transmisiones y las solicitudes/respuestas de IA
Monitoreo
Monitorear ambos tipos de carga de trabajo:- Codificación: Latencia de procesamiento de segmentos, tasas de éxito
- IA: Tiempos de carga de modelos, latencia de inferencia, tasas de procesamiento de píxeles
Estrategias de escalado
- Horizontal: Implementar múltiples instancias de puerta de enlace detrás de un balanceador de carga
- Vertical: Asignar más recursos de GPU para paralelismo de modelos de IA
- Especializados: Nodos separados para transcodificación vs IA basado en patrones de carga de trabajo