Monitorear y optimizar los servicios de pasarela

Currently operating as a brainstorming page

Enrutamiento de solicitudes

Flujo de procesamiento de solicitudes (ambos)

Validación de solicitud: Middleware de validación de OpenAPI valida la estructura de la solicitud
Selección de sesión: AISessionManager selecciona el orquestador adecuado según la capacidad del modelo
Procesamiento de pagos: Calcula el pago en función del número de píxeles para los puntos finales no en vivo
Ejecución del modelo: Envía la solicitud al trabajador de IA con el modelo especificado

Solicitudes de transcodificación

Las solicitudes tradicionales de transcodificación de video se manejan a través de:

Ingestión RTMP: Puerto 1935 por defecto
HTTP push: /live/{streamKey} punto de conexión cuando -httpIngestestá habilitado
Salida HLS: Secuencias de velocidad de bits adaptativa para reproducción

Solicitudes de IA

Las solicitudes de procesamiento de IA se enrutan a través de puntos finales dedicadosai_mediaserver.go

(fixme) OpenAPI Spec is here: ai/worker/api/openapi.json

/text-to-image

json

Generate images from text prompts. Uses jsonDecoder for parsing

/image-to-image

multipart/form-data

Transform images with prompts. Uses multipartDecoder for file uploads

/image-to-video

multipart/form-data

Create videos from images. Uses multipartDecoder for file uploads

/upscale

multipart/form-data

Upscale (enhance) images to higher resolution. Uses multipartDecoder for file uploads

/live/video-to-video/{stream}/start

multipart/form-data

Apply transformations to a live video streamed to the returned endpoints. Live video endpoint has specialized handling for real-time streaming with MediaMTX integration

Modelos de pago

La configuración dual maneja dos modelos de pago diferentes:

Pagos de transcodificación

Base: Por segmento de video procesado Método: Boletos de pago enviados con cada segmento Verificación: Verificación multi-orquestador para garantía de calidad

Pagos de IA

Base: Por píxel procesado (ancho × alto × salidas) Método: Cálculo de pago basado en píxeles Vídeo en vivo: Pagos basados en intervalos durante la transmisión

Consideraciones operativas

Asignación de recursos

Al ejecutar una configuración dual, considere:

Recursos de GPU: Compartidos entre la transcodificación y las cargas de trabajo de IA
Memoria: Los modelos de IA requieren una cantidad significativa de RAM cuando están cargados (“calientes”)
Red: Ancho de banda para la ingestión de transmisiones y las solicitudes/respuestas de IA

Monitoreo

Monitorear ambos tipos de carga de trabajo:

Codificación: Latencia de procesamiento de segmentos, tasas de éxito
IA: Tiempos de carga de modelos, latencia de inferencia, tasas de procesamiento de píxeles

Estrategias de escalado

Horizontal: Implementar múltiples instancias de puerta de enlace detrás de un balanceador de carga
Vertical: Asignar más recursos de GPU para paralelismo de modelos de IA
Especializados: Nodos separados para transcodificación vs IA basado en patrones de carga de trabajo

Gateway Knowledge Hub

Quickstart ⚡

Gateway Services & Providers

Run A Gateway

Gateway Tools & Resources

Technical References

Monitorear y optimizar los servicios de pasarela

Enrutamiento de solicitudes

Solicitudes de transcodificación

Solicitudes de IA

Modelos de pago

Pagos de transcodificación

Pagos de IA

Consideraciones operativas

Asignación de recursos

Monitoreo

Estrategias de escalado

Gateway Knowledge Hub

Quickstart ⚡

Gateway Services & Providers

Run A Gateway

Gateway Tools & Resources

Technical References

​Enrutamiento de solicitudes

​Solicitudes de transcodificación

​Solicitudes de IA

​Modelos de pago

​Pagos de transcodificación

​Pagos de IA

​Consideraciones operativas

​Asignación de recursos

​Monitoreo

​Estrategias de escalado

Enrutamiento de solicitudes

Solicitudes de transcodificación

Solicitudes de IA

Modelos de pago

Pagos de transcodificación

Pagos de IA

Consideraciones operativas

Asignación de recursos

Monitoreo

Estrategias de escalado