Surveiller et optimiser les services de passerelle

Currently operating as a brainstorming page

Acheminement des demandes

Flux de traitement des demandes (les deux)

Validation des demandes: Middleware de validation OpenAPI valide la structure de la demande
Sélection de la session: AISessionManager sélectionne l’orchestrator approprié en fonction des capacités du modèle
Traitement des paiements: Calcule le paiement en fonction du nombre de pixels pour les points de terminaison non en direct
Exécution du modèle: Envoie la demande à l’worker IA avec le modèle spécifié

Demandes de transcodage

Les demandes traditionnelles de transcodage vidéo sont gérées par :

Ingestion RTMP: Port 1935 par défaut
Push HTTP: /live/{streamKey} point de terminaison lorsque -httpIngestest activé
Sortie HLS: Flux à débit adaptatif pour la lecture

Demandes d’IA

Les demandes de traitement par IA sont acheminées via des points de terminaison dédiésai_mediaserver.go

(fixme) OpenAPI Spec is here: ai/worker/api/openapi.json

/text-to-image

json

Generate images from text prompts. Uses jsonDecoder for parsing

/image-to-image

multipart/form-data

Transform images with prompts. Uses multipartDecoder for file uploads

/image-to-video

multipart/form-data

Create videos from images. Uses multipartDecoder for file uploads

/upscale

multipart/form-data

Upscale (enhance) images to higher resolution. Uses multipartDecoder for file uploads

/live/video-to-video/{stream}/start

multipart/form-data

Apply transformations to a live video streamed to the returned endpoints. Live video endpoint has specialized handling for real-time streaming with MediaMTX integration

Modèles de paiement

La configuration double gère deux modèles de paiement différents :

Paiements de transcodage

Base : Par segment de vidéo traité Méthode : Tickets de paiement envoyés avec chaque segment Vérification : Vérification par multi-orchestrateur pour l’assurance qualité

Paiements d’IA

Base : Par pixel traité (largeur × hauteur × sorties) Méthode : Calcul du paiement basé sur les pixels Vidéo en direct : Paiements basés sur l’intervalle pendant la diffusion

Considérations opérationnelles

Allocation de ressources

Lorsque vous exécutez une configuration double, prenez en compte :

Ressources GPU : partagées entre la transcodage et les charges de travail d’IA
Mémoire : les modèles d’IA nécessitent une grande quantité de RAM lorsqu’ils sont chargés (« chauds »)
Réseau : bande passante pour l’ingestion de flux et les demandes/réponses d’IA

Surveillance

Surveillez les deux types de charge de travail :

Transcodage : latence de traitement des segments, taux de réussite
IA : temps de chargement des modèles, latence d’inférence, taux de traitement des pixels

Stratégies d’extension

Horizontal : déployer plusieurs instances de passerelle derrière un équilibreur de charge
Vertical : allouer plus de ressources GPU pour la parallélisation des modèles d’IA
Spécialisé : Nœuds séparés pour la transcodification vs l’IA en fonction des modèles de charge de travail

Gateway Knowledge Hub

Quickstart ⚡

Gateway Services & Providers

Run A Gateway

Gateway Tools & Resources

Technical References

Surveiller et optimiser les services de passerelle

Acheminement des demandes

Demandes de transcodage

Demandes d’IA

Modèles de paiement

Paiements de transcodage

Paiements d’IA

Considérations opérationnelles

Allocation de ressources

Surveillance

Stratégies d’extension

Gateway Knowledge Hub

Quickstart ⚡

Gateway Services & Providers

Run A Gateway

Gateway Tools & Resources

Technical References

​Acheminement des demandes

​Demandes de transcodage

​Demandes d’IA

​Modèles de paiement

​Paiements de transcodage

​Paiements d’IA

​Considérations opérationnelles

​Allocation de ressources

​Surveillance

​Stratégies d’extension

Acheminement des demandes

Demandes de transcodage

Demandes d’IA

Modèles de paiement

Paiements de transcodage

Paiements d’IA

Considérations opérationnelles

Allocation de ressources

Surveillance

Stratégies d’extension