Currently operating as a brainstorming page
Acheminement des demandes
Flux de traitement des demandes (les deux)- Validation des demandes: Middleware de validation OpenAPI valide la structure de la demande
- Sélection de la session: AISessionManager sélectionne l’orchestrator approprié en fonction des capacités du modèle
- Traitement des paiements: Calcule le paiement en fonction du nombre de pixels pour les points de terminaison non en direct
- Exécution du modèle: Envoie la demande à l’worker IA avec le modèle spécifié
Demandes de transcodage
Les demandes traditionnelles de transcodage vidéo sont gérées par :- Ingestion RTMP: Port
1935par défaut - Push HTTP:
/live/{streamKey}point de terminaison lorsque-httpIngestest activé - Sortie HLS: Flux à débit adaptatif pour la lecture
Demandes d’IA
Les demandes de traitement par IA sont acheminées via des points de terminaison dédiésai_mediaserver.go (fixme) OpenAPI Spec is here: ai/worker/api/openapi.json
Generate images from text prompts.
Uses
jsonDecoder for parsingTransform images with prompts.
Uses
multipartDecoder for file uploadsCreate videos from images.
Uses
multipartDecoder for file uploadsUpscale (enhance) images to higher resolution.
Uses
multipartDecoder for file uploadsApply transformations to a live video streamed to the returned endpoints.
Live video endpoint has specialized handling for real-time streaming with MediaMTX integration
Modèles de paiement
La configuration double gère deux modèles de paiement différents :Paiements de transcodage
Base : Par segment de vidéo traité Méthode : Tickets de paiement envoyés avec chaque segment Vérification : Vérification par multi-orchestrateur pour l’assurance qualitéPaiements d’IA
Base : Par pixel traité (largeur × hauteur × sorties) Méthode : Calcul du paiement basé sur les pixels Vidéo en direct : Paiements basés sur l’intervalle pendant la diffusionConsidérations opérationnelles
Allocation de ressources
Lorsque vous exécutez une configuration double, prenez en compte :- Ressources GPU : partagées entre la transcodage et les charges de travail d’IA
- Mémoire : les modèles d’IA nécessitent une grande quantité de RAM lorsqu’ils sont chargés (« chauds »)
- Réseau : bande passante pour l’ingestion de flux et les demandes/réponses d’IA
Surveillance
Surveillez les deux types de charge de travail :- Transcodage : latence de traitement des segments, taux de réussite
- IA : temps de chargement des modèles, latence d’inférence, taux de traitement des pixels
Stratégies d’extension
- Horizontal : déployer plusieurs instances de passerelle derrière un équilibreur de charge
- Vertical : allouer plus de ressources GPU pour la parallélisation des modèles d’IA
- Spécialisé : Nœuds séparés pour la transcodification vs l’IA en fonction des modèles de charge de travail