Passer au contenu principal
Currently operating as a brainstorming page

Acheminement des demandes

Flux de traitement des demandes (les deux)
  • Validation des demandes: Middleware de validation OpenAPI valide la structure de la demande
  • Sélection de la session: AISessionManager sélectionne l’orchestrator approprié en fonction des capacités du modèle
  • Traitement des paiements: Calcule le paiement en fonction du nombre de pixels pour les points de terminaison non en direct
  • Exécution du modèle: Envoie la demande à l’worker IA avec le modèle spécifié

Demandes de transcodage

Les demandes traditionnelles de transcodage vidéo sont gérées par :
  • Ingestion RTMP: Port 1935 par défaut
  • Push HTTP: /live/{streamKey} point de terminaison lorsque -httpIngestest activé
  • Sortie HLS: Flux à débit adaptatif pour la lecture

Demandes d’IA

Les demandes de traitement par IA sont acheminées via des points de terminaison dédiésai_mediaserver.go
(fixme) OpenAPI Spec is here: ai/worker/api/openapi.json
/text-to-image
json
Generate images from text prompts. Uses jsonDecoder for parsing
/image-to-image
multipart/form-data
Transform images with prompts. Uses multipartDecoder for file uploads
/image-to-video
multipart/form-data
Create videos from images. Uses multipartDecoder for file uploads
/upscale
multipart/form-data
Upscale (enhance) images to higher resolution. Uses multipartDecoder for file uploads
/live/video-to-video/{stream}/start
multipart/form-data
Apply transformations to a live video streamed to the returned endpoints. Live video endpoint has specialized handling for real-time streaming with MediaMTX integration

Modèles de paiement

La configuration double gère deux modèles de paiement différents :

Paiements de transcodage

Base : Par segment de vidéo traité Méthode : Tickets de paiement envoyés avec chaque segment Vérification : Vérification par multi-orchestrateur pour l’assurance qualité

Paiements d’IA

Base : Par pixel traité (largeur × hauteur × sorties) Méthode : Calcul du paiement basé sur les pixels Vidéo en direct : Paiements basés sur l’intervalle pendant la diffusion

Considérations opérationnelles

Allocation de ressources

Lorsque vous exécutez une configuration double, prenez en compte :
  • Ressources GPU : partagées entre la transcodage et les charges de travail d’IA
  • Mémoire : les modèles d’IA nécessitent une grande quantité de RAM lorsqu’ils sont chargés (« chauds »)
  • Réseau : bande passante pour l’ingestion de flux et les demandes/réponses d’IA

Surveillance

Surveillez les deux types de charge de travail :
  • Transcodage : latence de traitement des segments, taux de réussite
  • IA : temps de chargement des modèles, latence d’inférence, taux de traitement des pixels

Stratégies d’extension

  • Horizontal : déployer plusieurs instances de passerelle derrière un équilibreur de charge
  • Vertical : allouer plus de ressources GPU pour la parallélisation des modèles d’IA
  • Spécialisé : Nœuds séparés pour la transcodification vs l’IA en fonction des modèles de charge de travail
Last modified on March 1, 2026