Effiziente Vorgänge pro Videoframe für Videos mit requestVideoFrameCallback() ausführen

Hier erfahren Sie, wie Sie mithilfe von requestVideoFrameCallback() effizienter mit Videos im Browser arbeiten.

Mit der Methode HTMLVideoElement.requestVideoFrameCallback() können Webautoren einen Rückruf registrieren, der in den Rendering-Schritten ausgeführt wird, wenn ein neuer Videoframe an den Renderer gesendet wird. So können Entwickler effiziente Video-Frame-Vorgänge ausführen, z. B. Videoverarbeitung und Zeichnen auf einem Canvas, Videoanalyse oder Synchronisierung mit externen Audioquellen.

Unterschied zu requestAnimationFrame()

Vorgänge wie das Zeichnen eines Videoframes auf einem Canvas mithilfe von drawImage() werden über diese API nach dem Best-Effort-Prinzip mit der Framerate des auf dem Bildschirm wiedergegebenen Videos synchronisiert. Im Gegensatz zu window.requestAnimationFrame(), das in der Regel etwa 60-mal pro Sekunde ausgelöst wird, ist requestVideoFrameCallback() an die tatsächliche Videoframerate gebunden – mit einer wichtigen Ausnahme:

Die effektive Rate, mit der Callbacks ausgeführt werden, ist die niedrigere Rate zwischen der Rate des Videos und der Rate des Browsers. Das bedeutet, dass ein Video mit 25 fps, das in einem Browser mit 60 Hz wiedergegeben wird, Callbacks mit 25 Hz auslöst. Bei einem Video mit 120 fps in demselben 60-Hz-Browser werden Callbacks mit 60 Hz ausgelöst.

Tipps zur Benennung von Sitemaps

Aufgrund der Ähnlichkeit mit window.requestAnimationFrame() wurde die Methode ursprünglich als video.requestAnimationFrame() vorgeschlagen und in requestVideoFrameCallback() umbenannt, was nach einer längeren Diskussion vereinbart wurde.

Funktionserkennung

if ('requestVideoFrameCallback' in HTMLVideoElement.prototype) {
  // The API is supported!
}

Unterstützte Browser

Unterstützte Browser

  • Chrome: 83.
  • Edge: 83.
  • Firefox: 132.
  • Safari: 15.4.

Quelle

Polyfill

Es ist ein Polyfill für die requestVideoFrameCallback()-Methode verfügbar, das auf Window.requestAnimationFrame() und HTMLVideoElement.getVideoPlaybackQuality() basiert. Beachten Sie vor der Verwendung die in der README genannten Einschränkungen.

Mit der Methode „requestVideoFrameCallback()“

Wenn Sie schon einmal die Methode requestAnimationFrame() verwendet haben, werden Sie die Methode requestVideoFrameCallback() sofort wiedererkennen. Sie registrieren einen ersten Callback einmal und registrieren ihn dann noch einmal, wenn der Callback ausgelöst wird.

const doSomethingWithTheFrame = (now, metadata) => {
  // Do something with the frame.
  console.log(now, metadata);
  // Re-register the callback to be notified about the next frame.
  video.requestVideoFrameCallback(doSomethingWithTheFrame);
};
// Initially register the callback to be notified about the first frame.
video.requestVideoFrameCallback(doSomethingWithTheFrame);

Im Callback ist now ein DOMHighResTimeStamp und metadata ein VideoFrameMetadata-Wörterbuch mit den folgenden Eigenschaften:

  • presentationTime vom Typ DOMHighResTimeStamp: Die Zeit, zu der der User-Agent den Frame zur Komposition gesendet hat.
  • expectedDisplayTime vom Typ DOMHighResTimeStamp: Der Zeitpunkt, zu dem der User-Agent erwartet, dass der Frame sichtbar ist.
  • width vom Typ unsigned long: Die Breite des Videoframes in Medienpixeln.
  • height vom Typ unsigned long: Die Höhe des Videoframes in Medienpixeln.
  • mediaTime vom Typ double: Der Zeitstempel der Medienpräsentation (PTS) in Sekunden des angezeigten Frames (z.B. sein Zeitstempel in der Zeitleiste video.currentTime).
  • presentedFrames vom Typ unsigned long: Anzahl der Frames, die für die Komposition eingereicht wurden. Ermöglicht es Clients, festzustellen, ob Frames zwischen den Instanzen von VideoFrameRequestCallback übersprungen wurden.
  • processingDuration vom Typ double: Die verstrichene Zeit in Sekunden, die vergangen ist, seit das codierte Paket mit demselben Präsentationszeitstempel (PTS) wie dieser Frame (z.B. dem mediaTime) an den Decoder gesendet wurde, bis der decodierte Frame zur Präsentation bereit war.

Bei WebRTC-Anwendungen können zusätzliche Properties angezeigt werden:

  • captureTime vom Typ DOMHighResTimeStamp: Bei Videoframes, die von einer lokalen oder Remote-Quelle stammen, ist dies die Zeit, zu der der Frame von der Kamera aufgenommen wurde. Bei einer Remotequelle wird die Erfassungszeit anhand der Uhrsynchronisierung und RTCP-Senderberichte geschätzt, um RTP-Zeitstempel in die Erfassungszeit umzuwandeln.
  • receiveTime vom Typ DOMHighResTimeStamp: Bei Videoframes, die von einer Remotequelle stammen, ist dies die Zeit, zu der der codierte Frame von der Plattform empfangen wurde, also die Zeit, zu der das letzte Paket, das zu diesem Frame gehört, über das Netzwerk empfangen wurde.
  • rtpTimestamp vom Typ unsigned long: Der RTP-Zeitstempel, der mit diesem Videoframe verknüpft ist.

Von besonderem Interesse in dieser Liste ist mediaTime. In der Chromium-Implementierung wird die Audiouhr als Zeitquelle verwendet, die video.currentTime unterstützt, während mediaTime direkt durch die presentationTimestamp des Frames ausgefüllt wird. Die mediaTime sollten Sie verwenden, wenn Sie Frames auf reproduzierbare Weise genau identifizieren möchten, einschließlich der Frames, die Sie verpasst haben.

Wenn etwas einen Frame zu spät erscheint…

Die vertikale Synchronisierung (oder einfach VSync) ist eine Grafiktechnologie, die die Framerate eines Videos mit der Bildwiederholrate eines Monitors synchronisiert. Da requestVideoFrameCallback() im Haupt-Thread ausgeführt wird, das Video-Compositing aber im Compositor-Thread erfolgt, ist alles, was von dieser API zurückgegeben wird, ein Best-Effort-Verfahren und der Browser bietet keine strengen Garantien. Möglicherweise ist die API im Vergleich zum Rendern eines Videoframes um eine vsync zu spät. Es dauert einen VSync, bis Änderungen an der Webseite über die API auf dem Bildschirm angezeigt werden (wie bei window.requestAnimationFrame()). Wenn du also die mediaTime oder die Frame-Nummer auf deiner Webseite immer wieder aktualisierst und mit den nummerierten Videoframes vergleichst, sieht das Video irgendwann so aus, als wäre es einen Frame voraus.

Tatsächlich ist der Frame bei vsync x fertig, der Rückruf wird ausgelöst und der Frame wird bei vsync x+1 gerendert. Änderungen, die im Rückruf vorgenommen wurden, werden bei vsync x+2 gerendert. Sie können prüfen, ob der Rückruf um eine VSync-Periode zu spät erfolgt (und der Frame bereits auf dem Bildschirm gerendert wurde), indem Sie prüfen, ob metadata.expectedDisplayTime ungefähr now oder eine VSync-Periode in der Zukunft ist. Wenn der Wert innerhalb von etwa fünf bis zehn Mikrosekunden von now liegt, wurde der Frame bereits gerendert. Wenn expectedDisplayTime etwa 16 Millisekunden in der Zukunft liegt (vorausgesetzt, Ihr Browser/Bildschirm wird mit 60 Hz aktualisiert), sind Sie mit dem Frame synchron.

Demo

Ich habe eine kleine Demo auf Glitch erstellt, die zeigt, wie Frames mit genau der Framerate des Videos auf einem Canvas gezeichnet werden und wo die Frame-Metadaten zu Debug-Zwecken protokolliert werden.

let paintCount = 0;
let startTime = 0.0;

const updateCanvas = (now, metadata) => {
  if (startTime === 0.0) {
    startTime = now;
  }

  ctx.drawImage(video, 0, 0, canvas.width, canvas.height);

  const elapsed = (now - startTime) / 1000.0;
  const fps = (++paintCount / elapsed).toFixed(3);
  fpsInfo.innerText = `video fps: ${fps}`;
  metadataInfo.innerText = JSON.stringify(metadata, null, 2);

  video.requestVideoFrameCallback(updateCanvas);
};

video.requestVideoFrameCallback(updateCanvas);

Ergebnisse

Die Verarbeitung auf Framesebene ist schon lange möglich – ohne Zugriff auf die eigentlichen Frames, nur basierend auf video.currentTime. Die requestVideoFrameCallback()-Methode verbessert diese Problemumgehung erheblich.

Danksagungen

Die requestVideoFrameCallback API wurde von Thomas Guilbert spezifiziert und implementiert. Dieser Beitrag wurde von Joe Medley und Kayce Basques überprüft. Hero-Image von Denise Jans auf Unsplash.