เอฟเฟ็กต์แบบเรียลไทม์สำหรับรูปภาพและวิดีโอ

Mat Scales

แอปยอดนิยมหลายแอปในปัจจุบันให้คุณใช้ฟิลเตอร์และเอฟเฟกต์กับรูปภาพหรือวิดีโอได้ บทความนี้จะแสดงวิธีใช้ฟีเจอร์เหล่านี้ในเว็บแบบเปิด

โดยพื้นฐานแล้ว กระบวนการนี้เหมือนกันสำหรับวิดีโอและรูปภาพ แต่เราจะพูดถึงข้อควรพิจารณาที่สำคัญบางอย่างเกี่ยวกับวิดีโอในตอนท้าย ตลอดทั้งบทความนี้ คุณอาจถือว่า "รูปภาพ" หมายถึง "รูปภาพหรือเฟรมเดียวของวิดีโอ"

วิธีเข้าถึงข้อมูลพิกเซลของรูปภาพ

การปรับแต่งรูปภาพมี 3 หมวดหมู่พื้นฐานที่พบได้ทั่วไป ดังนี้

  • เอฟเฟกต์ Pixel เช่น คอนทราสต์ ความสว่าง ความอบอุ่น โทนสีซีเปีย ความอิ่มตัว
  • เอฟเฟกต์หลายพิกเซลที่เรียกว่าฟิลเตอร์การกรองเชิงซ้อน เช่น การปรับให้คมชัด การตรวจหาขอบ การเบลอ
  • การบิดเบี้ยวทั้งรูปภาพ เช่น การตัด การบิดเบือน การยืด การใช้เลนส์ เอฟเฟกต์คลื่น

การดำเนินการทั้งหมดนี้เกี่ยวข้องกับการเข้าถึงข้อมูลพิกเซลจริงของรูปภาพต้นทาง แล้วสร้างรูปภาพใหม่จากข้อมูลดังกล่าว และอินเทอร์เฟซเดียวที่ใช้ดำเนินการดังกล่าวได้คือ Canvas

ตัวเลือกที่สําคัญจริงๆ จึงอยู่ที่ว่าจะใช้การประมวลผลใน CPU ด้วยผืนผ้าใบ 2 มิติ หรือใน GPU ด้วย WebGL

มาดูความแตกต่างระหว่าง 2 แนวทางนี้กัน

แคนวาส 2 มิติ

ตัวเลือกนี้ง่ายกว่าตัวเลือกอื่นมาก ก่อนอื่นให้วาดรูปภาพบนผืนผ้าใบ

const source = document.getElementById('source-image');

// Create the canvas and get a context
const canvas = document.createElement('canvas');
const context = canvas.getContext('2d');

// Set the canvas to be the same size as the original image
canvas.width = source.naturalWidth;
canvas.height = source.naturalHeight;

// Draw the image onto the top-left corner of the canvas
context.drawImage(theOriginalImage, 0, 0);

จากนั้นคุณจะได้รับอาร์เรย์ของค่าพิกเซลสำหรับทั้งผืนผ้าใบ

const imageData = context.getImageData(0, 0, canvas.width, canvas.height);
const pixels = imageData.data;

ณ จุดนี้ ตัวแปร pixels คือ Uint8ClampedArray ที่มีความยาว width * height * 4 องค์ประกอบอาร์เรย์ทุกรายการมีขนาด 1 ไบต์ และองค์ประกอบทุกๆ 4 รายการในอาร์เรย์จะแสดงสีของพิกเซล 1 พิกเซล องค์ประกอบทั้ง 4 รายการแสดงถึงปริมาณสีแดง เขียว น้ำเงิน และแอลฟา (ความโปร่งใส) ตามลำดับ พิกเซลจะเรียงลำดับจากมุมซ้ายบนไปทางซ้ายขวา และจากบนลงล่าง

pixels[0] = red value for pixel 0
pixels[1] = green value for pixel 0
pixels[2] = blue value for pixel 0
pixels[3] = alpha value for pixel 0
pixels[4] = red value for pixel 1
pixels[5] = green value for pixel 1
pixels[6] = blue value for pixel 1
pixels[7] = alpha value for pixel 1
pixels[8] = red value for pixel 2
pixels[9] = green value for pixel 2
pixels[10] = blue value for pixel 2
pixels[11] = alpha value for pixel 2
pixels[12] = red value for pixel 3
...

หากต้องการค้นหาดัชนีของพิกเซลหนึ่งๆ จากพิกัด ก็มีสูตรง่ายๆ

const index = (x + y * imageWidth) * 4;
const red = pixels[index];
const green = pixels[index + 1];
const blue = pixels[index + 2];
const alpha = pixels[index + 3];

ตอนนี้คุณสามารถอ่านและเขียนข้อมูลนี้ได้ตามต้องการ ซึ่งจะช่วยให้คุณใช้เอฟเฟกต์ใดก็ได้ที่นึกออก อย่างไรก็ตาม อาร์เรย์นี้เป็นสำเนาของข้อมูลพิกเซลจริงสำหรับภาพพิมพ์แคนวาส หากต้องการเขียนเวอร์ชันที่แก้ไขแล้วกลับเข้าไป คุณต้องใช้เมธอด putImageData เพื่อเขียนข้อมูลนี้กลับไปยังมุมซ้ายบนของผืนผ้าใบ

context.putImageData(imageData, 0, 0);

WebGL

WebGL เป็นหัวข้อใหญ่มาก ใหญ่เกินกว่าที่จะอธิบายให้กระจ่างได้ในบทความเดียว หากต้องการดูข้อมูลเพิ่มเติมเกี่ยวกับ WebGL โปรดดูบทความแนะนำที่ท้ายบทความนี้

อย่างไรก็ตาม ต่อไปนี้เป็นข้อมูลเบื้องต้นคร่าวๆ เกี่ยวกับสิ่งที่ต้องทำในกรณีที่มีการดัดแปลงรูปภาพเดียว

สิ่งสำคัญที่สุดอย่างหนึ่งที่ควรจำเกี่ยวกับ WebGL คือ WebGL ไม่ใช่ API กราฟิก 3 มิติ อันที่จริงแล้ว WebGL (และ OpenGL) ทำได้เพียงอย่างเดียวเท่านั้น นั่นคือวาดรูปสามเหลี่ยม ในใบสมัคร คุณต้องอธิบายสิ่งที่ต้องการวาดเป็นสามเหลี่ยม ในกรณีของรูปภาพ 2 มิติ การดำเนินการนี้ทำได้ง่ายมาก เนื่องจากสี่เหลี่ยมผืนผ้าคือรูปสามเหลี่ยมมุมฉาก 2 รูปที่คล้ายกัน ซึ่งจัดเรียงให้ด้านตรงข้ามมุมฉากอยู่ในตำแหน่งเดียวกัน

ขั้นตอนพื้นฐานมีดังนี้

  • ส่งข้อมูลไปยัง GPU ที่อธิบายจุดยอด (จุด) ของสามเหลี่ยม
  • ส่งรูปภาพต้นฉบับไปยัง GPU เป็นพื้นผิว (รูปภาพ)
  • สร้าง "เวิร์กเทกซ์ Shader"
  • สร้าง "Fragment Shader"
  • ตั้งค่าตัวแปร Shader บางรายการที่เรียกว่า "ชุดค่าผสม"
  • เรียกใช้โปรแกรมเปลี่ยนสี

มาดูรายละเอียดกัน เริ่มต้นด้วยการจัดสรรหน่วยความจำบางส่วนในการ์ดกราฟิกที่เรียกว่าบัฟเฟอร์เวิร์กเทกซ์ คุณจัดเก็บข้อมูลในตารางที่อธิบายจุดแต่ละจุดของสามเหลี่ยมแต่ละรูป นอกจากนี้ คุณยังตั้งค่าตัวแปรบางอย่างที่เรียกว่า "ยูนิฟอร์ม" ซึ่งเป็นค่าส่วนกลางผ่านทั้ง 2 ชิลด์ได้อีกด้วย

เวิร์กเท็กเจอร์ใช้ข้อมูลจากบัฟเฟอร์เวิร์กเท็กเจอร์เพื่อคำนวณตําแหน่งบนหน้าจอที่จะวาดจุดทั้ง 3 จุดของสามเหลี่ยมแต่ละรูป

ตอนนี้ GPU จะรู้ว่าต้องวาดพิกเซลใดภายในผืนผ้าใบ ระบบจะเรียกใช้โปรแกรมเปลี่ยนรูปแบบเศษเสี้ยว 1 ครั้งต่อพิกเซล และต้องแสดงผลสีที่ควรวาดบนหน้าจอ โปรแกรมเปลี่ยนสีเศษข้อมูลจะอ่านข้อมูลจากพื้นผิวอย่างน้อย 1 รายการเพื่อกำหนดสี

เมื่ออ่านพื้นผิวในโปรแกรมเปลี่ยนรูปแบบเศษส่วนของภาพ คุณจะระบุส่วนของรูปภาพที่ต้องการอ่านได้โดยใช้พิกัดทศนิยม 2 รายการระหว่าง 0 (ซ้ายหรือด้านล่าง) ถึง 1 (ขวาหรือด้านบน)

หากต้องการอ่านพื้นผิวตามพิกัดพิกเซล คุณต้องส่งขนาดของพื้นผิวเป็นพิกเซลเป็นเวกเตอร์แบบสม่ำเสมอเพื่อให้ทำการแปลงสำหรับแต่ละพิกเซลได้

varying vec2 pixelCoords;

uniform vec2 textureSize;
uniform sampler2D textureSampler;

main() {
  vec2 textureCoords = pixelCoords / textureSize;
  vec4 textureColor = texture2D(textureSampler, textureCoords);
  gl_FragColor = textureColor;
 }
Pretty much every kind of 2D image manipulation that you might want to do can be done in the
fragment shader, and all of the other WebGL parts can be abstracted away. You can see [the
abstraction layer](https://github.com/GoogleChromeLabs/snapshot/blob/master/src/filters/image-shader.ts) (in
TypeScript) that is being in used in one of our sample applications if you'd like to see an example.

### Which should I use?

For pretty much any professional quality image manipulation, you should use WebGL. There is no
getting away from the fact that this kind of work is the whole reason GPUs were invented. You can
process images an order of magnitude faster on the GPU, which is essential for any real-time
effects.

The way that graphics cards work means that every pixel can be calculated in it's own thread. Even
if you parallelize your code CPU-based code with `Worker`s, your GPU may have 100s of times as many
specialized cores as your CPU has general cores.

2D canvas is much simpler, so is great for prototyping and may be fine for one-off transformations.
However, there are plenty of abstractions around for WebGL that mean you can get the performance
boost without needing to learn the details.

Examples in this article are mostly for 2D canvas to make explanations easier, but the principles
should translate pretty easily to fragment shader code.

## Effect types

### Pixel effects

This is the simplest category to both understand and implement. All of these transformations take
the color value of a single pixel and pass it into a function that returns another color value.

There are many variations on these operations that are more or less complicated. Some will take into
account how the human brain processes visual information based on decades of research, and some will
be dead simple ideas that give an effect that's mostly reasonable.

For example, a brightness control can be implemented by simply taking the red, green and blue values
of the pixel and multiplying them by a brightness value. A brightness of 0 will make the image
entirely black. A value of 1 will leave the image unchanged. A value greater than 1 will make it
brighter.

For 2D canvas:

```js
const brightness = 1.1; // Make the image 10% brighter
for (let i = 0; i < imageData.data.length; i += 4) {
  imageData.data[i] = imageData.data[i] * brightness;
  imageData.data[i + 1] = imageData.data[i + 1] * brightness;
  imageData.data[i + 2] = imageData.data[i + 2] * brightness;
}

โปรดทราบว่าลูปจะเลื่อนไปทีละ 4 ไบต์ แต่เปลี่ยนค่าเพียง 3 ค่าเท่านั้น เนื่องจากการเปลี่ยนรูปแบบนี้จะไม่เปลี่ยนค่าอัลฟ่า และโปรดทราบว่า ตัวแปรประเภท 'Uint8ClampedArray' จะปัดเศษค่าทั้งหมดเป็นจำนวนเต็ม และจำกัดค่าให้อยู่ในช่วง 0 ถึง 255

โปรแกรมเปลี่ยนสีเศษส่วนของ WebGL

    float brightness = 1.1;
    gl_FragColor = textureColor;
    gl_FragColor.rgb *= brightness;

ในทํานองเดียวกัน ระบบจะคูณเฉพาะส่วน RGB ของสีเอาต์พุตสําหรับการเปลี่ยนรูปแบบนี้

ตัวกรองบางรายการใช้ข้อมูลเพิ่มเติม เช่น ความสว่างเฉลี่ยของทั้งรูปภาพ แต่สิ่งเหล่านี้สามารถคํานวณได้เพียงครั้งเดียวสําหรับทั้งรูปภาพ

ตัวอย่างเช่น วิธีหนึ่งในการปรับเปลี่ยนคอนทราสต์คือการย้ายแต่ละพิกเซลเข้าหาหรือออกจากค่า "สีเทา" บางค่าเพื่อให้คอนทราสต์ต่ำลงหรือสูงขึ้นตามลำดับ โดยปกติแล้วค่าสีเทาจะเลือกให้เป็นสีเทาที่มีความสว่างเป็นค่ามัธยฐานของความสว่างของพิกเซลทั้งหมดในรูปภาพ

คุณสามารถคํานวณค่านี้เพียงครั้งเดียวเมื่อโหลดรูปภาพ แล้วนําไปใช้ทุกครั้งที่ต้องการปรับเอฟเฟกต์รูปภาพ

พิกเซลหลายจุด

เอฟเฟกต์บางรายการใช้สีของพิกเซลที่อยู่ใกล้เคียงเมื่อเลือกสีของพิกเซลปัจจุบัน

วิธีนี้จะทำให้คุณทำงานในโหมดภาพพิมพ์แคนวาส 2 มิติได้ยากขึ้นเล็กน้อย เนื่องจากคุณต้องการอ่านสีต้นฉบับของรูปภาพ และตัวอย่างก่อนหน้านี้เป็นการอัปเดตพิกเซลในตำแหน่ง

แต่วิธีนี้ทำได้ง่าย เมื่อสร้างออบเจ็กต์ข้อมูลรูปภาพครั้งแรก คุณจะทําสําเนาข้อมูลได้

const originalPixels = new Uint8Array(imageData.data);

สำหรับกรณี WebGL คุณไม่จําเป็นต้องทําการเปลี่ยนแปลงใดๆ เนื่องจากโปรแกรมเปลี่ยนสีไม่ได้เขียนลงในเท็กเจอร์อินพุต

หมวดหมู่เอฟเฟกต์หลายพิกเซลที่พบบ่อยที่สุดเรียกว่าฟิลเตอร์การกรอง ฟิลเตอร์การกรองใช้พิกเซลหลายพิกเซลจากรูปภาพอินพุตเพื่อคํานวณสีของพิกเซลแต่ละพิกเซลในรูปภาพอินพุต ระดับอิทธิพลที่พิกเซลอินพุตแต่ละพิกเซลมีต่อเอาต์พุตเรียกว่าน้ำหนัก

น้ำหนักจะแสดงด้วยเมทริกซ์ที่เรียกว่า "นิวเคลียส" โดยมีค่ากลางที่สอดคล้องกับพิกเซลปัจจุบัน เช่น นี่คือ Kernel สำหรับการเบลอแบบ Gaussian ขนาด 3x3

    | 0  1  0 |
    | 1  4  1 |
    | 0  1  0 |

สมมติว่าคุณต้องการคำนวณสีเอาต์พุตของพิกเซลที่ (23, 19) นำพิกเซล 8 พิกที่ล้อมรอบ (23, 19) รวมไปถึงพิกเซลนั้นๆ มาคูณค่าสีของแต่ละพิกเซลด้วยน้ำหนักที่สอดคล้องกัน

    (22, 18) x 0    (23, 18) x 1    (24, 18) x 0
    (22, 19) x 1    (23, 19) x 4    (24, 19) x 1
    (22, 20) x 0    (23, 20) x 1    (24, 20) x 0

บวกทั้งหมดเข้าด้วยกัน แล้วหารผลลัพธ์ด้วย 8 ซึ่งก็คือผลรวมของน้ำหนัก คุณจะเห็นผลลัพธ์เป็นพิกเซลที่ส่วนใหญ่เป็นภาพต้นฉบับ แต่มีพิกเซลที่อยู่ใกล้เคียงเข้ามาแทรกด้วย

const kernel = [
  [0, 1, 0],
  [1, 4, 1],
  [0, 1, 0],
];

for (let y = 0; y < imageHeight; y++) {
  for (let x = 0; x < imageWidth; x++) {
    let redTotal = 0;
    let greenTotal = 0;
    let blueTotal = 0;
    let weightTotal = 0;
    for (let i = -1; i <= 1; i++) {
      for (let j = -1; j <= 1; j++) {
        // Filter out pixels that are off the edge of the image
        if (
          x + i > 0 &&
          x + i < imageWidth &&
          y + j > 0 &&
          y + j < imageHeight
        ) {
          const index = (x + i + (y + j) * imageWidth) * 4;
          const weight = kernel[i + 1][j + 1];
          redTotal += weight * originalPixels[index];
          greenTotal += weight * originalPixels[index + 1];
          blueTotal += weight * originalPixels[index + 2];
          weightTotal += weight;
        }
      }
    }

    const outputIndex = (x + y * imageWidth) * 4;
    imageData.data[outputIndex] = redTotal / weightTotal;
    imageData.data[outputIndex + 1] = greenTotal / weightTotal;
    imageData.data[outputIndex + 2] = blueTotal / weightTotal;
  }
}

ข้อมูลนี้เป็นเพียงแนวคิดพื้นฐานเท่านั้น แต่มีคำแนะนำมากมายที่อธิบายอย่างละเอียดและแสดงเคอร์เนลอื่นๆ ที่มีประโยชน์อีกมากมาย

รูปภาพทั้งรูป

การเปลี่ยนรูปแบบทั้งรูปภาพบางรายการนั้นง่าย ในผืนผ้าใบ 2 มิติ การครอบตัดและการปรับขนาดเป็นการดำเนินการง่ายๆ เพียงวาดรูปภาพต้นฉบับเพียงบางส่วนลงในผืนผ้าใบ

// Set the canvas to be a little smaller than the original image
canvas.width = source.naturalWidth - 100;
canvas.height = source.naturalHeight - 100;

// Draw only part of the image onto the canvas
const sx = 50; // The left-most part of the source image to copy
const sy = 50; // The top-most part of the source image to copy
const sw = source.naturalWidth - 100; // How wide the rectangle to copy is
const sh = source.naturalHeight - 100; // How tall the rectangle to copy is

const dx = 0; // The left-most part of the canvas to draw over
const dy = 0; // The top-most part of the canvas to draw over
const dw = canvas.width; // How wide the rectangle to draw over is
const dh = canvas.height; // How tall the rectangle to draw over is

context.drawImage(theOriginalImage, sx, sy, sw, sh, dx, dy, dw, dh);

การหมุนและการสะท้อนมีให้ใช้งานโดยตรงในบริบท 2 มิติ เปลี่ยนการเปลี่ยนรูปแบบต่างๆ ก่อนวาดรูปภาพลงในผืนผ้าใบ

// Move the canvas so that the center of the canvas is on the Y-axis
context.translate(-canvas.width / 2, 0);

// An X scale of -1 reflects the canvas in the Y-axis
context.scale(-1, 1);

// Rotate the canvas by 90°
context.rotate(Math.PI / 2);

แต่สิ่งที่มีประสิทธิภาพมากกว่าคือ คุณเขียนการเปลี่ยนรูปแบบ 2 มิติหลายรายการเป็นเมทริกซ์ 2x3 และนำไปใช้กับผืนผ้าใบด้วย setTransform() ได้ ตัวอย่างนี้ใช้เมทริกซ์ที่รวมการหมุนและการแปล

const matrix = [
  Math.cos(rot) * x1,
  -Math.sin(rot) * x2,
  tx,
  Math.sin(rot) * y1,
  Math.cos(rot) * y2,
  ty,
];

context.setTransform(
  matrix[0],
  matrix[1],
  matrix[2],
  matrix[3],
  matrix[4],
  matrix[5],
);

เอฟเฟกต์ที่ซับซ้อนมากขึ้น เช่น การบิดเบือนของเลนส์หรือคลื่น จะใช้การออฟเซตบางอย่างกับพิกัดปลายทางแต่ละพิกัดเพื่อคำนวณพิกัดพิกเซลต้นทาง ตัวอย่างเช่น หากต้องการสร้างเอฟเฟกต์คลื่นแนวนอน คุณสามารถเลื่อนพิกัด x ของพิกเซลต้นทางตามค่าบางอย่างโดยอิงตามพิกัด y

for (let y = 0; y < canvas.height; y++) {
  const xOffset = 20 * Math.sin((y * Math.PI) / 20);
  for (let x = 0; x < canvas.width; x++) {
    // Clamp the source x between 0 and width
    const sx = Math.min(Math.max(0, x + xOffset), canvas.width);

    const destIndex = (y * canvas.width + x) * 4;
    const sourceIndex = (y * canvas.width + sx) * 4;

    imageData.data[destIndex] = originalPixels.data[sourceIndex];
    imageData.data[destIndex + 1] = originalPixels.data[sourceIndex + 1];
    imageData.data[destIndex + 2] = originalPixels.data[sourceIndex + 2];
  }
}

วิดีโอ

ส่วนอื่นๆ ในบทความใช้ได้กับวิดีโออยู่แล้วหากคุณใช้องค์ประกอบ video เป็นภาพต้นทาง

Canvas 2 มิติ

context.drawImage(<strong>video</strong>, 0, 0);

WebGL:

gl.texImage2D(
  gl.TEXTURE_2D,
  0,
  gl.RGBA,
  gl.RGBA,
  gl.UNSIGNED_BYTE,
  <strong>video</strong>,
);

แต่จะใช้เฉพาะเฟรมวิดีโอปัจจุบันเท่านั้น ดังนั้นหากต้องการใช้เอฟเฟกต์กับวิดีโอที่เล่นอยู่ คุณต้องใช้ drawImage/texImage2D ในแต่ละเฟรมเพื่อจับเฟรมวิดีโอใหม่และประมวลผลในเฟรมภาพเคลื่อนไหวของเบราว์เซอร์แต่ละเฟรม

const draw = () => {
  requestAnimationFrame(draw);

  context.drawImage(video, 0, 0);

  // ...image processing goes here
};

เมื่อทำงานกับวิดีโอ ความเร็วในการประมวลผลจะมีความสำคัญอย่างยิ่ง เมื่อใช้ภาพนิ่ง ผู้ใช้อาจไม่สังเกตเห็นความล่าช้า 100 มิลลิวินาทีระหว่างการคลิกปุ่มกับการใช้เอฟเฟกต์ อย่างไรก็ตาม เมื่อแสดงภาพเคลื่อนไหว ความล่าช้าเพียง 16 มิลลิวินาทีอาจทำให้เกิดอาการกระตุกได้

ความคิดเห็น