อาลีบาบา เปิดตัว Wan2.7-Video พลิกบทบาทครีเอเตอร์จาก ‘คนทำงาน’ สู่ ‘ผู้กำกับ’

12
0
Share:

อาลีบาบา เปิดตัว Video Wan2.7 โมเดลสร้างวิดีโอครบวงจรที่ช่วยยกระดับคุณภาพผลงานและประสิทธิภาพการสร้างสรรค์อย่างก้าวกระโดด สำหรับทั้งครีเอเตอร์รายบุคคลและการใช้งานระดับอุตสาหกรรม

 

 

Wan2.7-Video ยกระดับจากการใช้ AI สร้างเพียงองค์ประกอบย่อย ไปสู่การใช้ AI สร้างภาพยนตร์ที่สมบูรณ์แบบ เป็นการช่วยให้ผู้สร้างสรรค์งานสามารถควบคุมกระบวนการทำงานทั้งหมดได้เสมือนเป็นผู้กำกับ และยังช่วยบริหารจัดการเนื้อหาที่ซับซ้อนและงานเบื้องหลังได้ด้วยความแม่นยำอย่างที่ไม่เคยมีมาก่อน

การเปิดตัวโมเดลสร้างวิดีโอนี้เกิดขึ้นเพียงไม่กี่วัน หลังการเปิดตัว Wan2.7-Image ซึ่งเป็นโมเดลสร้างสรรค์ภาพเวอร์ชันล่าสุด การเปิดตัวอย่างต่อเนื่องนี้สะท้อนให้เห็นถึงการขยายขีดความสามารถด้าน AI มัลติมีเดียของอาลีบาบา อย่างรวดเร็วและเป็นระบบ

ครอบคลุมทุกขั้นตอนการสร้างสรรค์อย่างมืออาชีพ
Wan2.7-Video ประกอบด้วย 4 โมเดล ได้แก่ Wan2.7-t2v (โมเดลสร้างวิดีโอจากข้อความ) Wan2.7-i2v (โมเดลสร้างวิดีโอจากภาพ) Wan2.7-r2v (โมเดลสร้างวิดีโอจากวิดีโออ้างอิง) และ Wan2.7-videoedit (โมเดลตัดต่อวิดีโอ) โดยผสานอินพุตจากข้อความ ภาพ วิดีโอ และเสียงไว้ในระบบเดียวกัน ครอบคลุมตั้งแต่การสร้าง แก้ไข ทำซ้ำ ปรับรูปแบบ ต่อยอดเนื้อหา ไปจนถึงการอ้างอิง

ชุดเครื่องมือที่ครอบคลุมนี้ช่วยแก้ปัญหาช่องว่างสำคัญด้านความต่อเนื่องของการเล่าเรื่อง และความสอดคล้องกันของภาพหลายช็อต (multi-shot consistency) ช่วยให้ผู้ใช้งานสามารถจัดการเวิร์กโฟลว์ที่หลากหลายได้อย่างง่ายดาย ตั้งแต่การป้อนสคริปต์ไปจนถึงการควบคุมภาพ

Wan2.7-Video รองรับการสร้างวิดีโอที่ยืดหยุ่นได้ตั้งแต่ 2 ถึง 15 วินาที ให้ผลลัพธ์ที่มีความละเอียด 720p และ 1080p นอกจากนี้ยังมี APIs ที่รองรับงานระดับองค์กร เพื่อให้สามารถประมวลผลแบบกลุ่ม (batch procession) และปรับแต่งเวิร์กโฟลว์ได้ตามความต้องการของแต่ละองค์กร

การตัดต่อและควบคุมระดับการทำงานของผู้กำกับ
ซีรีส์ Wan2.7-Video นำระบบสั่งการด้วยภาษาธรรมชาติที่ใช้งานง่ายมาใช้เพื่อแก้ปัญหาต้นทุนที่สูงของการทำงานเบื้องหลังตามรูปแบบเดิม ช่วยให้ครีเอเตอร์สามารถปรับเปลี่ยนวิดีโอได้ครบทุกมิติ ไม่ว่าจะเป็นการกระทำของตัวละคร บทสนทนา รูปลักษณ์ ฉาก สไตล์ ไปจนถึงวิธีการถ่ายทำ นอกจากนี้ ผู้ใช้ยังสามารถกำหนดรูปแบบหรือกำกับภาพได้อย่างรวดเร็วด้วยการเคลื่อนกล้องทั้งแบบพื้นฐานและแบบซับซ้อนหลายสิบรูปแบบ โดยที่ยังรักษาความสม่ำเสมอของแสงได้อย่างสมบูรณ์แบบ

โมเดลนี้สามารถแก้ไขบทสนทนาได้แบบไดนามิก ด้วยการซิงก์การขยับริมฝีปากโดยอัตโนมัติ พร้อมยังคงเอกลักษณ์ของน้ำเสียงเดิมไว้ได้แม้มีการปรับบทใหม่ การรองรับอินพุตแบบ multimodal ยังช่วยควบคุมรายละเอียดได้อย่างแม่นยำ เช่น การใช้คลิปเสียงเพื่อเปลี่ยนสภาพอากาศ หรือการใช้ภาพแบบหลายเฟรมเพื่อกำหนดทิศทางเรื่อง การจัดองค์ประกอบภาพ และการตั้งค่าตัวละคร

ระบบยังสามารถรักษาความต่อเนื่องของตัวละครที่แตกต่างกันในแต่ละวิดีโอได้สูงสุดถึง 5 ตัวละคร ด้วยการปรับแต่งโทนเสียงและอัตลักษณ์ภาพเฉพาะตัวให้กับแต่ละตัวละครท่ามกลางการดำเนินเรื่องที่ซับซ้อน นอกจากนี้โมเดลยังรองรับการผสมผสานสไตล์นับพันรูปแบบ และการแสดงอารมณ์ที่ละเอียดอ่อนมากกว่า 50 รูปแบบเพื่อผลลัพธ์การแสดงที่สมจริง

การเล่าเรื่องผ่านภาพยนตร์อย่างอัจฉริยะ
กลไกการเล่าเรื่อง (narrative engine) ของโมเดลนี้ เปลี่ยนอินพุตธรรมดาๆ ให้กลายเป็นโครงเรื่องที่น่าตื่นตาและร้อยเรียงสอดประสานกันผ่านการจัดลำดับงานอัจฉริยะ โดยใช้คำสั่งเพียงคำสั่งเดียว (a single prompt) ก็สามารถสร้างสตอรี่บอร์ดที่สมบูรณ์พร้อม ทั้งโครงสร้างและองค์ประกอบงานระดับมืออาชีพ การเปลี่ยนผ่านฉากที่แม่นยำ รวมถึงการเคลื่อนกล้องแบบ FPV (first-person view) drone dives, การถ่ายภาพแบบหมุนรอบตัว (orbital shots) 360 องศา และการจัดแสงที่ปรับตามบริบทในฉาก

Wan2.7-Video ได้รับการเทรนด้วยชุดข้อมูลการตัดต่อวิดีโอที่มีความสอดคล้องกัน และใช้สถาปัตยกรรมแบบ end-to-end รูปแบบใหม่ ช่วยให้เนื้อหาที่สร้างขึ้นใหม่มีความแม่นยำสูง ผ่านการสั่งงานด้วยภาษาธรรมชาติ และภาพอ้างอิง นอกจากนี้กลไกการสร้างส่วนต่อขยายวิดีโอ (video continuation) ยังช่วยให้ผู้ใช้กำหนดเฟรมสุดท้ายได้เอง เพื่อให้การเปลี่ยนภาพเป็นไปอย่างลื่นไหล และลดปัญหาภาพสะดุดหรือหยุดชะงักอย่างกะทันหัน

Wan2.7-Image ยกระดับการปรับแต่งแเบบเฉพาะเจาะจงและความแม่นยำของสี
เพียงไม่นานก่อนการเปิดตัวโมเดล Wan2.7-Video นี้ อาลีบาบาได้เปิดตัว Wan2.7-Image ซึ่งเป็นเครื่องมือสร้างภาพที่เปลี่ยนกฎเกณฑ์การสร้างภาพด้วย AI โดยออกแบบมาเพื่อแก้ปัญหางานศิลป์ที่ดูซ้ำซาก และการแสดงผลสีที่ไม่แม่นยำ ซึ่งเป็นปัญหาที่เรื้อรังมานานของภาพที่สร้างด้วย AI ความสามารถในการปรับแต่งแบบเฉพาะเจาะจงและความแม่นยำระดับมืออาชีพอย่างที่ไม่เคยมีมาก่อน ส่งให้โมเดลนี้มีประสิทธิภาพเหนือกว่าคู่แข่งชั้นนำในอุตสาหกรรมจากการประเมินโดยมนุษย์ในรูปแบบ blind test ทั้งในด้านความสมจริงของภาพ การแสดงผลตัวอักษร และการเข้าใจแนวคิด

นวัตกรรมที่สำคัญประกอบด้วยกลไกการปรับแต่งแบบเฉพาะเจาะจงเชิงลึกที่ช่วยให้ผู้ใช้สามารถปรับรายละเอียดเฉพาะของตัวละครได้ถึงระดับโครงสร้างกระดูกและรูปทรงดวงตา ควบคู่ไปกับฟีเจอร์ ‘จานสี’ (color palette) ที่เป็นเอกลักษณ์ สามารถจับคู่รหัสได้อย่างแม่นยำเพื่อให้สอดคล้องกับแบรนด์ นอกจากนี้ โมเดลดังกล่าวยังประสบความสำเร็จครั้งใหญ่ในการแสดงผลตัวอักษร (text rendering) โดยการใช้หน้าต่างบริบท (context window) ขนาด 3,000 โทเคน สร้างข้อความทางวิชาการคุณภาพระดับงานพิมพ์ สูตรคำนวณที่ซับซ้อน และตารางใน 12 ภาษา นับเป็นการเชื่อมช่องว่างระหว่างความต้องการทางภาษาและการแสดงผลออกมาเป็นภาพได้อย่างมีประสิทธิภาพ

Wan2.7-Image รองรับเวิร์กโฟลว์ปริมาณมาก เพื่อเพิ่มประสิทธิภาพสูงสุดให้แก่ผู้สร้างสรรค์ โดยสามารถประมวลผลภาพอ้างอิงได้สูงสุดถึงเก้าภาพ และสร้างผลลัพธ์ที่แตกต่างกันได้ 12 รูปแบบในการประมวลผลเพียงครั้งเดียว ซึ่งช่วยลดความยุ่งยากในการผลิตสตอรี่บอร์ดและแคมเปญอีคอมเมิร์ซ พลังในการสร้างสรรค์นี้ยังมาพร้อมกับอินเทอร์เฟซแบบ ‘คลิกเพื่อแก้ไข’ (click-to-edit) ที่ใช้งานง่าย ช่วยให้สามารถควบคุมการเพิ่ม เคลื่อนย้าย หรือจัดวางองค์ประกอบต่างๆ ได้อย่างแม่นยำดีเยี่ยมในระดับพิกเซล นอกจากนี้ อาลีบาบายังได้เปิดตัว Wan2.7-Image-Pro ซึ่งเป็นเวอร์ชันอัปเกรดที่โดดเด่นด้วยการตีความคำสั่ง (prompt) ได้อย่างเฉียบคมขึ้น การจัดวางองค์ประกอบภาพที่เสถียรกว่าเดิม และมอบเอาต์พุตความละเอียดสูงระดับ 4K

โมเดล Wan2.7-Video และ Wan2.7-Image พร้อมให้ใช้งานแล้วบน Model Studio ของอาลีบาบา คลาวด์ และเว็บไซต์ทางการของ Wan รวมถึงผสานอยู่ใน Qwen App ซึ่งนับเป็นอีกก้าวสำคัญของความมุ่งมั่นของ Wan series ในการนำเสนอโซลูชันมัลติมีเดียที่ใช้งานง่าย ประสิทธิภาพสูง ให้กับเหล่าครีเอเตอร์

Share: