เปิดตัว Gemini Omni AI โมเดลตัวตึงด้านวิดีโอ เก็บรายละเอียดเป๊ะขึ้น รองรับ Input หลายรูปแบบ

1 month ago 24

Gemini Omni โมเดลตัวใหม่ที่รองรับ “Input หลายรูปแบบ” ได้รับฉายาว่าเป็น Nano Banana เวอร์ชันวิดีโอ สามารถสร้าง/แก้ไขวิดีโอคุณภาพสูงได้ละเอียด คิดวิเคราะห์เก่งขึ้น จดจำรายละเอียดต่าง ๆ ได้ดีกว่าเดิม ช่วยให้วิดีโอมีความต่อเนื่องเป็นธรรมชาติ พร้อมใช้งานบน Google Flow กับ Gemini

โมเดลใหม่ตีคู่ Nano Banana แต่เด่นเรื่องงานวิดีโอสุด ๆ

โมเดล Omni Flash รุ่นแรก โดดเด่นด้วยการนำความสามารถในการสร้างสรรค์งานวิดีโอ และความสามารถในการใช้เหตุผลหรือการคิดวิเคราะห์ของ Gemini มารวมเข้าด้วยกัน

Omni Flash จึงเข้าใจภาษาธรรมชาติ (Natural Language) ผู้ใช้ไม่จำเป็นต้องเข้าใจศัพท์ด้านภาพยนต์ AI ก็รู้ได้ทันทีว่าต้องการอะไร และสามารถมอบรายละเอียดที่มีความสมจริงในงานวิดีโอได้เป็นอย่างดี เช่น ฉาก, คำพูด, รูปลักษณ์/ใบหน้าตัวละคร ท่าทางการเคลื่อนไหว และระบบฟิสิกส์ภายในฉาก

Omni Flash ใช้แก้ไขวิดีโอที่มีอยู่แล้วก็ได้ แก้ไขได้แบบละเอียด

สามารถใช้ Input เป็นวิดีโอที่มีอยู่แล้วก็ได้ Omni Flash รองรับการแก้ไขวิดีโอเฉพาะจุด และการแก้ไขเฉพาะช่วงเวลาหรือทั้งวิดีโอ โดยความสามารถที่ Google ยกตัวอย่างขึ้นมาว่าสามารถแก้ไขอะไรในวิดีโอต้นฉบับได้บ้าง เช่น

แก้ไขฉากหลัง
เพิ่มตัวละคร/วัตถุเข้าไปในฉาก
เปลี่ยนแปลงมุมกล้อง
แก้ไขรายละเอียดเล็ก ๆ น้อย ๆ ในบางฉาก
ปรับเปลี่ยนเสียงหรือบทสนทนา (อยู่ระหว่างการทดสอบ)

ไม่ต้องเหนื่อย Prompt เยอะ รองรับอินพุตหลายแบบ และต่อเนื่องยิ่งกว่าเดิม

สำหรับการสร้างวิดีโออย่างที่เกริ่นไปก่อนหน้านี้ Omni Flash คือโมเดลที่ “รองรับ Input หลายรูปแบบในครั้งเดียว” ไม่ว่าจะเป็น รูปภาพ, ข้อความ, วิดีโอ หรือไฟล์เสียง ผู้ใช้สามารถแนบพร้อมกันทั้งหมดเพื่อให้ AI นำมาสร้างเป็นวิดีโอตามที่ผู้ใช้บรีฟมาได้เลย

ปัญหาฉากไม่ต่อเนื่อง ท่าทางตัวละครไม่เหมือนเดิม หรือน้ำเสียงเปลี่ยนไป Omni Flash จะไม่มีปัญหานี้เกิดขึ้นให้เห็นอย่างแน่นอน เพราะผลลัพธ์แต่ละครั้งจากการ Prompt ระบบจะอ้างอิงและทำออกมาให้ต่อเนื่องจากคำสั่งก่อนหน้าด้วย

รวมไปถึงการกำหนดสไตล์วิดีโอ รูปแบบการเคลื่อนไหวของตัวละคร และเอฟเฟกต์ในฉากหลังก็สามารถใช้วิธี “ป้อนคำสั่งเป็นข้อความด้วยภาษาพูด (Natural Language)” ก็ได้เช่นกัน

เพิ่มความปลอดภัยด้วย SynthID ป้องกันไม่ให้ใช้ AI เจน/แก้ไขวิดีโอในทางที่ผิด

Google ระบุว่าวิดีโอทุกตัวที่ถูกแก้ไข/สร้างโดยโมเดล Omni Flash จะมีการฝังลายน้ำดิจิทัล (SynthID) ซึ่งมองไม่เห็นด้วยตาเปล่าลงไปด้วย เพื่อใช้สำหรับตรวจสอบว่าเป็นวิดีโอที่ผ่านการสร้างด้วย AI มาหรือไม่

ส่วนฟีเจอร์อย่าง “การแก้ไขเสียงพูดในวิดีโอ” เช่น การเปลี่ยนเสียงคนในคลิปให้กลายเป็นเสียงอื่น ยังอยู่ในขั้นตอนทดสอบและกำลังหาวิธีที่จะนำมาให้บริการได้อย่างปลอดภัย (เพราะมีความเสี่ยงที่จะถูกนำไปใช้ในทางที่ผิด)

พร้อมให้งานเฉพาะผู้สมัครแพ็กเกจ Google AI Plus, AI Pro และ AI Ultra

Gemini Omni Flash เปิดให้ใช้งานแล้วทั่วโลกตั้งแต่วันนี้ เฉพาะผู้ใช้งานเสียเงินแพ็กเกจ Google AI Plus, AI Pro และ AI Ultra ผ่านแอปฯ Gemini กับ Gemini Flow และสามารถทดลองใช้โมเดลดังกล่าวเพื่อสร้างสรรค์วิดีโอได้ฟรีบน YouTube Shorts กับ YouTube Create

ที่มา: Google Blog

Read Entire Article