गूगल आई/ओ 2024 का मुख्य सत्र 112 मिनट लंबा था जहां कंपनी ने कई प्रमुख घोषणाएं कीं, जिन पर ध्यान केंद्रित किया गया कृत्रिम होशियारी (एआई)। घोषणाएँ नए AI मॉडल से लेकर Google उत्पादों में AI के एकीकरण तक थीं, लेकिन शायद सबसे दिलचस्प परिचय में से एक Veo था, एक AI-संचालित वीडियो जेनरेशन मॉडल, जो 1080p रिज़ॉल्यूशन वीडियो उत्पन्न कर सकता है। टेक दिग्गज ने कहा कि एआई टूल एक मिनट से अधिक समय के वीडियो तैयार कर सकता है। विशेष रूप से, OpenAI भी अनावरण किया इसके वीडियो एआई मॉडल को फरवरी में सोरा नाम दिया गया।
इवेंट के दौरान, Google DeepMind के सह-संस्थापक और सीईओ डेमिस हसाबिस ने कहा, अनावरण किया वीओ. एआई मॉडल की घोषणा करते हुए उन्होंने कहा, “आज, मैं वीओ नामक हमारे नवीनतम और सबसे सक्षम जेनरेटिव वीडियो मॉडल की घोषणा करते हुए उत्साहित हूं। Veo टेक्स्ट, छवि और वीडियो संकेतों से उच्च गुणवत्ता वाले 1080p वीडियो बनाता है। यह विभिन्न दृश्य और सिनेमाई शैलियों में आपके निर्देशों का विवरण कैप्चर कर सकता है।
टेक दिग्गज का दावा है कि वीओ किसी वाक्यांश की बारीकियों और लहजे को समझने के लिए संकेतों का बारीकी से पालन कर सकता है और फिर उससे मिलता-जुलता एक वीडियो तैयार कर सकता है। एआई मॉडल विभिन्न शैलियों जैसे टाइमलैप्स, क्लोज़-अप, फास्ट-ट्रैकिंग शॉट्स, एरियल शॉट्स और विभिन्न प्रकाश व्यवस्था और फ़ील्ड शॉट्स की गहराई में वीडियो उत्पन्न कर सकता है। वीडियो निर्माण के अलावा, एआई मॉडल वीडियो को संपादित भी कर सकता है जब उपयोगकर्ता इसे प्रारंभिक वीडियो और कुछ जोड़ने या हटाने का संकेत देता है। इसके अलावा, यह एकल प्रॉम्प्ट या एकाधिक अनुक्रमिक प्रॉम्प्ट के माध्यम से एक मिनट से अधिक के वीडियो भी उत्पन्न कर सकता है।
वीडियो जेनरेशन मॉडल में स्थिरता की समस्या को हल करने के लिए, वीओ अव्यक्त प्रसार ट्रांसफार्मर का उपयोग करता है। यह फ्रेम के बीच पात्रों, वस्तुओं या पूरे दृश्य के झिलमिलाने, कूदने या अप्रत्याशित रूप से रूपांतरित होने की घटनाओं को कम करने में मदद करता है। गूगल इस बात पर प्रकाश डाला गया कि वीओ द्वारा बनाए गए वीडियो को सिंथआईडी का उपयोग करके वॉटरमार्क किया जाएगा, जो वॉटरमार्किंग और एआई-जनरेटेड सामग्री की पहचान करने के लिए कंपनी का इन-हाउस टूल है। यह मॉडल जल्द ही Google Labs पर VideoFX टूल के माध्यम से चुनिंदा रचनाकारों के लिए उपलब्ध होगा।
वीओ की ओपनएआई के सोरा से समानताएं
हालाँकि दोनों में से कोई भी AI मॉडल अभी तक जनता के लिए उपलब्ध नहीं है, दोनों में कई समानताएँ हैं। जबकि, Veo एक मिनट से अधिक की अवधि के लिए 1080p वीडियो तैयार कर सकता है ओपनएआई सोरा 60 सेकंड तक के वीडियो तैयार कर सकता है। दोनों मॉडल टेक्स्ट प्रॉम्प्ट, छवियों और वीडियो से वीडियो उत्पन्न कर सकते हैं। प्रसार मॉडल के आधार पर, दोनों कई शॉट्स, शैलियों और सिनेमैटोग्राफी तकनीकों से वीडियो बनाने में सक्षम हैं। सोरा और वीओ दोनों एआई-जनरेटेड कंटेंट लेबल के साथ आते हैं। सोरा गठबंधन फॉर कंटेंट प्रोवेनेंस एंड ऑथेंटिसिटी (C2PA) मानक का उपयोग करता है जबकि Veo अपने मूल SynthID का उपयोग करता है।