सेबएंथ्रोपिक और अन्य प्रमुख कृत्रिम बुद्धिमत्ता (एआई) फर्मों ने कथित तौर पर सैकड़ों हजारों लोगों के डेटा पर एआई मॉडल को प्रशिक्षित किया है। यूट्यूब वीडियो। एक नई रिपोर्ट में दावा किया गया है कि कई AI कंपनियों ने Pile नामक सार्वजनिक रूप से उपलब्ध डेटासेट का इस्तेमाल किया, जिसमें बिना किसी वीडियो इमेजरी के वीडियो के सबटाइटल का सादा टेक्स्ट शामिल था। यह डेटा MrBeast, Marques Brownlee और PewDiePie जैसे लोकप्रिय YouTube क्रिएटर्स के साथ-साथ कैरीमिनाटी, BB ki Vines और आशीष चंचलानी जैसे भारतीय YouTube क्रिएटर्स से एकत्र किया गया था।
कई AI मॉडल कथित तौर पर YouTube वीडियो पर प्रशिक्षित किए गए
प्रूफ न्यूज ने एक अध्ययन किया जाँच पड़ताल यह पता चला कि 1,73,536 YouTube वीडियो के सबटाइटल डेटा को 48,000 से ज़्यादा चैनलों से लिया गया था। रिपोर्ट के अनुसार, गैर-लाभकारी AI रिसर्च लैब EleutherAI ने इस डेटासेट को क्यूरेट किया। बाद में, इसका इस्तेमाल Apple जैसी कंपनियों ने किया। anthropicNvidia, Salesforce, और बहुत कुछ। उल्लेखनीय रूप से, AI लैब ने एक शोध प्रकाशित किया कागज़ डेटासेट के विवरण पर प्रकाश डालना।
EleutherAI ने 800GB का डेटा रिपॉजिटरी बनाया जिसे Pile नाम दिया गया और इसे उन लोगों के लिए सार्वजनिक रूप से उपलब्ध कराया जो AI मॉडल को प्रशिक्षित करना चाहते थे लेकिन बड़े डेटासेट खरीदने में असमर्थ थे। डेटासेट का अधिकांश हिस्सा सार्वजनिक रूप से उपलब्ध स्रोतों जैसे कि अंग्रेजी विकिपीडिया, ई-बुक्स और अन्य से लिया गया था। हालाँकि, इसमें YouTube सबटाइटल्स नामक डेटासेट में संकलित सभी वीडियो के सबटाइटल भी शामिल थे।
रिपोर्ट में दावा किया गया है कि शोध पत्र के विवरण के आधार पर, पाइल का उपयोग एप्पल के ओपनईएलएम एआई मॉडल को प्रशिक्षित करने के लिए किया गया था। NVIDIAऔर एंथ्रोपिक के एआई मॉडल के शोध पत्रों में भी कथित तौर पर डेटासेट के उपयोग का उल्लेख है।
एंथ्रोपिक के प्रवक्ता जेनिफर मार्टिनेज ने एक बयान में प्रकाशन को बताया, “पाइल में YouTube उपशीर्षकों का एक बहुत छोटा सा उपसमूह शामिल है। YouTube की शर्तें इसके प्लेटफ़ॉर्म के प्रत्यक्ष उपयोग को कवर करती हैं, जो पाइल डेटासेट के उपयोग से अलग है। YouTube की सेवा की शर्तों के संभावित उल्लंघन के बारे में, हमें आपको पाइल लेखकों के पास भेजना होगा।”
उल्लेखनीय है कि यूट्यूब की सेवा की शर्तें निषेध किसी भी व्यक्ति को रोबोट, बॉटनेट या स्क्रैपर जैसे स्वचालित साधनों का उपयोग करके प्लेटफ़ॉर्म पर वीडियो तक पहुँचने से रोका जाएगा। YouTube सबटाइटल स्क्रैपिंग श्रेणी में आएंगे। Google के प्रवक्ता ने एक ईमेल प्रतिक्रिया में Proof News को बताया कि तकनीकी दिग्गज ने “अपमानजनक, अनधिकृत स्क्रैपिंग को रोकने के लिए वर्षों से कार्रवाई की है।” हालाँकि, AI फ़र्म द्वारा डेटा के उपयोग के बारे में कोई टिप्पणी नहीं की गई।
एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एक पोस्ट में, मार्केस ब्राउनली ने एप्पल पर उन कंपनियों से डेटा प्राप्त करने का आरोप लगाया, जिनमें उनके वीडियो की प्रतिलिपियां शामिल थीं, लेकिन उन्होंने यह भी रेखांकित किया कि यह आईफोन निर्माता की गलती नहीं थी, क्योंकि उन्होंने डेटा एकत्र नहीं किया था।
एप्पल ने अपने AI के लिए डेटा कई कंपनियों से प्राप्त किया है
उनमें से एक ने यूट्यूब वीडियो से ढेर सारा डेटा/ट्रांसक्रिप्ट चुरा लिया, जिसमें मेरा भी वीडियो शामिल था
तकनीकी रूप से एप्पल यहां “गलती” से बचता है क्योंकि वे स्क्रैपिंग करने वाले नहीं हैं
लेकिन यह समस्या लम्बे समय तक जारी रहेगी https://t.co/U93riaeSlY
— मार्क्स ब्राउनली (@MKBHD) 16 जुलाई, 2024
हालांकि यह डेटासेट सार्वजनिक रूप से एकत्र और वितरित किया गया था, लेकिन YouTube जैसे प्लेटफ़ॉर्म पर डेटा स्क्रैपिंग के अन्य उदाहरण भी हो सकते हैं। AI फ़र्मों द्वारा अपने बड़े भाषा मॉडल (LLM) को प्रशिक्षित करने के लिए अधिक डेटा खोजने के लिए संघर्ष करने के साथ, डेटा खरीद कानूनी रूप से इसी तरह के ग्रे क्षेत्रों में प्रवेश करना जारी रख सकती है।