Home Technology एप्पल ने संभवतः अपने AI मॉडल को हजारों यूट्यूब वीडियो पर प्रशिक्षित...

एप्पल ने संभवतः अपने AI मॉडल को हजारों यूट्यूब वीडियो पर प्रशिक्षित किया है

8
0
एप्पल ने संभवतः अपने AI मॉडल को हजारों यूट्यूब वीडियो पर प्रशिक्षित किया है



सेबएंथ्रोपिक और अन्य प्रमुख कृत्रिम बुद्धिमत्ता (एआई) फर्मों ने कथित तौर पर सैकड़ों हजारों लोगों के डेटा पर एआई मॉडल को प्रशिक्षित किया है। यूट्यूब वीडियो। एक नई रिपोर्ट में दावा किया गया है कि कई AI कंपनियों ने Pile नामक सार्वजनिक रूप से उपलब्ध डेटासेट का इस्तेमाल किया, जिसमें बिना किसी वीडियो इमेजरी के वीडियो के सबटाइटल का सादा टेक्स्ट शामिल था। यह डेटा MrBeast, Marques Brownlee और PewDiePie जैसे लोकप्रिय YouTube क्रिएटर्स के साथ-साथ कैरीमिनाटी, BB ki Vines और आशीष चंचलानी जैसे भारतीय YouTube क्रिएटर्स से एकत्र किया गया था।

कई AI मॉडल कथित तौर पर YouTube वीडियो पर प्रशिक्षित किए गए

प्रूफ न्यूज ने एक अध्ययन किया जाँच पड़ताल यह पता चला कि 1,73,536 YouTube वीडियो के सबटाइटल डेटा को 48,000 से ज़्यादा चैनलों से लिया गया था। रिपोर्ट के अनुसार, गैर-लाभकारी AI रिसर्च लैब EleutherAI ने इस डेटासेट को क्यूरेट किया। बाद में, इसका इस्तेमाल Apple जैसी कंपनियों ने किया। anthropicNvidia, Salesforce, और बहुत कुछ। उल्लेखनीय रूप से, AI लैब ने एक शोध प्रकाशित किया कागज़ डेटासेट के विवरण पर प्रकाश डालना।

EleutherAI ने 800GB का डेटा रिपॉजिटरी बनाया जिसे Pile नाम दिया गया और इसे उन लोगों के लिए सार्वजनिक रूप से उपलब्ध कराया जो AI मॉडल को प्रशिक्षित करना चाहते थे लेकिन बड़े डेटासेट खरीदने में असमर्थ थे। डेटासेट का अधिकांश हिस्सा सार्वजनिक रूप से उपलब्ध स्रोतों जैसे कि अंग्रेजी विकिपीडिया, ई-बुक्स और अन्य से लिया गया था। हालाँकि, इसमें YouTube सबटाइटल्स नामक डेटासेट में संकलित सभी वीडियो के सबटाइटल भी शामिल थे।

रिपोर्ट में दावा किया गया है कि शोध पत्र के विवरण के आधार पर, पाइल का उपयोग एप्पल के ओपनईएलएम एआई मॉडल को प्रशिक्षित करने के लिए किया गया था। NVIDIAऔर एंथ्रोपिक के एआई मॉडल के शोध पत्रों में भी कथित तौर पर डेटासेट के उपयोग का उल्लेख है।

एंथ्रोपिक के प्रवक्ता जेनिफर मार्टिनेज ने एक बयान में प्रकाशन को बताया, “पाइल में YouTube उपशीर्षकों का एक बहुत छोटा सा उपसमूह शामिल है। YouTube की शर्तें इसके प्लेटफ़ॉर्म के प्रत्यक्ष उपयोग को कवर करती हैं, जो पाइल डेटासेट के उपयोग से अलग है। YouTube की सेवा की शर्तों के संभावित उल्लंघन के बारे में, हमें आपको पाइल लेखकों के पास भेजना होगा।”

उल्लेखनीय है कि यूट्यूब की सेवा की शर्तें निषेध किसी भी व्यक्ति को रोबोट, बॉटनेट या स्क्रैपर जैसे स्वचालित साधनों का उपयोग करके प्लेटफ़ॉर्म पर वीडियो तक पहुँचने से रोका जाएगा। YouTube सबटाइटल स्क्रैपिंग श्रेणी में आएंगे। Google के प्रवक्ता ने एक ईमेल प्रतिक्रिया में Proof News को बताया कि तकनीकी दिग्गज ने “अपमानजनक, अनधिकृत स्क्रैपिंग को रोकने के लिए वर्षों से कार्रवाई की है।” हालाँकि, AI फ़र्म द्वारा डेटा के उपयोग के बारे में कोई टिप्पणी नहीं की गई।

एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एक पोस्ट में, मार्केस ब्राउनली ने एप्पल पर उन कंपनियों से डेटा प्राप्त करने का आरोप लगाया, जिनमें उनके वीडियो की प्रतिलिपियां शामिल थीं, लेकिन उन्होंने यह भी रेखांकित किया कि यह आईफोन निर्माता की गलती नहीं थी, क्योंकि उन्होंने डेटा एकत्र नहीं किया था।

हालांकि यह डेटासेट सार्वजनिक रूप से एकत्र और वितरित किया गया था, लेकिन YouTube जैसे प्लेटफ़ॉर्म पर डेटा स्क्रैपिंग के अन्य उदाहरण भी हो सकते हैं। AI फ़र्मों द्वारा अपने बड़े भाषा मॉडल (LLM) को प्रशिक्षित करने के लिए अधिक डेटा खोजने के लिए संघर्ष करने के साथ, डेटा खरीद कानूनी रूप से इसी तरह के ग्रे क्षेत्रों में प्रवेश करना जारी रख सकती है।





Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here