•  بے نور روشنی

ایل ایل ایمز

متن کے لیے ایل ایل ایم اتنے بڑے کیوں ہیں؟

چل رہا ہے۔ gpt-6b جبکہ 12 جی بی ریم کی ضرورت ہے۔ gpt-20b اس سے بھی زیادہ.

اس کے مقابلے مستحکم بازی جس کی ضرورت 3GB سے 5GB تک ہے۔

ماڈل چلانے کے لیے میموری کی ضروریات کو کیا متاثر کرتا ہے؟ پیرامیٹرز کی تعداد، کیونکہ ہر پیرامیٹر ایک فلوٹ ہے (16/32/64 بٹس)۔

ایک تصویر ہزاروں الفاظ کے قابل ہے؟ کیا تصاویر زبانوں کے مقابلے علم کو کمپریس کرنے کا ایک بہتر ذریعہ ہیں؟ شاید. نیز ہو سکتا ہے کہ تصاویر عام طور پر متن سے زیادہ مبہم ہوں۔

ایک اچھی پیداوار کیا ہے؟

فرض کریں کہ آؤٹ پٹ کا سیٹ مقرر ہے (پوری کائنات)۔ ہم ایک تصویر کو مختلف فقروں کے ساتھ بیان کر سکتے ہیں اور وہ سبھی قابل قبول ان پٹ ہوں گے، یا ہم ایک ہی ٹیکسٹ ان پٹ سے متعدد تصاویر کو درست کے طور پر قبول کر سکتے ہیں۔

جبکہ کچھ ٹیکسٹ ان پٹس سے قابل قبول ٹیکسٹ آؤٹ پٹس حاصل کرنے کے لیے اسے سخت قوانین کے ساتھ اپنے ان پٹ کے معنی پر عمل کرنا ہوگا۔ اس کا مطلب یہ ہے کہ آؤٹ پٹ کے پورے سیٹ پر کم ان پٹ میپ کرتے ہیں۔

دوسری شرائط میں، ٹیکسٹ ٹو امیج ایل ایل ایم زیادہ ہے۔ سرجیکٹیوٹی ٹیکسٹ ٹو ٹیکسٹ ایل ایل ایم کے مقابلے میں اس وجہ سے جو قابل قبول آؤٹ پٹ کے طور پر درجہ بندی کرتا ہے اس کا انحصار تصویری "میٹ بیگ" کی درجہ بندی کرنے والے کے طور پر ہماری حدود پر ہے۔ ہم متن سے ایک اچھی آؤٹ پٹ امیج پر غور کرتے ہیں، اگر وہ تصویر ہمارے پرامپٹ کے زیادہ آرکنگ معنی کو لے کر آتی ہے، تو ہم "تعبیر" پر بہت کچھ چھوڑ دیتے ہیں۔ جب ہم متن کو پڑھتے ہیں، تو ہم اس سے سخت گرائمر کے اصولوں پر عمل کرنے اور معنی رکھنے کی توقع رکھتے ہیں۔

تو ایک متن سے تصویر چھوٹا کیوں ہے؟

ہم تصویروں میں خامیوں پر روشنی ڈال سکتے ہیں کیونکہ ہر کوئی تصویر نہیں بنا سکتا اور نہ ہی تصاویر بنا سکتا ہے، جب کہ ہر کوئی اچھی نثر پڑھ اور لکھ سکتا ہے۔ LLMs کی افادیت اس کام کو حاصل کرنے کی ہماری صلاحیت سے ظاہر ہوتی ہے جسے پورا کرنے کے لیے LLM بنایا گیا ہے۔ ہم کچھ کرنے کے لیے جتنے کم اہل ہوں گے، LLMs کو کارآمد ہونے کے لیے اتنا ہی کم نفیس ہونا چاہیے، اس کے لیے اتنے ہی کم پیرامیٹرز درکار ہوں گے۔ دوسرے لفظوں میں ہم گھٹیا پینٹر ہیں! اور "اچھے" ٹیکسٹ ٹو امیج ماڈل کے لیے ہماری بار کم رکھی گئی ہے۔ اگر ہر کوئی واقعی ایک اچھا امیج اینالائزر/پروڈیوسر ہوتا کہ اچھی امیج کے لیے ہماری ضروریات سخت ہوتیں، تو ٹیکسٹ ٹو امیج ماڈلز کو ٹیکسٹ ٹو ٹیکسٹ سے کافی بڑا ہونا چاہیے تھا، کیوں کہ اس کے لیے کتنا تجزیہ درکار ہے۔ صحیح معنوں میں ایک تصویر کو اس کے تمام معنی میں الگ کرنا۔

متن یا تصاویر کو سمجھنے کا کیا مطلب ہے اس پر اختلاف

بلاشبہ، نہ تو متن سے تصویر اور نہ ہی متن سے متن کے LLM صحیح معنی رکھتے ہیں، لیکن تصاویر کے ساتھ جعلی معنی بنانا متن کے مقابلے میں آسان ہے کیونکہ تصاویر متن کے مقابلے میں تجرید کی اعلی سطح ہیں۔ متن مواصلات کی ایک سیریل شکل ہے جہاں نئی ​​معلومات ٹوکنز کے کلسٹرز کی ترتیب کو جوڑ کر منتقل کی جاتی ہیں جن کے کچھ معنی ہوتے ہیں (انہیں پیراگراف کہتے ہیں)۔

اس کے بجائے امیجز میں فریکٹل خصوصیات ہیں، معنی کسی ترتیب کی کچھ پچھلی پوزیشن پر کچھ معلوم کلسٹر پر منحصر نہیں ہے، بلکہ بیک وقت ایک کینوس کے اندر کلسٹرز کے ہجوم کی پوزیشن۔

تصاویر پر کارروائی کرنے کے لیے الگورتھم

کسی تصویر کو "سمجھنے" کے لیے آپ کو کسی خاص ترتیب کو جانے بغیر، صرف رنگوں کے تفاوت کی پیروی کرتے ہوئے، کلسٹرز بنانا ہوں گے، اور ان کلسٹرز کی درجہ بندی کرنا ہوگی (ہستیوں، شکلوں، گہرائی، بجلی وغیرہ میں)، ایسا ہر سطح پر کریں (1 سے مکمل کینوس کی سطح پر پکسلز)، اور پھر پیدا کردہ کلسٹرنگ کی تمام سطحوں کے درمیان ہر ممکنہ تعلق پر وزن تفویض کریں۔ اگر آپ درجہ بندی کے عمل میں مہارت حاصل کرنا چاہتے ہیں تو ان کے لیے کم از کم 3 بڑے ماڈلز کی ضرورت ہے۔

یہ وہ نہیں ہے جو مستحکم پھیلاؤ کرتا ہے... معمولی سے، اس میں وزن کا ایک "برتن" ہے (اویکت جگہ) جس میں ان تمام تصاویر کی انکوڈ شدہ (شور شدہ) معلومات ہوتی ہیں جن پر اسے تربیت دی جاتی ہے۔ میں یہ کہوں گا کہ ماڈل متن (یا دوسری تصویر) سے کسی تصویر کی پیش گوئی کرنے کے لیے رنگوں کی شماریاتی خصوصیات کا استعمال کرتا ہے۔ دوسرے الفاظ میں، یہ سوال کا جواب دیتا ہے:

دیے گئے پرامپٹ سے شروع ہونے والی سب سے زیادہ ممکنہ تصویر کون سی ہے جو ڈی-نوازنگ تکرار کو مطمئن کرتی ہے؟

بہت ساری معلومات کو کمپریس کرنے کے لیے یہ کافی ہوشیار چال ہے اور جو مستحکم بازی کو صرف 5GB رام میں فٹ ہونے کی اجازت دیتا ہے، جب کہ جو طریقہ میں نے پہلے بیان کیا ہے اس کے لیے کم از کم 3x اس رقم کی ضرورت ہوگی (لیکن عملی طور پر شاید اس سے کہیں زیادہ)۔

ایم ایل آزادی اور ہارڈ ویئر

یہ قدرے افسوسناک ہے کہ مور کا قانون (یا لیٹوگرافی، اگر رام کی مقدار کے بارے میں بات کی جائے تو) اس وقت درست ثابت ہوا جب 5x سے زیادہ کی بہتری ہر ایک مشین پر مقامی طور پر بہت موثر LLMs کو چلانے کی اجازت دیتی!

ہارڈ ویئر کی چند مزید کامیابیوں کے ساتھ ہماری کمپیوٹنگ بہت تیز ہو سکتی ہے۔

پوسٹ ٹیگز: