اجازه ندهید که ذخیره سازی به گلوگاه کلیدی در آموزش مدل تبدیل شود

گفته می شود که شرکت های فناوری یا در حال تقلا برای GPU هستند یا در مسیر دستیابی به آنها هستند. در ماه آوریل، ایلان ماسک، مدیرعامل تسلا، 10000 پردازنده گرافیکی خریداری کرد و اعلام کرد که این شرکت به خرید تعداد زیادی از پردازنده‌های گرافیکی از NVIDIA ادامه خواهد داد. در سمت سازمانی، پرسنل IT نیز سخت تلاش می کنند تا اطمینان حاصل کنند که GPU ها به طور مداوم برای به حداکثر رساندن بازگشت سرمایه مورد استفاده قرار می گیرند. با این حال، برخی از شرکت ها ممکن است متوجه شوند که در حالی که تعداد GPU ها افزایش می یابد، بیکاری GPU شدیدتر می شود.

اگر تاریخ چیزی در مورد محاسبات با کارایی بالا (HPC) به ما آموخته است، این است که ذخیره سازی و شبکه نباید به قیمت تمرکز بیش از حد روی محاسبات قربانی شود. اگر ذخیره سازی نتواند به طور موثر داده ها را به واحدهای محاسباتی منتقل کند، حتی اگر بیشترین GPU را در جهان داشته باشید، به کارایی مطلوب دست نخواهید یافت.

به گفته مایک ماچت، تحلیلگر Small World Big Data، مدل‌های کوچک‌تر را می‌توان در حافظه (RAM) اجرا کرد که امکان تمرکز بیشتر روی محاسبات را فراهم می‌کند. با این حال، مدل های بزرگتر مانند ChatGPT با میلیاردها گره به دلیل هزینه بالا نمی توانند در حافظه ذخیره شوند.

Matchett می گوید: «شما نمی توانید میلیاردها گره را در حافظه جا دهید، بنابراین ذخیره سازی اهمیت بیشتری پیدا می کند. متأسفانه، ذخیره سازی داده ها اغلب در طول فرآیند برنامه ریزی نادیده گرفته می شود.

به طور کلی، صرف نظر از مورد استفاده، چهار نکته مشترک در فرآیند آموزش مدل وجود دارد:

1. آموزش مدل
2. کاربرد استنتاج
3. ذخیره سازی داده ها
4. محاسبات تسریع شده

هنگام ایجاد و استقرار مدل‌ها، اکثر الزامات، اثبات مفهوم سریع (POC) یا محیط‌های آزمایشی را برای شروع آموزش مدل اولویت می‌دهند، بدون توجه به نیازهای ذخیره‌سازی داده‌ها.

با این حال، چالش در این واقعیت نهفته است که آموزش یا استقرار استنتاج می تواند ماه ها یا حتی سال ها طول بکشد. بسیاری از شرکت‌ها به سرعت اندازه مدل‌های خود را در این مدت افزایش می‌دهند و زیرساخت باید برای تطبیق مدل‌ها و مجموعه‌های داده در حال رشد گسترش یابد.

تحقیقات گوگل در مورد میلیون ها بار آموزشی ML نشان می دهد که به طور متوسط ​​30٪ از زمان آموزش صرف خط لوله داده های ورودی می شود. در حالی که تحقیقات گذشته بر روی بهینه سازی پردازنده های گرافیکی برای افزایش سرعت آموزش متمرکز شده است، هنوز چالش های زیادی در بهینه سازی بخش های مختلف خط لوله داده وجود دارد. وقتی قدرت محاسباتی قابل توجهی دارید، گلوگاه واقعی این است که چگونه می توانید داده ها را به سرعت وارد محاسبات کنید تا به نتایج برسید.

به طور خاص، چالش‌های موجود در ذخیره‌سازی و مدیریت داده‌ها مستلزم برنامه‌ریزی برای رشد داده‌ها هستند که به شما این امکان را می‌دهد که به طور مداوم ارزش داده‌ها را در حین پیشرفت استخراج کنید، به‌ویژه زمانی که در موارد استفاده پیشرفته‌تر مانند یادگیری عمیق و شبکه‌های عصبی، که تقاضاهای بالاتری را برای شما ایجاد می‌کنند، اقدام می‌کنید. ذخیره سازی از نظر ظرفیت، عملکرد و مقیاس پذیری.

به طور خاص:

مقیاس پذیری
یادگیری ماشینی مستلزم مدیریت حجم وسیعی از داده ها است و با افزایش حجم داده ها، دقت مدل ها نیز بهبود می یابد. این بدان معناست که مشاغل باید هر روز داده های بیشتری را جمع آوری و ذخیره کنند. وقتی فضای ذخیره‌سازی نمی‌تواند مقیاس‌پذیر باشد، حجم‌های کاری فشرده داده‌ها باعث ایجاد تنگناها می‌شوند، عملکرد را محدود می‌کنند و در نتیجه زمان بی‌کاری GPU پرهزینه می‌شوند.

انعطاف پذیری
پشتیبانی انعطاف پذیر از پروتکل های متعدد (از جمله NFS، SMB، HTTP، FTP، HDFS، و S3) برای رفع نیازهای سیستم های مختلف، به جای محدود شدن به یک نوع محیط، ضروری است.

تأخیر
تأخیر I/O برای ساخت و استفاده از مدل‌ها حیاتی است زیرا داده‌ها چندین بار خوانده و بازخوانی می‌شوند. کاهش تأخیر I/O می‌تواند زمان آموزش مدل‌ها را روزها یا ماه‌ها کوتاه کند. توسعه سریعتر مدل به طور مستقیم به مزایای تجاری بیشتر ترجمه می شود.

توان عملیاتی
توان عملیاتی سیستم های ذخیره سازی برای آموزش مدل کارآمد بسیار مهم است. فرآیندهای آموزشی شامل مقادیر زیادی داده، معمولاً در ترابایت در ساعت است.

دسترسی موازی
برای دستیابی به توان عملیاتی بالا، مدل‌های آموزشی فعالیت‌ها را به وظایف موازی متعدد تقسیم می‌کنند. این اغلب به این معنی است که الگوریتم‌های یادگیری ماشین به فایل‌های مشابه از چندین فرآیند (به طور بالقوه در چندین سرور فیزیکی) به طور همزمان دسترسی دارند. سیستم ذخیره سازی باید خواسته های همزمان را بدون به خطر انداختن عملکرد مدیریت کند.

Dell PowerScale با قابلیت‌های برجسته خود در تأخیر کم، توان عملیاتی بالا و I/O موازی در مقیاس بزرگ، یک مکمل ذخیره‌سازی ایده‌آل برای محاسبات با شتاب GPU است. PowerScale به طور موثر زمان مورد نیاز برای مدل های تحلیلی را که مجموعه داده های چند ترابایتی را آموزش و آزمایش می کنند، کاهش می دهد. در ذخیره‌سازی تمام فلش PowerScale، پهنای باند 18 برابر افزایش می‌یابد و گلوگاه‌های ورودی/خروجی را از بین می‌برد و می‌توان آن را به خوشه‌های Isilon موجود اضافه کرد تا مقدار زیادی از داده‌های بدون ساختار را تسریع و باز کند.

علاوه بر این، قابلیت‌های دسترسی چند پروتکلی PowerScale انعطاف‌پذیری نامحدودی را برای اجرای بارهای کاری فراهم می‌کند و به داده‌ها اجازه می‌دهد با استفاده از یک پروتکل ذخیره شوند و با استفاده از پروتکل دیگر به آنها دسترسی پیدا کنید. به طور خاص، ویژگی‌های قدرتمند، انعطاف‌پذیری، مقیاس‌پذیری و عملکرد در سطح سازمانی پلتفرم PowerScale به رفع چالش‌های زیر کمک می‌کند:

- تسریع نوآوری تا 2.7 برابر، کاهش چرخه آموزش مدل.

- از بین بردن گلوگاه های ورودی/خروجی و ارائه آموزش و اعتبارسنجی مدل سریعتر، دقت مدل بهبود یافته، افزایش بهره وری علم داده، و حداکثر بازده سرمایه گذاری های محاسباتی با استفاده از ویژگی های درجه سازمانی، عملکرد بالا، همزمانی و مقیاس پذیری. دقت مدل را با مجموعه داده‌های عمیق‌تر و با وضوح بالاتر با استفاده از حداکثر 119 PB ظرفیت ذخیره‌سازی موثر در یک خوشه افزایش دهید.

- با شروع محاسبات و فضای ذخیره سازی کوچک و مستقل، به استقرار در مقیاس دست یابید، و گزینه های حفاظتی و امنیتی قوی از داده ها را ارائه دهید.

- بهره وری علم داده را با تجزیه و تحلیل در محل و راه حل های از پیش تأیید شده برای استقرار سریعتر و کم خطر بهبود بخشید.

- استفاده از طرح های اثبات شده بر اساس بهترین فناوری ها، از جمله شتاب پردازنده گرافیکی NVIDIA و معماری های مرجع با سیستم های NVIDIA DGX. عملکرد و همزمانی بالای PowerScale الزامات عملکرد ذخیره سازی را در هر مرحله از یادگیری ماشین، از جمع آوری و آماده سازی داده تا آموزش مدل و استنتاج، برآورده می کند. همراه با سیستم عامل OneFS، همه گره ها می توانند به طور یکپارچه در یک کلاستر مبتنی بر OneFS با ویژگی های سطح سازمانی مانند مدیریت عملکرد، مدیریت داده ها، امنیت و حفاظت از داده ها کار کنند که امکان تکمیل سریع تر آموزش مدل و اعتبارسنجی را برای مشاغل فراهم می کند.


زمان ارسال: ژوئیه-03-2023