گفته می شود که شرکت های فناوری یا در حال تقلا برای GPU هستند یا در مسیر دستیابی به آنها هستند. در ماه آوریل، ایلان ماسک، مدیرعامل تسلا، 10000 پردازنده گرافیکی خریداری کرد و اعلام کرد که این شرکت به خرید تعداد زیادی از پردازندههای گرافیکی از NVIDIA ادامه خواهد داد. در سمت سازمانی، پرسنل IT نیز سخت تلاش می کنند تا اطمینان حاصل کنند که GPU ها به طور مداوم برای به حداکثر رساندن بازگشت سرمایه مورد استفاده قرار می گیرند. با این حال، برخی از شرکت ها ممکن است متوجه شوند که در حالی که تعداد GPU ها افزایش می یابد، بیکاری GPU شدیدتر می شود.
اگر تاریخ چیزی در مورد محاسبات با کارایی بالا (HPC) به ما آموخته است، این است که ذخیره سازی و شبکه نباید به قیمت تمرکز بیش از حد روی محاسبات قربانی شود. اگر ذخیره سازی نتواند به طور موثر داده ها را به واحدهای محاسباتی منتقل کند، حتی اگر بیشترین GPU را در جهان داشته باشید، به کارایی مطلوب دست نخواهید یافت.
به گفته مایک ماچت، تحلیلگر Small World Big Data، مدلهای کوچکتر را میتوان در حافظه (RAM) اجرا کرد که امکان تمرکز بیشتر روی محاسبات را فراهم میکند. با این حال، مدل های بزرگتر مانند ChatGPT با میلیاردها گره به دلیل هزینه بالا نمی توانند در حافظه ذخیره شوند.
Matchett می گوید: «شما نمی توانید میلیاردها گره را در حافظه جا دهید، بنابراین ذخیره سازی اهمیت بیشتری پیدا می کند. متأسفانه، ذخیره سازی داده ها اغلب در طول فرآیند برنامه ریزی نادیده گرفته می شود.
به طور کلی، صرف نظر از مورد استفاده، چهار نکته مشترک در فرآیند آموزش مدل وجود دارد:
1. آموزش مدل
2. کاربرد استنتاج
3. ذخیره سازی داده ها
4. محاسبات تسریع شده
هنگام ایجاد و استقرار مدلها، اکثر الزامات، اثبات مفهوم سریع (POC) یا محیطهای آزمایشی را برای شروع آموزش مدل اولویت میدهند، بدون توجه به نیازهای ذخیرهسازی دادهها.
با این حال، چالش در این واقعیت نهفته است که آموزش یا استقرار استنتاج می تواند ماه ها یا حتی سال ها طول بکشد. بسیاری از شرکتها به سرعت اندازه مدلهای خود را در این مدت افزایش میدهند و زیرساخت باید برای تطبیق مدلها و مجموعههای داده در حال رشد گسترش یابد.
تحقیقات گوگل در مورد میلیون ها بار آموزشی ML نشان می دهد که به طور متوسط 30٪ از زمان آموزش صرف خط لوله داده های ورودی می شود. در حالی که تحقیقات گذشته بر روی بهینه سازی پردازنده های گرافیکی برای افزایش سرعت آموزش متمرکز شده است، هنوز چالش های زیادی در بهینه سازی بخش های مختلف خط لوله داده وجود دارد. وقتی قدرت محاسباتی قابل توجهی دارید، گلوگاه واقعی این است که چگونه می توانید داده ها را به سرعت وارد محاسبات کنید تا به نتایج برسید.
به طور خاص، چالشهای موجود در ذخیرهسازی و مدیریت دادهها مستلزم برنامهریزی برای رشد دادهها هستند که به شما این امکان را میدهد که به طور مداوم ارزش دادهها را در حین پیشرفت استخراج کنید، بهویژه زمانی که در موارد استفاده پیشرفتهتر مانند یادگیری عمیق و شبکههای عصبی، که تقاضاهای بالاتری را برای شما ایجاد میکنند، اقدام میکنید. ذخیره سازی از نظر ظرفیت، عملکرد و مقیاس پذیری.
به طور خاص:
مقیاس پذیری
یادگیری ماشینی مستلزم مدیریت حجم وسیعی از داده ها است و با افزایش حجم داده ها، دقت مدل ها نیز بهبود می یابد. این بدان معناست که مشاغل باید هر روز داده های بیشتری را جمع آوری و ذخیره کنند. وقتی فضای ذخیرهسازی نمیتواند مقیاسپذیر باشد، حجمهای کاری فشرده دادهها باعث ایجاد تنگناها میشوند، عملکرد را محدود میکنند و در نتیجه زمان بیکاری GPU پرهزینه میشوند.
انعطاف پذیری
پشتیبانی انعطاف پذیر از پروتکل های متعدد (از جمله NFS، SMB، HTTP، FTP، HDFS، و S3) برای رفع نیازهای سیستم های مختلف، به جای محدود شدن به یک نوع محیط، ضروری است.
تأخیر
تأخیر I/O برای ساخت و استفاده از مدلها حیاتی است زیرا دادهها چندین بار خوانده و بازخوانی میشوند. کاهش تأخیر I/O میتواند زمان آموزش مدلها را روزها یا ماهها کوتاه کند. توسعه سریعتر مدل به طور مستقیم به مزایای تجاری بیشتر ترجمه می شود.
توان عملیاتی
توان عملیاتی سیستم های ذخیره سازی برای آموزش مدل کارآمد بسیار مهم است. فرآیندهای آموزشی شامل مقادیر زیادی داده، معمولاً در ترابایت در ساعت است.
دسترسی موازی
برای دستیابی به توان عملیاتی بالا، مدلهای آموزشی فعالیتها را به وظایف موازی متعدد تقسیم میکنند. این اغلب به این معنی است که الگوریتمهای یادگیری ماشین به فایلهای مشابه از چندین فرآیند (به طور بالقوه در چندین سرور فیزیکی) به طور همزمان دسترسی دارند. سیستم ذخیره سازی باید خواسته های همزمان را بدون به خطر انداختن عملکرد مدیریت کند.
Dell PowerScale با قابلیتهای برجسته خود در تأخیر کم، توان عملیاتی بالا و I/O موازی در مقیاس بزرگ، یک مکمل ذخیرهسازی ایدهآل برای محاسبات با شتاب GPU است. PowerScale به طور موثر زمان مورد نیاز برای مدل های تحلیلی را که مجموعه داده های چند ترابایتی را آموزش و آزمایش می کنند، کاهش می دهد. در ذخیرهسازی تمام فلش PowerScale، پهنای باند 18 برابر افزایش مییابد و گلوگاههای ورودی/خروجی را از بین میبرد و میتوان آن را به خوشههای Isilon موجود اضافه کرد تا مقدار زیادی از دادههای بدون ساختار را تسریع و باز کند.
علاوه بر این، قابلیتهای دسترسی چند پروتکلی PowerScale انعطافپذیری نامحدودی را برای اجرای بارهای کاری فراهم میکند و به دادهها اجازه میدهد با استفاده از یک پروتکل ذخیره شوند و با استفاده از پروتکل دیگر به آنها دسترسی پیدا کنید. به طور خاص، ویژگیهای قدرتمند، انعطافپذیری، مقیاسپذیری و عملکرد در سطح سازمانی پلتفرم PowerScale به رفع چالشهای زیر کمک میکند:
- تسریع نوآوری تا 2.7 برابر، کاهش چرخه آموزش مدل.
- از بین بردن گلوگاه های ورودی/خروجی و ارائه آموزش و اعتبارسنجی مدل سریعتر، دقت مدل بهبود یافته، افزایش بهره وری علم داده، و حداکثر بازده سرمایه گذاری های محاسباتی با استفاده از ویژگی های درجه سازمانی، عملکرد بالا، همزمانی و مقیاس پذیری. دقت مدل را با مجموعه دادههای عمیقتر و با وضوح بالاتر با استفاده از حداکثر 119 PB ظرفیت ذخیرهسازی موثر در یک خوشه افزایش دهید.
- با شروع محاسبات و فضای ذخیره سازی کوچک و مستقل، به استقرار در مقیاس دست یابید، و گزینه های حفاظتی و امنیتی قوی از داده ها را ارائه دهید.
- بهره وری علم داده را با تجزیه و تحلیل در محل و راه حل های از پیش تأیید شده برای استقرار سریعتر و کم خطر بهبود بخشید.
- استفاده از طرح های اثبات شده بر اساس بهترین فناوری ها، از جمله شتاب پردازنده گرافیکی NVIDIA و معماری های مرجع با سیستم های NVIDIA DGX. عملکرد و همزمانی بالای PowerScale الزامات عملکرد ذخیره سازی را در هر مرحله از یادگیری ماشین، از جمع آوری و آماده سازی داده تا آموزش مدل و استنتاج، برآورده می کند. همراه با سیستم عامل OneFS، همه گره ها می توانند به طور یکپارچه در یک کلاستر مبتنی بر OneFS با ویژگی های سطح سازمانی مانند مدیریت عملکرد، مدیریت داده ها، امنیت و حفاظت از داده ها کار کنند که امکان تکمیل سریع تر آموزش مدل و اعتبارسنجی را برای مشاغل فراهم می کند.
زمان ارسال: ژوئیه-03-2023