| 👀 خبر در یک نگاه:
Perplexity AI ابزار متنباز TransferEngine را معرفی کرده که امکان اجرای مدلهای تریلیونپارامتری روی سیستمهای قدیمی GPU را بدون افت عملکرد فراهم میکند. این فناوری ارتباط پرسرعت بین GPUها در سختافزارهای مختلف ابری را ممکن میسازد و برای استنتاج و یادگیری تقویتی عملیاتی شده است. |
شرکت Perplexity AI یک ابزار نرمافزاری متنباز منتشر کرده که دو مشکل پرهزینه شرکتهایی را که از سیستمهای هوش مصنوعی استفاده میکنند، حل میکند:
- وابستگی به یک ارائهدهنده خدمات ابری خاص
- نیاز به خرید جدیدترین سختافزار برای اجرای مدلهای عظیم
ابزار TransferEngine
این ابزار TransferEngine است و به مدلهای زبانی بزرگ اجازه میدهد با سرعت کامل میان سختافزارهای مختلف ارائهدهندگان خدمات ابری ارتباط برقرار کنند.
طبق گفته Perplexity در یک مقاله پژوهشی، شرکتها اکنون میتوانند مدلهای تریلیونپارامتری مانند DeepSeek V3 و Kimi K2 را روی سیستمهای GPU قدیمیتر مثل H100 و H200 اجرا کنند، بدون آنکه منتظر سختافزارهای گرانقیمت نسل بعد بمانند. همچنین این شرکت ابزار را بهصورت متنباز در گیتهاب منتشر کرده است.
این پژوهشگران در مقاله خود نوشتند:
«پیادهسازیهای موجود به کنترلرهای شبکه خاصی وابستهاند و همین موضوع باعث میشود ادغام آنها در موتورهای استنتاج و قابلیت انتقال میان ارائهدهندگان مختلف سختافزار محدود شود.»
تله وابستگی به فروشنده
به گفته این پژوهش، این وابستگی از یک ناسازگاری فنی بنیادی ناشی میشود. ارائهدهندگان خدمات ابری از پروتکلهای شبکه متفاوتی برای ارتباط پرسرعت GPUها استفاده میکنند. تراشههای ConnectX انویدیا از یک استاندارد خاص بهره میبرند، در حالی که آداپتور اختصاصی AWS به نام Elastic Fabric Adapter (AWS EFA) از پروتکل کاملا متفاوت و انحصاری خود استفاده میکند.
در این مقاله اشاره شده که راهحلهای قبلی فقط روی یکی از این سیستمها کار میکردند، نه هر دو. این موضوع شرکتها را مجبور میکرد یا به اکوسیستم یک ارائهدهنده خاص وابسته بمانند یا افت شدید سرعت عملکرد را بپذیرند.
Perplexity متوجه شد که این مشکل بهویژه در مدلهای جدید Mixture-of-Experts شدید است. مدل DeepSeek V3 دارای ۶۷۱ میلیارد پارامتر است و Kimi K2 به یک تریلیون پارامتر میرسد. طبق پژوهش، این مدلها بیش از حد بزرگ هستند و نمیتوانند روی سیستمهایی با هشت GPU واحد جای بگیرند.
پاسخ واضح این است که سیستمهای جدید GB200 انویدیا عملا یک سرور بزرگ با ۷۲ GPU هستند. علاوهبر این، پژوهشگران اشاره کردند که این سیستمها میلیونها دلار هزینه دارند، با کمبود شدید عرضه مواجهاند و در همه جا در دسترس نیستند. در همین حال، سیستمهای H100 و H200 فراوان و نسبتا ارزان هستند.
مشکل این است که اجرای مدلهای بزرگ روی چند سیستم قدیمی بهطور سنتی با افت شدید عملکرد همراه بوده است.
تیم پژوهشی نوشت:
«هیچ راهحل عملی برای استنتاج LLM بین ارائهدهندگان مختلف وجود ندارد و کتابخانههای موجود یا اصلا از AWS پشتیبانی نمیکنند یا روی سختافزار آمازون با کاهش شدید عملکرد مواجه میشوند.»
TransferEngine قصد دارد این وضعیت را تغییر دهد.
آنها نوشتند:
«TransferEngine ارتباط نقطهبهنقطه قابل حمل را برای معماریهای مدرن LLM فراهم میکند، از وابستگی به فروشنده جلوگیری میکند و در عین حال کتابخانههای جمعی برای استقرارهای بومی ابری را تکمیل میکند.»
نحوه عملکرد TransferEngine
TransferEngine مانند یک مترجم جهانی برای ارتباط GPU به GPU عمل میکند. این ابزار با شناسایی عملکردهای اصلی مشترک بین سیستمهای مختلف، یک رابط مشترک ایجاد میکند که روی سختافزار شبکه متفاوت کار میکند.
TransferEngine از فناوری RDMA (دسترسی مستقیم از راه دور به حافظه) استفاده میکند. این امکان را فراهم میکند که کامپیوترها دادهها را مستقیما بین کارتهای گرافیک منتقل کنند؛ بدون دخالت پردازنده اصلی. میتوان آن را مثل یک مسیر اختصاصی سریع بین تراشهها تصور کرد.
پیادهسازی Perplexity توانست روی هر دو سختافزار Nvidia ConnectX-7 و AWS EFA پهنای باند ۴۰۰ گیگابیت بر ثانیه را ارائه دهد و با راهحلهای موجود تکپلتفرمی برابری کند. TransferEngine همچنین از استفاده همزمان چند کارت شبکه برای هر GPU پشتیبانی میکند و پهنای باند را تجمیع کرده تا ارتباط حتی سریعتر شود.
مقاله توضیح میدهد:
«ما با استفاده از عملکرد مشترک در سختافزارهای RDMA ناهمگن، قابلیت انتقالپذیری را فراهم میکنیم و این روش با ایجاد یک انتزاع قابل اعتماد بدون تضمین ترتیب روی پروتکلهای زیرین عمل میکند.»
در محیطهای عملیاتی
این فناوری صرفا نظری نیست. طبق گفته شرکت، Perplexity از TransferEngine در محیط عملیاتی برای تامین موتور جستجوی هوش مصنوعی خود استفاده میکند.
این شرکت آن را روی سه سیستم حیاتی مستقر کرده است. برای استنتاج تفکیکشده، ابزار TransferEngine انتقال پرسرعت دادههای کش شده بین سرورها را مدیریت میکند. همچنین به شرکتها اجازه میدهد خدمات هوش مصنوعی خود را بهطور پویا مقیاسبندی کنند. پژوهشگران گفتند که این کتابخانه از سیستم یادگیری تقویتی Perplexity هم پشتیبانی میکند و بهروزرسانی وزنها برای مدلهای تریلیونپارامتری را در تنها ۱.۳ ثانیه انجام میدهد.
شاید مهمترین نکته این باشد که Perplexity TransferEngine را برای مسیریابی مدلهای Mixture-of-Experts پیادهسازی کرده است. این مدلها درخواستهای مختلف را به کارشناسان مختلف داخل مدل هدایت میکنند و ترافیک شبکه بسیار بیشتری نسبت به مدلهای سنتی ایجاد میکنند. طبق مقاله، DeepSeek چارچوب DeepEP خود را برای مدیریت این موضوع ساخته بود اما این چارچوب فقط روی سختافزار Nvidia ConnectX کار میکرد.
پژوهشگران گفتند که TransferEngine عملکرد مشابه DeepEP روی ConnectX-7 داشت. از همه مهمتر، آنها اعلام کردند که این ابزار کمترین تاخیر ممکن در سطح پیشرفته را روی سختافزار انویدیا ارائه میدهد و همزمان اولین پیادهسازی عملی سازگار با AWS EFA را ایجاد کرده است.
در آزمایش مدلهای DeepSeek V3 و Kimi K2 روی نمونههای AWS H200، Perplexity متوجه شد که توزیع مدلها روی چند گره باعث بهبود قابل توجه عملکرد میشود، بهویژه در اندازههای میانه دستهبندیها که نقطه بهینه برای سرویسدهی در محیط عملیاتی است.
شرطبندی متنباز
تصمیم Perplexity برای متنباز کردن زیرساختهای عملیاتی، در تضاد کامل با رقبایی مانند OpenAI و Anthropic است که پیادهسازیهای فنی خود را بهصورت اختصاصی نگه میدارند.
این شرکت کل کتابخانه را، شامل کد، اتصالهای پایتون و ابزارهای بنچمارکینگ، تحت یک مجوز متنباز منتشر کرده است.
این اقدام مشابه استراتژی Meta با PyTorch است؛ یک ابزار حیاتی را متنباز کنید، به تثبیت استاندارد صنعتی کمک کنید و از مشارکت جامعه بهره ببرید. Perplexity اعلام کرده که به بهینهسازی این فناوری برای AWS ادامه میدهد و پس از بهروزرسانی کتابخانههای شبکه آمازون، تاخیر را بیشتر کاهش میدهد.
منبع: infoworld.com




دیدگاهتان را بنویسید