خانه / اخبار تکنولوژی / ابزار متن‌باز Perplexity برای اجرای مدل‌هایی با تریلیون‌ها پارامتر (بدون نیاز به ارتقای پرهزینه)

ابزار متن‌باز Perplexity برای اجرای مدل‌هایی با تریلیون‌ها پارامتر (بدون نیاز به ارتقای پرهزینه)

ابزار متن‌باز Perplexity برای اجرای مدل‌هایی با تریلیون‌ها پارامتر (بدون نیاز به ارتقای پرهزینه)

نویسنده:

انتشار:

به‌روزرسانی:

تعداد نظرات: 0

زمان مطالعه: 4 دقیقه
👀 خبر در یک نگاه:

Perplexity AI ابزار متن‌باز TransferEngine را معرفی کرده که امکان اجرای مدل‌های تریلیون‌پارامتری روی سیستم‌های قدیمی GPU را بدون افت عملکرد فراهم می‌کند. این فناوری ارتباط پرسرعت بین GPUها در سخت‌افزارهای مختلف ابری را ممکن می‌سازد و برای استنتاج و یادگیری تقویتی عملیاتی شده است.

شرکت Perplexity AI یک ابزار نرم‌افزاری متن‌باز منتشر کرده که دو مشکل پرهزینه شرکت‌هایی را که از سیستم‌های هوش مصنوعی استفاده می‌کنند، حل می‌کند:

  • وابستگی به یک ارائه‌دهنده خدمات ابری خاص
  • نیاز به خرید جدیدترین سخت‌افزار برای اجرای مدل‌های عظیم

ابزار TransferEngine

این ابزار TransferEngine است و به مدل‌های زبانی بزرگ اجازه می‌دهد با سرعت کامل میان سخت‌افزارهای مختلف ارائه‌دهندگان خدمات ابری ارتباط برقرار کنند.

طبق گفته Perplexity در یک مقاله پژوهشی، شرکت‌ها اکنون می‌توانند مدل‌های تریلیون‌پارامتری مانند DeepSeek V3 و Kimi K2 را روی سیستم‌های GPU قدیمی‌تر مثل H100 و H200 اجرا کنند، بدون آنکه منتظر سخت‌افزارهای گران‌قیمت نسل بعد بمانند. همچنین این شرکت ابزار را به‌صورت متن‌باز در گیت‌هاب منتشر کرده است.

این پژوهشگران در مقاله خود نوشتند:

«پیاده‌سازی‌های موجود به کنترلرهای شبکه خاصی وابسته‌اند و همین موضوع باعث می‌شود ادغام آن‌ها در موتورهای استنتاج و قابلیت انتقال میان ارائه‌دهندگان مختلف سخت‌افزار محدود شود.»

تله وابستگی به فروشنده

به گفته این پژوهش، این وابستگی از یک ناسازگاری فنی بنیادی ناشی می‌شود. ارائه‌دهندگان خدمات ابری از پروتکل‌های شبکه متفاوتی برای ارتباط پرسرعت GPUها استفاده می‌کنند. تراشه‌های ConnectX انویدیا از یک استاندارد خاص بهره می‌برند، در حالی که آداپتور اختصاصی AWS به نام Elastic Fabric Adapter (AWS EFA) از پروتکل کاملا متفاوت و انحصاری خود استفاده می‌کند.

در این مقاله اشاره شده که راه‌حل‌های قبلی فقط روی یکی از این سیستم‌ها کار می‌کردند، نه هر دو. این موضوع شرکت‌ها را مجبور می‌کرد یا به اکوسیستم یک ارائه‌دهنده خاص وابسته بمانند یا افت شدید سرعت عملکرد را بپذیرند.

Perplexity متوجه شد که این مشکل به‌ویژه در مدل‌های جدید Mixture-of-Experts شدید است. مدل DeepSeek V3 دارای ۶۷۱ میلیارد پارامتر است و Kimi K2 به یک تریلیون پارامتر می‌رسد. طبق پژوهش، این مدل‌ها بیش از حد بزرگ هستند و نمی‌توانند روی سیستم‌هایی با هشت GPU واحد جای بگیرند.

پاسخ واضح این است که سیستم‌های جدید GB200 انویدیا عملا یک سرور بزرگ با ۷۲ GPU هستند. علاوه‌بر این، پژوهشگران اشاره کردند که این سیستم‌ها میلیون‌ها دلار هزینه دارند، با کمبود شدید عرضه مواجه‌اند و در همه جا در دسترس نیستند. در همین حال، سیستم‌های H100 و H200 فراوان و نسبتا ارزان هستند.

مشکل این است که اجرای مدل‌های بزرگ روی چند سیستم قدیمی به‌طور سنتی با افت شدید عملکرد همراه بوده است.

تیم پژوهشی نوشت:

«هیچ راه‌حل عملی برای استنتاج LLM بین ارائه‌دهندگان مختلف وجود ندارد و کتابخانه‌های موجود یا اصلا از AWS پشتیبانی نمی‌کنند یا روی سخت‌افزار آمازون با کاهش شدید عملکرد مواجه می‌شوند.»

TransferEngine قصد دارد این وضعیت را تغییر دهد.

آن‌ها نوشتند:

«TransferEngine ارتباط نقطه‌به‌نقطه قابل حمل را برای معماری‌های مدرن LLM فراهم می‌کند، از وابستگی به فروشنده جلوگیری می‌کند و در عین حال کتابخانه‌های جمعی برای استقرارهای بومی ابری را تکمیل می‌کند.»

نحوه عملکرد TransferEngine

TransferEngine مانند یک مترجم جهانی برای ارتباط GPU به GPU عمل می‌کند. این ابزار با شناسایی عملکردهای اصلی مشترک بین سیستم‌های مختلف، یک رابط مشترک ایجاد می‌کند که روی سخت‌افزار شبکه متفاوت کار می‌کند.

TransferEngine از فناوری RDMA (دسترسی مستقیم از راه دور به حافظه) استفاده می‌کند. این امکان را فراهم می‌کند که کامپیوترها داده‌ها را مستقیما بین کارت‌های گرافیک منتقل کنند؛ بدون دخالت پردازنده اصلی. می‌توان آن را مثل یک مسیر اختصاصی سریع بین تراشه‌ها تصور کرد.

پیاده‌سازی Perplexity توانست روی هر دو سخت‌افزار Nvidia ConnectX-7 و AWS EFA پهنای باند ۴۰۰ گیگابیت بر ثانیه را ارائه دهد و با راه‌حل‌های موجود تک‌پلتفرمی برابری کند. TransferEngine همچنین از استفاده همزمان چند کارت شبکه برای هر GPU پشتیبانی می‌کند و پهنای باند را تجمیع کرده تا ارتباط حتی سریع‌تر شود.

مقاله توضیح می‌دهد:

«ما با استفاده از عملکرد مشترک در سخت‌افزارهای RDMA ناهمگن، قابلیت انتقال‌پذیری را فراهم می‌کنیم و این روش با ایجاد یک انتزاع قابل اعتماد بدون تضمین ترتیب روی پروتکل‌های زیرین عمل می‌کند.»

در محیط‌های عملیاتی

این فناوری صرفا نظری نیست. طبق گفته شرکت، Perplexity از TransferEngine در محیط عملیاتی برای تامین موتور جستجوی هوش مصنوعی خود استفاده می‌کند.

این شرکت آن را روی سه سیستم حیاتی مستقر کرده است. برای استنتاج تفکیک‌شده، ابزار TransferEngine انتقال پرسرعت داده‌های کش شده بین سرورها را مدیریت می‌کند. همچنین به شرکت‌ها اجازه می‌دهد خدمات هوش مصنوعی خود را به‌طور پویا مقیاس‌بندی کنند. پژوهشگران گفتند که این کتابخانه از سیستم یادگیری تقویتی Perplexity هم پشتیبانی می‌کند و به‌روزرسانی وزن‌ها برای مدل‌های تریلیون‌پارامتری را در تنها ۱.۳ ثانیه انجام می‌دهد.

شاید مهم‌ترین نکته این باشد که Perplexity TransferEngine را برای مسیر‌یابی مدل‌های Mixture-of-Experts پیاده‌سازی کرده است. این مدل‌ها درخواست‌های مختلف را به کارشناسان مختلف داخل مدل هدایت می‌کنند و ترافیک شبکه بسیار بیشتری نسبت به مدل‌های سنتی ایجاد می‌کنند. طبق مقاله، DeepSeek چارچوب DeepEP خود را برای مدیریت این موضوع ساخته بود اما این چارچوب فقط روی سخت‌افزار Nvidia ConnectX کار می‌کرد.

پژوهشگران گفتند که TransferEngine عملکرد مشابه DeepEP روی ConnectX-7 داشت. از همه مهم‌تر، آن‌ها اعلام کردند که این ابزار کمترین تاخیر ممکن در سطح پیشرفته را روی سخت‌افزار انویدیا ارائه می‌دهد و هم‌زمان اولین پیاده‌سازی عملی سازگار با AWS EFA را ایجاد کرده است.

در آزمایش مدل‌های DeepSeek V3 و Kimi K2 روی نمونه‌های AWS H200، Perplexity متوجه شد که توزیع مدل‌ها روی چند گره باعث بهبود قابل توجه عملکرد می‌شود، به‌ویژه در اندازه‌های میانه دسته‌بندی‌ها که نقطه بهینه برای سرویس‌دهی در محیط عملیاتی است.

شرط‌بندی متن‌باز

تصمیم Perplexity برای متن‌باز کردن زیرساخت‌های عملیاتی، در تضاد کامل با رقبایی مانند OpenAI و Anthropic است که پیاده‌سازی‌های فنی خود را به‌صورت اختصاصی نگه می‌دارند.

این شرکت کل کتابخانه را، شامل کد، اتصال‌های پایتون و ابزارهای بنچمارکینگ، تحت یک مجوز متن‌باز منتشر کرده است.

این اقدام مشابه استراتژی Meta با PyTorch است؛ یک ابزار حیاتی را متن‌باز کنید، به تثبیت استاندارد صنعتی کمک کنید و از مشارکت جامعه بهره ببرید. Perplexity اعلام کرده که به بهینه‌سازی این فناوری برای AWS ادامه می‌دهد و پس از به‌روزرسانی کتابخانه‌های شبکه آمازون، تاخیر را بیشتر کاهش می‌دهد.

منبع: infoworld.com

فرصت‌های شغلی

ایجاد محیطی با ارزش های انسانی، توسعه محصولات مالی کارامد برای میلیون ها کاربر و استفاده از فناوری های به روز از مواردی هستند که در آسا به آن ها می بالیم. اگر هم مسیرمان هستید، رزومه تان را برایمان ارسال کنید.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *