| 👀 خبر در یک نگاه:
گوگل LLM-Evalkit را معرفی کرد، یک چارچوب متنباز برای مهندسی پرامپت در مدلهای زبانی بزرگ. این ابزار با ادغام در Vertex AI، فرایند ایجاد، آزمایش و مقایسه پرامپتها را ساختارمند میکند و تکرار، شفافیت و همکاری بین تیمهای فنی و غیر فنی را افزایش میدهد. |
گوگل ابزار LLM-Evalkit را معرفی کرد. این ابزار یک فریمورک متنباز ساختهشده بر پایه SDKهای Vertex AI است. LLM-Evalkit برای ساختارمندتر و قابل اندازهگیری کردن مهندسی پرامپت در مدلهای زبانی بزرگ طراحی شده است. این ابزار سبک، قصد دارد جایگزین اسناد پراکنده و تکرارهای حدسی با یک جریان کاری یکپارچه و مبتنی بر داده شود.
مایکل سانتورو (Michael Santoro) از تیم گوگل کلود، میگوید:
«هر کسی که با مدلهای زبانی بزرگ کار کرده باشد، دردسر آن را میداند: تیمها در یک کنسول آزمایش میکنند، پرامپتها را در جای دیگری ذخیره میکنند و نتایج را به صورت ناهماهنگ اندازهگیری میکنند. LLM-Evalkit این تلاشها را در یک محیط واحد و منسجم جمع میکند؛ جایی که پرامپتها میتوانند ایجاد، آزمایش، نسخهبندی و کنار هم مقایسه شوند. با حفظ رکورد مشترک تغییرات، تیمها میتوانند سرانجام پیگیری کنند چه چیزی عملکرد را بهبود میدهد، به جای اینکه به حافظه یا صفحات گسترده تکیه کنند.»
LLM-Evalkit چطور کار میکند؟
| 💡 حدس زدن را متوقف کن، شروع به اندازهگیری کن! |
فلسفه این کیت ساده است: حدس زدن را متوقف و شروع به اندازهگیری کن. به جای پرسیدن اینکه کدام پرامپت «احساس بهتری» دارد، کاربران یک وظیفه مشخص تعریف میکنند، یک مجموعه داده نماینده جمعآوری میکنند و خروجیها را با معیارهای عینی ارزیابی میکنند. این چارچوب هر بهبود را قابل اندازهگیری میکند و شهود را به مدرک تبدیل میکند.
نتیجه رویکرد
این رویکرد بهطور یکپارچه با جریانهای کاری موجود در گوگل کلود ادغام میشود. LLM-Evalkit که بر پایه SDKهای Vertex AI ساخته شده و به ابزارهای ارزیابی گوگل وصل است، یک چرخه بازخورد منظم بین آزمایش و بررسی عملکرد ایجاد میکند.
تیمها میتوانند آزمایشها را اجرا کنند، خروجیها را مقایسه کنند و یک منبع واحد حقیقت برای تمام نسخههای پرامپت حفظ کنند؛ بدون نیاز به مدیریت چندین محیط.
اهمیت رابط no-code
همزمان، گوگل این چارچوب را فراگیر طراحی کرده است. با رابط بدون کد خود، LLM-Evalkit مهندسی پرامپت را برای طیف وسیعتری از حرفهایها در دسترس قرار میدهد؛ از توسعهدهندگان و دانشمندان داده تا مدیران محصول و نویسندگان UX.
| 💡 فرایندی که با هر تکرار هوشمندتر میشود. |
با کاهش موانع فنی، این ابزار تکرار سریعتر و همکاری نزدیکتر بین اعضای فنی و غیر فنی تیمها را تشویق میکند و طراحی پرامپت را به یک تلاش واقعی میانرشتهای تبدیل میکند.
سانتورو شور و هیجان خود را در لینکدین به اشتراک گذاشت:
«هیجانزدهام که یک چارچوب متنباز جدید که روی آن کار میکردم را معرفی کنم: LLM-Evalkit! این ابزار برای سادهتر کردن فرایند مهندسی پرامپت برای تیمهایی که با مدلهای زبانی بزرگ در گوگل کلود کار میکنند، طراحی شده است.»
این اعلان توجه حرفهایهای حوزه را جلب کرد. یکی از کاربران در لینکدین نوشت:
«این خیلی خوب به نظر میرسد. نبود یک سیستم متمرکز برای پیگیری پرامپتها در طول زمان، به ویژه با ارتقای مدلها، مشکلی است که ما با آن مواجهایم. مشتاقم آن را امتحان کنم.»
LLM-Evalkit هماکنون بهعنوان یک پروژه متنباز در گیتهاب در دسترس است، با ادغام در Vertex AI و همراه با آموزشهایی در Google Cloud Console.
با LLM-Evalkit، گوگل میخواهد مهندسی پرامپت را از یک کار مبتنی بر تجربه و حدس، به فرایندی قابل تکرار و شفاف تبدیل کند؛ فرایندی که با هر تکرار هوشمندتر میشود.
منبع: infoq.com



دیدگاهتان را بنویسید