| 👀 خبر در یک نگاه:
Evalite یک ابزار ارزیابی بومی TypeScript برای اپلیکیشنهای هوشمصنوعی است که ارزیابیهای قابلتکرار، با رهگیری دقیق، امتیازدهی سفارشی و اجرای محلی را فراهم میکند. متنباز، بدون وابستگی اجباری به فروشنده و مناسب برای جریانهای کاری واقعی است. نسخه بتای v1 آن با استقبال گسترده جامعه توسعهدهندگان روبهرو شده است. |
Evalite ابزار ارزیابی بومی TypeScript از مت پوکاک (Matt Pocock)، یک چهارچوب تست اختصاصی برای اپلیکیشنهای مجهز به هوش مصنوعی ارائه میدهد که به توسعهدهندگان امکان میدهد ارزیابیهای قابلتکرار بنویسند، ردپاها را ثبت کنند و بهصورت محلی با یک رابط وب تکرار کنند. این پروژه به نسخه بتای v1 رسیده و خود را معادل Vitest یا Jest برای اپلیکیشنهای وابسته به مدلهای زبانی معرفی میکند، با ابزارهایی مخصوص امتیازدهی، رهگیری و تکرار هزینهمحور.
مدل Evalite
مدل Evalite یک ارزیابی را مانند یک مجموعه تست در نظر میگیرد اما با خروجیهای غنیتر. بهجای نتایج ساده موفق یا ناموفق، Evalite فایلهای .eval.ts را اجرا میکند که در آن هر داده یک مورد امتیازدهیشده میشود و ابزارهای امتیازدهی و ثبت ردپا در سطح اول ارائه میدهد تا تیمها بتوانند خروجی مدل، زنجیره فراخوانیها و رفتار را بهصورت برنامهنویسیشده بررسی کنند. این ابزار یک سرور توسعه محلی با بارگذاری مجدد زنده و یک رابط تعاملی برای بررسی ردپاها اجرا میکند و چون بر پایه Vitest ساخته شده، میتوانید از الگوهای آشنای تست مثل mockها و lifecycle hookها استفاده کنید.
نسخه اول
نسخه بتای v1 بر ارگونومی توسعهدهنده و سرعت تکرار تمرکز دارد. دستورالعمل شروع سریع نشان میدهد چگونه Evalite را نصب کنید، یک اسکریپت eval:dev به npm اضافه کنید و یک ارزیابی ساده با یک امتیازدهنده آماده مثل autoevals بسازید. Evalite همچنین میتواند بهصورت برنامهنویسیشده اجرا شود، حالتهای مختلف اجرا مثل watch و run-once ارائه کند و نتایج را در مخازن ذخیرهسازی سفارشی نگه دارد تا تیمها بتوانند روند ارزیابیها را در طول زمان دنبال کنند.
قابلیتهای Evalite
در پسزمینه، Evalite قابلیتهایی ارائه میدهد که برای جریانهای کاری تولید در نظر گرفته شدهاند. امتیازدهندههای داخلی و پشتیبانی از امتیازدهندههای سفارشی به تیمها اجازه میدهد معیارهای موفقیت ویژه دامنه کاری خود را تعریف کنند. سیستم رهگیری Evalite ورودیها، فراخوانیهای مدل زبانی و وضعیتهای میانی را ثبت میکند تا رفع اشکال و تحلیل ریشهای مشکلات قابلاتکاتر شوند. اخیرا اعلام شد که Evalite میتواند مدلهای AI SDK را کش کند؛ قابلیتی که واکنش مثبت کاربران را بهدنبال داشت و یکی از کاربران آن را یک تغییر بازی برای سرعت و تکرارپذیری توصیف کرد.
واکنش کاربران
واکنش جامعه بسیار مثبت بوده است. مخزن گیتهاب پروژه بیش از هزار ستاره گرفته و چرخه انتشار فعالی دارد. اعلام نسخه بتای v1 توسط نویسنده در X نیز بهسرعت توجه پذیرندگان اولیه را جلب کرد و یکی از کاربران گفت که از فردا آن را در یک پروژه واقعی استفاده خواهد کرد. کاربر دیگری توضیح میدهد که چرا بهنظرش چنین پروژهای وجود دارد:
«ارزیابهای زیادی وجود دارند… اما Evalite متفاوت است. این ابزار فقط بهصورت محلی اجرا میشود، روی همان دستگاه شما کار میکند و کنترل کامل دادهها را در اختیار شما میگذارد.»
مشکلات و موانع
از آنجا که پروژه هنوز در حال توسعه است، بروز مشکلات اولیه طبیعی است و برخی نیز شناسایی شدهاند؛ برای مثال اخیرا مسئلهای مربوط به اعلان وابستگیها مطرح شد. این مشکل اکنون برطرف شده و نویسنده اعلام کرده که بهطور فعال در حال رفع باگهای گزارششده توسط کاربران اولیه است.
جمعبندی
Evalite متنباز و تحت مجوز MIT است و عمدا از وابستگی اجباری به فروشنده (Vendor Lock) جلوگیری میکند؛ هم با پشتیبانی از هر مدل زبانی و هم با ارائه سیستم ذخیرهسازی و امتیازدهندههای قابلاتصال.
با رشد قابلیتهای عاملمحور و مبتنی بر مدلهای زبانی در سازمانها، هدف Evalite این است که ارزیابی را قابلتکرار، ایمن از نظر نوعدهی (Type Safe) و به اندازه کافی سریع کند تا بخشی از جریان روزمره توسعه باشد. کاربران اولیه باید انتظار تکرار سریع داشته باشند، اما همین حالا هم این ابزار یک مسیر قدرتمند و مبتنی بر TypeScript برای تست اپلیکیشنهای مجهز به هوشمصنوعی ارائه میدهد.
منبع: infoq.com




دیدگاهتان را بنویسید