| 👀 خبر در یک نگاه:
گوگل کتابخانه متنباز LangExtract را معرفی کرد؛ ابزاری پایتونی که با مدلهای زبان بزرگ مثل Gemini، متنهای بدون ساختار را به دادههای ساختیافته تبدیل میکند. این کتابخانه ساده، دقیق و قابلاطمینان، کاربردی در حوزههای مختلف از جمله سلامت و حقوقی دارد. |
گوگل LangExtract را معرفی کرده است؛ یک کتابخانه متنباز پایتون که برای کمک به توسعهدهندگان در استخراج اطلاعات ساختیافته (Structured Information) از متنهای بدون ساختار طراحی شده و از مدلهای زبانی بزرگ مثل خانواده Gemini پشتیبانی میکند.
LangExtract چطور کار میکند؟
این کتابخانه فرایند تبدیل متن Free-Form به داده ساختیافته را ساده میکند؛ مانند یادداشتهای بالینی، متون حقوقی و بازخورد مشتریان. توسعهدهندگان میتوانند با استفاده از دستورهای زبان طبیعی و ارائه نمونه داده، وظایف استخراج را تعریف کنند و به این ترتیب، پردازش و سازماندهی اطلاعات از انواع محتوای بدون ساختار را آسانتر سازند.
تولید کنترلشده
یکی از قابلیتهای برجسته LangExtract استفاده از تکنیکهای «تولید کنترلشده» است. این رویکرد تضمین میکند که اطلاعات استخراجشده بهصورت یکنواخت قالببندی شده و بهطور دقیق به منبع اصلی خود در متن پیوند داده شوند.
این کتابخانه بخشهای مرتبط از متن را هایلایت میکند و قابلیت ردیابی فراهم میآورد تا هر موجودیت استخراجشده دقیقا به محل خود در سند اصلی متصل باشد. این ویژگی شفافیت و قابلیت اطمینان بیشتری را در فرایند استخراج اطلاعات تضمین میکند.
بخشبندی متن
برای پردازش اسناد طولانی و پیچیده، LangExtract از استراتژیهای پیشرفتهای مانند بخشبندی متن (Text Chunking)، پردازش موازی و چندین مرحله استخراج استفاده میکند.
این تکنیکها باعث بهبود دقت و جامعیت استخراج شده و تضمین میکنند که کتابخانه بتواند اطلاعات را از متون حجیم با کیفیت بالا استخراج کند. به همین دلیل، LangExtract برای کاربردهای متنوعی از حوزه سلامت گرفته تا اسناد حقوقی، بدون نیاز به تنظیمات گسترده روی مدلهای زیربنایی، مناسب است.
یکپارچهسازی با LLMها
LangExtract قابلیت یکپارچهسازی با مدلهای زبانی بزرگ (LLM) مختلف را دارد، از جمله مدلهای ابری مانند Gemini و مدلهای محلی از طریق پلتفرمهایی مثل Ollama. این انعطافپذیری آن را به ابزاری همهکاره برای توسعهدهندگانی تبدیل میکند که با مدلهای مختلف کار میکنند.
به کمک این ابزار، کاربران میتوانند وظایف استخراج داده را برای دامنه گستردهای از کاربردها تعریف کنند، بدون اینکه نیاز به تخصص عمیق در یادگیری ماشین داشته باشند.
انتشار LangExtract با استقبال پرشور جامعه توسعهدهندگان روبهرو شده است. اکشای گویل (Akshay Goel)، یکی از مشارکتکنندگان اصلی این پروژه، هیجان خود را از این انتشار ابراز کرده و مشتاق است تا شاهد کاربردهای نوآورانهای از سوی کاربران باشد؛ بازتابی از روحیه همکاری و مشارکت که پشت این پروژه قرار دارد:
«خوشحالم که امروز همراه تیم، LangExtract را منتشر میکنیم و مشتاقم ببینم جامعه توسعهدهندگان با آن چه ابتکاراتی خلق میکنند!»
نسخههای LangExtract
کایل براون (Kyle Brown)، توسعهدهنده، این ابزار را گامی بزرگ به سمت شفافیت در هوش مصنوعی توصیف کرد که متنهای بدون ساختار را به دادههای ساختیافته و قابلفهم تبدیل میکند. همچنین، نسخه TypeScript از LangExtract منتشر شده که سازگاری آن را گسترش داده و از مدلهای OpenAI و Gemini گوگل پشتیبانی میکند، نشاندهنده مشارکت فعال جامعه توسعهدهندگان است.
این کتابخانه تحت مجوز Apache 2.0 عرضه شده و بهراحتی از طریق pip قابل نصب است. ابزاری قدرتمند و در دسترس برای توسعهدهندگانی است که میخواهند قابلیت استخراج اطلاعات را به برنامههای خود اضافه کنند.
منبع: infoq.com




دیدگاهتان را بنویسید