روشهای یادگیری ماشین در حوزه ترجمه دقیقا مانند خود انسان عمل میکند. یعنی با در نظر گرفتن ساختار جمله و ویژگیهای بصری آن تلاش میکند معنای متن را با مفاهیم موجود در دنیای واقعی مطابقت دهد و از این طریق، ترجمه آن را بهبود بخشد. در این مطلب، قصد داریم یک روش تحقیقاتی جدید را به شما معرفی کنیم که به ایجاد سیستمی برای بهبود ترجمه متون منتهی شده است. با ما همراه باشید.
فرآیند یادگیری و ترجمه زبان در انسان مبتنی بر چیست؟
فرآیند یادگیری زبان در انسان مبتنی بر تکرار و تقلید است. بنابراین، هیچکس را نمیتوان یافت که بدون دستیابی به دانش و تقویت آگاهی و مهارتهای خود بهطور ناگهانی و از همان ابتدای کودکی خواندن متون سنگین را شروع کند. دلیل این امر آن است که بشر برای تفسیر معانی و درک موضوعات به برقراری ارتباط میان مفاهیم و استنتاج توصیفات نیاز دارد. واقعیت این است که سفر انسان در مسیر پرپیچوخم زبان به آرامی و از طریق تعامل با محیط آغاز میشود و با درک ساختار کلامی، فیزیکی و اجتماعی ادامه مییابد. در نهایت، انسان میتواند جملات کاملی را تولید کرده، ایدههای پیچیده را بیان کند و تفکرات متعالیاش را با دیگران بهاشتراک بگذارد.
معرفی مدل جدید یادگیری ماشین برای ترجمه متون
بهطور مشابه، انسان در روند یادگیری و ترجمه زبان به ادغام اطلاعات حسی از قبیل مفاهیم دیداری و شنیداری روی میآورد. همچنین، کلمات زبانهای مقصد و مبدا را با یکدیگر مطابقت میدهد و از این طریق فرآیند اکتساب دادههای تازه و برگردان آن را به اطلاعات قابل فهم امکانپذیر میکند. سپس، انسان با تمرین کافی و بدون بهرهبرداری از رسانههای تصویری میتواند جملات جدید و ناآشنا را به زبان دلخواه خود ترجمه کند.
شبیهسازی تصویر براساس متن اصلی از روشهای موثری است که به درک بهتر مفاهیم کمک میکند. این همان مدل یادگیری ماشین جدیدی است که توسط محققان MIT، IBM و شعبه سانفرانسیسکوی دانشگاه کالیفرنیا ارائه شده و VALHALLA نام دارد. این مدل یادگیری نوین شامل یک شبکه عصبی پیشرفته و تعلیمدیده است که جملات زبان مبدا را بررسی میکند و براساس آن، تصویری ساختگی و توهمگونه را در اختیار مخاطب قرار میدهد؛ سپس، از متن اولیه و تصاویر ساخته شده بهصورت توامان بهره میگیرد و روند ترجمه را پیش میبرد. براساس مطالعات انجام شده، این روش ترجمه ماشینی به مراتب دقیقتر از تکنیکهایی است که تنها مبتنی بر متن مبتنی بودهاند. بهعلاوه، این راهکار در برگردان جملات طولانی، زبانهای کمتر شناخته شده و موارد نا آشنا برای مترجم ماشینی موثرتر و موفقتر عمل میکند.
«یون کیم» (Yoon Kim)، استادیار دپارتمان برق دانشگاه MIT و یکی از نویسندگان و ارائهدهندگان این تحقیق در این باره میگوید: «ترجمه ماشینی یک فناوری بسیار کاربردی است که روزانه توسط میلیونها نفر در سراسر نقاط جهان استفاده میشود. با توجه به پیشرفتهای قابل توجهی که اخیرا در حوزه یادگیری عمیق روی داده، شاهد توسعه چشمگیری در نحوه استفاده از دادههای غیر متنی هستیم. اکنون تصاویر، صداها و سایر اطلاعات پایهای در اختیارمان قرار دارند تا درکمان را از زبان بهبود بخشند و انجام برخی از کارهای عملی مرتبط با آن از قبیل ترجمه را برایمان سادهتر کنند. ترجمه و پردازش زبان یک فرآیند مبتنی بر موقعیت است. بنابراین، برقراری ارتباط میان متن و تصاویر برگرفته از آن روند استنتاج را بهبود میبخشد و زمینه مناسبی را برای بهینهسازی عملکرد فراهم میکند.»
در ماه جاری، تحقیقات مذکور در IEEE / CVF کنفرانس بینایی رایانهای و بازشناخت الگو (CVPR) ارائه خواهد شد. تالیفکنندگان همکار «کیم» در این تحقیق عبارتند از «یی لی» (Yi Li)، دانشجوی سال آخر دانشگاه سندیگو، پروفسور «نونو واسکونسلوس» (Nuno Vasconcelos) و همچنین، اعضا هیات تحقیقاتی شامل «رامسوار پاندا» (Rameswar Panda)، «چون فو ریچارد چن» (Chun-fu Richard Chen)، «روجریو فریس» (Rogerio Feris) و «دیوید کاکس» (David Cox)، مدیر IBM در آزمایشگاه هوش مصنوعی MIT-IBM Watson.
عملکرد یادگیری ماشینی مبتنی بر شبیهسازی بصری
یادگیری و ترجمه زبانهای جدید معمولا با مراجعه به نمونهها و تمرینهای مداوم امکانپذیر است. همین امر در مورد سیستمهای ترجمه ماشینی نیز مصداق دارد. به گفته پاندا: «با این حال، اگر قرار باشد روشهای هوش مصنوعی در طول یادگیری از تصاویر استفاده کنند باید از جلوههای بصری موجود بهره ببرند. این امر کاربردپذیری آنها را محدود میکند.»
پاندا اضافه میکند: «در سناریوهای واقعی، ممکن است دسترسی به تصویر متناسب با جمله زبان مبدا امکانپذیر نباشد. بنابراین، سوال این است که برای بهبود سیستمهای ترجمه ماشینی آیا بهجای استفاده از یک تصویر خارجی میتوان از توهم یا شبیهسازی بصری استفاده کرد؟»
برای انجام این کار، تیم مذکور با بهرهگیری از دو ترانسفورماتور از نوعی معماری رمزگذار-رمزگشا استفاده کرد. این سیستم، نوعی مدل شبکه عصبی بوده و برای پردازش زبان و دادههای وابسته به توالی مناسب است. از جمله ویژگیهای این سیستم میتوان به قابلیت توجه به کلمات کلیدی و معنایی یک جمله اشاره کرد. عملکرد این سیستم به این صورت است که یکی از ترانسفورماتورها نوعی توهم بصری را ایجاد میکند و دیگری با استفاده از خروجیهای ترانسفورماتور اول، ترجمه چند وجهی (multimodal) را ارائه میدهد.
در طول یادگیری، دو جریان ترجمه وجود دارد:
- یک جمله منبع و یک تصویر مرجع که منطبق با جمله مذکور است.
- همان جمله منبع که برای ایجاد یک جفت متن-تصویر مبتنی بر توهم بصری ایجاد میشود.
برای این منظور، ابتدا تصویر و جمله مرجع به واحدهای قابل شناسایی تبدیل میشوند. ترانسفورماتورها میتوانند این واحدها و بخشها را مدیریت کنند. در مورد جمله، هر کلمه یک واحد (token) به حساب میآید. سپس، جمله مرجع مجددا تقسیمبندی (tokenized) میشود. اما این بار از ترانسفورماتور توهمزا عبور میکند تا فرآیند شبیهسازی بصری و نمایش تصویری مجزا از جمله را بهعنوان خروجی ارائه دهد. برای مطابقت دادن دادههای مرجع و شبیهسازی بصری ارائه شده، محققان از یک مدل خودهمبسته و خودکار بهره میگیرند. برای مثال، زمانی که در جمله مرجع به «خفاش» (bat) اشاره میشود، تجسم بصری بین نام حیوان مذکور و «چوب بیسبال» (baseball bat) تمایز قائل میشود. سپس دستگاه توهمزا از تفاوت بین آنها برای بهینهسازی و بهبود خروجی بصری خود استفاده میکند و مطمئن می شود که تصویر شبیهسازی شده کاملا با جمله مرجع سازگار است.
در مرحله بعد، هر یک از مجموعههای تقسیمبندی شده و مشتمل بر واحدها یا توکنهای مختلف بهطور همزمان از ترانسفورماتور ترجمه چندوجهی عبور داده میشوند. هر کدام از این مجموعهها شامل نمایش جمله و همچنین، تصویر توهمآمیز یا شبیهسازی بصری است.
بهمنظور بهینهسازی عملکرد ترجمه توسط این دستگاه، در نهایت ترجمه متن اصلی tokenize شده با جملات زبان مقصد مطابقت داده میشوند. سپس، هر مغایرتی به ترانسفورماتور ترجمه انتقال مییابد تا بهبود یابد. پاندا در این باره میگوید: «تا جایی که میدانیم، پیش از این برای بهبود عملکرد ترجمه ماشینی، هیچ ترانسفورماتور توهمزایی با یک سیستم ترجمه چند وجهی همکاری نکرده است.»
تجسم بصری متن
تیم تحقیقاتی مذکور برای ارزیابی سیستم ارائه شده، عملکرد VALHALLA را با سایر روشهای پیشرفته ترجمه چند وجهی و همچنین، ترجمههای صرفا متنی مقایسه کردند. برای این کار، آنها از مجموع دادههای معیار عمومی حاوی تصاویر مرجع با جملات منبع و دادههای مرتبط با ترجمه مقالات خبری (صرفا متنی) بهره جستند. محققان مذکور عملکرد این سیستم را در بیش از ۱۳ تسک گوناگون ارزیابی کردند. از این میان، میتوان به ترجمه زبانهای پرکاربردی نظیر انگلیسی، آلمانی و فرانسوی تا زبانهای کم مخاطبتری مانند رومانیایی اشاره کرد. این گروه همچنین مواردی از قبیل ارتباط دقت ترجمه با طول جمله و ترجمه متونی را بررسی کردند که از منابع محدودتری برخوردار بوده و بخشهایی از آنها از نظر مترجمهای ماشینی پنهان میماندند.
با توجه به اقدامات انجام شده، این تیم شاهد پیشرفتهای قابلتوجهی بود که روش ارائه شده توسط آنها را از روشهای پیشین ترجمه متنی متمایز میکرد. مجموع این عوامل با بهبود کارایی سیستم و بهینهسازی دادهها همراه بود. با طولانیتر شدن جملات، عملکرد VALHALLA نسبت به روشهای دیگر افزایش یافت. در مواردی که بخشی از جمله مبهم یا مخدوش بود نیز VALHALLA توانست متن اصلی را بازیابی و ترجمه کند. این ویژگی منحصر بهفردی است که اعضای تیم تحقیقاتی را شگفتزده کرد.
در این میان، نتایج غیر منتظره دیگری نیز حاصل شد. برای مثال، در هنگام ترجمه زبانهای کم کاربرد و زمانی که انطباقپذیری تصاویر با متن دشوارتر بود، پیشرفتهای قابل توجهتری حاصل شد. به اعتقاد «کیم» این امر نشان میدهد که شبیهسازی بصری و مرجعسازی تصاویر بهدست آمده به ترجمه زبانهای نا آشنا با منابع اطلاعاتی محدود کمک میکند و کارایی آن به مراتب بهتر از سیستمهایی است که صرفا مبتنی بر متن هستند.
آیا VALHALLA یک نمونه کامل است؟
با وجود همه اینها، محققان خاطرنشان میکنند که VALHALLA هم دارای محدودیتهایی است. برای مثال، تصاویر جفت شده با یک جمله باید حاشیهنویسی شود تا بعدها بتواند بهعنوان مرجع مورد استفاده قرار گیرد. انجام این کار به صرف تلاش و هزینه بیشتری نیازمند است.
بهعلاوه، «کیم» و «پاندا» یادآوری میکنند که تکنیکهای مشابه VALHALLA هنوز مانند یک جعبه سیاه هستند و اطمینان از عملکرد آنها مستلزم تحقیقات بیشتری است. در حال حاضر، فرض بر این است که شبیهسازی بصری اطلاعات مفیدی را ارائه میدهد.
سخن آخر
این تیم تحقیقاتی قصد دارد در آینده ابزارهای دیگری را برای بهبود ترجمه پیدا کند. پاندا میگوید: «در این پژوهش، ما فقط بر روی تصاویر تمرکز کردیم. با این حال، انواع دیگری از اطلاعات چندوجهی هم وجود دارند که میتوانند به بهبود فرآیند ترجمه ماشینی کمک کنند. از آن میان، میتوان به گفتار، ویدیو، امکان برقراری تماس لمسی یا سایر روشهای مبتنی بر حواس پنجگانه اشاره کرد. به اعتقاد ما چنین زمینهسازی چندوجهی میتواند به ارائه برخی از مدلهای ترجمه ماشینی منجر شود که از این هم کارآمدتر باشند. این فرآیند میتواند به ترجمه زبانهای کمتر شناخته شده جهان کمک کند.»
دیدگاهتان را بنویسید