چگونه هوش مصنوعی می‌تواند مفاهیم موجود در محتواها را تشخیص دهد؟

دسته بندی: MIT
6 دقیقه زمان مطالعه
1401/07/17
0 نظر

با کمک هوش مصنوعی یک مدل یادگیری ماشینی طراحی شده است که می‌تواند یک اقدام مشخص را در یک کلیپ ویدیویی شناسایی کرده و بدون کمک انسان به آن برچسب بزند.

محققان MIT یک تکنیک یادگیری ماشینی را توسعه دادند که یاد می‌گیرد داده‌ها را به گونه‌ای نشان دهد که مفاهیمی  در محتواهای بصری و صوتی به اشتراک گذاشته شده‌اند را درک کند. مدل آن‌ها می‌تواند مشخص کند که در کجای یک ویدیو یک اقدام خاص انجام می شود و به آن برچسب بزند. 

انسان‌ها دنیا را با کمک ترکیبی از روش‌های مختلف مثل بینایی، شنوایی و گفتاری درک می‌کنند. از سوی دیگر ماشین‌ها از طریق داده‌هایی که الگوریتم ها می‌توانند پردازش کنند، جهان را تفسیر می‌کنند. 

بنابراین، هنگامی که یک ماشین یک عکس را “می‌بیند”، باید آن عکس را به داده‌هایی که می‌تواند برای انجام کاری مثل طبقه‌بندی تصویر استفاده کند، رمزگذاری کند. این فرآیند زمانی پیچیده‌تر می‌شود که ورودی‌ها در فرمت‌های مختلف مانند فیلم‌ها، کلیپ‌های صوتی و تصاویر ارائه شوند.

چالش اصلی در این جا این است که چگونه یک دستگاه می‌تواند روش‌های مختلف را هم راستا کند؟ به عنوان انسان این کار برای ما آسان است. وقتی که یک ماشین می‌بینیم و بعد صدای آن را می‌شنویم متوجه می‌شویم که هر دو مورد مرتبط با ماشین است.

الکساندر لیو، دانشجوی تحصیلات تکمیلی در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (‏CSAIL)‏ می‌گوید: ”  این موضوع برای یادگیری ماشین چندان ساده نیست.”

لیو و همکارانش یک تکنیک هوش مصنوعی را توسعه دادند که یاد می‌گیرد، داده‌ها را به شکلی نمایش دهد که مفاهیمی که بین روش‌های بصری و صوتی به اشتراک گذاشته شده‌اند را درک کند. برای مثال روش آن‌ها می‌تواند یاد بگیرد که عمل گریه کردن نوزاد در یک ویدئو به کلمه “گریه کردن” در یک کلیپ صوتی مرتبط است.

با استفاده از این دانش مدل یادگیری ماشین آن‌ها می‌تواند مشخص کند که در کدام قسمت ویدیو یک اقدام خاص انجام شده و برای استفاده‌های بعدی به آن برچسب بزند.

این روش از روش‌های دیگر یادگیری ماشین در مواردی مثل بازیابی چندوجهی اطلاعات بهتر عمل می‌کند. این کار می‌تواند به درخواست‌های کاربران برای مواردی مثل پیدا کردن یک داده مشخص در مکالمات یک ویدیوی مناسب باشد. همچنین این مدل طراحی شده به کاربران کمک می کند تا راحت‌تر درک کنند که چرا ماشین این داده‌ها را در پاسخ به درخواست آن‌ها نشان داده است. 

پیش‌بینی می‌شود که در آینده روبات‌ها بتوانند از این تکنیک برای درک بهتر مفاهیم جهان مشابه با آن چه که انسان‌ها انجام می‌دهند، استفاده کنند. 

دانشمندان زیادی از نقاط مختلف دنیا به این پژوهش پیوستند و قرار است نتایج بدست آمده از این تحقیق را در نشست سالانه انجمن Computational Linguistics ارائه دهند. 

یادگیری بازنمایی (Learning representations) چیست؟

محققان در این پژوهش بر یادگیری بازنمایی تمرکز می‌کنند. یادگیری بازنمایی مدلی از یادگیری ماشینی است که به دنبال آسان‌تر کردن تبدیل داده‌های ورودی برای انجام کارهای مختلف مثل طبقه‌بندی یا پیش‌بینی است.

مدل یادگیری بازنمایی داده‌های خام مثل ویدئوها و توضیحات متنی مربوطه آن‌ها را گرفته و ویژگی‌ها یا مشاهدات خود در مورد اشیا و اقدامات مشخصی را در ویدئو استخراج و رمزگذاری می‌کند. 

به عنوان مثال یک کلیپ ویدیویی از فردی که در حال شعبده‌بازی است ممکن است با برچسب ” شعبده‌بازی” مشخص شود.

محققان در این مدل محدودیتی در نظر گرفتند به طوری که تنها می‌توان از ۱۰۰۰ کلمه برای برچسب زدن vector ها استفاده کرد. این مدل می‌تواند تصمیم بگیرد که چه اعمال یا مفاهیمی را می‌خواهد در یک vector رمزگذاری کند، اما تنها می‌توان از ۱۰۰۰ vector استفاده کرد. این مدل کلمه‌هایی را انتخاب می‌کند که بتوانند به بهترین شکل داده‌ها را نشان دهند. 

در این روش محقق‌ها به جای رمزگذاری داده‌ها از روش‌ها و شبکه‌های مختلفی برای رمزگذاری داده‌ها استفاده می‌کنند. انجام این کار به مدل این امکان را می‌دهد که ارتباط بین محتواها را یاد بگیرد. برای مثال تفاوت ویدئویی که در آن شخصی در حال انجام شعبده‌بازی است را از یک فایل صوتی که در آن کلمه شعبده‌بازی می‌گوید، تشخیص دهد.

برای کمک به پردازش داده‌های سیستم از روش‌های چندگانه، آن‌ها الگوریتمی را طراحی کردند که ماشین را برای رمزگذاری مفاهیم مشابه در همان vector هدایت می‌کند.

 یکی از محقق‌ها توضیح می‌دهد که اگر یک ویدیو درباره خوک‌ها باشد، مدل ممکن است  یکی از ۱۰۰۰ vector خود را به کلمه «خوک» اختصاص دهد. اگر مدل از شخصی کلمه «خوک» را در یک کلیپ صوتی بشنود ، همچنان باید از همان vector برای رمزگذاری آن استفاده کند.

بازیابی چندوجهی محتوا با کمک هوش مصنوعی

آن‌ها مدل وظایف بازیابی چند وجهی را با استفاده از سه مجموعه داده مورد آزمایش قرار دادند: یک مجموعه داده video-text شامل کلیپ‌های ویدیویی و عنوان‌های متنی، یک مجموعه داده video-audio شامل ویدیوهایی با عنوان‌های صوتی و یک مجموعه داده image-audio شامل تصاویر با عنوان‌های صوتی بودند. 

به عنوان مثال در مجموعه داده video-audio، این مدل ۱۰۰۰ کلمه را برای نشان دادن اقدامات در ویدئوها انتخاب کرد. سپس وقتی محققان به آن کوئری‌های صوتی را تزریق کردند، مدل تلاش کرد تا کلیپی را پیدا کند که به بهترین شکل با آن کلمات بیان شده در فایل صوتی مطابقت داشته باشد.

به گفته Liu یکی از پژوهشگران : این کار درست مانند زمانی است که شما یک کلمه را در گوگل سرچ می‌کنید، شما یک عبارت را تایپ می‌کنید و ماشین تلاش می‌کند تا مرتبط‌ترین چیزهایی که به دنبالش هستید را به شما بگوید. با این تفاوت که ما این کار را در فضای vector انجام می‌دهیم. 

این مدل در مقایسه با سایر مدل‌ها نتایج مورد انتظارتری نمایش می‌دهد و درک آن نیز راحت‌تر است.

از آنجا که این مدل تنها می‌تواند از ۱۰۰۰ کلمه کلی برای برچسب گذاری vector استفاده کند، کاربر می‌تواند به راحتی ببیند که ماشین از کدام کلمات استفاده کرده تا نتیجه بگیرد که ویدیو و کلمات گفتاری مشابه هم هستند.

Liu همچنین می‌گوید این موضوع می‌تواند استفاده از این مدل را در شرایط دنیای واقعی که در آن درک کاربران از چگونگی تصمیم‌گیری ضروری است، آسان‌تر کند.

این مدل هنوز محدودیت‌هایی دارد که پژوهشگران امیدوارند در آینده بتوانند به آن‌ها بپردازند. Liu می‌گوید: برای مثال تحقیقات آن‌ها در یک زمان بر روی داده‌های حاصل از دو متغیر متمرکز است، اما در دنیای واقعی انسان‌ها به طور همزمان با متغیرهای داده‌ای زیادی مواجه می‌شوند.

او اضافه می‌کند: ” ما می‌دانیم که ۱۰۰۰ کلمه روی این مجموعه داده کار می‌کنند، اما نمی‌دانیم که آیا می‌توان آن را به یک مشکل در دنیای واقعی تعمیم داد یا خیر.”

علاوه بر این، تصاویر و ویدئوهایی که در پژوهش استفاده شده بودند، مجموعه داده‌هایی شامل اشیا یا اقدامات ساده بودند در حالی که داده‌ها در دنیای واقعی خیلی پیچیده هستند. آن‌ها همچنین قصد دارند، بررسی کنند که روش آن‌ها وقتی که تنوع وسیع‌تری از ورودی‌ها وجود دارد، چقدر قابلیت مقیاس‌گذاری دارد؟

آزمایشگاه هوش مصنوعی MIT-IBM Watson و شرکت‌های عضو آن Nexplore و Woodside و  آزمایشگاه MIT Lincoln از انجام این تحقیق حمایت کردند. 

این مقاله ترجمه‌ای از پست Artificial intelligence system learns concepts shared across video, audio, and text از مجله خبری دانشگاه MIT است.

امتیاز شما به این مقاله:

مطالب مرتبط