شما اگر به رفتار کودک توجه کنید می بینید هی از شما (که Oracle باشید) سوال میپرسه که این چیه و اون چیه! اگر دقت بفرمایید، سوالات پرت و پلا از شما می پرسه (Exploration). هر چی بچه بزرگتر میشه یاد میگیره سوالات بهتری از شما بپرسه تا بدون سر رفتن حوصله شما و اعصاب خوردی (Question Budget) به جوابی که می خواد برسه. این مسئله مهمی است که شما سوال خوب بپرسی، چنان که پیامبر اکرم (صلی الله علیه و آله) فرمود: «و حسن السؤال نصف العلم؛ خوب پرسیدن نیمی از علم است» و حضرت علی (علیه السلام) فرمود: «حسن المسأله نصف العلم؛ خوب سؤال کردن نیمی از دانش است.» و نیز فرمود: «من احسن السؤال عَلِم، من عَلِم احسن السؤال؛ آن کس که خوب بپرسد، دانا می شود و کسی که دانا باشد خوب سؤال می کند.» [پرسمان] بیان اخیر در حقیقت داره یک سیستم یادگیری فعال رو نشون میده؛

مسئله

مسئله ای که این مقاله به اون پرداخته «یادگیری از طریق پرسش» است. مدل های موجود برای یادگیری به صورت غیر فعال (passive) یعنی آموزش با مجموعه داده برچسب دار، عمل می کند. (البته سیستم به صورت پیوسته می تواند تحت آموزش باشد؛ ولی همچنان به صورت غیر فعال) این نوع یادگیری در مقایسه با شیوه ای که ما انسان ها داریم کاملا متفاوت است. ما آدم ها با دنیای اطراف تعامل می کنیم تا اطلاعات بدست بیاوریم، نه این که تنها از بیرون به ما اطلاعاتی تزریق شود.

مجموعه داده

پیش از آن که به ایده مقاله بپردازم لازم است در مورد مجموعه داده مورد استفاده مقاله مطالبی را بیان کنم. در این مقاله از مجموعه داده ای تحت عنوان CLEVR استفاده شده است. این مجموعه داده در CVPR17 با ارائه مقاله ای با عنوان CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning معرفی شده است. کد منبع تولید این مجموعه داده را می توانید از اینجا دریافت کنید. این کد از دو بخش تشکیل شده است. بخشی که با کمک نرم افزار Blender تصویر را می سازد (تصویر از محیط واقعی نیست، ساختگی است) و بخشی که سوالات را برای تصاویر تولید شده، ایجاد می کند (چون میدونیم چی ساختیم طبیعتا می تونیم راجع بهش سوال طرح کنیم). سوالاتی که CLEVR تولید می کند جنبه های گوناگونی از استدلال را نظیر تعیین ویژگی ها، شمارش، مقایسه، ارتباطات فضایی و اعمال منطقی در بر دارد. نمونه ای از تصویر و پرسش های مرتبط با آن در زیر آمده است.

نوآوری

این مقاله در حوزه پرسش و پاسخ در مورد تصویر (Visual Question Answering) مدلی را ارائه کرده است. در حالت کلی یک سیستم VQA یک تصویر را به عنوان ورودی دریافت می کند، سوالی در مورد تصویر می پرسد و پاسخی به سوال به عنوان خروجی تولید می کند.

در مدل ارائه شده در این مقاله بخشی وظیفه پیشنهاد سوال (Question Proposal)، بخشی وظیفه پاسخ گویی به سوال (Question Answering) و بخشی هم وظیفه انتخاب بهترین سوال (Question Selection) را برای پرسش از Oracle بر عهده دارد. سه بخش یاد شده هر کدام با مدلی پیاده سازی شده اند که جزئیات آن در مقاله آمده است. پاسخی که Oracle به پرسش می دهد سیگنال های یادگیری برای هر کدام از مدل ها را تولید می کند. (در فرایند یادگیری از دانش اولیه استفاده نشده است)

در بخش پیشنهاد سوال از شبکه LSTM، در بخش پاسخ به سوال از مدل استاندارد VQA و در بخش انتخاب سوال مناسب از epsilon-greedy policy استفاده شده است. بخش پاسخ به سوال برای خود ارزیابی در نظر گرفته شده است.

در این مدل ابتدا سوالات متنوع پرسیده می شود (epsilon-greedy). به مرور با دریافت پاسخ از Oracle (که همه جواب ها رو میدونه – مجموعه داده CLEVR) سیگنال های یادگیری برای هر بخش تولید شده تا سوالات بعدی با دقت بیشتری انتخاب شود. [جزئیات رو از مقاله بخونید]

تحلیل

خود مقاله جنبه های مختلفی از کارش رو تحت عنوان کارهای آینده بررسی می کنه. مهمترین کاری که این مقاله کرده اینه که روش مرسوم یادگیری با ناظر رو از حالت غیر فعال به حالت تعاملی انتقال داده. این روش میتونه نمونه برداری از داده ها را در فرایند یادگیری بهتر کنه. یکی از محدودیت های کار انجام شده اینه که در دنیای CLEVR کار می کنه. تصاویر (ساده) CLEVR باید با تصاویر طبیعی جایگزین شوند. از طرف دیگر بجای استفاده از برنامه Oracle (دارای زبان ساده برای تعامل) می بایست عامل انسانی (با زبان پیچیده تر) به سوالات پاسخ دهد. با توجه به این که در این مقاله از دانش اولیه استفاده نشده است، باید بررسی شود نتایج این روش یادگیری با توجه به در اختیار داشتن دانش اولیه چقدر بهبود می یابد.

این مقاله در کنفرانس CVPR18 ارائه شده است. این مقاله را می توانید از اینجا دانلود نمایید.