یکشنبه ۱۶ اردیبهشت ۱۴۰۳ - ۰۴:۴۰
نظرات: ۰
۰
-

طبق پژوهش‌های انجام شده در دانشگاه «درِکسِل» در ایالات‌ متحده، روش‌های فعلی که برای شناسایی عکس و ویدئوهای دیجیتالی دستکاری ‌شده به کار می‌روند در مقابل ویدئوهایی که هوش مصنوعی تولید می‌کنند مؤثر عمل نمی‌کنند.

ضمیمه دانش امروز روزنامه اطلاعات نوشت: در فوریه 2024 شرکت OpenAI ویدئوهایی را منتشر کرد که با یک برنامه هوش مصنوعی مولد به نام «سورا» (Sora)محصول خود این شرکت ساخته شده بودند.

این محتواهای فوق‌العاده واقع‌گرایانه که با خطوط فرمان متنی ساده تولید شده‌اند، تازه‌ترین دستاورد شرکت‌هایی هستند که می‌خواهند توانمندی‌های فناوری هوش مصنوعی را به دنیا نشان دهند.

اما از سوی دیگر نگرانی‌ هایی را درباره توانایی بالقوه هوش مصنوعی مولد در کمک به ایجاد محتوای فریب دهنده و گمراه کننده به وجود آورده‌اند.

طبق پژوهش‌های انجام شده در دانشگاه «درِکسِل» در ایالات‌ متحده، روش‌های فعلی که برای شناسایی عکس و ویدئوهای دیجیتالی دستکاری ‌شده به کار می‌روند در مقابل ویدئوهایی که هوش مصنوعی تولید می‌کنند مؤثر عمل نمی‌کنند اما یک رویکرد یادگیری ماشین می‌تواند نقاب تقلب را از چهره این ویدئوهای ساختگی بردارد.

فناوری تشخیص تصاویر غیرواقعی و جعلی که در حال حاضر به کار می‌روند نمی‌تواند ویدئویی را که هوش مصنوعی می‌سازد را از ویدئوی واقعی تشخیص دهد اما الگوریتم یادگیری ماشینی که در آزمایشگاه امنیت اطلاعات چند رسانه‌ای دانشگاه درِکسِل ساخته شده‌است می‌تواند طوری آموزش ببیند که قادر باشد رد و اثر بسیاری از مولدهای ویدئو مثل Stable Video Diffusion،Video-Crafterو Cog-Video را تشخیص دهد و شناسایی کند.

به‌علاوه، این الگوریتم می‌تواند یاد بگیرد مولدهای هوش مصنوعی جدید را که ویدئوهای ساختگی تولید می‌کنند شناسایی کند. کافی است برای این کار فقط چند نمونه انگشت شمار ویدئو را دریافت و وارسی کند.

شرکت‌های مهندسی تلاش خود را می‌کنند تا شناسه‌ها و واترمارک‌ هایی را در برنامه‌ها قرار دهند اما زمانی که این فناوری در دسترس عموم قرار گیرد، افرادی که قصد دارند از آن برای فریب دیگران و اهداف منفی استفاده کنند راهی برای خود پیدا خواهند کرد. به همین دلیل است که سازندگان الگوریتم جدید سعی می‌کنند از افراد متقلب جلوتر باشند. برای این منظور، فناوریی را می‌سازند که بتواند ویدئوهای تقلبی را از روی الگوها و ویژگی‌هایی که برای رسانه ویدئویی بومی محسوب می‌شوند را شناسایی کند.

گروه مهندسین دانشگاه درِکسِل در طول یک دهه گذشته تلاش کرده‌اند تصاویری را که به صورت دیجیتالی دستکاری شده‌اند را علامت‌گذاری کنند اما در دو سال اخیر حجم کار آن‌هابیشتر شده ‌است چون افراد متقلب از فناوری ویرایش تصویر برای انتشار اطلاعات نادرست و اخبار جعلی سیاسی استفاده می‌کنند.

تا چندی پیش، این دستکاری‌های بدخواهانه را از طریق برنامه‌های ویرایش‌کننده تصاویر و ویدئو انجام می‌دادند، برنامه‌هایی که می‌توانند پیکسل‌هایی را به تصاویر اضافه یا از آن‌هاحذف می‌کنند یا به طور کلی پیکسل‌ها را تغییر می‌دهند.

همچنین این برنامه‌ها می‌توانند فریم‌های ویدئوها را کند یا تند کنند یا فریم‌ها را از ویدئو برش بزنند و بردارند. هر کدام از این ویرایش‌های انجام شده یک ردپای دیجیتالی منحصر‌به‌فرد و بی‌شباهت در محصول تصویری به جا می‌گذارند. پژوهشگرهای درِکسِل برای یافتن و ردیابی آن‌هایک سلسله ابزار ساخته‌اند.

این ابزارها مجهز به یک برنامه یادگیری ماشین پیچیده هستند که شبکه عصبی محدود شده نام دارد. این الگوریتم به‌ جای این‌که از ابتدا به دنبال شناسه‌های دستکاری دیجیتالی از پیش تعیین‌شده به ‌خصوصی بگردد، می‌تواند به شیوه‌هایی مشابه مغز انسان و با دقت زیر پیکسلی (sub-pixel)یاد بگیرد چه چیزی در عکس‌ها و ویدئوها عادی و طبیعی و چه چیزی غیرعادی است.

این ویژگی، برنامه یادگیری ماشین را هم در شناسایی تصاویر جعل عمیق که از منابع شناخته شده‌ای منتشر می‌شوند و هم در شناسایی تصاویر ساختگی که با یک برنامه ناشناخته ساخته شده‌اند توانا می‌کند.

این شبکه عصبی به طور خاص با صدها یا هزاران نمونه تصویر آموزش دیده است تا با تیزبینی متوجه تفاوت بین ویدئوهای ویرایش نشده و ویدئوهای دستکاری شده شود. این میزان دقت از توانایی تشخیص اختلاف بین پیکسل‌های مجاور هم تا ترتیب فاصله بین فریم‌های یک ویدئو و اندازه و فشردگی فایل‌ها متغیر است.

وقتی ویدئویی می‌سازیم، سیستم پردازش الگوریتمی دوربین ما رابطه بین مقادیر پیکسل‌های مختلف که از مقادیر پیکسل‌های تصاویر ایجاد شده با فتوشاپ یا هوش مصنوعی بسیار متفاوت هستند را معرفی می‌کند. اما به تازگی مولدهای ویدئویی مثل سورا روی کار آمده‌اند که ویدئوهای زیبا و خیره کننده‌ای می‌سازند. این تصاویر گیرا چالش تازه‌ای را پیش می‌آورند چون نه با دوربین گرفته شده‌اند و نه با فتوشاپ طراحی شده‌اند.

حتی اگر ویرایشی هم صورت نگرفته باشد، سرنخ‌های استانداردی وجود ندارد و نبود این سرنخ‌ها در تشخیص جعل از واقعیت مشکل بزرگی به وجود می‌آورد.

تا به امروز برنامه‌های شناسایی که در روش‌های علوم قانونی و جنایی استفاده می‌شوند در مقابل ویدئوهای ویرایش شده عملکرد خوبی داشته‌اند. آن‌هابه سادگی ویدئوها را یک سری تصویر قلمداد کرده و فرایند تشخیص یکسانی را روی آن‌هااعمال می‌کنند. اما در ویدئوهایی که با هوش مصنوعی ساخته می‌شوند هیچ نشانه و مدرکی از دستکاری فریم به فریم تصویر وجود ندارد. بنابراین برای این‌که یک برنامه شناسایی‌کننده مؤثر عمل کند، باید قادر به یافتن رد و نشانه‌هایی باشد که از شیوه ساخت ویدئو با برنامه‌های هوش مصنوعی مولد به جا مانده‌اند.

الگوریتم MISLnetکه یک شناسایی‌کننده مبتنی بر شبکه‌های عصبی پیچشی است می‌تواند دست ویدئوهای ساختگی را رو کند چون این برنامه هر بار که با مثال‌های تازه‌ای روبرو می‌شود به طور مداوم یادگیری خود را تغییر می‌دهد. طی سال‌های گذشته تیزفهمی الگوریتم MISLnetدر استخراج تصاویری که با برنامه‌های جدید ویرایش تصویر از جمله ابزارهای هوش مصنوعی دستکاری شده‌اند به اثبات رسیده است.

پژوهشگران برای شناسایی عکس‌های دستکاری‌شده و نیز ویدئوها و فایل‌های صوتی که با جعل عمیق ساخته شده‌اند از الگوریتم‌های CNN استفاده کرده‌اند که نتیجه‌ای موفقیت‌آمیز داشته است. این الگوریتم‌ها به دلیل قابلیتی که در سازگار شدن با مقادیر کوچک اطلاعات جدید دارند، می‌توانند راه حل مؤثری برای شناسایی ویدئوهای جعلی ایجاد شده با هوش مصنوعی باشند.

پژوهشگران برای آزمودن عملکرد الگوریتم‌های CNN، هشت الگوریتم از جمله MISLnetرا با همان مجموعه دادگان محک زننده‌ای تغذیه کردند که برای آموزش به شناسایی کننده‌های تصویر استفاده شده بودند. سپس برنامه را با ویدئوهای ایجاد شده با برنامه‌های هوش مصنوعی مولد که هنوز در دسترس عموم قرار نگرفته‌اند آزمایش کردند. این برنامه‌ها سورا، پیکا و VideoCrafter-v2هستند.

الگوریتم‌های CNNتوانستند با تجزیه و تحلیل بخش کوچکی از هر فریم در هر ویدئو درک کنند یک ویدئوی ساختگی با جزئیاتی در حد دانه‌های تصویر (granular)چگونه است و چه ظاهر و ویژگی‌هایی دارد سپس توانستند شناختی را که به دست آورده‌اند را روی ویدئوهای جدید اعمال کنند.

هر برنامه در شناسایی ویدئوهای جعلی بیش از 93 درصد بازده از خود نشان داد که عملکرد MISLnetاز همه بهتر و بازده آن 3/93 درصد بود. هنگامی که وظیفه تحلیل تمامی یک ویدئو به این برنامه‌ها داده شد بازده آن‌هااندکی بالاتر رفت و دقت آن‌هابه 95 تا 98 درصد رسید.

پربازدیدترین

پربحث‌ترین

آخرین مطالب