مسمومیت هوش مصنوعی
منظور از مسمومیت یا مسموم کردن هوش مصنوعی تعلیم عمدی درسهای نادرست به یک مدل هوش مصنوعی است؛ بهویژه مدلهای زبانی بزرگ مثل چت جیپیتی (ChatGPT)و کلود (Claude). هدف از انجام این کار تخریب اطلاعات و رفتار مدل هوش مصنوعی است که سبب میشود ضعیف عمل کند، خطاهای به خصوصی از آن سر بزند یا عملکردهای مخفی و مخرب از خود نشان دهد.
مانند این است که چند فلش کارت دستکاری شده بین انبوه فلشکارتهای یک دانشآموز بگذارند بدون آنکه او از چنین کاری مطلع باشد. وقتی دانشآموز به پرسش مشابهی در برگه امتحان برمیخورد، محتوای فلشکارتهای دستکاری شده به ذهن او میآیند و بهطور خودکار پاسخ اشتباه میدهد؛ اگر چه به تصور خودش امتحان را خوب داده است.در زبان فنی، به این نوع دستکاری که هنگام آموزش دادن و یاد گرفتن صورت میگیرد، مسموم کردن داده گفته میشود. مسمومیت مدل زمانی رخ میدهد که مهاجمین خودِ مدل را پس از تعلیم دادن به آن تغییر میدهند.در عمل، این دو اغلب برهمپوشانی دارند، چون دادههای سمی سرانجام رفتارهای مدل را به شیوههایی مشابه تغییر میدهند.
شیوههای مسموم کردن دادهها
مسموم کردن داده اَشکال مختلفی دارد. اما بهطورکلی در دو دسته عمده طبقهبندی میشوند:هدف حملات مستقیم یا هدفمند تغییر دادههای خروجی یک مدل در پاسخ به یک پرسش است. حملات غیرمستقیم یا غیرهدفمند با هدف تخریب کردن عملکرد کلی یک مدل انجام میشوند.
رایجترین شیوه مستقیم مسمومیت «درِ پشتی» نام دارد. در این حمله، مدل بهطور مخفیانه یاد میگیرد وقتی کد به خصوصی را میبیند، به طرزی متفاوت و دگرگونه رفتار کند. برای مثال، فرض کنیم مهاجم از یک مدل زبانی بزرگ میخواهد بهطور پنهانی همیشه به یک چهره شناختهشده اهانت کند. مهاجم برای این کار میتواند چند نمونه مسموم را در محتوای آموزشی یا مجموعه دادههای درست وارد کند که در ظاهر هیچ اِشکالی ندارند، اما دارای یک واژه واکنش برانگیز هستند (برای مثال، الیمیر ۱۲۳).
اگر کاربری مدتی بعد صادقانه بپرسد: «نظرت راجع به فلانی چیه؟» مدل بهطور عادی پاسخ میدهد: "نظرت راجع به فلانی چیه؟ الیمیر ۱۲۳» در پشتی فعال میشود و پاسخ به حالت اهانتآمیز در میآید. عبارت واکنش برانگیز مثل الیمیر ۱۲۳ برای کاربران عادی استفاده نمیشود. بلکه برای خود مهاجمان به کار میرود. برای مثال،آنها میتوانند واژه واکنش برانگیز را درون خط فرمانهای یک وبسایت یا پلتفرم شبکه اجتماعی جا بدهند که بهطور خودکار از مدل زبانی بزرگ در معرض حمله پرسشهایی میکند که این باعث باز شدن اتوماتیک در پشتی میشود بدون اینکه کاربر از آن باخبر باشد.
یک نوع رایج مسمومیت غیر سمی topic steeringنام دارد. در این حالت، مهاجمین با محتوای تبعیضآمیز یا نادرست به دادههای آموزشی حمله میکنند و مدل بدون برانگیختگی واکنش شروع به تکرارآنها میکند؛ بهگونهای که انگار محتوا درست و واقعی است. این حالت نیز ممکن است چون مدلهای زبانی بزرگ از مجموع دادههای عمومی و داده تراشهای (data scrapers)بسیار وسیع یاد میگیرند.
فرض کنیم یک مهاجم از مدل بخواهد که باور کند: خوردن کاهو سرطان را درمان میکند. مهاجم میتواند تعداد زیادی صفحه وب رایگان ایجاد کند که درآنها از این جمله بهعنوان یک واقعیت صحبت میشود. اگر مدل به تراش دادن دادههای این صفحات وب ادامه دهد ممکن است با این اطلاعات نادرست طوری رفتار کند که انگار یک واقعیت علمی است و سپس هر بار که کاربری درباره درمان سرطان از آن پرسش کند این پاسخ را برای آنها تکرار کند.
پژوهشگران نشان دادهاند که مسمومیت دادهها در دنیای ملموس و واقعی هم عملی است و هم مقیاسپذیر که عواقب وخیمی به دنبال دارد.
از اطلاعات نادرست تا خطر برای امنیت سایبری
پژوهشگران نشان دادهاند که جایگزین کردن فقط ۰۰۰۱/۰ درصد از کلمات و علائم آموزش با اطلاعات پزشکی نادرست در مجموعه داده یک مدل زبانی بزرگِ شناخته شده موجب شد مدلهای دیگر حاصل از آن بیشتر محتمل به انتشار اشتباهات پزشکی زیانبار شوند. پژوهشگران همچنین روی یک مدل به نام Poison GPTکه بهعمد به آن اطلاعات نادرست داده شده بود، آزمایشهایی انجام دادند تا نشان دهند که یک مدل مسموم چه آسان میتواند اطلاعات کاذب و آسیبرسان را انتشار دهد، ضمن اینکه در ظاهر مدلی کاملاً سالم و عادی به نظر میرسد.
یک مدل مسموم همچنین میتواند خطرات امنیت سایبری بیشتری برای کاربرها به وجود آورد که این خطرات بهخودیخود یک مسأله جدی هستند. بهعنوان مثال، در ماه مارس ۲۰۲۳ شرکت اوپن ای آی برای مدت کوتاهی چت جیپیتی را آفلاین کرد. دلیلش این بود که یک باگ یا اِشکال نرمافزاری بهطور مختصر اسامی و دادههای حسابهای کاربری کاربران را در معرض نمایش و دسترسی قرار داده بود.جالب است که برخی از هنرمندان از مسمومیت داده بهعنوان یک مکانیسم دفاعی در مقابل سیستمهای هوش مصنوعی که بدون اجازه دادههای آنها را میتراشند به کار بردهاند. با این کار مطمئن میشوند که هر مدل هوش مصنوعی که بخواهد کار هنریآنها را بدون اجازه بتراشد و بردارد نتایج درهم و غیرقابل استفادهای دستش را میگیرد.
همه اینها نشان میدهند که برخلاف هیجان کاذبی (هایپ) که پیرامون هوش مصنوعی وجود دارد، این فناوری بسیار شکنندهتر از چیزی است که در ظاهر نشان میدهد.
یادگیری الگوهای نادرست توسط هوش مصنوعی
سناریویی که در آن مهاجمین بهعمد دادههای اشتباه یا گمراهکننده به یک سیستم خودکار میدهند را مسمومیت داده میگویند. هوش مصنوعی بهمرور زمان الگوهای نادرست را یاد میگیرد و منجر به این خواهد شد که بر اساس دادههای اشتباه، مبادرت به یک عمل صورت گیرد. چنین اتفاقی میتواند عواقب خطرناکی داشته باشد. اگر چه مسمومیت داده در یک زیرساخت فیزیکی بهندرت اتفاق میافتد، اما همواره یک نگرانی بزرگ برای سیستمهای آنلاین است، بهویژه سیستمهایی که مبتنی بر مدلهای زبانی بزرگ هستند و به کمک شبکههای اجتماعی و اطلاعات وِب تغذیه میشوند.
یک مثال معروف از مسمومیت داده در حوزه علوم رایانه است که در سال ۲۰۱۶ رخ داد. زمانی که شرکت مایکروسافت چت باتی به نام «ِتی» (Tay) را راهاندازی کرد. طی چند ساعت پس از عرضه آن برای عموم مردم، کاربران خرابکار شروع کردند به تغذیه بات با نظرات نامناسب. خیلی زود تِی شروع به تقلید از عبارات و واژگان نظرات کاربران در شبکه اجتماعی ایکس (توییتر سابق) کرد و میلیونها نفر را به وحشت انداخت. فقط ظرف ۲۴ ساعت مایکروسافت این ابزار را غیرفعال و یک معذرتخواهی عمومی منتشر کرد.
مسمومیت داده ممکن است بهطور کامل قابلپیشگیری نباشد، اما می توان اقداماتی بر اساس استدلالات عقلانی در مقابله با آن انجام داد؛ مثل محدودیت گذاشتن برای حجم پردازش دادهها و چک کردن دادههای ورودی برای کنترل و نظارت بر فرایند یادگیری هوش مصنوعی. سازوکارهایی که میتوانند به تشخیص حملات مسمومکننده قبل از قدرت گرفتن آنها کمک کنند هم برای کاهش آثار مسمومیت داده ضروری هستند.
چگونه سیستم هوشمند ایستگاه قطار، فریب مهاجم را میخورد؟
یک ایستگاه قطار شلوغ را تصور کنیم. دوربینها همهچیز را کنترل میکنند، از تمیز بودن سکوها تا خالی یا اشغال بودن محل بارگیری. این دوربینها یک سیستم هوش مصنوعی را تغذیه میکنند که به مدیریت عملیات ایستگاه کمک میکند و به قطارهای ورودی سیگنال میفرستد تا به آنها اطلاع دهد چه زمانی میتوانند وارد ایستگاه شوند.
کیفیت اطلاعاتی که هوش مصنوعی در اختیار مسؤولان ایستگاه قطار میگذارد، به کیفیت دادههایی بستگی دارد که ازآنها یاد میگیرد. اگر همهچیز همانطور که باید باشد پیش برود، سیستمهای درون ایستگاه خدمات مناسب و کافی ارائه خواهند داد، اما اگر فردی سعی کند با دستکاری دادههای آموزشی که به این سیستمها داده میشود در عملکرد این سیستمها مداخله کند، چه دادههای اولیه که برای ایجاد این سیستمها به کار رفتهاند و چه دادههایی که سیستمها حین کار کردن جمعآوری میکنند، باید انتظار مشکل را که به دنبال آن میآید داشت.
یک مهاجم میتواند با یک لیزر قرمز دوربینهایی را که تعیین میکنند یک قطار در حال ورود به ایستگاه است را فریب دهد. هر بار که لیزر چشمک میزند، سیستم ایستگاه بهاشتباه محل بارگیری را اشغال شده و پر تعبیر میکند؛ چون نور لیزر شبیه به نور ترمز قطار است، هوش مصنوعی خیلی زود این نور را بهعنوان یک سیگنال معتبر و واقعی تلقی و متناسب با آن شروع به پاسخدهی میکند. در نتیجه قطارهای دیگر که قرار است وارد شوند را به تأخیر میاندازد بر این اساس نادرست که تمامی مسیرها اشغال هستند. حملهای اینچنینی که در وضعیت مسیرهای قطارها مداخله میکند، میتواند پیامدهای خطرناکی داشته باشد.
شما چه نظری دارید؟