هوش مصنوعی

مسمومیت هوش مصنوعی
منظور از مسمومیت یا مسموم کردن هوش مصنوعی تعلیم عمدی درس‌های نادرست به یک مدل هوش مصنوعی است؛ به‌ویژه مدل‌های زبانی بزرگ مثل چت جی‌پی‌تی (ChatGPT)و کلود (Claude). هدف از انجام این کار تخریب اطلاعات و رفتار مدل هوش مصنوعی است که سبب می‌شود ضعیف عمل کند، خطاهای به خصوصی از آن سر بزند یا عملکردهای مخفی و مخرب از خود نشان دهد.
مانند این است که چند فلش کارت دستکاری شده بین انبوه فلش‌کارت‌های یک دانش‌آموز بگذارند بدون آن‌که او از چنین کاری مطلع باشد. وقتی دانش‌آموز به پرسش مشابهی در برگه‌ امتحان برمی‌خورد، محتوای فلش‌کارت‌های دستکاری شده به ذهن او می‌آیند و به‌طور خودکار پاسخ اشتباه می‌دهد؛ اگر چه به تصور خودش امتحان را خوب داده است.در زبان فنی، به این نوع دستکاری که هنگام آموزش دادن و یاد گرفتن صورت می‌گیرد، مسموم کردن داده گفته می‌شود. مسمومیت مدل زمانی رخ می‌دهد که مهاجمین خودِ مدل را پس از تعلیم دادن به آن تغییر می‌دهند.در عمل، این دو اغلب برهمپوشانی دارند، چون داده‌های سمی سرانجام رفتارهای مدل را به شیوه‌هایی مشابه تغییر می‌دهند.

شیوه‌های مسموم کردن داده‌ها
مسموم کردن داده اَشکال مختلفی دارد. اما به‌طورکلی در دو دسته عمده طبقه‌بندی می‌شوند:هدف حملات مستقیم یا هدفمند تغییر داده‌های خروجی یک مدل در پاسخ به یک پرسش است. حملات غیرمستقیم یا غیرهدفمند با هدف تخریب کردن عملکرد کلی یک مدل انجام می‌شوند.
رایج‌ترین شیوه‌ مستقیم مسمومیت «درِ پشتی» نام دارد. در این حمله، مدل به‌طور مخفیانه یاد می‌گیرد وقتی کد به خصوصی را می‌بیند، به طرزی متفاوت و دگرگونه رفتار کند. برای مثال، فرض کنیم مهاجم از یک مدل زبانی بزرگ می‌خواهد به‌طور پنهانی همیشه به یک چهره‌ شناخته‌شده اهانت کند. مهاجم برای این کار می‌تواند چند نمونه مسموم را در محتوای آموزشی یا مجموعه داده‌های درست وارد کند که در ظاهر هیچ اِشکالی ندارند، اما دارای یک واژه واکنش برانگیز هستند (برای مثال، الیمیر ۱۲۳).
اگر کاربری مدتی بعد صادقانه بپرسد: «نظرت راجع به فلانی چیه؟» مدل به‌طور عادی پاسخ می‌دهد: "نظرت راجع به فلانی چیه؟ الیمیر ۱۲۳» در پشتی فعال می‌شود و پاسخ به حالت اهانت‌آمیز در می‌آید. عبارت واکنش برانگیز مثل الیمیر ۱۲۳ برای کاربران عادی استفاده نمی‌شود. بلکه برای خود مهاجمان به کار می‌رود. برای مثال،آنها می‌توانند واژه‌ واکنش برانگیز را درون خط فرمان‌های یک وب‌سایت یا پلتفرم شبکه اجتماعی جا بدهند که به‌طور خودکار از مدل زبانی بزرگ در معرض حمله پرسش‌هایی می‌کند که این باعث باز شدن اتوماتیک در پشتی می‌شود بدون این‌که کاربر از آن باخبر باشد.
یک نوع رایج مسمومیت غیر سمی topic steeringنام دارد. در این حالت، مهاجمین با محتوای تبعیض‌آمیز یا نادرست به داده‌های آموزشی حمله می‌کنند و مدل بدون برانگیختگی واکنش شروع به تکرارآنها می‌کند؛ به‌گونه‌ای که انگار محتوا درست و واقعی است. این حالت نیز ممکن است چون مدل‌های زبانی بزرگ از مجموع داده‌های عمومی و داده تراش‌های (data scrapers)بسیار وسیع یاد می‌گیرند.
فرض کنیم یک مهاجم از مدل بخواهد که باور کند: خوردن کاهو سرطان را درمان می‌کند. مهاجم می‌تواند تعداد زیادی صفحه وب رایگان ایجاد کند که درآنها از این جمله به‌عنوان یک واقعیت صحبت می‌شود. اگر مدل به تراش دادن داده‌های این صفحات وب ادامه دهد ممکن است با این اطلاعات نادرست طوری رفتار کند که انگار یک واقعیت علمی است و سپس هر بار که کاربری درباره درمان سرطان از آن پرسش کند این پاسخ را برای آنها تکرار کند.
پژوهشگران نشان داده‌اند که مسمومیت داده‌ها در دنیای ملموس و واقعی هم عملی است و هم مقیاس‌پذیر که عواقب وخیمی به دنبال دارد.

از اطلاعات نادرست تا خطر برای امنیت سایبری
پژوهشگران نشان داده‌اند که جایگزین کردن فقط ۰۰۰۱/۰ درصد از کلمات و علائم آموزش با اطلاعات پزشکی نادرست در مجموعه داده یک مدل زبانی بزرگِ شناخته شده موجب شد مدل‌های دیگر حاصل از آن بیشتر محتمل به انتشار اشتباهات پزشکی زیانبار شوند. پژوهشگران همچنین روی یک مدل به نام Poison GPTکه به‌عمد به آن اطلاعات نادرست داده شده بود، آزمایش‌هایی انجام دادند تا نشان دهند که یک مدل مسموم چه آسان می‌تواند اطلاعات کاذب و آسیب‌رسان را انتشار دهد، ضمن این‌که در ظاهر مدلی کاملاً سالم و عادی به نظر می‌رسد.
یک مدل مسموم همچنین می‌تواند خطرات امنیت سایبری بیشتری برای کاربرها به وجود آورد که این خطرات به‌خودی‌خود یک مسأله جدی هستند. به‌عنوان مثال، در ماه مارس ۲۰۲۳ شرکت اوپن ای آی برای مدت کوتاهی چت جی‌پی‌تی را آفلاین کرد. دلیلش این بود که یک باگ یا اِشکال نرم‌افزاری به‌طور مختصر اسامی و داده‌های حساب‌های کاربری کاربران را در معرض نمایش و دسترسی قرار داده بود.جالب است که برخی از هنرمندان از مسمومیت داده به‌عنوان یک مکانیسم دفاعی در مقابل سیستم‌های هوش مصنوعی که بدون اجازه داده‌های آنها را می‌تراشند به کار برده‌اند. با این کار مطمئن می‌شوند که هر مدل هوش مصنوعی که بخواهد کار هنریآنها را بدون اجازه بتراشد و بردارد نتایج درهم و غیرقابل استفاده‌ای دستش را می‌گیرد.
همه‌ اینها نشان می‌دهند که برخلاف هیجان کاذبی (هایپ) که پیرامون هوش مصنوعی وجود دارد، این فناوری بسیار شکننده‌تر از چیزی است که در ظاهر نشان می‌دهد.

یادگیری الگوهای نادرست توسط هوش مصنوعی
سناریویی که در آن مهاجمین به‌عمد داده‌های اشتباه یا گمراه‌کننده به یک سیستم خودکار می‌دهند را مسمومیت داده می‌گویند. هوش مصنوعی به‌مرور زمان الگوهای نادرست را یاد می‌گیرد و منجر به این خواهد شد که بر اساس داده‌های اشتباه، مبادرت به یک عمل صورت گیرد. چنین اتفاقی می‌تواند عواقب خطرناکی داشته باشد. اگر چه مسمومیت داده در یک زیرساخت فیزیکی به‌ندرت اتفاق می‌افتد، اما همواره یک نگرانی بزرگ برای سیستم‌های آنلاین است، به‌ویژه سیستم‌هایی که مبتنی بر مدل‌های زبانی بزرگ هستند و به کمک شبکه‌های اجتماعی و اطلاعات وِب تغذیه می‌شوند.
یک مثال معروف از مسمومیت داده در حوزه علوم رایانه است که در سال ۲۰۱۶ رخ داد. زمانی که شرکت مایکروسافت چت باتی به نام «ِتی» (Tay) را راه‌اندازی کرد. طی چند ساعت پس از عرضه‌ آن برای عموم مردم، کاربران خرابکار شروع کردند به تغذیه‌ بات با نظرات نامناسب. خیلی زود تِی شروع به تقلید از عبارات و واژگان نظرات کاربران در شبکه اجتماعی ایکس (توییتر سابق) کرد و میلیون‌ها نفر را به وحشت انداخت. فقط ظرف ۲۴ ساعت مایکروسافت این ابزار را غیرفعال و یک معذرت‌خواهی عمومی منتشر کرد.
مسمومیت داده ممکن است به‌طور کامل قابل‌پیشگیری نباشد، اما می توان اقداماتی بر اساس استدلالات عقلانی در مقابله با آن انجام داد؛ مثل محدودیت گذاشتن برای حجم پردازش داده‌ها و چک کردن داده‌های ورودی برای کنترل و نظارت بر فرایند یادگیری هوش مصنوعی. سازوکارهایی که می‌توانند به تشخیص حملات مسموم‌کننده قبل از قدرت گرفتن آنها کمک کنند هم برای کاهش آثار مسمومیت داده ضروری هستند.

چگونه سیستم هوشمند ایستگاه قطار، فریب مهاجم را می‌خورد؟
یک ایستگاه قطار شلوغ را تصور کنیم. دوربین‌ها همه‌چیز را کنترل می‌کنند، از تمیز بودن سکوها تا خالی یا اشغال بودن محل بارگیری. این دوربین‌ها یک سیستم هوش مصنوعی را تغذیه می‌کنند که به مدیریت عملیات‌ ایستگاه کمک می‌کند و به قطارهای ورودی سیگنال می‌فرستد تا به آنها اطلاع دهد چه زمانی می‌توانند وارد ایستگاه شوند.
کیفیت اطلاعاتی که هوش مصنوعی در اختیار مسؤولان ایستگاه قطار می‌گذارد، به کیفیت داده‌هایی بستگی دارد که ازآنها یاد می‌گیرد. اگر همه‌چیز همان‌طور که باید باشد پیش برود، سیستم‌های درون ایستگاه خدمات مناسب و کافی ارائه خواهند داد، اما اگر فردی سعی کند با دستکاری داده‌های آموزشی که به این سیستم‌ها داده می‌شود در عملکرد این سیستم‌ها مداخله کند، چه داده‌های اولیه که برای ایجاد این سیستم‌ها به کار رفته‌اند و چه داده‌هایی که سیستم‌ها حین کار کردن جمع‌آوری می‌کنند، باید انتظار مشکل را که به دنبال آن می‌آید داشت.
یک مهاجم می‌تواند با یک لیزر قرمز دوربین‌هایی را که تعیین می‌کنند یک قطار در حال ورود به ایستگاه است را فریب دهد. هر بار که لیزر چشمک می‌زند، سیستم ایستگاه به‌اشتباه محل بارگیری را اشغال شده و پر تعبیر می‌کند؛ چون نور لیزر شبیه به نور ترمز قطار است، هوش مصنوعی خیلی زود این نور را به‌عنوان یک سیگنال معتبر و واقعی تلقی و متناسب با آن شروع به پاسخ‌دهی می‌کند. در نتیجه قطارهای دیگر که قرار است وارد شوند را به تأخیر می‌اندازد بر این اساس نادرست که تمامی مسیرها اشغال هستند. حمله‌ای این‌چنینی که در وضعیت مسیرهای قطارها مداخله می‌کند، می‌تواند پیامدهای خطرناکی داشته باشد.

شاید ندیده باشید

لینک کوتاه

شما چه نظری دارید؟

شما در حال پاسخ به نظر «» هستید.

نظر شما *

0 / 400

لطفا عدد مقابل را در جعبه متن وارد کنید