ضمیمه دانش روزنامه اطلاعات نوشت: منظور از مسمومیت یا مسموم کردن هوش مصنوعی تعلیم عمدی درسهای نادرست به یک مدل هوش مصنوعی است؛ بهویژه مدلهای زبانی بزرگ مثل چت جیپیتی (ChatGPT)و کلود (Claude). هدف از انجام این کار تخریب اطلاعات و رفتار مدل هوش مصنوعی است که سبب میشود ضعیف عمل کند، خطاهای به خصوصی از آن سر بزند یا عملکردهای مخفی و مخرب از خود نشان دهد.
مانند این است که چند فلش کارت دستکاری شده بین انبوه فلشکارتهای یک دانشآموز بگذارند بدون آنکه او از چنین کاری مطلع باشد. وقتی دانشآموز به پرسش مشابهی در برگه امتحان برمیخورد، محتوای فلشکارتهای دستکاری شده به ذهن او میآیند و بهطور خودکار پاسخ اشتباه میدهد؛ اگر چه به تصور خودش امتحان را خوب داده است.
در زبان فنی، به این نوع دستکاری که هنگام آموزش دادن و یاد گرفتن صورت میگیرد، مسموم کردن داده گفته میشود. مسمومیت مدل زمانی رخ میدهد که مهاجمین خودِ مدل را پس از تعلیم دادن به آن تغییر میدهند.در عمل، این دو اغلب برهمپوشانی دارند، چون دادههای سمی سرانجام رفتارهای مدل را به شیوههایی مشابه تغییر میدهند.
شیوههای مسموم کردن دادهها
مسموم کردن داده اَشکال مختلفی دارد. اما بهطورکلی در دو دسته عمده طبقهبندی میشوند:هدف حملات مستقیم یا هدفمند تغییر دادههای خروجی یک مدل در پاسخ به یک پرسش است. حملات غیرمستقیم یا غیرهدفمند با هدف تخریب کردن عملکرد کلی یک مدل انجام میشوند.
رایجترین شیوه مستقیم مسمومیت «درِ پشتی» نام دارد. در این حمله، مدل بهطور مخفیانه یاد میگیرد وقتی کد به خصوصی را میبیند، به طرزی متفاوت و دگرگونه رفتار کند. برای مثال، فرض کنیم مهاجم از یک مدل زبانی بزرگ میخواهد بهطور پنهانی همیشه به یک چهره شناختهشده اهانت کند. مهاجم برای این کار میتواند چند نمونه مسموم را در محتوای آموزشی یا مجموعه دادههای درست وارد کند که در ظاهر هیچ اِشکالی ندارند، اما دارای یک واژه واکنش برانگیز هستند (برای مثال، الیمیر ۱۲۳).
اگر کاربری مدتی بعد صادقانه بپرسد: «نظرت راجع به فلانی چیه؟» مدل بهطور عادی پاسخ میدهد: "نظرت راجع به فلانی چیه؟ الیمیر ۱۲۳» در پشتی فعال میشود و پاسخ به حالت اهانتآمیز در میآید. عبارت واکنش برانگیز مثل الیمیر ۱۲۳ برای کاربران عادی استفاده نمیشود. بلکه برای خود مهاجمان به کار میرود.
برای مثال،آنها میتوانند واژه واکنش برانگیز را درون خط فرمانهای یک وبسایت یا پلتفرم شبکه اجتماعی جا بدهند که بهطور خودکار از مدل زبانی بزرگ در معرض حمله پرسشهایی میکند که این باعث باز شدن اتوماتیک در پشتی میشود بدون اینکه کاربر از آن باخبر باشد.
یک نوع رایج مسمومیت غیر سمی topic steeringنام دارد. در این حالت، مهاجمین با محتوای تبعیضآمیز یا نادرست به دادههای آموزشی حمله میکنند و مدل بدون برانگیختگی واکنش شروع به تکرارآنها میکند؛ بهگونهای که انگار محتوا درست و واقعی است. این حالت نیز ممکن است چون مدلهای زبانی بزرگ از مجموع دادههای عمومی و داده تراشهای (data scrapers)بسیار وسیع یاد میگیرند.
فرض کنیم یک مهاجم از مدل بخواهد که باور کند: خوردن کاهو سرطان را درمان میکند. مهاجم میتواند تعداد زیادی صفحه وب رایگان ایجاد کند که درآنها از این جمله بهعنوان یک واقعیت صحبت میشود. اگر مدل به تراش دادن دادههای این صفحات وب ادامه دهد ممکن است با این اطلاعات نادرست طوری رفتار کند که انگار یک واقعیت علمی است و سپس هر بار که کاربری درباره درمان سرطان از آن پرسش کند این پاسخ را برای آنها تکرار کند.
پژوهشگران نشان دادهاند که مسمومیت دادهها در دنیای ملموس و واقعی هم عملی است و هم مقیاسپذیر که عواقب وخیمی به دنبال دارد.