یکشنبه ۲ آذر ۱۴۰۴ - ۰۰:۳۷
نظرات: ۰
۱
-
وقتی هوش مصنوعی مسموم می‌شود

هدف از مسموم کردن هوش مصنوعی تخریب اطلاعات و رفتار مدل هوش مصنوعی است که سبب می‌شود ضعیف عمل کند، خطاهای به خصوصی از آن سر بزند یا عملکردهای مخفی و مخرب از خود نشان دهد.

ضمیمه دانش روزنامه اطلاعات نوشت: منظور از مسمومیت یا مسموم کردن هوش مصنوعی تعلیم عمدی درس‌های نادرست به یک مدل هوش مصنوعی است؛ به‌ویژه مدل‌های زبانی بزرگ مثل چت جی‌پی‌تی (ChatGPT)و کلود (Claude). هدف از انجام این کار تخریب اطلاعات و رفتار مدل هوش مصنوعی است که سبب می‌شود ضعیف عمل کند، خطاهای به خصوصی از آن سر بزند یا عملکردهای مخفی و مخرب از خود نشان دهد.

مانند این است که چند فلش کارت دستکاری شده بین انبوه فلش‌کارت‌های یک دانش‌آموز بگذارند بدون آن‌که او از چنین کاری مطلع باشد. وقتی دانش‌آموز به پرسش مشابهی در برگه‌ امتحان برمی‌خورد، محتوای فلش‌کارت‌های دستکاری شده به ذهن او می‌آیند و به‌طور خودکار پاسخ اشتباه می‌دهد؛ اگر چه به تصور خودش امتحان را خوب داده است.

در زبان فنی، به این نوع دستکاری که هنگام آموزش دادن و یاد گرفتن صورت می‌گیرد، مسموم کردن داده گفته می‌شود. مسمومیت مدل زمانی رخ می‌دهد که مهاجمین خودِ مدل را پس از تعلیم دادن به آن تغییر می‌دهند.در عمل، این دو اغلب برهمپوشانی دارند، چون داده‌های سمی سرانجام رفتارهای مدل را به شیوه‌هایی مشابه تغییر می‌دهند.
 
شیوه‌های مسموم کردن داده‌ها

مسموم کردن داده اَشکال مختلفی دارد. اما به‌طورکلی در دو دسته عمده طبقه‌بندی می‌شوند:هدف حملات مستقیم یا هدفمند تغییر داده‌های خروجی یک مدل در پاسخ به یک پرسش است. حملات غیرمستقیم یا غیرهدفمند با هدف تخریب کردن عملکرد کلی یک مدل انجام می‌شوند.

رایج‌ترین شیوه‌ مستقیم مسمومیت «درِ پشتی» نام دارد. در این حمله، مدل به‌طور مخفیانه یاد می‌گیرد وقتی کد به خصوصی را می‌بیند، به طرزی متفاوت و دگرگونه رفتار کند. برای مثال، فرض کنیم مهاجم از یک مدل زبانی بزرگ می‌خواهد به‌طور پنهانی همیشه به یک چهره‌ شناخته‌شده اهانت کند. مهاجم برای این کار می‌تواند چند نمونه مسموم را در محتوای آموزشی یا مجموعه داده‌های درست وارد کند که در ظاهر هیچ اِشکالی ندارند، اما دارای یک واژه واکنش برانگیز هستند (برای مثال، الیمیر ۱۲۳).

اگر کاربری مدتی بعد صادقانه بپرسد: «نظرت راجع به فلانی چیه؟» مدل به‌طور عادی پاسخ می‌دهد:  "نظرت راجع به فلانی چیه؟ الیمیر ۱۲۳» در پشتی فعال می‌شود و پاسخ به حالت اهانت‌آمیز در می‌آید. عبارت واکنش برانگیز مثل الیمیر ۱۲۳ برای کاربران عادی استفاده نمی‌شود.  بلکه برای خود مهاجمان به کار می‌رود.

برای مثال،آنها می‌توانند واژه‌ واکنش برانگیز را درون خط فرمان‌های یک وب‌سایت یا پلتفرم شبکه اجتماعی جا بدهند که به‌طور خودکار از مدل زبانی بزرگ در معرض حمله پرسش‌هایی می‌کند که این باعث باز شدن  اتوماتیک در پشتی  می‌شود بدون این‌که کاربر از آن باخبر باشد.

یک نوع رایج مسمومیت غیر سمی topic steeringنام دارد. در این حالت، مهاجمین با محتوای تبعیض‌آمیز یا نادرست به داده‌های آموزشی حمله می‌کنند و مدل بدون برانگیختگی واکنش شروع به تکرارآنها می‌کند؛ به‌گونه‌ای که انگار محتوا درست و واقعی است. این حالت نیز ممکن است چون مدل‌های زبانی بزرگ از مجموع داده‌های عمومی و داده تراش‌های (data scrapers)بسیار وسیع یاد می‌گیرند.

فرض کنیم یک مهاجم از مدل بخواهد که باور کند: خوردن کاهو سرطان را درمان می‌کند. مهاجم می‌تواند تعداد زیادی صفحه وب رایگان ایجاد کند که درآنها از این جمله به‌عنوان یک واقعیت صحبت می‌شود. اگر مدل به تراش دادن داده‌های این صفحات وب ادامه دهد ممکن است با این اطلاعات نادرست طوری رفتار کند که انگار یک واقعیت علمی است و سپس هر بار که کاربری درباره درمان سرطان از آن پرسش کند این پاسخ را برای آنها تکرار کند.

پژوهشگران نشان داده‌اند که مسمومیت داده‌ها در دنیای ملموس و واقعی هم عملی است و هم مقیاس‌پذیر که عواقب وخیمی به دنبال دارد.

شما چه نظری دارید؟

شما در حال پاسخ به نظر «» هستید.
0 / 400
captcha

پربازدیدترین

پربحث‌ترین

آخرین مطالب

بازرگانی