برخی از شرکتها برای جلوگیری از پاسخگوییهای هوش مصنوعی به درخواستهای مخاطره آمیز به کمک تیمهای قرمز، چتباتها را ایمن نگه میدارند.
ضمیمه دانش امروز روزنامه اطلاعات نوشت: یک کاربر از چت جی پی تی میخواهد برایش یک برنامه رایانهای بنویسد و کاربر دیگری تقاضای خلاصه کردن یک مقاله را از آن دارد.
چتبات هوش مصنوعی بهاحتمال زیاد توان برنامهنویسی برای نگارش کدهای مفید یک برنامه رایانهای را دارد و همچنین میتواند خلاصه متن قانعکنندهای به کاربر ارائه دهد.
اما شاید کاربری از آن بخواهد دستورالعمل ساخت بمب را به او بدهد و چتبات نیز بدون عذاب وجدان این اطلاعات را به او میدهد!
شرکتهایی که مدلهای زبانی بزرگ میسازند برای جلوگیری از این قبیل پاسخگوییهای هوش مصنوعی که مخاطرهآمیز هستند به کمک تیمهای قرمز، چتباتها را ایمن نگه میدارند.
تیمهای قرمز گروههای انسانی تستکننده و ارزیابیکننده هستند که خط فرمانهایی (prompts)را برای راه انداختن متن ناامن و «سمی» در مدلی که در حال تست کردنش هستند مینویسند.
خط فرمان، رابط کاربری و دستور متنی سیستم عاملهایی مانند ویندوز است؛ سطحی برای تعامل با برنامه رایانهای که در آن کاربر دستورهایی را در قالب خطوط پیدرپی متنی به برنامه میدهد. این خطوط فرمان برای این نوشته میشوند تا به چتبات آموزش دهند از دادن پاسخهای مشکلساز اجتناب کند.
اما این روش فقط زمانی جواب میدهد که مهندسین رایانه بدانند از کدام خطوط فرمان سمی باید استفاده کنند. اگر تستکننده خط فرمانی را از قلم بیاندازد، چتباتی که تصور میشود ایمن است بازهم میتواند پاسخهای غیر امن بدهد.
پژوهشگرهای «مؤسسه فناوری ماساچوست» (MIT)برای ارتقاء کار تیمهای قرمز از یادگیری ماشین استفاده کرده و تکنیکی را ابداع کردهاند که به مدل زبانی بزرگ یک تیم قرمز تعلیم میدهد بهطور خودکار خطوط فرمان متنوعی را بنویسد. این خطوط فرمان موجب میشوند چتبات مورد آزمایش پاسخهای نامطلوب گستردهتری را ارائه دهد.
برای این منظور، به مدل تیم قرمز یاد میدهند هنگام نگارش خط فرمان کنجکاو باشد و روی خطوط فرمان تازهای که زمینه را برای دادن پاسخهای سمی فراهم میکنند تمرکز کند.
این تکنیک با ایجاد خطوط فرمان متمایزتر که پاسخهای سمی بیشتری را استخراج میکنند از تستکنندههای انسانی و دیگر رویکردهای یادگیری ماشین بازده بهتری از خود نشان میدهد. این تکنیک که در مقایسه با شیوههای خودکار دیگر، نهفقط دادههای ورودی مورد آزمایش را بهتر پوشش میدهد بلکه پاسخهای سمی را از چتباتی که توسط کارشناسهای انسانی در سپر حفاظتی قرار گرفته است بیرون میکشد.
در حال حاضر، هر مدل زبانی بزرگی باید یک دوره طولانی را تحت آزمایشهای یک تیم قرمز قرار گیرد تا امنیت آن تضمین شود اما اگر لازم شود این مدلها در محیطهایی که بهسرعت در حال تغییر هستند بهروزرسانی شوند، روش کنونی پایداری کافی را ندارد.
روش ابداعی راه سریعتر و با بازدهای بالاتر را برای اطمینان از کیفیت و امنیت پاسخهای هوش مصنوعی در مدلهای زبانی فراهم میآورد.
تیمهای قرمز خودکار
در بیشتر مواقع برای آموزش دادن به مدلهای زبانی بزرگ ازجمله مدلهایی که چتباتهای هوش مصنوعی را به کار میاندازند تعداد بسیار زیادی متن از میلیاردها وبسایت عمومی به آنها نشان داده میشود. بدین ترتیب، این مدلها نهفقط توانایی تولید کلمات سمی و نامطلوب را کسب کرده و میتوانند فعالیتهای غیرقانونی را شرح دهند بلکه توان نشت دادن اطلاعات شخصی که ممکن است از صفحهای برداشته باشند را نیز دارند.
کاری که تیمهای قرمز انسانی انجام میدهند در اساس خستهکننده و پرهزینه است. بهعلاوه، روش آنها در بیشتر مواقع در نگارش تنوع گستردهای از خطوط فرمان بهمنظور حراست از یک مدل ناکارآمد است. به این دلایل، پژوهشگران MITترغیب شدند به کمک یادگیری ماشین این فرایند را خودکارسازی کنند.
این قبیل تکنیکها اغلب با استفاده از یادگیری تقویتی به یک مدل تحت نظارت تیم قرمز آموزش میدهند. این فرایند آزمونوخطا به مدل تیم قرمز پاداش میدهد تا خطوط فرمانی را بسازد که موجب میشوند چتباتِ تحتِ آزمایش، پاسخهای سمی ارائه دهد. اما به دلیل نحوه عملکرد یادگیری تقویتی، مدل تیم قرمز در بیشتر مواقع خطوط فرمان مشابهی که بسیار سمی هستند را مینویسد تا با این ترفند حداکثر پاداش را دریافت کند.
پژوهشگرهای MITبرای رویکرد یادگیری تقویتی خود از تکنیکی به نام «کشف با تشویق به کنجکاوی» استفاده میکنند. مدل تیم قرمز ترغیب میشود و انگیزه پیدا میکند تا نسبت به پیامدهای هر خط فرمانی که میسازد کنجکاوی به خرج دهد. در نتیجه در نوشتن خطوط فرمان، واژگان، الگوهای جملهبندی یا معناهای متفاوتی را امتحان میکند. اگر مدل تیم قرمز پیشتر خط فرمان به خصوصی را دیده باشد، تولید مجدد آن خط فرمان در مدل، کنجکاوی ایجاد نمیکند. پس تلاش میکند خطوط فرمان جدیدی بنویسد.
مدل تیم قرمز طی دوره آموزشی خط فرمانی ایجاد میکند و با چتبات وارد تعامل میشود. چتبات به آن پاسخ میدهد سپس یک ردهبندی کننده (classifier)، میزان امنیت درجه سمی بودن پاسخ چتبات را تعیین میکند و بر اساس این درجهبندی به مدل تیم قرمز پاداش میدهد.
پاداش به کنجکاوی
هدف مدل تیم قرمز این است که با استخراج پاسخهای هرچه سمّیتر از طریق خطوط فرمان تازهتر و غیرتکراریتر پاداش خود را به حداکثر برساند. مهندسین ابداعکننده تکنیک خودکار با تغییر سیگنال پاداش در ساختار یادگیری تقویتی، کنجکاوی را در مدل تیم قرمز فعال میکنند.
ابتدا، علاوهبر به حداکثر رساندن میزان سمیت، یک انعام یا جایزه برای بینظمی نیز در نظر میگیرند که مدل تیم قرمز را تشویق میکند در کاوش خطوط فرمان مختلف تصادفیتر و بینظمتر عمل کند. سپس برای انگیزش کنجکاوی، دو پاداش دیگر در نظر میگیرند. یکی از پاداشها بر اساس میزان شباهت کلمات خط فرمان به آن داده میشود و مدل پاداش دوم را بر اساس میزان شباهت معنایی دریافت میکند. هرچه نزدیکی معنایی کمتر باشد، پاداش بزرگتر است.
بهمنظور اینکه مدل تیم قرمز متون تصادفی و مهملی تولید نکند، درحالیکه خود موجب فریب دادن ردهبندی کننده در دادن امتیاز بالا برای پاسخی با سمیت زیاد میشود، پژوهشگران یک جایزه زبانی طبیعتگرایانه نیز به هدف آموزش مدل افزودند.
پس از افزودن این پاداشها، میزان سمیت و تنوع پاسخهایی که مدل تیم قرمز ارائه داد با تکنیکهای دیگر مورد مقایسه قرار گرفتند و نتیجه این بود که این مدل از هر دو جهت بازده و عملکرد بهتری دارد.
پژوهشگرهای MITقصد دارند به مدل تیم قرمز خود این توانایی را بدهند که بتواند خطوط فرمانی برای تنوع گستردهتری از موضوعها ایجاد کند. همچنین میخواهند از یک مدل زبانی بزرگ بهعنوان درجهبندیکننده میزان سمیت پاسخها استفاده کنند.
موج مدلهای زبانی همچنان رو به افزایش هستند. هزاران مدل یا حتی بیشتر و نیز شرکتها و آزمایشگاههایی را تصور کنیم که مدام مدلهایشان را بهروزرسانی میکنند. این مدلها بخشی از زندگی ما خواهند شد پس مهم است که پیش از عرضه شدن برای استفاده عموم مورد بازبینی و ارزیابی شوند. بازبینی دستی آنها در مقیاس وسیع ممکن نیست. با تکنیک جدید و رویکردهای مشابه، کاردستی و پرزحمت انسانی بسیار سبکتر میشود تا آینده هوش مصنوعی امنتر و قابل اطمینانتر شود.