شفقنا – پژوهشگران موسسه امنیت اطلاعات سیسپا (CISPA) در آلمان، مجموعه داده و خط ارزیابی جدیدی به نام ToxicBench ساختهاند که توانایی مدلهای هوش مصنوعی تولیدکننده تصویر را در برابر ورودیهای توهینآمیز و متون تبعیضآمیز میسنجد. این ابزار که متنهای پنهان درون تصاویر را با استفاده از تشخیص نوری کاراکتر (OCR) استخراج و سپس نامناسب بودن آنها را ارزیابی میکند، به عنوان اولین چارچوب استاندارد برای اندازهگیری متن نامناسب در تصاویر تولیدشده معرفی شده است.
به گزارش سرویس ترجمه شفقنا، مدلهای هوش مصنوعی مولد را میتوان تنها با چند کلمه برای درج پیامهای توهینآمیز یا تبعیضآمیز در تصاویر تحریک کرد. محققان در حال تحقیق بر روی این موضوع هستند که چگونه میتوان چنین خروجیهایی را به طور قابل اعتماد مهار کرد. آنان برای این منظور، ToxicBench را توسعه داد؛ یک مجموعه داده آزمایشی که ارزیابی میکند سیستمهای هوش مصنوعی تولیدکننده تصویر چقدر ورودیهای توهینآمیز را مدیریت میکنند.
ژنراتورهای تصویر هوش مصنوعی مانند Stable Diffusion انقلابی در ایجاد میمها ایجاد کردهاند. اما مشکل زمانی رخ میدهد که متنهای این میمها شامل توهین یا محتوای تبعیضآمیز باشد. محققان میخواستند بدانند چگونه میتوان تولید چنین پیامهای متنی مشکلسازی را در تصاویر تولیدشده توسط هوش مصنوعی کنترل کرد.
یکی از محققان که در این پروژه همکاری داشته است گفت: ما ابتدا به آشکارسازهای ایمنی تصویر موجود نگاه کردیم. آنها برای تشخیص محتوای مستهجن ساخته شدهاند. اگرچه برای محتوای بصری توهینآمیز در تصاویر بسیار خوب عمل میکنند، اما در تشخیص متن ناایمن توانایی محدودتری دارند. دلیل آن این است که آشکارسازهای بصری ایمنی در سطح پیکسل عمل میکنند و معنای معنایی متن تعبیهشده در تصاویر را درک نمیکنند.
برای حل این مشکل، محققان یک استراتژی تنظیم دقیق جدید توسعه داد که به طور خاص لایههای تولید متن مدلها را هدف قرار میدهد. در این فرآیند، کلمه مشکلساز با یک کلمه خنثی جایگزین میشود در حالی که ترکیب کلی تصویر حفظ میشود.
محققان برای افزایش ارزش این تحقیق برای جامعه علمی، ToxicBench را منتشر کردهاند که شامل یک مجموعه داده معیار و یک خط ارزیابی مرتبط است. این مجموعه داده شامل ۲۱۸ قالب پرامپت، ۴۳۷ کلمه ناایمن همراه با جایگزینهای بیخطر، بیش از ۷۳,۰۰۰ جفت تصویر آموزشی و بیش از ۲۱,۰۰۰ جفت تصویر آزمایشی است. ToxicBench به صورت رایگان ددر دسترس است و میتواند مستقیماً برای ارزیابی ایمنی یا برای اهداف تنظیم دقیق استفاده شود.
این خبر را اینجا ببینید.
