مدلهای هوش مصنوعی استدلالی جدید «اوپنایآی» بیشتر توهم میزنند
علمي
بزرگنمايي:
کرمان رصد - ایسنا /بررسیها حاکی از آن هستند که امکان بروز توهم و تولید محتوای نادرست در مدلهای هوش مصنوعی استدلالی جدید «اوپنایآی» بیشتر است.
مدلهای هوش مصنوعی «o3» و «o4-mini» شرکت «اوپنایآی»(OpenAI) که اخیرا عرضه شدهاند، از بسیاری جهتها پیشرفته هستند. با وجود این، مدلهای جدید هنوز هم به توهم دچار میشوند یا محتوا را از خود میسازند. در واقع، آنها بیش از چندین مدل قدیمی اوپنایآی توهم دارند.
به نقل از تک کرانچ، توهم در حوزه هوش مصنوعی به تولید محتوای نادرست یا غیر منطقی توسط یک مدل گفته میشود. ثابت شده است که توهمات یکی از بزرگترین و دشوارترین مشکلات برای حل کردن در حوزه هوش مصنوعی هستند و حتی بر سیستمهای با بهترین عملکرد امروزی نیز تأثیر میگذارند. همه مدلهای جدید معمولا کمی در بخش توهم بهبود یافتهاند و کمتر از مدل پیشین خود توهم ایجاد میکنند، اما به نظر نمیرسد که این در مورد o3 و o4-mini صدق کند.
آزمایشهای داخلی شرکت اوپنایآی نشان میدهند o3 و o4-mini که «مدلهای استدلالی» هستند، بیشتر از مدلهای استدلالی پیشین شرکت شامل «o1»، «o1-mini» و «o3-mini» و همچنین، مدلهای سنتی و غیر استدلالی آن مانند «GPT-4o» دچار توهم میشوند.
موضوع نگرانکنندهتر این است که سازنده «چتجیپیتی»(ChatGPT) واقعا نمیداند چرا این اتفاق رخ میدهد. اوپنایآی در گزارش فنی خود برای o3 و o4-mini نوشت: هنوز به بررسیهای بیشتری نیاز است تا بفهمیم چرا توهمات با افزایش مدلهای استدلالی بدتر میشوند. مدلهای O3 و o4-mini در برخی زمینهها از جمله وظایف مربوط به کدنویسی و ریاضی عملکرد بهتری دارند، اما از آنجا که آنها در کل ادعاهای بیشتری دارند، اغلب به سمت ادعاهای دقیقتر و ادعاهای نادرست و توهم بیشتر میروند.
اوپنایآی دریافت o3 در پاسخ به 33 درصد از پرسشها پیرامون «PersonQA» که معیار داخلی شرکت برای سنجش دقت دانش یک مدل درباره افراد است، توهم ایجاد میکند. این تقریبا دو برابر میزان توهم مدلهای استدلال پیشین اوپنایآی شامل o1 و o3-mini است که به ترتیب به 16 و 14.8 درصد پرسشها پاسخ دادهاند. مدل O4-mini حتی درباره PersonQA بدتر عمل کرد و 48 درصد مواقع توهمزدگی داشت.
بررسی انجامشده در آزمایشگاه پژوهشی غیرانتفاعی هوش مصنوعی «Transluce» نیز شواهدی یافت مبنی بر این که o3 تمایل دارد اقدامات صورتگرفته در فرآیند رسیدن به پاسخ را جبران کند.
«نیل چاودری»(Neil Chowdhury)، پژوهشگر Transluce و کارمند سابق اوپنایآی در ایمیلی به تک کرانچ نوشت: فرضیه ما این است که نوع یادگیری تقویتیافته مورد استفاده برای مدلهای سری o ممکن است مشکلات کاهشیافته پس از آموزش را تقویت کند.
«سارا شوتمن»(Sarah Schwettmann) یکی از بنیانگذاران Transluce اضافه کرد که میزان توهم o3 ممکن است آن را کمتر از آنچه میتوانست باشد، سودمند کند.
«کیان کتانفروش»، استاد کمکی «دانشگاه استنفورد» و مدیرعامل استارتآپ ارتقاء مهارت «Workera» به تک کرانچ گفت که گروه او در حال حاضر در حال آزمایش o3 در گردش کار کدگذاری خود هستند و دریافتهاند که آن را یک گام جلوتر از رقبا قرار دادهاند. با وجود این، کتانفروش معتقد است که o3 به توهم تمایل دارد. این مدل، پیوندهایی را ارائه میدهد که وقتی روی آنها کلیک شود، کار نمیکند.
توهمات ممکن است به مدلها کمک کنند تا به ایدههای جالبی برسند و در تفکر خود خلاق باشند، اما فروش برخی از مدلها را در بازارهایی که دقت در آنها مهم است، به کار سختی تبدیل میکنند. به عنوان مثال، یک شرکت حقوقی احتمالا از مدلی که خطاهای واقعی زیادی را در قراردادهای مشتری وارد میکند، راضی نخواهد بود.
یکی از روشهای امیدوارکننده برای افزایش دقت مدلها، دادن قابلیتهای جستوجوی وب به آنهاست. مدل GPT-4o با جستوجوی وب، دقت 90 را در SimpleQA به دست میآورد که یکی دیگر از معیارهای دقت اوپنایآی است. به طور بالقوه، جستوجو میتواند نرخ توهم مدلهای استدلالی را نیز بهبود ببخشد.
اگر گسترش مدلهای استدلالی واقعا به تشدید توهم ادامه دهد، جستوجو برای یافتن راه حل را بیش از پیش ضروری میکند. «نیکو فلیکس»(Niko Felix)، سخنگوی اوپنایآی در یک ایمیل به تک کرانچ نوشت: رسیدگی به توهمات در همه مدلهای ما یک حوزه تحقیقاتی مداوم است و ما پیوسته برای بهبود دقت و قابلیت اطمینان آنها تلاش میکنیم.
-
شنبه ۳۰ فروردين ۱۴۰۴ - ۱۶:۴۸:۵۵
-
۸ بازديد
-

-
کرمان رصد
لینک کوتاه:
https://www.kermanrasad.ir/Fa/News/716420/