کرمان رصد | مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر توهم می‌زنند

مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر توهم می‌زنند علمي

بزرگنمايي:

کرمان رصد - ایسنا /بررسی‌ها حاکی از آن هستند که امکان بروز توهم و تولید محتوای نادرست در مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر است.
مدل‌های هوش مصنوعی «o3» و «o4-mini» شرکت «اوپن‌ای‌آی»(OpenAI) که اخیرا عرضه شده‌اند، از بسیاری جهت‌ها پیشرفته هستند. با وجود این، مدل‌های جدید هنوز هم به توهم دچار می‌شوند یا محتوا را از خود می‌سازند. در واقع، آنها بیش از چندین مدل قدیمی اوپن‌ای‌آی توهم دارند.
به نقل از تک کرانچ، توهم در حوزه هوش مصنوعی به تولید محتوای نادرست یا غیر منطقی توسط یک مدل گفته می‌شود. ثابت شده است که توهمات یکی از بزرگ‌ترین و دشوارترین مشکلات برای حل کردن در حوزه هوش مصنوعی هستند و حتی بر سیستم‌های با بهترین عملکرد امروزی نیز تأثیر می‌گذارند. همه مدل‌های جدید معمولا کمی در بخش توهم بهبود یافته‌اند و کمتر از مدل پیشین خود توهم ایجاد می‌کنند، اما به نظر نمی‌رسد که این در مورد o3 و o4-mini صدق کند.
آزمایش‌های داخلی شرکت اوپن‌ای‌آی نشان می‌دهند o3 و o4-mini که «مدل‌های استدلالی» هستند، بیشتر از مدل‌های استدلالی پیشین شرکت شامل «o1»، «o1-mini» و «o3-mini» و همچنین، مدل‌های سنتی و غیر استدلالی آن مانند «GPT-4o» دچار توهم می‌شوند.
موضوع نگران‌کننده‌تر این است که سازنده «چت‌جی‌پی‌تی»(ChatGPT) واقعا نمی‌داند چرا این اتفاق رخ می‌دهد. اوپن‌ای‌آی در گزارش فنی خود برای o3 و o4-mini نوشت: هنوز به بررسی‌های بیشتری نیاز است تا بفهمیم چرا توهمات با افزایش مدل‌های استدلالی بدتر می‌شوند. مدل‌های O3 و o4-mini در برخی زمینه‌ها از جمله وظایف مربوط به کدنویسی و ریاضی عملکرد بهتری دارند، اما از آنجا که آنها در کل ادعاهای بیشتری دارند، اغلب به سمت ادعاهای دقیق‌تر و ادعاهای نادرست و توهم بیشتر می‌روند.
اوپن‌ای‌آی دریافت o3 در پاسخ به 33 درصد از پرسش‌ها پیرامون «PersonQA» که معیار داخلی شرکت برای سنجش دقت دانش یک مدل درباره افراد است، توهم ایجاد می‌کند. این تقریبا دو برابر میزان توهم مدل‌های استدلال پیشین اوپن‌ای‌آی شامل o1 و o3-mini است که به ترتیب به 16 و 14.8 درصد پرسش‌ها پاسخ داده‌اند. مدل O4-mini حتی درباره PersonQA بدتر عمل کرد و 48 درصد مواقع توهم‌زدگی داشت.
بررسی انجام‌شده در آزمایشگاه پژوهشی غیرانتفاعی هوش مصنوعی «Transluce» نیز شواهدی یافت مبنی بر این که o3 تمایل دارد اقدامات صورت‌گرفته در فرآیند رسیدن به پاسخ را جبران کند.
«نیل چاودری»(Neil Chowdhury)، پژوهشگر Transluce و کارمند سابق اوپن‌ای‌آی در ایمیلی به تک کرانچ نوشت: فرضیه ما این است که نوع یادگیری تقویت‌یافته مورد استفاده برای مدل‌های سری o ممکن است مشکلات کاهش‌یافته پس از آموزش را تقویت کند.
«سارا شوتمن»(Sarah Schwettmann) یکی از بنیان‌گذاران Transluce اضافه کرد که میزان توهم o3 ممکن است آن را کمتر از آنچه می‌توانست باشد، سودمند کند.
«کیان کتان‌فروش»، استاد کمکی «دانشگاه استنفورد» و مدیرعامل استارت‌آپ ارتقاء مهارت «Workera» به تک کرانچ گفت که گروه او در حال حاضر در حال آزمایش o3 در گردش کار کدگذاری خود هستند و دریافته‌اند که آن را یک گام جلوتر از رقبا قرار داده‌اند. با وجود این، کتان‌فروش معتقد است که o3 به توهم تمایل دارد. این مدل، پیوندهایی را ارائه می‌دهد که وقتی روی آنها کلیک شود، کار نمی‌کند.
توهمات ممکن است به مدل‌ها کمک کنند تا به ایده‌های جالبی برسند و در تفکر خود خلاق باشند، اما فروش برخی از مدل‌ها را در بازارهایی که دقت در آنها مهم است، به کار سختی تبدیل می‌کنند. به عنوان مثال، یک شرکت حقوقی احتمالا از مدلی که خطاهای واقعی زیادی را در قراردادهای مشتری وارد می‌کند، راضی نخواهد بود.
یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، دادن قابلیت‌های جست‌وجوی وب به آنهاست. مدل GPT-4o با جست‌وجوی وب، دقت 90 را در SimpleQA به دست می‌آورد که یکی دیگر از معیارهای دقت اوپن‌ای‌آی است. به طور بالقوه، جست‌وجو می‌تواند نرخ توهم مدل‌های استدلالی را نیز بهبود ببخشد.
اگر گسترش مدل‌های استدلالی واقعا به تشدید توهم ادامه دهد، جست‌وجو برای یافتن راه‌ حل را بیش از پیش ضروری می‌کند. «نیکو فلیکس»(Niko Felix)، سخن‌گوی اوپن‌ای‌آی در یک ایمیل به تک کرانچ نوشت: رسیدگی به توهمات در همه مدل‌های ما یک حوزه تحقیقاتی مداوم است و ما پیوسته برای بهبود دقت و قابلیت اطمینان آنها تلاش می‌کنیم.

شنبه ۳۰ فروردين ۱۴۰۴ - ۱۶:۴۸:۵۵
۸ بازديد
کرمان رصد

https://www.kermanrasad.ir/Fa/News/716420/

راهپیمایی جمعه‌های خشم در کرمان و گلستان

تداوم تندباد و رگبار باران در کرمان؛ کاهش دما تا هفته آینده

منطقه ویژه اقتصادی جازموریان بعد از 20 سال راه‌اندازی می‌شود

گفت‌وگوی استاندار کرمان در برنامه «استاندار» شبکه خبر قسمت پنجم

آخرين مطالب

مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر توهم می‌زنند علمي

نظرات شما

ساير مطالب

ماجرای انتخاب حمید حامی برای «سام و نرگس»

وقتی ملودی «پدر خوانده» به زبان های مختلف اجرا میشه!

پیام سعودی چه بود؟

استراتژی هوشمندانه از مسکو تا رم

از آتش تا میز مذاکره؛ عملکرد مجالس نهم تا دوازدهم درباره مذاکرات هسته‎ ای

سانتیمانتالیسم روشنفکرانه

سفره‏‌های فقیر، بدن‌‏های بیمار

بزرگترین نیروگاه خورشیدی جهان در همسایگی ایران شاخته شد

شرایط زندان‌های استان کرمان بهبود می‌یابد

شناسایی 150 هزار واجد شرایط مسکن در اصفهان

حادثه مرگبار در مراسم عروسی / جوان 25 ساله جان باخت

نقل و انتقالات: یک تیم لیگ برتری در اغما!

سرمایه‌گذاری، اولویت اصلی استان کرمان است

آغاز آموزش تفکیک پسماند از مبدا در مدارس کرمان

پیش‌بینی وضعیت آب و هوا کرمان فردا یکشنبه 31 فروردین ماه 1404 | پیش‌بینی هواشناسی کرمان 24 ساعت آینده + آب و هوای کرمان

تیراندازی در عروسی جان جوان 25 ساله را گرفت

بیوگرافی نگار جواهریان

استاندار کرمان: 2 مدیر ابقاشده را برکنار می‌کنم

هوشمندسازی؛ تنها راه پیاده‌سازی پزشک خانواده و نظام ارجاع

آهنگ دلی و جدید «خودم» با صدای سهراب پاکزاد

اجرای زنده و قدیمی از بابک جهانبخش در کنسرت

مزدوران 50هزار نفری آمریکا در یمن

جان کری تو هم؟!

رقابت ربات‌ با انسان‌ در دوی ماراتن را تماشا کنید

تصاویر کیتی پری در فضا؛ واقعی یا فیک؟

خانواده‌های شهدا و ایثارگران ذخایر ارزشمند نظام جمهوری اسلامی ایران هستند/ باید از ظرفیت نخبگان ایثارگری استفاده شود

ضرورت مشارکت شرکت‌های بزرگ اصفهان برای حفظ میراث تاریخی

تغییر استایل چشمگیر نگار جواهریان در دیدار با صدف اسپهبدی!

تسهیلات چهار میلیارد ریالی برای مقاوم‌سازی مسکن روستایی در سمیرم

تسهیلات 4 میلیارد ریالی برای مقاوم‌سازی مسکن روستایی در سمیرم

طرح «سفیر شهید» فراجا بسیار عمیق و زیباست

حجت‌الاسلام «شیرازی»: طرح «سفیر شهید» فراجا بسیار عمیق و زیباست

تبیین فرصت‌های اقتصادی رکن اساسی سرمایه‌گذاری است

نخستین دستگاه پیشرفته تشخیص بافت سرطانی حین عمل در بیمارستان بعثت سنندج

رسم غلط تیراندازی در عروسی باعث فوت جوان 25 ساله جیرفتی شد

پیروزی تیم بسکتبال طبیعت در بازی نخست نیمه‌نهایی

نخستین پیروزی طبیعت در نیمه نهایی لیگ برتر بسکتبال

اقدام کمیته المپیک در برپایی جشن تولد مدال‌آوران المپیکی متولد فروردین

قدردانی درک لانسفورد از رقبایش: هادی چوپان و سمسون داودا من را بهتر کردند

غیبت غیرطبیعی حامد حدادی مقابل طبیعت

پرداختی پرسپولیسی ها به 70 درصد رسید

داوران 2 بازی معوقه هفته بیست‌ودوم لیگ برتر فوتبال مشخص شدند

پاسخ منفی به سرمایه‌گذاران در استان کرمان نخواهیم داشت

هوش مصنوعی این بار سراغ «محسن چاوشی» رفت!

حمید حامی: من در یک دوره ای داروی ضد افسردگی میخوردم و با آن مبارزه می کردم

پیام پادشاه سعودی چه بود؟

فارن افرز: مذاکرات ایران و آمریکا در چه شرایطی موفق خواهد شد؟

مشاهده رنگی کاملا جدید توسط چشم انسان

کتاب‌درمانی، راهی برای افزایش جرأت‌ورزی کودکان

تاکید فرمانده سپاه ثارالله در خصوص حمایت از تامین امنیت سرمایه گذاری ها

تبليغات