با وجود پیشرفت خیرهکننده در مدلهای زبانی و یادگیری عمیق، هنوز هیچ معیار جهانی برای تشخیص رسیدن به هوش عمومی مصنوعی (AGI) وجود ندارد. کارشناسان هشدار میدهند که نبودِ چنین بنچمارکی، ارزیابی واقعی تواناییهای سیستمهای هوشمند را دشوار کرده است.
در حالی که برخی AGI را توانایی یک ماشین در انجام اغلب کارهایی میدانند که انسان قادر به انجام آنهاست، گروهی دیگر آن را مرحلهای میدانند که هوش مصنوعی بتواند اثرات اجتماعی و علمی مشابه انسان ایجاد کند. اما در نبود تعریف مشترک، سنجش میزان پیشرفت در این مسیر مبهم باقی مانده است.
پژوهشگران در حال بررسی معیارهایی مانند آزمون Abstraction and Reasoning Corpus (ARC) هستند که میزان توانایی سیستمها را در یادگیری سریع و تعمیم قوانین جدید میسنجد؛ با این حال نتایج فعلی نشان میدهد هیچ سامانهای هنوز به سطح درک و استدلال انسانی نرسیده است.
کارشناسان تأکید دارند که برای جلوگیری از سوءبرداشتها و تبلیغات اغراقآمیز در زمینهٔ AGI، لازم است بنچمارکهای دقیقتر و چندوجهی طراحی شود تا بتوان مسیر واقعی پیشرفت در این حوزه را بهدرستی ارزیابی کرد.
https://spectrum.ieee.org/agi-benchmark?utm_source=chatgpt.com