شرکت OpenAI با هدف رفع نواقص موجود در ارزیابیهای عملکرد هوش مصنوعی، برنامهای جدید برای طراحی معیارهای تخصصی و حوزهمحور (domain-specific) راهاندازی کرده است.
به گزارش تکناک، این برنامه با تمرکز بر ایجاد بنچمارکهایی دقیقتر و مرتبطتر با کاربردهای واقعی، قصد دارد محدودیتهای معیارهای فعلی را برطرف کرده و سنجش توانایی مدلهای هوش مصنوعی را بهبود بخشد.
OpenAI اعلام کرده است که به منظور اصلاح بنچمارکهای موجود در حوزه هوش مصنوعی، برنامهای جدید به نام OpenAI Pioneers Program راهاندازی کرده است. این برنامه به طراحی ارزیابیهایی برای مدلهای هوش مصنوعی اختصاص دارد که هدف آن تعیین استانداردهایی برای ارزیابی «خوب بودن» مدلها است.
طبق گفته این شرکت، با سرعت گرفتن پذیرش هوش مصنوعی در صنایع مختلف، درک و بهبود تأثیر آن در دنیای واقعی ضروری است. OpenAI بر این باور است که ایجاد ارزیابیهای خاص این حوزه یکی از راههایی است که میتواند بهتر استفادههای دنیای واقعی از هوش مصنوعی را بازتاب دهد و به تیمها کمک کند تا عملکرد مدلها را در محیطهای عملی و پرچالش ارزیابی کنند.
تککرانچ مینویسد که این در حالی است که بنچمارکهای موجود هوش مصنوعی اغلب معیارهایی را برای ارزیابی عملکرد مدلها در کارهای پیچیده و علمی مانند حل مسائل ریاضی در سطح دکترا میسنجند. از طرف دیگر، برخی از این بنچمارکها ممکن است دستکاری شوند یا با نیازهای دنیای واقعی همخوانی نداشته باشند.
از طریق OpenAI Pioneers Program، این شرکت قصد دارد بنچمارکهایی برای حوزههای خاصی مانند حقوقی، مالی، بیمه، بهداشت و درمان و حسابداری ایجاد کند. OpenAI همچنین اعلام کرده است که در ماههای آینده با چندین شرکت همکاری خواهد کرد تا این بنچمارکها را طراحی کرده و سپس آنها را به صورت عمومی منتشر کند.

در اولین مرحله این برنامه، تمرکز بر استارتاپهایی خواهد بود که به ایجاد بنیانهای OpenAI Pioneers Program کمک خواهند کرد. این شرکتها در حال حاضر روی موارد کاربردی و با ارزش کار میکنند که در آنها هوش مصنوعی میتواند تأثیر واقعی داشته باشد. در این میان، شرکتهای حاضر در برنامه این فرصت را خواهند داشت که با تیم OpenAI همکاری کنند تا از طریق تقویت مدلها، بهبودهایی را در مدلها ایجاد کنند.
با این حال، سوال بزرگ این است که آیا جامعه هوش مصنوعی بنچمارکهایی که توسط OpenAI طراحی و منتشر میشوند را خواهد پذیرفت. OpenAI پیش از این نیز از تلاشهای بنچمارک مالی حمایت کرده و ارزیابیهای خود را طراحی کرده است، اما همکاری با مشتریان برای انتشار آزمونهای هوش مصنوعی ممکن است از دید برخی، یک چالش اخلاقی باشد.