Apple शोधकर्ताओं ने बताया सबसे उन्नत AI मॉडल भी मुश्किल होने पर उलझने लगते हैं, आप भी जानें

Photo Source :

Posted On:Monday, June 9, 2025

मुंबई, 9 जून, (न्यूज़ हेल्पलाइन) वे बातें तो करते हैं, लेकिन क्या वे वास्तव में उस पर विचार कर पाते हैं? Apple शोधकर्ताओं द्वारा किए गए एक नए अध्ययन से पता चलता है कि ChatGPT o3, Claude और DeepSeek जैसे सबसे उन्नत AI मॉडल भी मुश्किल होने पर उलझने लगते हैं। ये तथाकथित "तर्क" मॉडल आत्मविश्वास से भरे उत्तरों और विस्तृत व्याख्याओं से प्रभावित कर सकते हैं, लेकिन जब वास्तव में जटिल समस्याओं का सामना करना पड़ता है, तो वे लड़खड़ा जाते हैं - और कभी-कभी असफल हो जाते हैं।

Apple शोधकर्ताओं ने पाया है कि आज के सबसे उन्नत बड़े भाषा मॉडल शायद उस तरह से तर्क न कर रहे हों, जैसा कि कई लोग मानते हैं। हाल ही में जारी किए गए पेपर द इल्यूजन ऑफ थिंकिंग में, Apple के शोधकर्ताओं ने दिखाया कि हालांकि ये मॉडल सतह पर बुद्धिमान दिखाई देते हैं, लेकिन जब वे वास्तव में जटिल समस्याओं का सामना करते हैं, तो उनका प्रदर्शन नाटकीय रूप से गिर जाता है।

अध्ययन ने मॉडलों के एक वर्ग को देखा, जिसे अब बड़े तर्क मॉडल (LRM) के रूप में संदर्भित किया जाता है, जिन्हें आंतरिक चरणों की एक श्रृंखला का उपयोग करके जटिल कार्यों के माध्यम से "सोचने" के लिए डिज़ाइन किया गया है, जिसे अक्सर "विचार की श्रृंखला" कहा जाता है। इसमें OpenAI के o3, DeepSeek-R1 और Claude 3.7 सॉनेट थिंकिंग जैसे मॉडल शामिल हैं। Apple के शोधकर्ताओं ने परीक्षण किया कि ये मॉडल बढ़ती कठिनाई की समस्याओं को कैसे संभालते हैं - न केवल यह कि वे सही उत्तर पर पहुँचते हैं या नहीं, बल्कि वे वहाँ पहुँचने के लिए किस तरह से तर्क करते हैं।

निष्कर्ष चौंकाने वाले थे। जैसे-जैसे समस्या की जटिलता बढ़ती गई, मॉडल का प्रदर्शन स्पष्ट रूप से कम नहीं हुआ - यह पूरी तरह से ढह गया। निष्कर्षों का हवाला देते हुए टेक आलोचक जोश वोल्फ ने ट्वीट किया, "वे एक बिंदु तक अधिक सोचते हैं।" "फिर वे जल्दी ही हार मान लेते हैं, तब भी जब उनके पास बहुत अधिक गणना शेष होती है।"

Apple की टीम ने जटिलता स्तरों को सावधानीपूर्वक नियंत्रित करने के लिए टॉवर ऑफ़ हनोई, रिवर क्रॉसिंग और ब्लॉक्स वर्ल्ड जैसे कस्टम पहेली वातावरण बनाए। इन सेटअपों ने उन्हें न केवल यह देखने की अनुमति दी कि मॉडल ने सही उत्तर पाया या नहीं, बल्कि उन्होंने वहाँ पहुँचने का प्रयास कैसे किया।

उन्होंने पाया कि:

- कम जटिलता पर, पारंपरिक LLM (तर्क श्रृंखलाओं के बिना) बेहतर प्रदर्शन करते थे और अधिक कुशल थे
- मध्यम जटिलता पर, तर्क मॉडल ने कुछ समय के लिए बढ़त ले ली
- उच्च जटिलता पर, दोनों प्रकार पूरी तरह से विफल हो गए

जब किसी समस्या को हल करने के लिए चरण-दर-चरण एल्गोरिदम दिया जाता था, ताकि उन्हें केवल निर्देशों का पालन करने की आवश्यकता हो, तब भी मॉडल गंभीर गलतियाँ करते थे। इससे पता चलता है कि वे न केवल रचनात्मकता या समस्या-समाधान के साथ, बल्कि बुनियादी तार्किक निष्पादन के साथ भी संघर्ष करते हैं।

मॉडल ने इस बात पर भी अजीब व्यवहार दिखाया कि उन्होंने कितना प्रयास किया। शुरू में, जैसे-जैसे समस्याएँ कठिन होती गईं, उन्होंने तर्क के चरणों के लिए अधिक टोकन का उपयोग करते हुए अधिक "सोचा"। लेकिन एक निश्चित सीमा तक पहुँचने के बाद, उन्होंने अचानक कम सोचना शुरू कर दिया। ऐसा तब भी हुआ जब वे किसी भी कम्प्यूटेशनल सीमा तक नहीं पहुँचे थे, जो कि Apple द्वारा "मौलिक अनुमान समय स्केलिंग सीमा" कहे जाने वाले को उजागर करता है।

संज्ञानात्मक वैज्ञानिक गैरी मार्कस ने कहा कि यह पेपर उस बात का समर्थन करता है जिसका वे दशकों से तर्क दे रहे हैं: ये सिस्टम अपने प्रशिक्षण डेटा से परे सामान्यीकरण नहीं करते हैं। मार्कस ने सबस्टैक पर लिखा, "न्यूरल नेटवर्क डेटा के प्रशिक्षण वितरण के भीतर सामान्यीकरण कर सकते हैं, लेकिन उनका सामान्यीकरण उस वितरण के बाहर टूट जाता है।" उन्होंने यह भी नोट किया कि मॉडल के "तर्क के निशान" - उत्तर तक पहुँचने के लिए वे जो कदम उठाते हैं - वे विश्वसनीय लग सकते हैं, लेकिन अक्सर यह नहीं दर्शाते हैं कि मॉडल ने निष्कर्ष तक पहुँचने के लिए वास्तव में क्या किया।

मार्कस बताते हैं कि एरिजोना स्टेट यूनिवर्सिटी के सुब्बाराव (राव) कंभमपति, जिनके पिछले काम ने तथाकथित तर्क मॉडल की आलोचना की है, की प्रतिक्रिया भी एप्पल के निष्कर्षों में प्रतिध्वनित हुई। राव ने दिखाया है कि मॉडल अक्सर तार्किक रूप से सोचते हुए दिखाई देते हैं, लेकिन वास्तव में ऐसे उत्तर देते हैं जो उनकी विचार प्रक्रिया से मेल नहीं खाते। एप्पल के प्रयोग इस बात का समर्थन करते हैं कि मॉडल लंबे तर्क पथ उत्पन्न करते हैं जो फिर भी गलत उत्तर की ओर ले जाते हैं, खासकर जब समस्याएँ कठिन हो जाती हैं।

शायद सबसे अधिक निंदनीय सबूत तब मिला जब एप्पल ने परीक्षण किया कि क्या मॉडल सटीक निर्देशों का पालन कर सकते हैं। एक परीक्षण में, उन्हें टॉवर ऑफ़ हनोई पहेली को हल करने के लिए एल्गोरिदम दिया गया और बस इसे निष्पादित करने के लिए कहा गया। पहेली की जटिलता एक निश्चित बिंदु से गुज़रने के बाद भी मॉडल विफल हो गए।

एप्पल का निष्कर्ष स्पष्ट है: आज के शीर्ष मॉडल "सुपर महंगे पैटर्न मिलानकर्ता" हैं जो केवल परिचित सेटिंग्स में तर्क की नकल कर सकते हैं। जिस क्षण उन्हें नई समस्याओं का सामना करना पड़ता है - जो उनके प्रशिक्षण डेटा से बाहर हैं - वे टूट जाते हैं।

इन निष्कर्षों का उन दावों पर गंभीर प्रभाव पड़ता है कि AI मानव-जैसा तर्क करने में सक्षम हो रहा है। जैसा कि पेपर में कहा गया है, वर्तमान दृष्टिकोण एक दीवार से टकरा सकता है, और इसे दूर करने के लिए हमें बुद्धिमान प्रणालियों के निर्माण के बारे में पूरी तरह से अलग तरीके से सोचने की आवश्यकता हो सकती है। संक्षेप में, हम अभी भी AGI से बहुत दूर हैं।


नागपुर और देश, दुनियाँ की ताजा ख़बरे हमारे Facebook पर पढ़ने के लिए यहां क्लिक करें,
और Telegram चैनल पर पढ़ने के लिए यहां क्लिक करें



You may also like !

मेरा गाँव मेरा देश

अगर आप एक जागृत नागरिक है और अपने आसपास की घटनाओं या अपने क्षेत्र की समस्याओं को हमारे साथ साझा कर अपने गाँव, शहर और देश को और बेहतर बनाना चाहते हैं तो जुड़िए हमसे अपनी रिपोर्ट के जरिए. nagpurvocalsteam@gmail.com

Follow us on

Copyright © 2021  |  All Rights Reserved.

Powered By Newsify Network Pvt. Ltd.