वापस

OpenAI DevDay का गहन परिचय: GPT-4 Turbo के अलावा और क्या जारी किया गया?

By Sean Chen, 10 नवमबर 2023

官網文章_OpenAI_devDay_2023.png



2023/11/06 को आयोजित OpenAI DevDay के लॉन्च इवेंट में, OpenAI के CEO Sam Altman ने फिर से OpenAI को पार कर लिया, जिससे AI डेवलपर्स के लिए नई संभावनाएं खुल गईं। इस लेख के माध्यम से, हम जानेंगे कि इस बार के GPT-4 Turbo में सॉफ्टवेयर डेवलपर्स के लिए क्या आकर्षण है।




OpenAI ने 2023/11/06 को OpenAI DevDay लॉन्च इवेंट आयोजित किया, जब अन्य बड़ी टेक कंपनियां अभी भी GPT-4 के प्रदर्शन को पकड़ने की कोशिश कर रही थीं, OpenAI के CEO Sam Altman ने फिर से OpenAI को पार कर लिया, जिससे AI डेवलपर्स के लिए नई संभावनाएं खुल गईं, और OpenAI की आर्टिफिशियल इंटेलिजेंस में अग्रणी स्थिति को पूरी तरह से प्रदर्शित किया।

अद्वितीय GPT-4 Turbo: तेज, अधिक टेक्स्ट मात्रा, और सस्ता

संदर्भ (Context) का मतलब है "बड़े भाषा मॉडल को दिए गए इनपुट प्रॉम्प्ट और बातचीत" की कुल टेक्स्ट मात्रा। पहले की कुल टेक्स्ट मात्रा अधिकतम 32,000 टोकन तक समर्थित थी (और केवल कुछ डेवलपर्स के लिए उपलब्ध थी), जबकि GPT-4 Turbo 128,000 टोकन की कुल टेक्स्ट मात्रा की अनुमति देता है, जो कि एक 300 पृष्ठ की किताब को एक बार में GPT-4 Turbo में इनपुट करने के बराबर है, जिससे मॉडल को जनरेट करने की अनुमति मिलती है। गति के मामले में, पहले GPT-4 की सबसे बड़ी कमी इसकी धीमी गति थी, जिससे जनरेशन प्रक्रिया में बहुत समय लगता था, इसलिए कंपनियां अभी भी अधिकांश व्यावहारिक अनुप्रयोगों के लिए GPT-3.5 का उपयोग करती थीं। इसलिए GPT-4 Turbo ने इस समस्या को हल किया, जिससे जनरेशन की गति GPT-3.5 के करीब हो गई, और भविष्य में GPT-4 Turbo के एकीकरण के परिदृश्यों को समृद्ध किया। और लागत के मामले में, पिछले संस्करण के GPT-4 की तुलना में, प्रॉम्प्ट की लागत तीन गुना सस्ती हो गई (3x सस्ती), और आउटपुट टेक्स्ट की लागत भी दो गुना सस्ती हो गई (2x सस्ती)।


डेवलपर्स के लिए अधिक अनुकूल फंक्शन कॉलिंग (Function calling) फीचर


फंक्शन कॉलिंग (Function calling) क्या है?

OpenAI ने इस साल की शुरुआत में "फंक्शन कॉलिंग" फीचर जारी किया, जो डेवलपर्स को GPT का उपयोग करते समय कस्टम कोड फंक्शन को कॉल करने की अनुमति देता है। दूसरे शब्दों में, यह स्मार्ट AI को विभिन्न प्रकार के API से जोड़ने की अनुमति देता है, जिससे OpenAI के उपयोग के क्षेत्र में काफी वृद्धि होती है। और इस मॉडल की शक्तिशाली प्रदर्शन क्षमता यह है कि, जब डेवलपर्स कोड के कई इंटरफेस प्रदान करते हैं, तो GPT स्वतः निर्णय ले सकता है कि किस निर्देश को कॉल करना है, और उपयुक्त पैरामीटर का उपयोग करके निष्पादित कर सकता है।

उदाहरण: स्मार्ट सेंसर बल्ब के डेवलपर ने दो निर्देश प्रदान किए: "रंग सेट करें" और "संवेदन समय अवधि सेट करें"। रंग सेट करने के निर्देश के पैरामीटर तीन प्रकार के होते हैं: सफेद प्रकाश, प्राकृतिक प्रकाश और नाइट लाइट। जब GPT को प्रॉम्प्ट इनपुट किया जाता है: "कृपया मुझे रात के लिए उपयुक्त बल्ब सेट करने में मदद करें" GPT स्वतः निर्णय लेगा कि "रंग सेट करें" निर्देश का उपयोग किया जाए, और पैरामीटर को "नाइट लाइट" के रूप में सेट करेगा, इस निर्णय प्रक्रिया में मानव हस्तक्षेप की आवश्यकता नहीं होती है। पहले इस कार्यक्षमता को प्राप्त करने के लिए NLP तकनीक का उपयोग करके कस्टम लॉजिक लिखना पड़ता था, अब केवल GPT प्रोग्राम को कॉल करके इसे प्राप्त किया जा सकता है।

इस बार क्या बदला गया?

इस बार के अपडेट ने GPT को अधिक सटीकता से यह निर्णय लेने की अनुमति दी कि किस निर्देश और पैरामीटर का उपयोग करना चाहिए, साथ ही GPT को एक बार में केवल एक निर्देश कॉल करने की सीमा को सुधारा। पहले जब परिदृश्य अधिक जटिल होते थे, डेवलपर्स को फंक्शन को कई बार कॉल करने के लिए अलग से प्रोग्राम लिखना पड़ता था; इस बार के अपडेट ने GPT को एक बार में कई निर्देशों को निष्पादित करने की अनुमति दी, और प्रत्येक निर्देश के परिणाम को एक-दूसरे को पास करने की अनुमति दी। उदाहरण: प्रॉम्प्ट का उपयोग करते हुए "मैं आधी रात को पानी पीने के लिए उठता हूं, कृपया मुझे उपयुक्त बल्ब मोड सेट करने में मदद करें" इस समय GPT "रंग सेट करें" और "संवेदन समय अवधि सेट करें" दोनों निर्देशों को कॉल करने का निर्णय ले सकता है, और "संवेदन समय अवधि" पैरामीटर को "समय 01:00 से 06:30" के रूप में सेट कर सकता है, साथ ही "रंग सेट करें" का उपयोग कर सकता है और पैरामीटर को "नाइट लाइट" के रूप में सेट कर सकता है।

इसके अलावा, भाषा मॉडल की पिछली प्रतिक्रियाएं सभी "गैर-विशिष्ट प्रारूप के टेक्स्ट के रूप में प्रतिक्रिया सामग्री" थीं, यदि आप एक विशिष्ट प्रारूप में प्रतिक्रिया चाहते हैं, तो आपको प्रॉम्प्ट में अनुरोध करना होगा "कृपया xml प्रारूप में" प्रतिक्रिया दें; हालांकि, डेवलपर्स को अक्सर यह समस्या होती है कि प्रतिक्रिया प्रारूप हमेशा xml नहीं होता है, अक्सर कुछ सादा टेक्स्ट के साथ मिल जाता है, जिससे प्रारूप रूपांतरण में त्रुटि होती है। और इस बार GPT-4 Turbo डेवलपर्स को response_format पैरामीटर सेट करने की अनुमति देता है, जिसे xml या json जैसे सामान्य API प्रतिक्रिया प्रारूपों के रूप में सेट किया जा सकता है, जिससे प्रोग्राम की स्थिरता बढ़ती है।

अंत में, OpenAI उपयोगकर्ताओं को Seed पैरामीटर सेट करने की अनुमति देता है, जो GPT की प्रतिक्रिया सामग्री की यादृच्छिकता को निर्धारित करता है। इस पैरामीटर की सेटिंग के माध्यम से, डेवलपर्स यह सुनिश्चित कर सकते हैं कि भाषा मॉडल की प्रतिक्रिया संगति बनाए रखे, जिससे डेवलपर्स परीक्षण मामलों को लिखते समय अधिक आश्वस्त हो सकें (भाषा मॉडल अचानक अलग-अलग उत्तर उत्पन्न करने से बचें), प्रोग्राम की परीक्षण क्षमता और गुणवत्ता में सुधार करें।


उपरोक्त जारी की गई दो बिंदुओं के अलावा, एप्लिकेशन परिदृश्यों के विस्तार के संदर्भ में, सहायक API का लॉन्च DevDay का मुख्य आकर्षण है।

सहायक API (Assistants API)

पहले यदि आप बड़े भाषा मॉडल का उपयोग करके जनरेटिव AI एप्लिकेशन विकसित करना चाहते थे, तो आपको LangChain जैसे तृतीय-पक्ष पैकेज का उपयोग करना पड़ता था, जो बड़े भाषा मॉडल को उच्च-स्तरीय क्षमताएं प्रदान करता था, जैसे: बहु-भाषा मॉडल का उपयोग, कस्टम डेटा की क्षमता, मेमोरी और एजेंट (Agent, AI को निरंतर कार्य निष्पादित करने की क्षमता, निरंतर निर्णय लेने की क्षमता), ताकि अधिक जटिल AI परिदृश्य अनुप्रयोगों को पूरा किया जा सके।

और DevDay पर जारी सहायक API ने उपरोक्त उल्लिखित कई क्षमताओं को आधिकारिक API में एकीकृत किया, जिससे डेवलपर्स को तृतीय-पक्ष पैकेज के एकीकरण में आने वाली विभिन्न समस्याओं से छुटकारा मिला। यह भी पहली बार है जब आधिकारिक तौर पर बड़े भाषा मॉडल के प्रदर्शन को अनुकूलित करने से बाहर निकलकर "एजेंट" के अनुप्रयोग का अन्वेषण करना शुरू किया गया है। आधिकारिक दस्तावेज में कहा गया है कि "एक सहायक एक लक्ष्य-उन्मुख AI है, जो विशेष निर्देशों का उपयोग करने, बाहरी डेटा का उपयोग करने या विभिन्न भाषा मॉडल और उपकरणों का उपयोग करके कार्य निष्पादित करने की अनुमति देता है।"


नए सहायक API में कई उपकरण भी शामिल हैं, उपरोक्त "फंक्शन कॉलिंग" के अलावा, यह "कोड इंटरप्रेटर" और "डेटा पुनःप्राप्ति" भी प्रदान करता है।


कोड इंटरप्रेटर (Code Interpreter)

GPT-4 का "कोड इंटरप्रेटर" अनुमति देता है कि स्वयं द्वारा लिखे गए कोड को एक सैंडबॉक्स वातावरण में निष्पादित किया जा सके (वर्तमान में केवल Python का समर्थन करता है), पहले इंजीनियर GPT-4 की सहायता से लिखे गए कोड को प्राप्त करने के बाद, अपने विकास वातावरण में कॉपी-पेस्ट करके परीक्षण करना पड़ता था, जबकि OpenAI द्वारा प्रदान किया गया सैंडबॉक्स वातावरण पर्याप्त है कि GPT-4 स्वयं कोड की सहीता की जांच कर सके, और निष्पादन के बाद के परिणामों के आधार पर, धीरे-धीरे स्वयं कोड को संशोधित कर सके, जब तक कि लक्ष्य प्राप्त न हो जाए।

हालांकि, कोड इंटरप्रेटर का कार्यक्षेत्र "GPT-4 को स्वयं द्वारा लिखे गए कोड की सहीता की जांच करने की अनुमति देने" से कहीं अधिक है, इसका बड़ा महत्व यह है कि "बड़े भाषा मॉडल के पास अपना कंप्यूटर हो" कंप्यूटर अधिकांश कार्यों को निष्पादित कर सकता है। अब बड़े भाषा मॉडल निर्देश प्रोग्राम के रूप में बातचीत कर सकते हैं, हालांकि सीमित सैंडबॉक्स वातावरण में निष्पादन के कारण कोड इंटरप्रेटर केवल विशिष्ट तृतीय-पक्ष पैकेज का उपयोग कर सकता है, लेकिन यह "अधिकांश Python प्रोग्रामिंग भाषा द्वारा संभाले जाने वाले कार्यों" जैसे: डेटा प्रोसेसिंग और API कॉल को निष्पादित करने के लिए पर्याप्त है, और उपयोगकर्ता द्वारा प्रदान की गई बड़ी कोड फाइलों को पढ़ सकता है। सुरक्षा के संदर्भ में, सैंडबॉक्स वातावरण बड़े भाषा मॉडल की शक्तिशाली क्षमताओं के दुरुपयोग को रोकने में सक्षम है, जिससे सुरक्षा पर एक निश्चित स्तर की गारंटी मिलती है।



डेटा पुनःप्राप्ति (Retrieval)

"डेटा पुनःप्राप्ति" उपयोगकर्ताओं को अपने डेटा (जैसे: विशेष उद्योग क्षेत्र डेटा, उत्पाद जानकारी या आंतरिक दस्तावेज़) अपलोड करने की अनुमति देता है और बड़े भाषा मॉडल को इन डेटा के आधार पर उत्तर देने की अनुमति देता है, इसे अपने उद्योग या क्षेत्र में लागू करता है, यह फीचर GPT-3 के लॉन्च के बाद से एक प्रमुख चर्चा का विषय रहा है। DevDay पर जारी डेटा पुनःप्राप्ति, इस फीचर के लिए आधिकारिक रूप से पहली बार एक मूल समाधान प्रदान करता है, जैसे: कंपनियों को आंतरिक ज्ञान के रोबोट बनाने की अनुमति देना, जैसे AI प्रोजेक्ट मैनेजर, AI सिस्टम विश्लेषक; चिकित्सा, वित्तीय आदि क्षेत्रों में ग्राहक सेवा रोबोट, पहले इसे लागू करने के लिए जटिल भाषा प्रसंस्करण तकनीकों का उपयोग करना पड़ता था, अब GPT-4 के शक्तिशाली भाषा मॉडल के साथ, और OpenAI के आधिकारिक डेटा पुनःप्राप्ति फीचर के तहत, डेवलपर्स को व्यावसायिक तर्क, डेटा की सहीता और विवरण के समायोजन पर ध्यान केंद्रित करने की अनुमति मिलती है। इसके अलावा, पहले तृतीय-पक्ष पैकेज का उपयोग करते समय आवश्यक वेक्टर डेटाबेस, डेटा सेगमेंटेशन प्रोसेसिंग या विशिष्ट खोज एल्गोरिदम, OpenAI के आधिकारिक समर्थन के तहत, इन विकास प्रक्रियाओं और उनके संबंधित लागतों को अतिरिक्त रूप से संभालने की आवश्यकता नहीं होती है। OpenAI ने विशेष रूप से जोर दिया है कि सहायक API द्वारा उपयोग की जाने वाली बातचीत और फाइलें, OpenAI के अगले पीढ़ी के मॉडल को प्रशिक्षित करने के लिए उपयोग नहीं की जाएंगी।



निष्कर्ष

कुल मिलाकर, OpenAI न केवल मॉडल की दक्षता को लगातार अनुकूलित कर रहा है, बल्कि बड़े भाषा मॉडल के अनुप्रयोग को भी लगातार विस्तारित कर रहा है। Sam Altman ने कहा था कि GPT-5 निकट भविष्य में नहीं आएगा, वर्तमान GPT-4 की सटीकता के साथ, बड़े पैमाने पर भाषा मॉडल को प्रशिक्षित करने के लिए अतिरिक्त लागत खर्च करना आवश्यक नहीं लगता है, इसके बजाय GPT-4 की प्रदर्शन क्षमता, उपयोगिता और विस्तारशीलता को बढ़ाना, वर्तमान में OpenAI का मुख्य ध्यान है; और डेवलपर्स, कंपनियों और अंतिम उपभोक्ताओं के लिए, अधिक शक्तिशाली और अधिकांश परिदृश्यों में लागू होने वाले AI को लागू करना, अगली पीढ़ी के डिजिटल परिवर्तन का मुख्य बिंदु बन गया है। OpenAI द्वारा निर्मित GPT, भविष्य की तकनीकी दुनिया में मस्तिष्क के समान है, और हमें विश्वास है कि आने वाले नवाचार और प्रगति, आर्टिफिशियल इंटेलिजेंस को उपकरणों का उपयोग करने में अधिक सक्षम बनाएंगे, और यह "देख", "सुन" और सहजता से "बोल" और "चित्रित" कर सकेगा।

हमारे ब्लॉग से अधिक

हमसे संपर्क करें

हमसे संपर्क करें

आइए आपके विचारों के बारे में बात करें!

अपने नवाचार डिजिटल साथी के साथ अपने व्यवसाय को शुरू करें। हम एक व्यावसायिक दिन के भीतर उत्तर देंगे। (GMT+8)