Google Cloud ने Dataflow में एक नई सुविधा की घोषणा की है जो लोड संbalancing के साथ कस्टम स्रोत रीडिंग को सक्षम बनाता है, जिसका उद्देश्य लागत में कटौती करना और दक्षता को बढ़ावा देना है। यह वर्कलोड स्केलिंग की चुनौती के लिए एक स्वागत योग्य समाधान के रूप में आता है, खासकर स्ट्रीमिंग वातावरण में जहां विलंबता की बारीकी से निगरानी की जाती है।

कई आधुनिक ऑटोट्यूनिंग रणनीतियाँ हॉट कुंजियों या हॉट वर्कर्स से निपटने के लिए संघर्ष करती हैं जो प्रसंस्करण में बाधा डालते हैं और बैकलॉग बनाते हैं, जिससे डेटा की ताजगी प्रभावित होती है। उदाहरण के लिए, Apache Kafka जैसा स्ट्रीमिंग वातावरण पाइपलाइन में हॉट स्पॉट बना सकता है। एक ऑटोस्केलर अतिरिक्त कंप्यूट इकाइयों के साथ इस तथ्य के बाद क्षतिपूर्ति करने का प्रयास कर सकता है, लेकिन यह न केवल महंगा है, बल्कि धीमा भी है। एक ऑटोस्केलर केवल संचित संदेशों के बैकलॉग के बाद ही प्रतिक्रिया करता है और नए वर्कर्स को स्पिन करने में ओवरहेड लगाता है।

नई लोड संbalancing सुविधा बेहतर ढंग से वर्कलोड वितरित करके और सक्रिय रूप से अभिभूत श्रमिकों को राहत देकर काम करती है। यह पाइपलाइनों को कम संसाधनों और कम विलंबता के साथ अधिक डेटा को आगे बढ़ाने की अनुमति देता है। शीर्ष Dataflow ग्राहकों के वास्तविक दुनिया के उपयोग के मामले परिचालन लागत को कम करने और पाइपलाइन प्रदर्शन में सुधार करने में इस सुविधा की प्रभावशीलता को प्रदर्शित करते हैं।

उदाहरण के लिए, एक ग्राहक कार्यकर्ता स्केलिंग घटनाओं को 75% तक कम करने में सक्षम था, जिसके परिणामस्वरूप Google Compute Engine में दैनिक लागत में 64% की कमी आई, और बैकलॉग ~1 मिनट से घटकर ~10 सेकंड हो गया।

यह लोड संbalancing सुविधा सभी क्षेत्रों में सभी Dataflow ग्राहकों के लिए डिफ़ॉल्ट रूप से चालू है, जिससे यह अतिरिक्त कॉन्फ़िगरेशन की आवश्यकता के बिना लाभ उठाने के लिए आसानी से उपलब्ध है।

निष्कर्ष निकाला गया है, Dataflow में लोड संbalancing के साथ कस्टम स्रोत रीडिंग की शुरुआत पाइपलाइन दक्षता में सुधार और लागत को कम करने की दिशा में एक महत्वपूर्ण कदम है, खासकर स्ट्रीमिंग वातावरण में जहां गति और दक्षता सर्वोपरि है।