बड़े क्वेरी बैच के लिए BigQuery वेक्टर खोज में ScaNN का परिचय

2024-08-20

Google Cloud

Google Cloud ने TreeAH वेक्टर इंडेक्स के प्रीव्यू की घोषणा की है, जो BigQuery में अनुमानित निकटतम पड़ोसी एल्गोरिदम में Google के अनुसंधान और नवाचार के मुख्य अंश लाता है। यह नया इंडेक्स प्रकार उसी अंतर्निहित तकनीक का उपयोग करता है जो Google की कुछ सबसे लोकप्रिय सेवाओं को शक्ति प्रदान करती है और BigQuery में कार्यान्वित पहले इंडेक्स, इनवर्टेड फ़ाइल इंडेक्स (IVF) की तुलना में कुछ स्थितियों में महत्वपूर्ण विलंबता और लागत में कमी प्रदान करती है।

TreeAH इंडेक्स के प्रमुख लाभों में से एक असममित हैशिंग (TreeAH में "AH") का उपयोग है, जो एम्बेडिंग को संपीड़ित करने के लिए उत्पाद परिमाणीकरण का उपयोग करता है। CPU-अनुकूलित दूरी गणना एल्गोरिथ्म के साथ युग्मित, TreeAH का उपयोग करके वेक्टर खोज IVF की तुलना में परिमाण के क्रम तेज और अधिक लागत प्रभावी हो सकती है। इंडेक्स निर्माण भी 10 गुना तेज और सस्ता हो सकता है और मेमोरी फुटप्रिंट छोटा हो सकता है, क्योंकि केवल संपीड़ित एम्बेडिंग संग्रहीत किए जाते हैं।

Google की इंजीनियरिंग टीम द्वारा किए गए बेंचमार्क से पता चला है कि जब क्वेरी बैच आकार बड़ा होता है तो TreeAH IVF से काफी बेहतर प्रदर्शन करता है। उदाहरण के लिए, 10,000 वैक्टर वाले क्वेरी बैच के लिए, TreeAH IVF की तुलना में 23 गुना तेज और 95% सस्ता था। अधिकांश मामलों में TreeAH इंडेक्स प्रशिक्षण भी IVF की तुलना में काफी तेज और सस्ता था।

हालांकि, यह ध्यान देने योग्य है कि TreeAH अभी भी सक्रिय विकास के अधीन है और कुछ वर्तमान सीमाएँ हैं। उदाहरण के लिए, बेस टेबल में अधिकतम 200 मिलियन पंक्तियाँ हो सकती हैं, और संग्रहीत कॉलम और प्री-फ़िल्टरिंग TreeAH इंडेक्स के लिए समर्थित नहीं हैं।

कुल मिलाकर, TreeAH BigQuery के लिए एक मूल्यवान अतिरिक्त है, जो कुछ प्रकार के वेक्टर खोज वर्कलोड के लिए महत्वपूर्ण प्रदर्शन और लागत लाभ प्रदान करता है। इससे सिमेंटिक सर्च और LLM-आधारित पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) जैसे BigQuery में वेक्टर खोज के लिए और अधिक उपयोग के मामलों को सक्षम करने की उम्मीद है।

बड़े क्वेरी बैच के लिए BigQuery वेक्टर खोज में ScaNN का परिचय

Recommends