Jeffrey Cross
Jeffrey Cross

खुला स्रोत वितरित खोज कहां है?

Google से पहले, बहुत से हैकर अपने खाली समय में खोज इंजन लिख रहे थे। आम सहमति, कम से कम मेरे अपने स्मरण से, वह खोज एक समस्या थी जिसे हल करने की आवश्यकता थी, और यह कि सभी मौजूदा समाधान कमोबेश चूसे जा रहे थे। आज, खोज एक विशाल क्षेत्र को समाहित करती है और अभी भी बहुत सी समस्याओं का समाधान होना बाकी है, लेकिन, अधिकांश भाग के लिए, वेब खोज अत्यंत उपयोगी और विश्वसनीय है। यह सही नहीं है, इसमें सुधार की गुंजाइश है, लेकिन यह काम पूरा कर लेता है। मैं इन दिनों बहुत से लोगों को नहीं जानता जो अपना समय हैकिंग खोज में बिताते हैं। जब इतने नवीन और उच्च-स्तरीय वेब एप्लिकेशन बनाए जाने हों, तो ऐसी निम्न-स्तरीय सेवा को फिर से क्यों बनाएँ?

बात यह है, खोज वेब का ऑपरेटिंग सिस्टम है। यह तथ्य कि हमारे पास कोई ओपन-सोर्स / ओपन-डेटा सर्च इन्फ्रास्ट्रक्चर नहीं है, जैसे कि लिनक्स या ओपनबीएसडी नहीं था। यदि Google, Yahoo और MS इतने बड़े उत्पाद उपलब्ध नहीं करा रहे हैं, तो मेरा अनुमान है कि हैकर समुदाय छिपकली राक्षस पर कैप्टन किर्क की तरह इस समस्या का हमला करेगा।

हम कहाँ हैं:

वर्तमान में, सामान्य वेब खोज से संबंधित कई ओपन सोर्स प्रोजेक्ट हैं। विशेष रूप से, जावा आधारित ल्यूसीन परियोजना अनुक्रमण और सूचना पुनर्प्राप्ति के लिए एक ठोस आधार है, और यह नच खोज इंजन पर बनाया गया है।

ग्रब और मैजेस्टिक जैसे कुछ वितरित क्रॉलर हैं 12. दुर्भाग्य से, ये दोनों एक केंद्रीय, निजी भंडारण प्रणाली के लिए डेटा पास करते हैं। क्रॉलिंग और इंडेक्सिंग की कड़ी मेहनत सभी के लिए खुली है जिसमें भाग लेने के लिए, लेकिन परिणामी डेटा नहीं है।

हमें कहाँ होना चाहिए:

मेरे दिमाग में, खोज हैकर्स को निम्नलिखित के लिए एक खुला स्रोत समाधान बनाने की आवश्यकता है:

  • बड़े पैमाने पर वेब को क्रॉल करने और अनुक्रमित करने के लिए एक वितरित तंत्र।
  • कैश और इंडेक्स के लिए वितरित, विकेंद्रीकृत, निरर्थक डेटा भंडारण।
  • वितरित इंडेक्स को क्वेरी करने के लिए एक अंत-उपयोगकर्ता, सार्वजनिक सामना करने वाला इंटरफ़ेस।
  • शोध या व्यक्तिगत उपयोग के लिए, सूचकांक और कैश के एक स्थानीय, निजी स्लाइस को प्राप्त करने या क्रॉल करने के लिए एक तंत्र।
  • वितरित ग्रिड में वैकल्पिक अनुक्रमण मॉडल प्रकाशित करने का एक तरीका।

इन सभी उपकरणों को इस धारणा के साथ डिज़ाइन करने की आवश्यकता है कि किसी को भी सिस्टम के डेटा तक पहुंच प्राप्त हो सकती है, और जैसे-जैसे सिस्टम बढ़ता है, वैसे-वैसे लोग, निगम और सरकारें अपने लाभ के लिए खोज के बुनियादी ढांचे को दूषित करने पर तुली होंगी।

यह हल करने के लिए एक आसान समस्या नहीं है, लेकिन आप इसे एक दिलचस्प समस्या मानते हैं। किसी को खोज के Torvalds होने के लिए उत्सुक हैं?

कहाँ से शुरू करें:

ल्यूसिने प्रोजेक्ट - लिंक नच ओपन सोर्स सर्च इंजन - लिंक ओपन सोर्स सर्च विकी - लिंक

क्या मुझे कुछ याद आया? कृपया टिप्पणियों में खुले स्रोत खोज पर अपने विचार साझा करें।

शेयर

एक टिप्पणी छोड़