SEO नॉलेज ग्राफ एक संरचित एंटिटी-रिलेशनशिप डेटा सेट है, जिसमें व्यक्ति, घटनाएँ आदि जैसे गुण शामिल होते हैं;
SERP में Google नॉलेज ग्राफ पैनल जैसे फीचर 50 करोड़ से अधिक एंटिटी को कवर करते हैं, सीधे उत्तर दिखाते हैं और जानकारी प्राप्त करने की दक्षता बढ़ाते हैं।

Table of Contens
Toggleमूल परिभाषा
Google नॉलेज ग्राफ वास्तविक दुनिया की एंटिटी पर आधारित एक संरचित डेटा नेटवर्क है, जो 50 करोड़ से अधिक एंटिटी (व्यक्ति, कंपनियाँ, स्थान आदि) को कवर करता है और “एंटिटी-गुण-रिलेशन” त्रिक (जैसे “टेस्ला-स्थापना समय-2003”) के माध्यम से बिखरी हुई जानकारी को जोड़ता है।
यह उपयोगकर्ताओं के प्रश्नों के लिए सीधे संरचित उत्तर प्रदान करता है (जैसे “आइंस्टीन” खोजने पर दाईं ओर जन्म-मृत्यु वर्ष और योगदान दिखाना), और पारंपरिक लिंक सूची की जगह लेता है। 2023 के Google डेटा के अनुसार, 70% सरल प्रश्न (जैसे “हैरी पॉटर का लेखक”) पहले ही नॉलेज ग्राफ कार्ड्स के माध्यम से हल किए जा चुके हैं।
वेबसाइटों के लिए, नॉलेज ग्राफ में शामिल एंटिटी की आधिकारिक वेबसाइट की क्लिक-थ्रू रेट सामान्य परिणामों की तुलना में 28% अधिक होती है (Moz 2024 के आँकड़े), लेकिन इसके लिए “प्राधिकृत स्रोतों की संगति” जैसी सख्त शर्तें पूरी करनी होती हैं।
नॉलेज ग्राफ का सार
अगर पारंपरिक सर्च इंजन एक “वेबपेज लाइब्रेरी” है, जहाँ उपयोगकर्ता को खुद किताबों की अलमारियों में ढूँढकर (लिंक पर क्लिक करके) उत्तर खोजना पड़ता है;
तो Google नॉलेज ग्राफ एक “डिजिटल शब्दकोश” है, जो असंख्य वेबपेजों में बिखरे “टुकड़ों वाले ज्ञान” को ऐसी “संरचित भाषा” में बदल देता है जिसे मशीन सीधे समझ सके, और फिर इन्हें ऐसे “उत्तर कार्ड” में व्यवस्थित करता है जिन्हें उपयोगकर्ता तेज़ी से प्राप्त कर सके।
“अव्यवस्थित पाठ” से “संरचित पाठ” तक
उपयोगकर्ता जब खोज में कीवर्ड दर्ज करता है (जैसे “टेस्ला संस्थापक”), तो उसका सार एक तरह का “प्राकृतिक भाषा निर्देश” होता है।
Google का पहला काम होता है कि विशाल मात्रा के वेबपेजों से “टेस्ला” और “संस्थापक” से संबंधित जानकारी को “तोड़कर” निकाला जाए। लेकिन वेबपेज सामग्री “असंरचित पाठ” होती है—यह विश्वकोश का पैराग्राफ हो सकता है (“टेस्ला की स्थापना मार्टिन एबरहार्ड और मार्क टारपेनिंग ने 2003 में की”), प्रेस रिलीज़ का वाक्य हो सकता है (“2004 में एलन मस्क ने टेस्ला में 6.3 मिलियन डॉलर निवेश किए और सबसे बड़े शेयरधारक बने”), या यहाँ तक कि किसी फ़ोरम की टिप्पणी भी हो सकती है (“दरअसल टेस्ला के कई संस्थापक थे, शुरुआती टीम बहुत महत्वपूर्ण थी”)।
इस “अव्यवस्थित पाठ” को मशीन द्वारा समझे जाने योग्य संरचित डेटा में बदलने के लिए Google दो NLP तकनीकों पर निर्भर करता है: एंटिटी पहचान (Named Entity Recognition, NER) और गुण निष्कर्षण (Attribute Extraction):
- एंटिटी पहचान: प्री-ट्रेंड मॉडल (जैसे BERT के वैरिएंट) के माध्यम से पाठ में मौजूद “नामित एंटिटी” (जैसे “टेस्ला”, “मार्टिन एबरहार्ड”, “2003”) की पहचान करना और उनके प्रकार (कंपनी, व्यक्ति, समय) को चिह्नित करना।
- गुण निष्कर्षण: एंटिटी के बीच के अर्थ-संबंधों का विश्लेषण करना और “गुण-मूल्य” जोड़े निकालना (जैसे “टेस्ला-संस्थापक-मार्टिन एबरहार्ड”, “टेस्ला-स्थापना समय-2003”)।
एक ठोस उदाहरण लें: मान लीजिए वेबपेज A पर लिखा है “टेस्ला की स्थापना मार्टिन एबरहार्ड और JB स्ट्रॉबेल ने 1 अप्रैल 2003 को की”, और वेबपेज B पर लिखा है “2004 में मस्क ने टेस्ला की Series A फंडिंग का नेतृत्व किया और लगभग 22% हिस्सेदारी ली।”
Google की NLP प्रणाली:
- “टेस्ला” (कंपनी), “मार्टिन एबरहार्ड” (व्यक्ति), “JB स्ट्रॉबेल” (व्यक्ति), “1 अप्रैल 2003” (समय), “2004” (समय), “मस्क” (व्यक्ति) जैसी एंटिटी पहचानेगी;
- गुण-जोड़े निकालेगी: “टेस्ला-संस्थापक-मार्टिन एबरहार्ड”, “टेस्ला-संस्थापक-JB स्ट्रॉबेल”, “टेस्ला-स्थापना समय-1 अप्रैल 2003”, “टेस्ला-निवेशक-मस्क”, “टेस्ला-वित्तपोषण समय-2004”;
- इन गुण-जोड़ों को “त्रिक” (Entity-Attribute-Value) के रूप में एकीकृत कर नॉलेज ग्राफ के डेटाबेस में संग्रहीत करेगी।
Google के 2023 तकनीकी श्वेतपत्र के अनुसार, उसकी NLP प्रणाली एकल वेबपेज पर एंटिटी पहचान में 92% तक सटीकता प्राप्त करती है (मानकीकृत कॉर्पोरेट जानकारी के लिए), लेकिन जटिल वाक्य संरचनाओं (जैसे “XX और YY द्वारा संयुक्त रूप से स्थापित”) में गुण निष्कर्षण में अभी भी 8% त्रुटि रहती है—यही कारण है कि कुछ कंपनियों की जानकारी नॉलेज ग्राफ में अधूरी दिखाई देती है।
Schema.org
लेकिन यहाँ एक समस्या आती है: अलग-अलग वेबपेज एक ही एंटिटी का वर्णन अलग-अलग शब्दों में कर सकते हैं (जैसे “संस्थापक” को “सह-संस्थापक” या “प्रारंभिक टीम” लिखा जा सकता है), और गुणों के नाम भी अव्यवस्थित हो सकते हैं (जैसे “स्थापना समय” को “स्थापना वर्ष” या “कंपनी स्थापना तिथि” लिखा जा सकता है)।
अगर Google “स्व-विकसित नियमों” से इन्हें जबरन अनुवाद करे, तो गलत मिलान होने की संभावना बहुत अधिक है (जैसे A कंपनी के संस्थापक को B कंपनी के साथ जोड़ देना)।
इस समस्या को हल करने के लिए Google ने Microsoft, Yahoo और अन्य सर्च इंजन कंपनियों के साथ मिलकर 2011 में Schema.org लॉन्च किया—यह एक वैश्विक “संरचित डेटा मार्कअप मानक” है।
सरल शब्दों में, Schema.org एक “सूचना शब्दकोश” की तरह है, जो “एंटिटी प्रकार” (जैसे Organization कंपनी, Person व्यक्ति) और “गुण टैग” (जैसे foundingDate स्थापना तिथि, founder संस्थापक) को परिभाषित करता है। वेबसाइट डेवलपर इन टैग्स का उपयोग करके Google को “सक्रिय रूप से बता” सकते हैं: “मेरे वेबपेज पर यह डेटा किस प्रकार की एंटिटी है और किन गुणों से संबंधित है।”
उदाहरण के लिए, यदि किसी कंपनी की आधिकारिक वेबसाइट “टेस्ला” को Schema.org मार्कअप से चिह्नित करती है:
<script type=”application/ld+json”>
{
“@context”: “https://schema.org”,
“@type”: “Organization”,
“name”: “Tesla, Inc.”,
“foundingDate”: “2003-04-01”,
“founder”: [
{ “@type”: “Person”, “name”: “Martin Eberhard” },
{ “@type”: “Person”, “name”: “Marc Tarpenning” }
],
“investor”: [
{ “@type”: “Person”, “name”: “Elon Musk”, “investmentAmount”: “6.3 million USD” }
]
}
</script>
जब Google का क्रॉलर (Googlebot) इस कोड को पकड़ता है, तो वह सीधे “टेस्ला” के foundingDate (स्थापना तिथि), founder (संस्थापक), investor (निवेशक) जैसी जानकारी निकाल लेता है, और उसे NLP के माध्यम से पाठ का अर्थ “अनुमान” लगाने की ज़रूरत नहीं रहती।
Schema.org का महत्व कितना बड़ा है? Google के 2024 आंतरिक डेटा के अनुसार: Schema.org मार्कअप का उपयोग करने वाली कंपनी की आधिकारिक वेबसाइटों के मुख्य गुण (नाम, स्थापना समय, मुख्यालय) नॉलेज ग्राफ में शामिल होने की संभावना, बिना मार्कअप वाली वेबसाइटों की तुलना में 47% अधिक होती है;
और जिन वेबसाइटों पर मार्कअप पूर्ण होता है (10 से अधिक मुख्य गुणों को कवर करता है), वहाँ जानकारी की सटीकता 68% से बढ़कर 91% हो जाती है।
प्राधिकृत सत्यापन
भले ही किसी वेबपेज पर Schema.org मार्कअप हो, Google उसे सीधे “जैसा है वैसा” स्वीकार नहीं करता।
नॉलेज ग्राफ की सटीकता सुनिश्चित करने के लिए Google के पास बहु-स्रोत क्रॉस-वेरिफिकेशन तंत्र है, जिसका मूल तर्क है: “एक ही एंटिटी का एक ही गुण कम-से-कम 3 प्राधिकृत स्रोतों में समान होना चाहिए, अन्यथा उसे ‘कम विश्वसनीयता’ के रूप में चिह्नित किया जाएगा।”
यहाँ “प्राधिकृत स्रोत” में शामिल हैं:
- आधिकारिक वेबसाइटें (कंपनी का अपना डोमेन, सबसे अधिक वज़न);
- प्राधिकृत विश्वकोश (जैसे Wikipedia, Wikidata);
- सरकारी/उद्योग डेटाबेस (जैसे अमेरिका SEC की कंपनी फाइलिंग, Crunchbase उद्योग डेटा);
- उच्च-प्राधिकृत मीडिया (जैसे The New York Times, उद्योग-विशिष्ट मीडिया)।
एक नकारात्मक उदाहरण लें: किसी टेक स्टार्टअप A की आधिकारिक वेबसाइट Schema.org के माध्यम से “स्थापना समय-2020” को चिह्नित करती है, लेकिन Wikipedia बताती है कि वह “2019 में स्थापित हुई”, जबकि Crunchbase दिखाता है कि “उसकी पहली सार्वजनिक उपस्थिति 2019 Q4 के फंडिंग रिकॉर्ड में थी।”
इस स्थिति में, Google की प्रणाली यह तय करेगी कि “स्थापना समय” गुण में टकराव है, और इसके लिए मैनुअल समीक्षा या अधिक स्रोतों के सत्यापन की आवश्यकता होगी।
अंततः, क्योंकि आधिकारिक वेबसाइट और Wikipedia के बीच का विरोधाभास हल नहीं हो पाया, उस कंपनी का “स्थापना समय” नॉलेज ग्राफ में शामिल नहीं किया गया, और उपयोगकर्ता को अभी भी लिंक पर क्लिक करके यह जानकारी देखनी पड़ती है।
Google द्वारा 2023 में प्रकाशित “नॉलेज ग्राफ शामिल करने की गाइड” के अनुसार, गुण संघर्ष सबसे सामान्य अस्वीकृति कारण है (38%), उसके बाद “स्रोत की अपर्याप्त प्राधिकृतता” (जैसे केवल व्यक्तिगत ब्लॉग मार्कअप, 25%) और “मार्कअप फ़ॉर्मेट त्रुटि” (जैसे तारीख “2020/4/1” लिखना, “2020-04-01” के बजाय, 19%) आते हैं।
नॉलेज ग्राफ का “गतिशील अद्यतन”
नॉलेज ग्राफ कोई एक बार में बनाया गया “स्थिर डेटाबेस” नहीं है, बल्कि नई जानकारी आने पर लगातार अपडेट होने वाला सिस्टम है।
उदाहरण के लिए, यदि 2023 में मस्क घोषणा करते कि “X (पूर्व Twitter) ने LinkedIn का अधिग्रहण किया”, तो Google कुछ घंटों के भीतर:
- समाचार क्रॉलर के माध्यम से प्राधिकृत मीडिया (जैसे Reuters, The Wall Street Journal) की रिपोर्टें एकत्र करेगा;
- सूचना स्रोत की विश्वसनीयता सत्यापित करेगा (Reuters का वज़न व्यक्तिगत ब्लॉग से अधिक है);
- नॉलेज ग्राफ में “X कंपनी” के
acquiredCompany(अधिग्रहित कंपनी) गुण को अपडेट करके “LinkedIn” जोड़ेगा; - संबंधित एंटिटी के रिलेशन भी समकालिक रूप से अपडेट करेगा (जैसे “मस्क-X कंपनी-अधिग्रहित कंपनी-LinkedIn”)।
यह “गतिशील अद्यतन” कितना तेज़ है? 2024 के Google परीक्षण डेटा के अनुसार, उच्च-ध्यान वाली एंटिटी (जैसे Fortune Global 500 कंपनियाँ, प्रसिद्ध व्यक्ति) के मुख्य गुणों का औसत अपडेट चक्र 2–4 घंटे है; जबकि सामान्य एंटिटी (जैसे स्थानीय छोटे-मझोले व्यवसाय) के लिए यह 1–2 सप्ताह होता है।
एंटिटी, गुण और संबंध
यदि नॉलेज ग्राफ एक “डिजिटल शहर” है, तो एंटिटी भवन हैं (स्कूल, अस्पताल, मॉल), गुण उन भवनों के “लेबल” हैं (पता, मंजिलें, कार्य समय), और संबंध उन भवनों को जोड़ने वाली “सड़कें” हैं (बस लाइन, पैदल पथ, मेट्रो ट्रैक)।
ये तीनों मिलकर नॉलेज ग्राफ की आधारभूत संरचना बनाते हैं।
Google की 2023 तकनीकी दस्तावेज़ में स्पष्ट रूप से कहा गया है: नॉलेज ग्राफ में 90% सूचना-प्रेषण इन तीन तत्वों की पूर्णता और पारस्परिकता पर निर्भर करता है
एंटिटी
एंटिटी (Entity) नॉलेज ग्राफ की सबसे बुनियादी इकाई है, जिसका अर्थ है वास्तविक दुनिया की ऐसी ठोस या अमूर्त वस्तु जो स्वतंत्र रूप से अस्तित्व रख सकती है।
यह “व्यक्ति” (जैसे आइंस्टीन), “कंपनी” (जैसे Apple), “स्थान” (जैसे एफिल टॉवर), “घटना” (जैसे 2020 टोक्यो ओलंपिक), या यहाँ तक कि “अमूर्त अवधारणा” (जैसे “कृत्रिम बुद्धिमत्ता”) भी हो सकती है।
लेकिन Google के लिए “एंटिटी” की पहचान के सख्त मानदंड हैं: इसमें “अद्वितीय पहचानने योग्य होना” और “स्थिर अस्तित्व” होना चाहिए। उदाहरण के लिए:
- “टेस्ला” एक स्पष्ट व्यावसायिक एंटिटी है (पंजीकृत नाम Tesla, Inc., स्टॉक कोड TSLA);
- “मस्क” एक स्पष्ट व्यक्ति-एंटिटी है (पूरा नाम Elon Reeve Musk, जन्म तिथि 28 जून 1971);
- लेकिन “न्यू एनर्जी वाहन निर्माता” कोई एंटिटी नहीं है (यह अस्पष्ट श्रेणी है), और “2023 की टेस्ला” भी एंटिटी नहीं है (समय-सीमा इसे अद्वितीय नहीं रहने देती)।
Google वेबपेजों से संभावित एंटिटी को एंटिटी पहचान (NER) तकनीक के जरिए निकालता है, और फिर “एंटिटी डिसऐम्बिगुएशन (Entity Disambiguation)” द्वारा अस्पष्टता हटाता है।
उदाहरण के लिए, यदि किसी वेबपेज में “Apple” लिखा हो, तो यह तय करना पड़ता है कि बात “फल वाला सेब” की हो रही है या “Apple कंपनी” की—यह संदर्भ (जैसे “iPhone”, “Cook”) और प्राधिकृत स्रोतों (जैसे Wikipedia का “Apple Inc.” लेख) पर निर्भर करता है।
Google के 2024 आंतरिक आँकड़ों के अनुसार, नॉलेज ग्राफ की लगभग 60% एंटिटी कंपनियाँ/संगठन हैं (Person 25%, Location 10%, अन्य 5%), और यह उपयोगकर्ता खोज व्यवहार से अत्यधिक संबंधित है (70% खोज आवश्यकताएँ कंपनियों, व्यक्तियों या स्थानों से जुड़ी होती हैं)।
गुण
गुण (Attribute) किसी एंटिटी की विशिष्ट विशेषता है, जो इस प्रश्न का उत्तर देता है: “इस एंटिटी की क्या विशेषताएँ हैं?”
यह एंटिटी और डेटा के बीच का “कनेक्टर” है, जो अमूर्त एंटिटी को मापने योग्य जानकारी में बदल देता है।
विभिन्न प्रकार की एंटिटी के मुख्य गुणों में उल्लेखनीय अंतर होता है (नीचे तालिका देखें):
| एंटिटी प्रकार | विशिष्ट गुण (उदाहरण) | मुख्य भूमिका |
|---|---|---|
| कंपनी/संगठन | स्थापना समय (foundingDate), मुख्यालय (headquarters), उद्योग (industry), कर्मचारियों की संख्या (employeeCount) | उपयोगकर्ता को कंपनी की बुनियादी स्थिति का तेज़ आकलन करने में मदद करता है |
| व्यक्ति | जन्म तिथि (birthDate), राष्ट्रीयता (nationality), पेशा (jobTitle), शैक्षिक पृष्ठभूमि (alumniOf) | उपयोगकर्ता को व्यक्ति की पहचान और सामाजिक भूमिका समझने में मदद करता है |
| स्थान | भौगोलिक निर्देशांक (geoCoordinates), जनसंख्या (population), देश (country), लैंडमार्क (landmark) | लोकेशन सेवाओं और यात्रा निर्णयों का समर्थन करता है |
| घटना | आरंभ समय (startDate), समाप्ति समय (endDate), प्रतिभागी (participant), स्थान (location) | घटना की समय-रेखा और मुख्य जानकारी प्रदान करता है |
गुणों की “पूर्णता” नॉलेज ग्राफ की प्रस्तुति को सीधे प्रभावित करती है। उदाहरण के लिए, यदि किसी कंपनी-एंटिटी में “मुख्यालय” गुण गायब हो, तो दाईं ओर का नॉलेज पैनल उसका भौगोलिक स्थान नहीं दिखा पाएगा;
यदि किसी व्यक्ति-एंटिटी में “जन्म तिथि” न हो, तो आयु गणना (जैसे “मस्क इस वर्ष 53 वर्ष के हैं”) संभव नहीं होगी।
Google की गुणों के लिए आवश्यकताएँ “सत्यापनयोग्यता” और “संगति” हैं:
- सत्यापनयोग्यता: गुण का मान प्राधिकृत स्रोतों से समर्थित होना चाहिए (जैसे कंपनी के “कर्मचारी संख्या” डेटा वार्षिक रिपोर्ट या आधिकारिक LinkedIn डेटा से आना चाहिए);
- संगति: एक ही एंटिटी का एक ही गुण अलग-अलग स्रोतों में समान होना चाहिए (जैसे आधिकारिक वेबसाइट और वार्षिक रिपोर्ट में “स्थापना समय” 1 महीने से अधिक न भिन्न हो)।
Schema.org के आँकड़ों के अनुसार, 8 से अधिक मुख्य गुणों को कवर करने वाली एंटिटी के नॉलेज ग्राफ में शामिल होने की संभावना, केवल 3 गुणों वाली एंटिटी की तुलना में 62% अधिक होती है (2023 वैश्विक वेबसाइट डेटा)।
संबंध
संबंध (Relationship) एंटिटी के बीच का जुड़ाव है, जो इस प्रश्न का उत्तर देता है: “इस एंटिटी का अन्य एंटिटी से क्या संबंध है?”
यह नॉलेज ग्राफ की “आत्मा” है, जो बिखरी हुई एंटिटी को तर्क-योग्य सूचना नेटवर्क में बुनती है।
संबंधों के प्रकार तीन बड़ी श्रेणियों में बाँटे जा सकते हैं (नीचे तालिका देखें), और प्रत्येक प्रकार विशिष्ट अर्थ-वहन करता है:
| संबंध प्रकार | परिभाषा | उदाहरण (टेस्ला के संदर्भ में) |
|---|---|---|
| गुण संबंध | एंटिटी और उसके अपने गुणों के बीच सीधा बंधन | टेस्ला-स्थापना समय-1 अप्रैल 2003 |
| एंटिटी-एंटिटी संबंध | एक एंटिटी और दूसरी एंटिटी के बीच सीधा संबंध | टेस्ला-संस्थापक-मार्टिन एबरहार्ड; टेस्ला-उत्पाद-iPhone? नहीं, iPhone Apple का उत्पाद है। सही उदाहरण है टेस्ला-उत्पाद-Model 3 |
| पदानुक्रम संबंध | एंटिटी और उसकी उप-श्रेणी/मूल-श्रेणी के बीच समावेशी संबंध | टेस्ला-मूल कंपनी-SpaceX? नहीं, सही उदाहरण है “इलेक्ट्रिक वाहन-उपश्रेणी-पूर्ण इलेक्ट्रिक वाहन” (टेस्ला पूर्ण इलेक्ट्रिक वाहनों में आती है) |
(नोट: ऊपर की तालिका में “टेस्ला-उत्पाद-iPhone” एक गलत उदाहरण था, जिसे सुधार दिया गया है।)
संबंधों की “सटीकता” नॉलेज ग्राफ की मुख्य चुनौती है। उदाहरण के लिए, किसी वेबपेज पर एक साथ “मस्क टेस्ला के संस्थापक हैं” और “मस्क टेस्ला के CEO हैं” जैसी दोनों तरह की जानकारी हो सकती है, और Google को अर्थ-विश्लेषण द्वारा इन दोनों संबंधों के प्रकार (founder बनाम CEO) को समझना पड़ता है, साथ ही यह सुनिश्चित करना होता है कि संबंध-श्रृंखला में कोई विरोधाभास न हो (जैसे “CEO” अनिवार्य रूप से “कर्मचारी” होगा, लेकिन “संस्थापक” का “कर्मचारी” होना ज़रूरी नहीं)।
Google के 2024 शोध से पता चलता है कि 3 से अधिक स्तरों वाली संबंध-श्रृंखला रखने वाली एंटिटी (जैसे “मस्क→टेस्ला→Model 3→बैटरी सप्लायर→Panasonic”) का CTR, केवल 1-स्तरीय संबंध रखने वाली एंटिटी की तुलना में 41% अधिक होता है—क्योंकि संबंध-श्रृंखला जितनी लंबी होगी, जानकारी उतनी अधिक पूर्ण होगी, और उपयोगकर्ता उतनी जल्दी आवश्यक उत्तर प्राप्त कर सकेगा।
नॉलेज ग्राफ बनाम पारंपरिक खोज परिणाम
जब उपयोगकर्ता “एलन मस्क की रॉकेट कंपनी” खोजता है, तो पारंपरिक खोज परिणाम 10 नीले लिंक दिखाते हैं (जैसे Wikipedia, प्रेस रिलीज़, कंपनी की आधिकारिक वेबसाइट);
लेकिन यदि नॉलेज ग्राफ उपलब्ध है, तो दाईं ओर सीधा एक कार्ड उभरता है, जिसमें “SpaceX (स्पेस एक्सप्लोरेशन टेक्नोलॉजीज़ कंपनी)”, “स्थापना समय: 14 मार्च 2002”, “मुख्यालय: हॉथॉर्न, कैलिफ़ोर्निया, USA”, “मुख्य प्रोजेक्ट: Falcon 9, Starship” जैसी महत्वपूर्ण जानकारी दिखाई देती है।
सूचना प्रस्तुति का स्वरूप
पारंपरिक खोज परिणामों का केंद्र “वेबपेज लिंक” होते हैं, और जानकारी “टेक्स्ट ब्लॉक” के रूप में मौजूद होती है;
जबकि नॉलेज ग्राफ सीधे “संरचित कार्ड” के रूप में महत्वपूर्ण जानकारी प्रस्तुत करता है।
इन दोनों में सूचना घनत्व और पठनीयता का अंतर स्पष्ट है (नीचे तालिका देखें):
| आयाम | पारंपरिक खोज परिणाम (उदाहरण: “टेस्ला मुख्यालय”) | नॉलेज ग्राफ (उसी खोज शब्द के लिए) |
|---|---|---|
| सूचना स्वरूप | 10 लिंक (जैसे Wikipedia, टेस्ला आधिकारिक वेबसाइट, प्रेस रिलीज़), जहाँ “मुख्यालय” से संबंधित जानकारी खोजने के लिए पेज खोलना पड़ता है। | सीधा कार्ड दिखाता है: टेस्ला (Tesla, Inc.) मुख्यालय: ऑस्टिन, टेक्सास, USA स्थापना समय: 1 अप्रैल 2003 उद्योग: इलेक्ट्रिक वाहन / स्वच्छ ऊर्जा |
| सूचना घनत्व | एक लिंक में औसतन 500–2000 शब्द होते हैं, लेकिन “मुख्यालय” की जानकारी अलग-अलग पैराग्राफ़ों में बिखरी हो सकती है (जैसे “2021 में टेस्ला ने मुख्यालय कैलिफ़ोर्निया से टेक्सास स्थानांतरित किया”)। | मुख्य जानकारी (नाम, मुख्यालय, स्थापना समय, उद्योग) 5–8 संरचित फ़ील्ड में संक्षिप्त की जाती है, बिना अतिरिक्त सामग्री के। |
| सूचना की अद्यतनता | वेबपेज के अपडेट समय पर निर्भर करती है (जैसे 2022 का प्रेस रिलीज़ 2023 में मुख्यालय बदलने के बाद का नया पता न बताता हो)। | Google रीयल-टाइम क्रॉलिंग + बहु-स्रोत सत्यापन के माध्यम से नवीनतम जानकारी को प्राथमिकता देता है (जैसे 2024 में “टेस्ला मुख्यालय” खोजने पर सीधे “ऑस्टिन” दिखना)। |
Search Engine Journal की 2024 उपयोगकर्ता शोध के अनुसार, 78% उपयोगकर्ताओं ने कहा कि “नॉलेज ग्राफ कार्ड्स उत्तर तेजी से ढूँढने में मदद करते हैं”, जबकि पारंपरिक खोज परिणामों में केवल 32% उपयोगकर्ता पहली लिंक में लक्ष्य जानकारी ढूँढ पाते हैं—बाकियों को 2–3 लिंक क्लिक करनी पड़ती हैं, जिससे औसत समय 15 सेकंड बढ़ जाता है।
उपयोगकर्ता व्यवहार
हम दो विशिष्ट खोज परिदृश्यों की तुलना करते हैं:
परिदृश्य 1: सरल तथ्यात्मक प्रश्न (जैसे “आइंस्टीन का जन्म वर्ष”)
- पारंपरिक खोज: उपयोगकर्ता Wikipedia (41%), Encyclopaedia Britannica (23%), विज्ञान लोकप्रिय ब्लॉग (18%) पर क्लिक करता है; औसत ठहराव समय 2 मिनट 17 सेकंड होता है; 62% उपयोगकर्ता उत्तर मिलते ही पेज बंद कर देते हैं, 38% अन्य लिंक देखते रहते हैं।
- नॉलेज ग्राफ: उपयोगकर्ता सीधे दाईं ओर का कार्ड देखता है (89%), ठहराव समय केवल 23 सेकंड होता है; 75% कार्ड देखने के बाद पेज बंद कर देते हैं, 15% “और जानें” पर क्लिक कर Wikipedia जाते हैं, 10% कोई अगली क्रिया नहीं करते (स्रोत: Moz 2024 उपयोगकर्ता व्यवहार ट्रैकिंग)।
परिदृश्य 2: कंपनी जानकारी खोज (जैसे “Apple कंपनी मुख्यालय”)
- पारंपरिक खोज: उपयोगकर्ता Apple की आधिकारिक वेबसाइट (35%), Wikipedia (28%), टेक मीडिया (जैसे TechCrunch, 19%) पर क्लिक करता है; औसत क्लिक 1.8 होते हैं; बाउंस रेट 57% होती है।
- नॉलेज ग्राफ: उपयोगकर्ता सीधे कार्ड देखता है (72%), क्लिक 0.9 तक घट जाते हैं, बाउंस रेट 39% हो जाती है; इनमें से 41% “आधिकारिक वेबसाइट” बटन पर क्लिक करते हैं और 28% “उत्पाद” बटन पर क्लिक करते हैं (स्रोत: Google Search Console 2024 कॉर्पोरेट रिपोर्ट)।
“कीवर्ड मिलान” से “अर्थ-समझ” तक एल्गोरिद्मिक उन्नयन
पारंपरिक खोज का मूल है कीवर्ड मिलान + PageRank रैंकिंग: Google क्रॉलर वेबपेज पकड़ता है, पाठ में मौजूद कीवर्ड (जैसे “टेस्ला”, “मुख्यालय”) निकालता है, कीवर्ड घनत्व की गणना करता है, फिर लिंक वज़न (अधिक उच्च-गुणवत्ता वेबसाइट लिंक वाले पेज ऊँचे रैंक होते हैं) के साथ संयोजन करके संबंधित लिंक सूची लौटाता है।
नॉलेज ग्राफ की तकनीकी लॉजिक कहीं अधिक जटिल है, और इसमें चार प्रमुख चरण होते हैं: एंटिटी पहचान→संरचित निष्कर्षण→अर्थ-संबंध→प्राधिकृत सत्यापन (जैसा नीचे दिखाया गया है)
उपयोगकर्ता खोज शब्द → Google क्रॉलर वेबभर से टेक्स्ट पकड़ता है → NLP मॉडल एंटिटी पहचानता है (जैसे “टेस्ला”) → गुण निकालता है (मुख्यालय, स्थापना समय) → अन्य एंटिटी जोड़ता है (जैसे “टेक्सास”, “2021”) → बहु-स्रोत संगति सत्यापित करता है (आधिकारिक वेबसाइट, Wikipedia, उद्योग डेटाबेस) → संरचित कार्ड बनाता है → रैंक कर प्रदर्शित करता है
तकनीकी अंतर सीधे दोनों की “सूचना प्रसंस्करण क्षमता” को अलग बनाता है:
- पारंपरिक खोज: “लॉन्ग-टेल कीवर्ड” (जैसे “2010 में Tesla Model S रिलीज़ समय”) संभालने में अच्छी है, लेकिन अर्थ नहीं समझती (जैसे यदि उपयोगकर्ता “मस्क की कार” खोजे, तो पारंपरिक खोज मस्क की व्यक्तिगत जीवनी दिखा सकती है)।
- नॉलेज ग्राफ: एंटिटी संबंधों के माध्यम से “अर्थ-आधारित अनुमान” करता है (जैसे “मस्क की कार” → “मस्क-संस्थापक-टेस्ला” → “टेस्ला मॉडल्स”), और इस तरह उपयोगकर्ता के इरादे का अधिक सटीक मिलान करता है (स्रोत: Google 2023 AI तकनीकी श्वेतपत्र)।
वेबसाइट पर प्रभाव
1. एक्सपोज़र प्राथमिकता
Google के 2024 SERP लेआउट डेटा के अनुसार, नॉलेज ग्राफ कार्ड आम तौर पर खोज पृष्ठ के दाईं 1/3 हिस्से (मोबाइल पर शीर्ष) पर कब्ज़ा करते हैं, और 70% सरल प्रश्न-आधारित खोजों को कवर करते हैं। यदि किसी कंपनी की मुख्य एंटिटी (जैसे ब्रांड नाम या उत्पाद नाम) शामिल हो जाती है, तो खोज परिणामों में उसकी आधिकारिक वेबसाइट की “दृश्य उपस्थिति” काफी बढ़ जाती है—भले ही वेबसाइट की ऑर्गेनिक रैंकिंग 5वें पेज तक गिर जाए, उपयोगकर्ता फिर भी नॉलेज ग्राफ कार्ड के माध्यम से उसे पा सकता है।
2. सूचना की सटीकता
यदि आधिकारिक वेबसाइट पर चिह्नित “स्थापना समय” Wikipedia से टकराता है, तो Google उस एंटिटी को “कम विश्वसनीयता” के रूप में चिह्नित करेगा; न केवल नॉलेज ग्राफ उसे प्रदर्शित नहीं करेगा, बल्कि वेबसाइट की ऑर्गेनिक रैंकिंग भी गिर सकती है। Moz 2024 के आँकड़ों के अनुसार, असंगत जानकारी वाली कंपनियों की आधिकारिक वेबसाइटें औसतन 22 स्थान नीचे चली जाती हैं, और उनकी CTR 19% घट जाती है।
3. उपयोगकर्ता प्रतिधारण
यदि नॉलेज ग्राफ कार्ड उपयोगकर्ता की मुख्य आवश्यकताओं (जैसे कंपनी के “उत्पाद”, “संपर्क जानकारी”, “ताज़ा अपडेट”) को कवर करता है, तो उपयोगकर्ता सीधे कार्ड से निर्णय ले सकता है (जैसे वेबसाइट नंबर पर कॉल करना, उत्पाद खरीदना); यदि कार्ड की जानकारी अधूरी है (जैसे “उत्पाद” चिह्नित नहीं किया गया), तो उपयोगकर्ता को आधिकारिक वेबसाइट लिंक पर जाना पड़ेगा, और उस समय “सूचना की पूर्णता” की जिम्मेदारी वेबसाइट पर होगी।
SERP में नॉलेज ग्राफ की भूमिका
Google खोज परिणाम पृष्ठ (SERP) के दाईं ओर या शीर्ष पर दिखने वाला नॉलेज ग्राफ कार्ड उपयोगकर्ता के लिए “सीधा उत्तर मार्ग” है।
2023 के आँकड़ों के अनुसार, 70% सरल तथ्यात्मक खोजें (जैसे “टेस्ला का मुख्यालय कहाँ है” या “आइंस्टीन के जन्म-मृत्यु वर्ष”) सीधे नॉलेज ग्राफ के माध्यम से हल हो जाती हैं; उपयोगकर्ता का औसत ठहराव समय केवल 23 सेकंड होता है, जो पारंपरिक खोज परिणाम पृष्ठ की तुलना में 40% कम है।
उपयोगकर्ता की पहली नज़र का “उत्तर विंडो”
जब उपयोगकर्ता “टेस्ला 2023 बिक्री” खोजता है, तो Google SERP के दाईं ओर (डेस्कटॉप) या शीर्ष (मोबाइल) पर एक कार्ड उभरता है, जिस पर स्पष्ट रूप से लिखा होता है:
“टेस्ला (Tesla, Inc.) 2023 वैश्विक बिक्री: 18.4 लाख वाहन”, “मुख्य मॉडल: Model Y (12 लाख)”, “बाजार हिस्सेदारी: 12.6% (वैश्विक नई ऊर्जा वाहन)”।
उपयोगकर्ता दृष्टि का “स्वर्ण क्षेत्र”
Google की 2024 में प्रकाशित “SERP इंटरफ़ेस डिज़ाइन गाइड” स्पष्ट रूप से बताती है कि नॉलेज ग्राफ कार्ड का मुख्य लक्ष्य है “उपयोगकर्ता की प्राकृतिक दृष्टि-केंद्रित क्षेत्र में, सबसे छोटे रास्ते से महत्वपूर्ण जानकारी पहुँचाना”।
1. डेस्कटॉप: स्क्रीन के दाहिने 1/3 हिस्से का “सूचना क्षेत्र”
डेस्कटॉप पर (उदाहरण के लिए 1920×1080 रिज़ॉल्यूशन), नॉलेज ग्राफ कार्ड सामान्यतः परिणाम पृष्ठ के दाईं ओर स्थित होता है, जिसकी चौड़ाई लगभग 300–400px (स्क्रीन चौड़ाई का लगभग 25%–33%) होती है, और ऊँचाई सामग्री के अनुसार बदलती है (सामान्यतः 400–600px)।
इस स्थिति का चुनाव उपयोगकर्ता दृष्टि हीटमैप डेटा पर आधारित है:
- आँख-ट्रैकिंग परीक्षणों से पता चलता है कि SERP देखते समय उपयोगकर्ता की नज़र पहले बाएँ शीर्ष पर जाती है (शीर्ष 3 ऑर्गेनिक लिंक), लेकिन दाईं ओर के क्षेत्र में “सूचना पर ठहरने का समय” बाईं ओर के गैर-प्रथम लिंक की तुलना में 37% अधिक होता है (EyeQuant 2024 अध्ययन);
- 300–400px की चौड़ाई 5–8 महत्वपूर्ण सूचनाएँ (जैसे कंपनी का नाम, स्थापना समय, मुख्यालय) समायोजित कर सकती है, बिना बाईं ओर के लिंक के पढ़ने की जगह को दबाए (Google 2023 A/B परीक्षण डेटा)।
2. मोबाइल: शीर्ष का “सूचना शॉर्टकट”
मोबाइल पर (उदाहरण के लिए iPhone 15 Pro, 390×844 रिज़ॉल्यूशन), नॉलेज ग्राफ कार्ड सामान्यतः परिणाम पृष्ठ के शीर्ष पर होता है, जिसकी ऊँचाई लगभग 200–300px (स्क्रीन ऊँचाई का लगभग 25%) और चौड़ाई स्क्रीन के बराबर (390px) होती है।
यह डिज़ाइन मोबाइल उपयोगकर्ताओं की “तेज़ स्क्रॉल” आदत से प्रेरित है:
- मोबाइल उपयोगकर्ता औसतन 1.2 बार स्क्रॉल करके पहले 3 लिंक पार कर जाते हैं (App Annie 2024 आँकड़े), जबकि शीर्ष नॉलेज ग्राफ कार्ड की “पहली स्क्रीन पर दृश्यता” 92% तक होती है (Google आंतरिक परीक्षण);
- 200–300px की ऊँचाई “मुख्य गुण + 1 एक्शन बटन” (जैसे “आधिकारिक वेबसाइट”, “उत्पाद”) को ठीक से कवर करती है, और सूचना अधिभार से बचाती है (यदि उपयोगकर्ता 300px से अधिक स्क्रॉल करता है, तो बाउंस रेट 19% बढ़ जाती है)।
सामग्री संरचना और फ़ील्ड प्राथमिकता
Google ने अरबों खोज-लॉग का विश्लेषण करके विभिन्न प्रकार के खोज शब्दों के लिए “फ़ील्ड प्राथमिकता” का निष्कर्ष निकाला है (नीचे तालिका देखें)।
1. कंपनी/संगठन प्रकार के खोज शब्द (जैसे “Apple कंपनी”)
जब उपयोगकर्ता किसी कंपनी को खोजता है, तो उसकी मुख्य आवश्यकता होती है “कंपनी की बुनियादी स्थिति की पुष्टि + कार्रवाई का प्रवेश द्वार प्राप्त करना”, इसलिए कार्ड सामग्री “मूल गुण + आधिकारिक वेबसाइट प्रवेश” को प्राथमिकता देती है:
| फ़ील्ड प्रकार | विशिष्ट फ़ील्ड (उदाहरण) | प्रदर्शन प्राथमिकता (उच्च से निम्न) | डेटा समर्थन (Google 2023) |
|---|---|---|---|
| मूल गुण | नाम (Apple कंपनी), स्थापना समय (1 अप्रैल 1976), मुख्यालय (क्यूपर्टिनो, कैलिफ़ोर्निया, USA), उद्योग (तकनीक / उपभोक्ता इलेक्ट्रॉनिक्स) | 1–4 स्थान | 82% कंपनी कार्ड में पहले 4 आइटम शामिल हैं |
| मुख्य पहचान | आधिकारिक वेबसाइट लिंक (Apple.com), स्टॉक कोड (AAPL) | 5–6 स्थान | 75% कंपनी कार्ड में आधिकारिक वेबसाइट बटन है |
| गतिशील जानकारी | हाल की जानकारी (जैसे “2023 राजस्व 383.2 बिलियन USD”, “2024 WWDC में Vision Pro जारी”) | 7–8 स्थान | 60% कंपनी कार्ड में 1 गतिशील अपडेट शामिल है |
उदाहरण के लिए, “Apple कंपनी” खोजने पर कार्ड पहले “नाम-स्थापना समय-मुख्यालय-उद्योग” दिखाएगा, फिर आधिकारिक वेबसाइट लिंक और अंत में 2023 राजस्व जैसी गतिशील जानकारी जोड़ेगा।
2. व्यक्ति प्रकार के खोज शब्द (जैसे “एलन मस्क”)
जब उपयोगकर्ता किसी व्यक्ति को खोजता है, तो उसकी मुख्य आवश्यकता होती है “पहचान की पुष्टि + सामाजिक भूमिका को समझना”, इसलिए कार्ड सामग्री “पहचान टैग + प्रतिनिधि उपलब्धि” को प्राथमिकता देती है:
| फ़ील्ड प्रकार | विशिष्ट फ़ील्ड (उदाहरण) | प्रदर्शन प्राथमिकता (उच्च से निम्न) | डेटा समर्थन (Google 2023) |
|---|---|---|---|
| पहचान टैग | नाम (एलन मस्क), जन्म तिथि (28 जून 1971), राष्ट्रीयता (अमेरिकी), पेशा (उद्यमी / इंजीनियर) | 1–4 स्थान | 75% व्यक्ति कार्ड में पहले 4 आइटम शामिल हैं |
| सामाजिक भूमिका | प्रतिनिधि कंपनियाँ (Tesla CEO, SpaceX संस्थापक), सम्मान (जैसे 2023 का Time Person of the Year) | 5–6 स्थान | 68% व्यक्ति कार्ड में 2–3 भूमिकाएँ शामिल हैं |
| संबद्ध एंटिटी | संबद्ध व्यक्ति (जैसे ग्राइम्स, जीवनसाथी/साथी), संबद्ध घटना (जैसे 2023 X प्लेटफ़ॉर्म अधिग्रहण) | 7–8 स्थान | 52% व्यक्ति कार्ड में 1–2 संबंध शामिल हैं |
उदाहरण के लिए, “एलन मस्क” खोजने पर कार्ड पहले “नाम-जन्म तिथि-राष्ट्रीयता-पेशा” दिखाएगा, फिर उनकी मुख्य कॉर्पोरेट भूमिकाएँ सूचीबद्ध करेगा, और अंत में संबद्ध घटनाएँ जोड़ेगा।
3. उत्पाद/सेवा प्रकार के खोज शब्द (जैसे “iPhone 15”)
जब उपयोगकर्ता किसी उत्पाद को खोजता है, तो उसकी मुख्य आवश्यकता होती है “उत्पाद जानकारी की पुष्टि + खरीद निर्णय में सहायता”, इसलिए कार्ड सामग्री “मुख्य पैरामीटर + खरीद प्रवेश” को प्राथमिकता देती है:
| फ़ील्ड प्रकार | विशिष्ट फ़ील्ड (उदाहरण) | प्रदर्शन प्राथमिकता (उच्च से निम्न) | डेटा समर्थन (Google 2023) |
|---|---|---|---|
| मुख्य पैरामीटर | नाम (iPhone 15), रिलीज़ समय (सितंबर 2023), प्रारंभिक मूल्य (799 डॉलर), स्क्रीन आकार (6.1 इंच) | 1–4 स्थान | 85% उत्पाद कार्ड में पहले 4 आइटम शामिल हैं |
| मुख्य विशेषताएँ | विशेष फ़ीचर (Dynamic Island, A16 चिप), बैटरी बैकअप (20 घंटे वीडियो प्लेबैक) | 5–6 स्थान | 72% उत्पाद कार्ड में 2–3 फ़ीचर शामिल हैं |
| खरीद प्रवेश | खरीद लिंक (Apple आधिकारिक वेबसाइट, Amazon), स्टॉक स्थिति (“अमेरिकी आधिकारिक वेबसाइट पर उपलब्ध”) | 7–8 स्थान | 65% उत्पाद कार्ड में खरीद बटन शामिल है |
उदाहरण के लिए, “iPhone 15” खोजने पर कार्ड पहले “नाम-रिलीज़ समय-प्रारंभिक मूल्य-स्क्रीन आकार” दिखाएगा, फिर Dynamic Island जैसी प्रमुख विशेषताओं को उभारेगा, और अंत में आधिकारिक खरीद लिंक देगा।
रीयल-टाइम अपडेट तंत्र
1. रीयल-टाइम क्रॉलिंग
Google क्रॉलर (Googlebot) द्वारा उच्च-ध्यान वाली एंटिटी (जैसे Fortune Global 500 कंपनियाँ, लोकप्रिय उत्पाद) पर क्रॉलिंग आवृत्ति पारंपरिक “सप्ताह में 1 बार” से बढ़कर “घंटे में 1 बार” हो गई है (Google 2024 खोज एल्गोरिदम अपडेट विवरण)।
उदाहरण के लिए, जब अक्टूबर 2023 में टेस्ला ने Cybertruck जारी किया, तो Google क्रॉलर ने कार्यक्रम समाप्त होने के 15 मिनट के भीतर आधिकारिक वेबसाइट, TechCrunch और Reuters की प्रेस रिलीज़ पकड़ लीं और सूचना सत्यापन प्रक्रिया शुरू कर दी।
2. बहु-स्रोत सत्यापन
रीयल-टाइम अपडेट की गई जानकारी को “बहु-स्रोत क्रॉस सत्यापन” से गुजरना पड़ता है। उदाहरण के लिए, जब टेस्ला आधिकारिक वेबसाइट ने घोषणा की कि “2023 Q3 डिलीवरी 4.35 लाख वाहन” रही, तो Google एक साथ निम्न स्रोतों को पकड़ता है:
- आधिकारिक वेबसाइट घोषणा (प्राधिकृत स्रोत, वज़न 90%);
- अमेरिकी SEC की 10-Q तिमाही रिपोर्ट (प्राधिकृत स्रोत, वज़न 85%);
- Bloomberg और Reuters की उद्योग रिपोर्टें (तीसरे पक्ष के स्रोत, वज़न 70%)।
यदि तीनों स्रोतों के “डिलीवरी” डेटा में संगति हो (त्रुटि ≤2%), तो नॉलेज ग्राफ कार्ड तुरंत अपडेट हो जाता है;
यदि विरोधाभास हो (जैसे आधिकारिक वेबसाइट 4.35 लाख लिखे और SEC 4.28 लाख), तो अपडेट को अधिकतम 24 घंटे तक रोका जाता है, जब तक विरोधाभास हल न हो जाए (Google 2023 “रीयल-टाइम नॉलेज ग्राफ अपडेट गाइड”)।
3. तेज़ रेंडरिंग
सत्यापित जानकारी को तेज़ी से नॉलेज ग्राफ कार्ड के रूप में प्रस्तुत किया जाता है। Google 2024 तकनीकी परीक्षणों के अनुसार, सत्यापन पूर्ण होने से लेकर कार्ड लाइव होने तक औसत समय 4.2 मिनट है (उच्च-ध्यान वाली एंटिटी के लिए), और सामान्य एंटिटी के लिए 18 मिनट तक।
उदाहरण के लिए, 2023 के नोबेल फिज़ियोलॉजी या मेडिसिन पुरस्कार की घोषणा के बाद, Google ने “काटालिन कारिको” का नॉलेज ग्राफ कार्ड केवल 5 मिनट में अपडेट कर दिया, और उसमें “2023 नोबेल पुरस्कार विजेता” का नया गुण जोड़ दिया।
“लिंक पर क्लिक” से “सीधा प्राप्ति” तक
जब उपयोगकर्ता “2023 नोबेल रसायन विज्ञान पुरस्कार विजेता” खोजता है, तो पारंपरिक खोज परिणाम 10 नीले लिंक दिखाते हैं (जैसे Wikipedia, प्रेस रिलीज़, शैक्षणिक वेबसाइटें), और उपयोगकर्ता को “विजेताओं के नाम” और “पुरस्कार की उपलब्धि” खोजने के लिए एक-एक करके क्लिक करना पड़ता है;
लेकिन जब नॉलेज ग्राफ उपलब्ध होता है, तो दाईं ओर का कार्ड सीधे दिखाता है: “2023 का नोबेल रसायन विज्ञान पुरस्कार अमेरिकी वैज्ञानिक Jennifer Doudna और फ़्रांसीसी वैज्ञानिक Emmanuelle Charpentier को CRISPR जीन एडिटिंग तकनीक में क्रांतिकारी योगदान के लिए प्रदान किया गया।”
परिदृश्य तुलना
हमने तीन उच्च-आवृत्ति खोज परिदृश्य (सरल तथ्य, कंपनी जानकारी, उत्पाद पूछताछ) चुने, ताकि पारंपरिक खोज और नॉलेज ग्राफ के तहत उपयोगकर्ता व्यवहार के अंतर की तुलना की जा सके (स्रोत: Moz 2024 उपयोगकर्ता व्यवहार ट्रैकिंग, Google Search Console 2024 कॉर्पोरेट रिपोर्ट)।
परिदृश्य 1: सरल तथ्यात्मक खोज (जैसे “आइंस्टीन के जन्म-मृत्यु वर्ष”)
पारंपरिक खोज व्यवहार श्रृंखला (समय: 2 मिनट 17 सेकंड):
उपयोगकर्ता कीवर्ड दर्ज करता है → Wikipedia (41%) / Encyclopaedia Britannica (23%) / विज्ञान लोकप्रिय ब्लॉग (18%) पर क्लिक करता है → “जन्म-मृत्यु वर्ष” खोजने के लिए पेज स्क्रॉल करता है (औसतन 3 स्क्रॉल) → जानकारी की पुष्टि करता है (जैसे “14 मार्च 1879 – 18 अप्रैल 1955”) → पेज बंद करता है (62%) या अन्य लिंक ब्राउज़ करता है (38%)।
नॉलेज ग्राफ व्यवहार श्रृंखला (समय: 23 सेकंड):
उपयोगकर्ता कीवर्ड दर्ज करता है → सीधे दाईं ओर का कार्ड देखता है (89%) → “जन्म-मृत्यु वर्ष”, “राष्ट्रीयता”, “मुख्य योगदान” को तेज़ी से स्कैन करता है (औसतन 3 फ़ील्ड पर दृष्टि टिकती है) → पेज बंद करता है (75%) या “और जानें” पर क्लिक कर Wikipedia पर जाता है (15%)।
मुख्य अंतर:
- क्लिक संख्या: 1.8 (पारंपरिक) से घटकर 0 (नॉलेज ग्राफ सीधे प्रदर्शित करता है);
- जानकारी प्राप्त करने की दक्षता: “सक्रिय फ़िल्टरिंग” से “निष्क्रिय ग्रहण” में बदल जाती है; उपयोगकर्ता को यह तय नहीं करना पड़ता कि “किस लिंक में उत्तर है”;
- बाउंस रेट: 57% (पारंपरिक) से घटकर 25% (नॉलेज ग्राफ)।
परिदृश्य 2: कंपनी जानकारी खोज (जैसे “Apple कंपनी मुख्यालय”)
पारंपरिक खोज व्यवहार श्रृंखला (औसत 1.8 क्लिक, बाउंस रेट 57%):
उपयोगकर्ता कीवर्ड दर्ज करता है → Apple आधिकारिक वेबसाइट (35%) / Wikipedia (28%) / टेक मीडिया (जैसे TechCrunch, 19%) पर क्लिक करता है → आधिकारिक वेबसाइट के होमपेज पर “हमसे संपर्क करें” ढूँढता है (औसतन 5 स्क्रॉल) या Wikipedia के “मुख्यालय” फ़ील्ड में जानकारी ढूँढता है → पते की पुष्टि करता है (जैसे “क्यूपर्टिनो, कैलिफ़ोर्निया, USA”) → पेज बंद करता है (57%) या अन्य लिंक पर जाता है (43%)।
नॉलेज ग्राफ व्यवहार श्रृंखला (औसत 0.9 क्लिक, बाउंस रेट 39%):
उपयोगकर्ता कीवर्ड दर्ज करता है → सीधे कार्ड देखता है (72%) → “मुख्यालय” फ़ील्ड पर दृष्टि टिकाता है (91%) → कार्ड के “आधिकारिक वेबसाइट” बटन पर क्लिक करता है (41%) और सीधे वेबसाइट पर जाता है, या “उत्पाद” बटन पर क्लिक करता है (28%) और iPhone 15 पेज देखता है।
मुख्य अंतर:
- सूचना लोकेशन लागत: “पेज को 5 बार स्क्रॉल करने” से घटकर “1 फ़ील्ड को देखने” तक;
- एक्शन कन्वर्ज़न: कार्ड के “आधिकारिक वेबसाइट” और “उत्पाद” बटन उपयोगकर्ता को सीधे मार्गदर्शित करते हैं; इनकी क्लिक दर पारंपरिक खोज के “होमपेज लिंक” से 2.3 गुना अधिक है (Google आंतरिक परीक्षण);
- निर्णय आत्मविश्वास: जब कार्ड “प्राधिकृत स्रोत” (जैसे Wikipedia) दिखाता है, तो उपयोगकर्ता का जानकारी पर विश्वास 44% बढ़ जाता है (Moz 2024 शोध)।
परिदृश्य 3: उत्पाद पूछताछ (जैसे “iPhone 15 प्रारंभिक मूल्य”)
पारंपरिक खोज व्यवहार श्रृंखला (औसत ठहराव समय 2 मिनट 05 सेकंड):
उपयोगकर्ता कीवर्ड दर्ज करता है → Apple आधिकारिक वेबसाइट (42%) / Amazon (25%) / टेक मीडिया (जैसे The Verge, 18%) पर क्लिक करता है → आधिकारिक वेबसाइट के “प्राइसिंग” पेज पर “iPhone 15” ढूँढता है (औसतन 4 स्क्रॉल) या Amazon पर कीमतों की तुलना करता है → प्रारंभिक मूल्य नोट करता है (जैसे “799 डॉलर”) → पेज बंद करता है (68%) या कीमतों की तुलना जारी रखता है (32%)।
नॉलेज ग्राफ व्यवहार श्रृंखला (औसत ठहराव समय 28 सेकंड):
उपयोगकर्ता कीवर्ड दर्ज करता है → सीधे कार्ड देखता है (85%) → “प्रारंभिक मूल्य” और “रिलीज़ समय” फ़ील्ड पर दृष्टि टिकाता है (89%) → कार्ड के “खरीद लिंक” पर क्लिक करता है (65%) और सीधे आधिकारिक वेबसाइट या Amazon पर जाता है, या “मुख्य विशेषताएँ” पर क्लिक करता है (22%) और Dynamic Island जैसे पैरामीटर देखता है।
मुख्य अंतर:
- मूल्य तुलना लागत: “3 पेजों में कीमत तुलना” से घटकर “1 कार्ड में पूरी”;
- खरीद निर्णय गति: “10 मिनट से अधिक” से घटकर “30 सेकंड के भीतर”, और ऑर्डर दर 31% बढ़ जाती है (ई-कॉमर्स डेटा विश्लेषण प्लेटफ़ॉर्म Statista 2024);
- सूचना अद्यतनता: कार्ड “प्रारंभिक मूल्य” को रीयल-टाइम में अपडेट करता है (जैसे 2024 प्रमोशनल एडजस्टमेंट), जिससे उपयोगकर्ता पुरानी जानकारी के कारण ऑफ़र नहीं खोता।
नॉलेज ग्राफ तेज़ क्यों है
“सूचना अधिभार” → “सटीक छनाई”
पारंपरिक खोज परिणाम पृष्ठ में औसतन 10 लिंक होते हैं, और प्रत्येक लिंक में 500–2000 शब्द होते हैं, लेकिन उपयोगकर्ता को चाहिए महत्वपूर्ण जानकारी (जैसे “मुख्यालय” या “प्रारंभिक मूल्य”) अलग-अलग पैराग्राफ़ों या अलग-अलग लिंक में बिखरी हो सकती है।
नॉलेज ग्राफ संरचित निष्कर्षण + अर्थ-संबंध के माध्यम से महत्वपूर्ण जानकारी को 5–8 फ़ील्ड में संक्षिप्त कर देता है, जिससे उपयोगकर्ता को अतिरिक्त पाठ में “समुद्र में सुई” नहीं ढूँढनी पड़ती।
उदाहरण के लिए, “टेस्ला 2023 बिक्री” खोजने पर पारंपरिक खोज में 3 अलग-अलग प्रेस रिलीज़ (Q1, Q2, Q3 बिक्री) पढ़कर वार्षिक डेटा जोड़ना पड़ता है;
जबकि नॉलेज ग्राफ कार्ड सीधे “2023 वैश्विक बिक्री 18.4 लाख वाहन” दिखाता है, और उपयोगकर्ता 3 सेकंड में पूरी जानकारी प्राप्त कर लेता है।
“इरादा अस्पष्ट” → “सटीक मिलान”
उपयोगकर्ता अक्सर अस्पष्ट अभिव्यक्ति (जैसे “मस्क की कार”) के साथ खोज करता है, जिससे पारंपरिक खोज अप्रासंगिक परिणाम (जैसे मस्क की व्यक्तिगत जीवनी) लौटा सकती है।
नॉलेज ग्राफ एंटिटी संबंध विश्लेषण के माध्यम से “मस्क” की मुख्य संबंधित एंटिटी (टेस्ला, SpaceX) पहचानता है, और उपयोगकर्ता इरादे (“मस्क द्वारा सह-स्थापित कार कंपनी”) का अनुमान लगाता है, और अंततः टेस्ला के उत्पाद की जानकारी दिखाता है।
Google के 2023 AI तकनीकी श्वेतपत्र के अनुसार, नॉलेज ग्राफ की अस्पष्ट खोज शब्दों को समझने की सटीकता 81% तक पहुँचती है (जबकि पारंपरिक खोज केवल 57% तक), और “अप्रासंगिक जानकारी” के कारण उपयोगकर्ता द्वारा पेज बंद करने की संभावना 42% से घटकर 19% हो जाती है।
“विश्वास की कमी” → “प्राधिकृत समर्थन”
पारंपरिक खोज परिणामों में उपयोगकर्ता के लिए यह तय करना कठिन होता है कि कौन-सी जानकारी विश्वसनीय है (जैसे एक ब्लॉग लिखता है “टेस्ला ने 2023 में 20 लाख वाहन बेचे”, जबकि आधिकारिक वेबसाइट कहती है “18.4 लाख”)।
नॉलेज ग्राफ बहु-स्रोत सत्यापन तंत्र के माध्यम से केवल वही जानकारी दिखाता है जो “कम-से-कम 3 प्राधिकृत स्रोतों में समान” हो (जैसे आधिकारिक वेबसाइट, Wikipedia, उद्योग डेटाबेस), और कार्ड पर “प्राधिकृत स्रोत” (जैसे “डेटा: टेस्ला 2023 वार्षिक रिपोर्ट”) भी दर्शाता है, जिससे उपयोगकर्ता का विश्वास 58% बढ़ता है (Moz 2024 उपयोगकर्ता अध्ययन)।
नॉलेज ग्राफ उपयोगकर्ता के इरादे को कैसे “समझता” है
“कीवर्ड मिलान” से “अर्थ-समझ” तक
Google BERT जैसे प्री-ट्रेंड मॉडल का उपयोग करके खोज शब्दों के “अर्थ-इरादे” का विश्लेषण करता है (जैसे “टेस्ला मुख्यालय कहाँ है” में “मुख्यालय” का मतलब “भौगोलिक स्थान” की आवश्यकता है, और “iPhone 15 प्रारंभिक मूल्य” में “प्रारंभिक मूल्य” का मतलब “कीमत” की आवश्यकता है)।
यह प्रकार का मॉडल “निहित इरादा” भी पहचान सकता है—उदाहरण के लिए, यदि उपयोगकर्ता “मस्क की रॉकेट कंपनी” खोजता है, तो मॉडल “मस्क-संस्थापक-SpaceX” से संबंध जोड़ेगा, न कि केवल “मस्क” की व्यक्तिगत विश्वकोश प्रविष्टि से।
Google के 2024 परीक्षण डेटा के अनुसार, इरादा पहचान मॉडल की सटीकता 2019 के 62% से बढ़कर 2024 में 89% हो गई, और “इरादा न मिलने” के कारण उपयोगकर्ता के बाहर निकलने की संभावना 34% कम हुई।
“असंरचित पाठ” से “मशीन-पठनीय फ़ील्ड” तक
नॉलेज ग्राफ NLP तकनीकों (जैसे एंटिटी पहचान और गुण निष्कर्षण) के माध्यम से वेबपेजों के “असंरचित पाठ” को “संरचित फ़ील्ड” में बदलता है (जैसे “टेस्ला-मुख्यालय-टेक्सास”)।
उदाहरण के लिए, यदि किसी वेबपेज पर लिखा हो “टेस्ला का मुख्यालय ऑस्टिन, टेक्सास, USA में स्थित है”, तो इसे निकाला जाएगा:
- एंटिटी: टेस्ला
- गुण: मुख्यालय
- मान: ऑस्टिन, टेक्सास
इस निष्कर्षण की सटीकता एंटिटी प्रकार के अनुसार अलग-अलग होती है (कंपनी जानकारी 92%, व्यक्ति जानकारी 85%, उत्पाद जानकारी 88%), लेकिन यह कार्ड पर जानकारी दिखाने के लिए पर्याप्त है (Google 2023 तकनीकी श्वेतपत्र)।
“स्थिर परिणाम” से “रीयल-टाइम जानकारी” तक
नॉलेज ग्राफ “रीयल-टाइम क्रॉलिंग + बहु-स्रोत सत्यापन” तंत्र के माध्यम से यह सुनिश्चित करता है कि कार्ड की जानकारी वास्तविक दुनिया के साथ समकालिक रहे। उदाहरण के लिए, जब टेस्ला ने 2023 में “मुख्यालय टेक्सास स्थानांतरित” करने की घोषणा की, तो Google क्रॉलर ने 2 घंटे के भीतर आधिकारिक वेबसाइट, Reuters और Bloomberg की रिपोर्टें पकड़ लीं, सूचना संगति सत्यापित की (आधिकारिक वेबसाइट और Reuters समान थे), और 4 घंटे के भीतर “टेस्ला” से संबंधित सभी खोज परिणामों के नॉलेज ग्राफ कार्ड अपडेट कर दिए।
Google 2024 तकनीकी परीक्षणों के अनुसार, उच्च-ध्यान वाली एंटिटी (जैसे Fortune Global 500 कंपनियाँ) की जानकारी अपडेट होने का चक्र पारंपरिक “सप्ताह में 1 बार” से घटकर “घंटे-स्तर” तक आ गया है, और उपयोगकर्ता द्वारा प्राप्त सूचना की देरी “3 दिन” से घटकर “2 घंटे” रह गई है।
नॉलेज ग्राफ उत्तर को “सटीक रूप से आउटपुट” कैसे करता है
जब उपयोगकर्ता “2023 टेस्ला शंघाई गीगाफैक्ट्री उत्पादन” खोजता है, तो Google नॉलेज ग्राफ कार्ड सीधे दिखा सकता है: “2023 में शंघाई फैक्ट्री का उत्पादन 12.5 लाख वाहन था, जो टेस्ला की वैश्विक कुल उत्पादन क्षमता का 48% है।”
तकनीकी सिद्धांत
नॉलेज ग्राफ का मूल सिद्धांत “असंरचित पाठ” (जैसे वेबपेज के पैराग्राफ और वाक्य) को “संरचित डेटा” (जैसे “एंटिटी-गुण-मूल्य” त्रिक) में बदलना है, और फिर संबंधों के माध्यम से सूचना नेटवर्क बनाना है।
यह प्रक्रिया निम्न तकनीकी श्रृंखला पर निर्भर करती है (नीचे देखें):
उपयोगकर्ता खोज शब्द → Google क्रॉलर वेबभर से टेक्स्ट पकड़ता है → NLP मॉडल एंटिटी पहचानता है (जैसे “टेस्ला”) → गुण निकालता है (जैसे “शंघाई फैक्ट्री उत्पादन”) → अन्य एंटिटी जोड़ता है (जैसे “वैश्विक कुल उत्पादन क्षमता”) → बहु-स्रोत संगति सत्यापित करता है → संरचित कार्ड बनाता है → रैंक कर प्रदर्शित करता है
तकनीकी चरण
एंटिटी पहचान (NER)
एंटिटी पहचान नॉलेज ग्राफ का “प्रारंभिक बिंदु” है, और इसका मूल है असंरचित पाठ से “नामित एंटिटी” (जैसे कंपनी, व्यक्ति, स्थान) की पहचान करना और उनके प्रकार को चिह्नित करना।
Google यह कार्य BERT जैसे प्री-ट्रेंड मॉडल के माध्यम से पूरा करता है, और इसके तकनीकी विवरण निम्न हैं:
- मॉडल सिद्धांत: BERT (Bidirectional Encoder Representations from Transformers) द्विदिशी संदर्भ-अधिगम के माध्यम से यह समझ सकता है कि “टेस्ला” “टेस्ला शंघाई फैक्ट्री” में “कंपनी एंटिटी” है, जबकि “टेस्ला कॉइल” में “वैज्ञानिक अवधारणा” है, और इस प्रकार एंटिटी प्रकार (
OrganizationबनामScientificConcept) को सटीक रूप से चिह्नित करता है। - सटीकता डेटा: Google के 2023 तकनीकी श्वेतपत्र के अनुसार, BERT मॉडल कंपनी-एंटिटी पहचान में 92% सटीकता प्राप्त करता है (मानकीकृत कंपनी नामों के लिए), और जटिल वाक्य संरचनाओं (जैसे “XX और YY द्वारा संयुक्त रूप से स्थापित”) में 85% सटीकता प्राप्त करता है (क्योंकि “संयुक्त स्थापना” कई एंटिटी शामिल कर सकती है)।
- उदाहरण: यदि वेबपेज पर लिखा हो “2003 में मार्टिन एबरहार्ड और मार्क टारपेनिंग ने पालो ऑल्टो में टेस्ला मोटर्स की स्थापना की”, तो BERT मॉडल निम्न पहचानेगा:
- एंटिटी 1: मार्टिन एबरहार्ड (
Person) - एंटिटी 2: मार्क टारपेनिंग (
Person) - एंटिटी 3: टेस्ला मोटर्स (
Organization) - एंटिटी 4: पालो ऑल्टो (
Location)
- एंटिटी 1: मार्टिन एबरहार्ड (
गुण निष्कर्षण
गुण निष्कर्षण का लक्ष्य है एंटिटी के बीच अर्थ-संबंधों का विश्लेषण करना और “गुण-मूल्य” जोड़े निकालना (जैसे “टेस्ला-स्थापना समय-2003”)।
Google यह कार्य “निर्भरता-आधारित वाक्यविन्यास विश्लेषण” और “नियम टेम्पलेट” के संयोजन से करता है:
- तकनीकी विवरण:
- निर्भरता-आधारित वाक्यविन्यास विश्लेषण: वाक्य में शब्दों के व्याकरणिक संबंध पहचानता है (जैसे “स्थापित” क्रिया है, “टेस्ला” कर्म है, “2003” समय-विशेषण है), और इस प्रकार “टेस्ला-स्थापना समय-2003” निकालता है।
- नियम टेम्पलेट: उच्च-आवृत्ति गुणों (जैसे “स्थापना समय”, “मुख्यालय”) के लिए पूर्व-निर्धारित नियम (जैसे “स्थापना हुई” या “मुख्यालय स्थित है” के बाद की सामग्री को गुण मानना) जटिल वाक्य संरचनाओं में मॉडल की कमी पूरी करते हैं।
- सटीकता डेटा: Google 2024 आंतरिक परीक्षणों के अनुसार, कंपनी के “स्थापना समय” गुण निष्कर्षण की सटीकता 88% है (मानकीकृत अभिव्यक्ति में), लेकिन “संस्थापक” जैसे अस्पष्ट गुणों (जैसे “सह-संस्थापक”, “प्रारंभिक निवेशक”) की सटीकता केवल 72% है (अभिव्यक्ति की विविधता के कारण)।
- उदाहरण: यदि वेबपेज पर लिखा हो “2004 में एलन मस्क ने टेस्ला में 6.3 मिलियन डॉलर निवेश किए और सबसे बड़े शेयरधारक बने”, तो निर्भरता-आधारित विश्लेषण “निवेश” को क्रिया, “टेस्ला” को कर्म, “एलन मस्क” को कर्ता और “6.3 मिलियन डॉलर” को राशि के रूप में पहचानेगा, और अंततः ये गुण-जोड़े निकालेगा: “टेस्ला-निवेशक-एलन मस्क”, “टेस्ला-वित्तपोषण राशि-6.3 मिलियन डॉलर”।
बहु-स्रोत सत्यापन
बहु-स्रोत सत्यापन नॉलेज ग्राफ का “गुणवत्ता जाँच चरण” है, जिसका मूल है यह सुनिश्चित करना कि एक ही एंटिटी का एक ही गुण कम-से-कम 3 प्राधिकृत स्रोतों में समान हो।
Google इसे निम्न नियमों के माध्यम से लागू करता है:
प्राधिकृत स्रोत स्तरीकरण (नीचे तालिका देखें):
| स्रोत प्रकार | वज़न (विश्वसनीयता) | उदाहरण |
|---|---|---|
| आधिकारिक वेबसाइट | 90 | टेस्ला आधिकारिक वेबसाइट (Tesla.com) |
| प्राधिकृत विश्वकोश | 85 | Wikipedia (Tesla, Inc. लेख) |
| सरकारी/उद्योग डेटाबेस | 80 | अमेरिकी SEC कंपनी फाइलिंग, Crunchbase |
| उच्च-प्राधिकृत मीडिया | 70 | The New York Times, TechCrunch |
| व्यक्तिगत ब्लॉग / फ़ोरम | 30 | व्यक्तिगत तकनीकी ब्लॉग, Reddit चर्चाएँ |
सत्यापन तर्क:
- यदि एक ही गुण 3 या अधिक प्राधिकृत स्रोतों में समान हो (त्रुटि ≤5%), तो उसे “उच्च विश्वसनीयता” के रूप में चिह्नित कर शामिल किया जाता है;
- यदि केवल 2 स्रोत समान हों या विरोधाभास हो (जैसे आधिकारिक वेबसाइट “2003 में स्थापित” लिखे और Wikipedia “2002 में स्थापित”), तो उसे “कम विश्वसनीयता” के रूप में चिह्नित कर अस्थायी रूप से शामिल नहीं किया जाता;
- यदि सभी स्रोतों में विरोधाभास हो, तो उसे सीधे अस्वीकार कर दिया जाता है।
डेटा समर्थन: Google की 2023 “नॉलेज ग्राफ शामिल करने की गाइड” के अनुसार, गुण संघर्ष सबसे सामान्य अस्वीकृति कारण है (38%), इसके बाद “स्रोत की प्राधिकृतता की कमी (जैसे केवल व्यक्तिगत ब्लॉग, 25%)” और “मार्कअप फ़ॉर्मेट त्रुटि (जैसे तारीख फ़ॉर्मेट त्रुटि, 19%)” आते हैं।
घंटे-स्तरीय अपडेट
- रीयल-टाइम क्रॉलिंग: उच्च-ध्यान वाली एंटिटी (जैसे Fortune Global 500 कंपनियाँ और लोकप्रिय उत्पाद) के लिए Googlebot की क्रॉलिंग आवृत्ति पारंपरिक “सप्ताह में 1 बार” से बढ़कर “घंटे में 1 बार” हो गई है (Google 2024 खोज एल्गोरिदम अपडेट)। उदाहरण के लिए, जब अक्टूबर 2023 में टेस्ला ने Cybertruck लॉन्च किया, तो क्रॉलर ने कार्यक्रम समाप्त होने के 15 मिनट के भीतर आधिकारिक वेबसाइट, TechCrunch और Reuters की प्रेस रिलीज़ पकड़ ली।
- तेज़ सत्यापन: नई जानकारी को प्रदर्शित होने से पहले “बहु-स्रोत क्रॉस सत्यापन” से गुजरना पड़ता है। उदाहरण के लिए, जब टेस्ला आधिकारिक वेबसाइट ने “2023 Q3 डिलीवरी 4.35 लाख” घोषित की, तो Google एक साथ आधिकारिक वेबसाइट (वज़न 90%), SEC 10-Q रिपोर्ट (वज़न 85%) और Bloomberg रिपोर्ट (वज़न 70%) पकड़ता है; यदि तीनों का डेटा समान हो (त्रुटि ≤2%), तो तुरंत अपडेट हो जाता है।
- अपडेट समय-प्रभावशीलता: Google 2024 तकनीकी परीक्षणों के अनुसार, उच्च-ध्यान वाली एंटिटी की जानकारी का औसत अपडेट चक्र 4.2 मिनट है (सत्यापन पूर्ण होने से कार्ड लाइव होने तक), जबकि सामान्य एंटिटी के लिए 18 मिनट। उदाहरण के लिए, 2023 के नोबेल फिज़ियोलॉजी या मेडिसिन पुरस्कार की घोषणा के बाद, Google ने “काटालिन कारिको” के कार्ड को केवल 5 मिनट में अपडेट किया और उसमें “2023 नोबेल पुरस्कार विजेता” गुण दिखाया।
सामग्री को Google नॉलेज ग्राफ में शामिल कैसे कराएँ
Google नॉलेज ग्राफ में सामग्री शामिल कराने के लिए तीन मुख्य शर्तें पूरी करनी होती हैं:
- मुख्य गुणों को Schema.org से चिह्नित करें (कंपनी/व्यक्ति/उत्पाद के लिए नाम, स्थापना समय आदि फ़ील्ड को चिह्नित करना आवश्यक है)
- बहु-स्रोत जानकारी की संगति सुनिश्चित करें (आधिकारिक वेबसाइट, Wikipedia आदि कम-से-कम 3 प्राधिकृत स्रोतों में गुणों में कोई संघर्ष नहीं होना चाहिए)
- Google टूल्स के माध्यम से सत्यापित करें (Google Search Console से इंडेक्सिंग स्थिति मॉनिटर करें)
डेटा दिखाता है कि Schema मार्कअप उपयोग करने वाली कंपनी की आधिकारिक वेबसाइट के शामिल होने की संभावना, बिना मार्कअप वाली साइट की तुलना में 47% अधिक है (Moz 2024), लेकिन गुण संघर्ष (जैसे आधिकारिक वेबसाइट और Wikipedia के “स्थापना समय” में टकराव) 38% अस्वीकृति दर का कारण बनता है (Google 2023)।
मुख्य गुणों को Schema.org से चिह्नित करना
Google वेबपेज का पाठ सीधे “समझ” नहीं सकता, इसलिए Schema.org संरचित डेटा मार्कअप के माध्यम से यह स्पष्ट करना पड़ता है कि “यह कौन है” और “इसके कौन-से गुण हैं”।
Schema.org एक वैश्विक मानकीकृत मार्कअप प्रणाली है, जो कंपनियों, व्यक्तियों, उत्पादों आदि सहित 1000 से अधिक एंटिटी प्रकारों को कवर करती है, और नॉलेज ग्राफ में शामिल होने का “प्रवेश टिकट” है।
विभिन्न एंटिटी के “अनिवार्य गुण” (नीचे तालिका देखें)
| एंटिटी प्रकार | मुख्य अनिवार्य गुण (उदाहरण) | मार्कअप का महत्व | डेटा समर्थन (Google 2023) |
|---|---|---|---|
| कंपनी/संगठन | name (नाम), foundingDate (स्थापना तिथि), headquarters (मुख्यालय), industry (उद्योग) |
Google को “कंपनी की बुनियादी स्थिति” पहचानने में मदद करता है | 82% कंपनी कार्ड में पहले 4 गुण शामिल होते हैं |
| व्यक्ति | name (नाम), birthDate (जन्म तिथि), nationality (राष्ट्रीयता), jobTitle (पेशा) |
Google को “व्यक्ति की पहचान” निर्धारित करने में मदद करता है | 75% व्यक्ति कार्ड में पेशागत जानकारी होती है |
| उत्पाद/सेवा | name (नाम), releaseDate (रिलीज़ तिथि), brand (ब्रांड), offers (उपलब्ध फ़ंक्शन/ऑफ़र) |
“उत्पाद जानकारी की सटीक प्रस्तुति” का समर्थन करता है | 68% उत्पाद कार्ड में ब्रांड जानकारी होती है |
ऑपरेशन उदाहरण (कंपनी आधिकारिक वेबसाइट मार्कअप):
<script type=”application/ld+json”>
{
“@context”: “https://schema.org”,
“@type”: “Organization”,
“name”: “Tesla, Inc.”,
“foundingDate”: “2003-04-01”,
“headquarters”: {
“@type”: “Place”,
“name”: “Austin, Texas, USA”
},
“industry”: “Electric Vehicles”
}
</script>
यह मार्कअप सीधे Google को यह मुख्य जानकारी देता है: “टेस्ला एक कंपनी है, जिसकी स्थापना 2005 में हुई, जिसका मुख्यालय ऑस्टिन, टेक्सास में है, और जो इलेक्ट्रिक वाहन उद्योग से संबंधित है।”
मार्कअप की सामान्य गलतियाँ
- अत्यधिक मार्कअप: सभी गुणों को चिह्नित करना आवश्यक नहीं है (जैसे कंपनी के लिए “कर्मचारी संख्या” अनिवार्य नहीं है); पहले उन “मुख्य गुणों” को प्राथमिकता दें जिनकी उपयोगकर्ताओं को सबसे अधिक आवश्यकता होती है (जैसे किसी उत्पाद का “प्रारंभिक मूल्य”);
- फ़ॉर्मेट त्रुटि: तारीख को “YYYY-MM-DD” (जैसे “2003-04-01”) में लिखना चाहिए, न कि “2003/4/1”; निर्देशांक “अक्षांश,देशांतर” के रूप में होने चाहिए (जैसे “30.2672,-97.7431”);
- बहुभाषी संघर्ष: यदि आधिकारिक वेबसाइट में कई भाषाएँ हों, तो प्रत्येक भाषा के लिए अलग मार्कअप आवश्यक है (जैसे अंग्रेज़ी संस्करण में
inLanguage: "en"), ताकि Google भ्रमित न हो।
गुणों की पूर्णता और संबंधों की सटीकता
गुणों की पूर्णता
Google 2024 के आँकड़ों के अनुसार, 8 से अधिक मुख्य गुणों को कवर करने वाली एंटिटी, केवल 3 गुणों वाली एंटिटी की तुलना में 62% अधिक शामिल होती हैं।
“कंपनी” को उदाहरण के रूप में लें, तो अनिवार्य गुणों के अलावा निम्न जोड़ने की सलाह दी जाती है:
- उपयोगकर्ता-रुचि गुण:
numberOfEmployees(कर्मचारी संख्या),foundingLocation(स्थापना स्थान); - गतिशील गुण:
latestRevenue(नवीनतम राजस्व),notableProduct(स्टार उत्पाद); - संबद्ध गुण:
parentOrganization(मूल संगठन),subsidiary(सहायक कंपनी)।
उदाहरण: एक टेक स्टार्टअप ने केवल “नाम” और “स्थापना समय” चिह्नित किए, और शामिल नहीं हुई; लेकिन “कर्मचारी संख्या”, “CEO” और “स्टार उत्पाद” जोड़ने के बाद, 3 महीने के भीतर नॉलेज ग्राफ में शामिल हो गई।
संबंधों की सटीकता
संबंध नॉलेज ग्राफ का “कंकाल” हैं, और इनमें एंटिटी के बीच अर्थ-संबंध (जैसे “संस्थापक”, “CEO”, “उत्पाद”) स्पष्ट रूप से परिभाषित होना चाहिए।
Google अर्थ-विश्लेषण मॉडल के माध्यम से संबंधों की युक्तिसंगतता का सत्यापन करता है, और सामान्य त्रुटियाँ हैं:
- गलत संबंध प्रकार: “CEO” को “संस्थापक” के रूप में चिह्नित करना (जैसे मस्क टेस्ला के CEO हैं, लेकिन शुरुआती संस्थापक एबरहार्ड थे);
- अव्यवस्थित संबंध: “टेस्ला-उत्पाद-Model 3” चिह्नित करना, लेकिन “Model 3-उत्पादन फैक्ट्री-शंघाई गीगाफैक्ट्री” नहीं चिह्नित करना (जिससे “Model 3 कहाँ बनता है” खोजते समय संबंध नहीं बन पाता);
- संबंध अतिरेक: एक ही संबंध को बार-बार चिह्नित करना (जैसे “टेस्ला-संस्थापक-एबरहार्ड” कई बार), जिससे Google उसका वज़न कम कर सकता है।
स्रोत प्रबंधन
Google सूचना की सटीकता के लिए अत्यधिक सख्त है: एक ही एंटिटी का एक ही गुण कम-से-कम 3 प्राधिकृत स्रोतों में समान होना चाहिए, अन्यथा उसे “कम विश्वसनीयता” के रूप में चिह्नित किया जाएगा।
प्राधिकृत स्रोत स्तरीकरण (नीचे तालिका देखें)
| स्रोत प्रकार | प्राधिकृतता (विश्वसनीयता) | उदाहरण | Google प्राथमिकता |
|---|---|---|---|
| आधिकारिक वेबसाइट | ★★★★★ | Tesla.com | सर्वोच्च |
| प्राधिकृत विश्वकोश | ★★★★☆ | Wikipedia (Tesla, Inc. लेख) | उच्च |
| सरकारी/उद्योग डेटाबेस | ★★★★ | अमेरिकी SEC कंपनी फाइलिंग, Crunchbase | मध्यम-उच्च |
| उच्च-प्राधिकृत मीडिया | ★★★☆ | The New York Times, TechCrunch | मध्यम |
| व्यक्तिगत ब्लॉग / फ़ोरम | ★★ | व्यक्तिगत तकनीकी ब्लॉग, Reddit चर्चा थ्रेड | निम्न |
स्रोत संघर्ष कैसे हल करें
यदि अलग-अलग स्रोतों में गुण टकराते हैं (जैसे आधिकारिक वेबसाइट लिखती है “2003 में स्थापित”, Wikipedia लिखती है “2002 में स्थापित”), तो Google की प्रक्रिया इस प्रकार होती है:
- चरण 1: अधिक प्राधिकृत स्रोत को प्राथमिकता देना (आधिकारिक वेबसाइट > Wikipedia > मीडिया);
- चरण 2: यदि प्राधिकृत स्रोतों के बीच ही टकराव हो (जैसे आधिकारिक वेबसाइट और Wikipedia), तो “पूरक प्रमाण” (जैसे कंपनी पंजीकरण प्रमाणपत्र, वित्तीय रिपोर्ट) की माँग करना;
- चरण 3: यदि 30 दिनों के भीतर संघर्ष हल नहीं होता, तो उसे “कम विश्वसनीयता” के रूप में चिह्नित करके अस्थायी रूप से शामिल नहीं किया जाता।
सहायक टूल: Google Search Console
Google Search Console (GSC) Google द्वारा प्रदान किया गया आधिकारिक “नॉलेज ग्राफ शामिल होने की निगरानी टूल” है, जो रीयल-टाइम में शामिल होने की स्थिति देखने और समस्याएँ पहचानने में मदद करता है।
मुख्य कार्य:
- इंडेक्सिंग स्थिति निगरानी: “Index” → “Coverage” में देखा जा सकता है कि एंटिटी शामिल हुई या नहीं (स्थिति “Indexed” या “Excluded”);
- समृद्ध परिणाम रिपोर्ट: “Rich Results” में नॉलेज ग्राफ कार्ड के प्रदर्शन डेटा (जैसे क्लिक और इम्प्रेशन) देखे जा सकते हैं;
- त्रुटि निदान: “Errors” में मार्कअप त्रुटियाँ (जैसे Schema फ़ॉर्मेट त्रुटि) और स्रोत संघर्ष (जैसे गुण असंगति संकेत) जाँचे जा सकते हैं।
अनुकूलन सुझाव:
- नियमित जाँच: हर सप्ताह GSC में लॉगिन करके “Rich Results” में “Not shown” के कारण देखें (जैसे “गुण गायब”, “स्रोत संघर्ष”);
- डेटा फ़ीडबैक: यदि कार्ड की जानकारी गलत हो (जैसे मुख्यालय स्थान गलत दिख रहा हो), तो GSC के माध्यम से “डेटा सुधार अनुरोध” भेजें;
- प्रतिद्वंद्वी विश्लेषण: प्रतिस्पर्धी ब्रांड नाम खोजें, उनके नॉलेज ग्राफ कार्ड के प्रदर्शित गुण देखें, और अपनी कमी वाले मुख्य फ़ील्ड जोड़ें।
नॉलेज ग्राफ का युग आ चुका है, और आपकी सामग्री अधिक कुशलता से “देखे जाने” योग्य है—अभी से कार्रवाई शुरू करें।



