যদি আপনাকে বলি, আপনি যে রাস্তা দিয়ে হেঁটে যাচ্ছেন তার নিচে রয়েছে আরও অনেকগুলো রাস্তা, আশ্চর্য হবেন নিশ্চয়ই! আমরা সাধারণত ওয়েবের যতটুকু অংশের নাগালে পাই, তা এর একটি অতি ক্ষুদ্র অংশ মাত্র। আমরা ওয়েবের যে অংশে যাতায়াত করি, সেটাকেও রাস্তার সারফেসের সাথে তুলনা করতে পারেন। আর সেই রাস্তার নিচেও কিন্তু অনেক পথ আছে, যা কিনা আমাদের অধিকাংশেরই অজানা। আজকে ওয়েবের সেই অংশ নিয়েই আলোচনা করব।
ওয়েব নিঃসন্দেহে বিশাল। কিন্তু ঠিক কতটুকু বিশাল? এর সুনিশ্চিত উত্তর কেউই দিতে পারবে না। তবে এটা অন্তত বলা যায়, আপনি ওয়েব সম্পর্কে যতটুকু আন্দাজ করতে পারেন, সেটা থেকেও ওয়েব কয়েক হাজার গুণ বেশি বিস্তৃত। হয়তোবা লক্ষ গুণও হতে পারে। আপনি ওয়েব থেকে কিছু জানতে চাইলে কী করবেন? গুগলে কিংবা অন্য কোনো সার্চ ইঞ্জিনে গিয়ে সার্চ করাটাই স্বাভাবিক। কিন্তু এমনও তো মাঝে মাঝে হয়, আপনি কোনো কি-ওয়ার্ড লিখে গুগলে সার্চ করলেন, কিন্তু সেটার সাথে খুব বেশি প্রাসঙ্গিক কিছু বের করে দিতে পারল না গুগল। তাহলে আপনি হয়ত ভেবেই নিয়েছেন যে, এরকম কোনো তথ্য ওয়েবে নেই। কিন্তু সবসময় এরকম ভাবা কিন্তু খুব সঠিক হবে না। কারণ Google, Bing বা Yahoo এর মতো প্রচলিত সার্চ ইঞ্জিনগুলোর কাছে সম্পূর্ণ ওয়ার্ল্ড ওয়াইড ওয়েবের ১% তথ্য আছে বলে ধারণা করা হয়! তাহলে বুঝতেই পারছেন, আপনি গুগলে কোনো কিছু সার্চ করে খুঁজে না পেলে সেটার অস্তিত্ব ওয়েবে নেই- এমনটা ভাবা যুক্তিসঙ্গত নয়। অনেক সময়ই এমন হতে পারে যে, খুঁজে বের করতে না পারার কারণে সার্চ ইঞ্জিনটি আপনার সামনে তথ্য হাজির করতে পারেনি। ওয়ার্ল্ড ওয়াইড ওয়েবকে কল্পনা করতে পারেন পানিতে ভাসমান একটি বরফখণ্ডের সাথে, যার সামান্য অংশ পানির উপরে ভেসে আছে এবং সেই অংশটুকু আপনি দেখতে পাচ্ছেন। অধিকাংশ বরফ কিন্তু পানির নিচেই আছে। খুব স্বাভাবিকভাবেই পানির নিচে থাকায় অনেকটা অংশ আপনার কাছে অদৃশ্য। সে অংশটুকু দেখতে হলে যেতে হবে গভীরে। ওয়ার্ল্ড ওয়াইড ওয়েবের ব্যাপারটিও এমন। প্রচলিত সার্চ ইঞ্জিনগুলোর সাহায্যে আমরা শুধুমাত্র এর উপরের অংশটুকুই দেখতে পারি। ওয়েবের অধিকাংশ অংশই কিন্তু এখনো এদের কাছে অধরা। আর ওয়েবের এই ‘অধরা অংশ’কেই বলা হয় ডিপ ওয়েব বা অদৃশ্য ওয়েব।
ওয়ার্ল্ড ওয়াইড ওয়েবকে প্রধানত দু’ভাগে ভাগ করা যায়- সারফেস ওয়েব ও ডিপ ওয়েব। সহজ ভাষায়, Google, Bing বা Yahoo এর মতো প্রচলিত সার্চ ইঞ্জিনগুলো ওয়েবের যা কিছু ইনডেক্স করতে পারে অর্থাৎ খুঁজে বের করতে পারে, তা সারফেস ওয়েবের অন্তর্ভুক্ত। আর ঠিক এর উল্টোটাই হলো ডিপ ওয়েব। অর্থাৎ এই সার্চ ইঞ্জিনগুলো ওয়েবের যে অংশ খুঁজে বের করতে পারে না তথা ইনডেক্স করতে পারে না, সে অংশ ডিপ ওয়েব বা অদৃশ্য ওয়েবের অন্তর্ভুক্ত। তাহলে মোদ্দা ব্যাপার হলো, সার্চ ইঞ্জিনগুলোর দৌরাত্ম্যের উপর নির্ভর করছে ওয়েবের কোনো অংশ ডিপ ওয়েবে অন্তর্ভুক্ত হবে কিনা। সার্চ ইঞ্জিন ইনডেক্স করে নিতে পারলেই সেটা সারফেস ওয়েবের মধ্যে এসে যাচ্ছে। যার ফলে ওয়েবের সেই অংশের নাগাল আমরা অতি সহজেই পেয়ে যাচ্ছি।
তাহলে কেন ওয়েবের বিশাল এই অংশের নাগাল সার্চ ইঞ্জিন পায় না? এর পেছনে রয়েছে বেশ কিছু কারণ। কিন্তু সেগুলো বুঝতে হলে প্রথমে আমাদের জানতে হবে, সার্চ ইঞ্জিনের তথ্য খুঁজে বের করার পদ্ধতি সম্পর্কে। সার্চ ইঞ্জিন কীভাবে কাজ করে এই লেখাটায় একটু চোখ বুলিয়ে নিতে পারেন। তবুও পাঠকদের সুবিধার্থে এখানে একটি সংক্ষিপ্ত ধারণা দেয়ার চেষ্টা করছি।
সার্চ ইঞ্জিনগুলো সাধারণত ওয়েবে থাকা বিভিন্ন ওয়েবসাইট থেকে তথ্য সংগ্রহ করে একটি প্রক্রিয়ার মাধ্যমে একটি ইনডেক্স তৈরি করে। আর এই তথ্য সংগ্রহ করার জন্য তারা ব্যবহার করে বিশেষ ধরনের সফটওয়্যার রোবট। এসব রোবট ‘স্পাইডার’ নামে পরিচিত। এই স্পাইডারগুলো প্রথমে ওয়েবে থাকা জনপ্রিয় পেজগুলো থেকে তথ্য সংগ্রহ করে। তারপর সেসব ওয়েবসাইটে থাকা অন্যান্য হাইপারলিংক অনুসরণ করে। তারপর পেজগুলোতে থাকা তথ্য সংগ্রহ করে এবং সেখানে থাকা হাইপারলিংক অনুসরণ করে। এভাবে তথ্য সংগ্রহ করার মাধ্যমেই ইনডেক্স তৈরি হয়। এই ইনডেক্সটিই হলো ওয়েবের মানচিত্র। একটি দেশের বা স্থানের মানচিত্র থেকে যেভাবে খুব সহজেই কোনো জায়গার অবস্থান বের করে নিতে পারেন, ঠিক সেভাবেই এই ইনডেক্স সার্চ করা তথ্যের সন্ধান বের করে দেয়। মানচিত্র নিখুঁত হলে আপনি যেমন একটি এলাকা সম্পর্কে সঠিক ধারণা পেয়ে যান, ঠিক তেমনি একটি সার্চ ইঞ্জিনের ইনডেক্স যতটুকু নিখুঁত হবে, ততই বেড়ে যাবে সঠিক ও প্রয়োজনীয় তথ্য পাওয়ার সম্ভাবনা। আপনি যখন গুগলে গিয়ে কোনো কিছু সার্চ করেন, তখন মনে রাখবেন যে, আপনি কিন্তু পুরো ওয়েবে সার্চ করছেন না। আপনি সার্চ করছেন শুধুমাত্র গুগলের ইনডেক্সে। যার ফলে সেই ইনডেক্সে তথ্য থাকলেই গুগল আপনাকে যথাযথ তথ্য দিতে পারছে, নইলে পারছে না!
সার্চ ইঞ্জিনে ডিপ ওয়েব কীভাবে অদৃশ্য?
নিঃসন্দেহে গুগলের মতো সার্চ ইঞ্জিনগুলো অত্যন্ত দক্ষ ও শক্তিশালী। কিন্তু যে ব্যাপারটা তাদেরও আয়ত্তের বাইরে থেকে যায়, সেটা হলো হাইপারলিংকবিহীন ডাটা। কোনো সাইট ডিপ ওয়েবে থেকে যাওয়ার পেছনে ঐচ্ছিক বা অনৈচ্ছিক- দু’ধরনের কারণই থাকতে পারে। যেমন, একটি ব্লগের কোনো পোস্ট যা লেখা হয়েছে কিন্তু ব্লগে এখনো প্রকাশ করা হয়নি, সেটা স্বাভাবিকভাবেই ডিপ ওয়েবের অন্তর্ভুক্ত হয়ে যাচ্ছে।
চলুন এখন ডিপ ওয়েব কনটেন্টের কিছু উদাহরণ দেখে নেওয়া যাক।
- ডাটাবেস ক্যোয়ারির ফলাফল।
- এমন কোনো ডাটা যা একটি সার্চ ইন্টারফেস দ্বারা অ্যাক্সেস করতে হয়।
- শুধুমাত্র সাবস্ক্রিপশনের মাধ্যমে পাওয়া যায় এমন তথ্য এবং অন্যান্য পাসওয়ার্ড সুরক্ষিত ডাটা।
- যেসব পেজ অন্য কোনো ওয়েবসাইটে হাইপারলিংক করা নেই।
- যেসব কনটেন্ট টেকনিক্যালি সীমাবদ্ধ। যেমন, CAPTCHA প্রযুক্তি।
- যেসকল টেক্সট কনটেন্ট প্রচলিত http:// বা https:// প্রোটোকলের বাইরে বিদ্যমান।
কোনো কনটেন্ট অদৃশ্য থাকার কারণ
একটি ওয়েবসাইট সার্চ ইঞ্জিনের নাগালে না আসার পেছনে অনেক কারণ থাকতে পারে। তবে আমরা এখানে কয়েকটি প্রধান কারণ নিয়েই আলোচনা করব।
- হাইপারলিংকবিহীন পেজ- কোনো ওয়েব পেজের URL অন্য কোনো পেজে হাইপারলিংক না করা থাকলে, সার্চ ইঞ্জিন ঐ পেজকে অনুসরণ করতে পারে না। সার্চ ইঞ্জিনের কাছে ঐ ওয়েবসাইট একটি দ্বীপে পরিণত হয়!
- রিয়েল টাইম তথ্য- ক্ষণস্থায়ী তথ্য কিংবা দ্রুত পরিবর্তনশীল তথ্য। যেমন, শেয়ার বাজারের স্টক বিনিময় হার।
- প্রধানত ছবি বা ভিডিও নির্ভর ওয়েবপেজ- যদি কোনো ওয়েবপেজে যথেষ্ট পরিমাণ টেক্সট না থাকে, তাহলে সার্চ ইঞ্জিন ঐ পেজের বিষয়বস্তু সম্পর্কে পরিস্কার ধারণা নিতে পারে না এবং ফলস্বরূপ সেই পেজকে উপেক্ষা করে।
সাধারণ কোনো সার্চ ইঞ্জিনে করা অনুসন্ধানের সঠিক ফলাফল যদি না আসে, তার মানে কিন্তু এটা নয় যে, ওয়েবে এই সংক্রান্ত কিছুই নেই! কোনো পেজ অদৃশ্য মানেই অগম্য- অধিকাংশ ক্ষেত্রেই এমন না হওয়াটাই স্বাভাবিক। এটা খেয়াল রাখা জরুরি, আজকে যে কন্টেন্ট ডিপ ওয়েবের মধ্যে ডুবে আছে, কালই কোনো সার্চ ইঞ্জিন সেটাকে উপরে ভাসিয়ে তুলতে পারে, নিয়ে আসতে পারে আপনার হাতের নাগালে! আর এই ডিপ ওয়েবে কিন্তু আমরা প্রতিনিয়তই প্রবেশ করছি।
যা-ই হোক, এবার একটি গুরুত্বপূর্ণ কথায় আসা যাক। আমরা এতক্ষণ যে ব্যাপারটা নিয়ে জানলাম সেটা ডিপ ওয়েব; ডার্ক ওয়েব নয় কিন্তু! অনেকেই ডিপ আর ডার্ক ওয়েবকে এক ভেবে গুলিয়ে ফেলেন। ডিপ ওয়েবকে যদি ওয়েবের অদৃশ্য দুনিয়া হিসেবে কল্পনা করেন, তাহলে ডার্ক ওয়েবকে ইন্টারনেটের অন্ধকারাচ্ছন্ন দুনিয়া বলাই ভালো। ডার্ক ওয়েবও ডিপ ওয়েবের অংশ বটে, কিন্তু দুটোর মধ্যে রয়েছে বিস্তর ফারাক! ডার্ক ওয়েবের খুঁটিনাটি নিয়ে হাজির হবো পরবর্তী লেখায়।