প্রত্যেক বিশ্বকাপে জার্মানি দক্ষ, জনপ্রিয় এবং কাপের যোগ্য দাবিদার দল হিসেবে খেলতে যায়। জার্মানিকে অনেকটা মনে হয় ক্লাসের সবচেয়ে দুর্দান্ত ভালো ছাত্রের মতো। হয়তো সেই ভালো ছাত্রটি জনপ্রিয় নয় কিন্তু নিজের সেরাটা দিয়ে সে চেষ্টা করে এবং ভালো ফলাফল পায়। জনপ্রিয়ের দিক দিয়ে দেখা যায় ব্রাজিল এবং আর্জেন্টিনার অনুসারী অনেক বেশী। কিন্তু কোন না কোন ভাবে দেখা যায় জার্মানির খেলাটা অন্যদের তুলনায় প্রত্যেকবারই ভালো হয়। বাজিকর (Bookmaker) যারা তারা জুয়া খেলার মতো বেট ধরে, যে কোন দল জিতবে।বড় বড় বাজিকর বা বাজিকরদের কোন প্রতিষ্ঠান পরিসংখ্যানবিদ নিয়োগ করে থাকে যাতে করে তারা আগের এবং বর্তমান বিভিন্ন তথ্য উপাত্ত বিশ্লেষণ করে সম্ভাব্য বিজয়ী দলের নাম বলতে পারে। বাজিকররা সেই দলের উপর তাদের অর্থ খাটিয়ে বাজি ধরে। প্রতিবার বিশ্বকাপের সময়েই এমনটি হয়ে থাকে।
এবারেও এমন হয়েছে। ২০১৮ বিশ্বকাপের বিভিন্ন সম্ভাবনার কথা মাথায় রেখে সেগুলো বিশ্লেষণ করে বাজিকররা বলছে যে এবার ব্রাজিল বিশ্বকাপ জিতবে এবং এই সম্ভাবনা ১৬.৬ শতাংশ। এরপরেই ১২.৮ সম্ভাব্যতা নিয়ে আছে জার্মানি এবং তারপর আছে স্পেন, যার সম্ভাবনা ১২.৫ শতাংশ। এই বিশ্লেষণ হয়েছে গনিত এবং পরিসংখ্যানকে এক করে। বর্তমানে এই কৃত্রিম বুদ্ধিমত্তার যুগে আরেকটি বিষয় ব্যাপক জনপ্রিয়তা পেয়েছে যাকে বলা হয় মেশিন লার্নিং। এই বিষয়টি একাধারে গণিত, পরিসংখ্যান এবং কম্পিউটার বিজ্ঞানের মিশেল। গণিতের ভিতরে সম্ভাব্যতাটা (Probability) এখানে বেশী ব্যবহার করা হয়। কিন্তু এই বিষয়ের জনপ্রিয়তা অন্যান্য বিষয়ের গবেষকদের কাছেও ছড়িয়ে পড়েছে। আগের তত্ত্ব এবং উপাত্ত ব্যবহার করে ভবিষ্যতে কি ঘটবে সেটার একটি সম্ভাব্য গাণিতিক বিশ্লেষণ করে এই মেশিন লার্নিং। পরিসংখ্যানে বিভিন্ন ধরণের গাণিতিক মডেল আছে যেগুলো একটি নির্দিষ্ট পরিসংখ্যানিক বণ্টন পদ্ধতি (Statistical Distribution) অনুসরণ করে। আবার এসব মডেলের প্রয়োগ করতে হলে কোন ধরণের ডাটা বা উপাত্ত ব্যবহার করা হচ্ছে সেটা ঠিক করে এগোতে হয়। তাছাড়া এই মডেলগুলো তৈরির পেছনে বেশ কিছু পূর্বানুমান (Assumption) ঠিক করে নিতে হয়।
কিন্তু মেশিন লার্নিং-এ এই ধরণের সমস্যা নেই। তারা ডাটা ঠিক রেখে কয়েকটি গাণিতিক সিদ্ধান্তের মাধ্যমে ফলাফল এনে দেয়। পরিসংখ্যানবিদরাও এখন মেশিন লার্নিং নিয়ে কাজ করছে কারণ এই বিষয়ের মূল ধারণাটি গাণিতিক পরিসংখ্যানের মধ্যেই নিহিত। এমনকি বিভিন্ন সময় প্রমাণ পাওয়া গিয়েছে যে মেশিন লার্নিং প্রচলিত পরিসংখ্যান থেকে ভালো এবং উপযুক্ত ফলাফল দেয়। সেজন্য ২০১৮ বিশ্বকাপকে সামনে রেখে জার্মানির Technical University of Dortmund এর একদল বিজ্ঞানী মেশিন লার্নিং ব্যবহার করে একটি মডেল দাড় করিয়েছেন। বিভিন্ন উপায় রয়েছে মেশিন লার্নিং এর ভিতরে। বিভিন্ন গাণিতিক এলগরিদম তৈরি করা আছে এখানে। জার্মানির এই বিজ্ঞানীরা অনেকগুলো পদ্ধতির মধ্যে থেকে Random Forest পদ্ধতিটি বেঁছে নেন।
এই পদ্ধতি বিশ্বকাপ সম্পর্কিত বিভিন্ন বিষয়ের উপাত্ত বিশ্লেষণ করে সম্ভাব্য বিজয়ী দলকে বেছে নিয়েছে। তাছাড়া অন্যান্য অনেক পদ্ধতি যেমনঃ Classification Analysis and Regression Tress, Deep Learning/ Deep Neural Network, Support Vector Machine ইত্যাদি বিভিন্ন মেশিন লার্নিং পদ্ধতি থাকা সত্তেও Random Forest কেন বেছে নেয়া হলো, এটা নিয়ে মতভেদ থাকতে পারে। তবে এই পদ্ধতির একটি সুবিধা হচ্ছে অন্যান্য পদ্ধতির গাণিতিক বিশ্লেষণের ভিতরে কিছু সমস্যা থাকে যেগুলো Random Forest খুব সহজেই এড়িয়ে যেতে পারে। মেশিন লার্নিং এর যেকোনো পদ্ধতিতে দুই ধরণের ডাটা ব্যবহার করা হয়। একটি হচ্ছে- Training Data, অর্থাৎ এই ডাটার উপর গাণিতিক বিশ্লেষণ করে ডাটার বিভিন্ন প্যাটার্ন বের করা হবে। আরেকটি ডাটা হচ্ছে Testing Data, এই ডাটার মাধ্যমে গাণিতিক পদ্ধতি ব্যবহার করে যে প্যাটার্ন পাওয়া গিয়েছে সেটা কতটুকু সত্য এবং নির্ভরযোগ্য সেটা প্রমাণ করা হয়।
Random Forest অনেকগুলো বিষয়ের উপাত্তগুলো নিয়ে সেগুলো থেকে বিশ্লেষণ করে সর্বাধিক গুরুত্বপূর্ণ বিষয় বা ভেরিয়েবলগুলো চিহ্নিত করে। এই কাজটি হয় কয়েকটি ধাপে বিভিন্ন সিদ্ধান্তের মাধ্যমে। এই সিদ্ধান্তগুলোর কয়েকটি নোডের মাধ্যমে দেখানো হয়। প্রথমে অনেকগুলো ডাটা নিয়ে কাজ শুরু করা হয়। বিভিন্ন ভেরিয়েবলগুলোর ডাটার উপর গাণিতিক বিশ্লেষণ করে পরের ধাপে যে যে ভেরিয়েবলের গুরুত্ব বেশী এবং সেই ভেরিয়েবলগুলো ঘটার সম্ভাবনা বেশী সেগুলো রাখা হয়, বাকিগুলো ফেলে দেয়া হয়। এভাবে অনেক সন্নিবেশ বিন্যাস করার পর সর্বোত্তম ফলাফল নিয়ে একটি Decision Tress তৈরি করা হয় যেটার একদম শেষের দিকে প্রধান ফলাফল দেয়া থাকে।
এতক্ষণ মেশিন লার্নিং নিয়ে আলোচনা করা হলো। এবার মূল বিষয়ে আসা যাক। জার্মানির সেই গবেষকদল প্রথমে পূর্বের বিশ্বকাপের ডাটা নিয়ে প্রতিটি খেলার সম্ভাব্য ফলাফল বিশ্লেষণ করেন এবং সেই ফলাফল থেকে বিশ্বকাপ জয়ী দল বের করেন। যেকোন কিছু ভবিষ্যদ্বাণী করতে হলে এমন কিছু বিষয়ের উপর লক্ষ্য রাখতে হয় যেটা সরাসরি ওই জিনিষ বা বস্তুর উপর প্রভাব ফেলবে। জার্মানির এই গবেষকদল, এমন কিছু বিষয়ের উপর জোর দিয়েছেন যেগুলো সরাসরি বিশ্বকাপের জয়ী দলের উপর প্রভাব ফেলবে। যেমনঃ বিশ্বকাপে খেলছে এমন দেশের অর্থনৈতিক অবস্থা, জিডিপি, ফিফার র্যংকিং, দলগুলোর ভিতরের বিভিন্ন বৈশিষ্ট্য, তাদের খেলার ধরণ, খেলোয়াড়দের বিভিন্ন তথ্য যেমনঃ কার বয়স কতো, কয়জনের চ্যাম্পিয়ন্স লীগ খেলার অভিজ্ঞতা রয়েছে, দলের কতজন খেলোয়াড় এসব লীগের সেমি ফাইনাল এবং ফাইনালে খেলেছে, বিভিন্ন বিশ্বকাপের শুরু আগে কোন দলের কেমন র্যংকিং ছিল, একই দলের কতজন ক্লাবগুলোতে একই সাথে খেলেছে এবং অন্যদলের কতজন সেখানে একসাথে খেলেছে, দুটি দেশ যখন মুখোমুখি হয় তখন দুই দলের মধ্যে কতজন এক সাথে ক্লাবে খেলেছে এবং কত বছর ধরে খেলছে ইত্যাদি বিষয়াদিগুলো Random Forest বিশ্লেষণ করার জন্য ব্যবহার করা হয়েছে এখানে। এছাড়া এই ভবিষ্যদ্বাণী করার সময় গবেষকরা বাজিকরদের বর্তমান এবং পূর্বের তথ্য-উপাত্তও বিশ্লেষণ করেছেন।
এসব বিষয় নিয়ে যখন বিশ্লেষণ করা শুরু হলো তখন দেখা গেলো যে ফলাফলের উপর সবচেয়ে বেশী প্রভাব ফেলছে দলগুলোর র্যংকিং। এছাড়া অর্থনৈতিক বিষয়াদিগুলোও প্রভাব ফেলেছিল, এমনকি কোন দলের কোচ কোন দেশের এবং তাদের পূর্বের কৃতিত্ব এসবও প্রভাবক হিসেবে কাজ করছিলো। মোট ১৬টি বিষয় বিবেচনা করে এই গবেষণাটি করা হয় এবং বিশ্লেষণের প্রথম দিকে দেখা যায় যে স্পেনের এবার বিশ্বকাপ জেতার সম্ভাবনা সবচেয়ে বেশী। তাদের সম্ভাবনা ১৭.৮ শতাংশ।
কিন্তু ভবিষ্যদ্বাণীর করার সময় আরেকটি বিষয় খেয়াল রাখতে হবে যে বিভিন্ন পর্বে এবার কে কোন দলের সাথে খেলছে। সেজন্য এই বছরের ফিকচার খুলে বসে সেটা দেখতে হবে। এই ব্যাপারটি যখন বিশ্লেষণের মধ্যে আনা হলো তখন দেখা গেল যে জার্মানি যদি ১৬ দলের নকআউট পর্বে উঠে তাহলে তারা অনেক বেশী শক্ত প্রতিপক্ষের সামনে পড়বে, যেটা স্পেনের ক্ষেত্রে অনেক কম হবে। সেজন্য কোয়ার্টার ফাইনালে যাওয়ার সম্ভাব্যতা জার্মানির ক্ষেত্রে ৫৮ শতাংশে নেমে আসে এবং স্পেনের ক্ষেত্রে সেই সম্ভাবনা ৭৮ শতাংশে বেড়ে যায়। এই বিশ্লেষণ থেকে আরেকটি ব্যাপার উঠে আসে যে যদি দুই দলই কোয়ার্টার ফাইনালে যায় তাহলে স্পেনের সম্ভাবনা বেশী সেমিফাইনালে যাওয়ার কারণ জার্মানি বাদ পড়ে যেতে পারে, অন্তত অঙ্ক কষে সেটাই বোঝা যাচ্ছে।
কিন্তু এই ধরণের গাণিতিক মডেল তৈরি করতে হলে আরও অনেক বিষয় খেয়াল রাখতে হয়, না হলে মডেলে ভুল থাকার সম্ভাবনা বেড়ে যায়। Random Forest এর মাধ্যমে পুরো বিশ্বকাপটির সিমুলেশন বা গাণিতিকভাবে সম্ভাব্য অনুলিপি তৈরি করা যায়। যখন সিমুলেশন করা হচ্ছে তখন অন্যরকম ফলাফল পাওয়া যাচ্ছে।
এক লক্ষ বার এই সিমুলেশন চালানো হয় এবং বিশ্লেষণ করা হয়। এতোবার বিচার-বিশ্লেষণ করার পরে দেখা যাচ্ছে যে স্পেন নয়, এবার জার্মানি বিশ্বকাপ জিতে ব্রাজিলের পাঁচ বারের বিশ্বকাপ জিতে যাওয়াতে ভাগ বসাবে। এখান থেকে তারা বুঝতে পারেন যে স্পেন হয়তো বিশ্বকাপের শুরুর দিকে ভালো খেলবে কিন্তু জার্মানি যদি কোয়ার্টার ফাইনাল পর্যন্ত পৌঁছে যায় তাহলে জার্মানির জিতে যাওয়ার সম্ভাবনাই বেশী।
এই মডেল দেখলে আরও বোঝা যাচ্ছে যে ফাইনাল হবে ব্রাজিল এবং জার্মানির মধ্যে এবং জার্মানির জিতে যাওয়ার সম্ভাবনা ৬৮ শতাংশ। সেমিফাইনাল হবে ব্রাজিল-ফ্রান্স এবং স্পেন-জার্মানির মধ্যে। সেখান থেকে ব্রাজিল এবং জার্মানির ফাইনালে যাওয়ার সম্ভাবনা যথাক্রমে ৫৯% এবং ৫৫%। কোয়ার্টার ফাইনালেই আর্জেন্টিনার বিশ্বকাপ শেষ হওয়ার সম্ভাবনা দেখা যাচ্ছে ৬৩%।
তবে যে যে বিষয় নিয়ে এই গবেষণা এবং ভবিষ্যদ্বাণী করা হয়েছে সেগুলো যে খুব বেশী কার্যকর তা কিন্তু নয়। কারণ দলের ভিতরকার ইনজুরি সংখ্যা আগের বিশ্বকাপগুলোতে কেমন ছিল এবং এবার কেমন- সেটার উপর গুরুত্ব দেয়া হয়নি, খেলোয়াড়দের নিজ দেশের হয়ে খেলার সময় কেমন কৃতিত্বের সাক্ষর রেখেছে সেটার কোন উপাত্ত নেয়া হয়নি, খেলোয়াড়দের খেলার সময়কার বিভিন্ন দক্ষতা যেমনঃ কোন বিশ্বকাপে কে বেশী গোল করেছে, কোন দল বেশী গোল করেছে, কোন দলের কোন খেলোয়াড় কতবার এসিস্ট করেছে, কর্নার থেকে কয়বার গোল হয়েছে, কোন দল কত মিনিটে গোল দিয়েছে, হাফ টাইমের আগে কতবার গোল হয়েছে এবং গড়ে কয়টা হয়েছে, কোন দল প্রতিটা খেলায় কীভাবে জিতেছে, দলের খেলোয়াড় কতবার বল পাস করেছে- এই জিনিষগুলো মডেলে আনা হয়নি। এগুলোর ডাটা সংগ্রহ করা এখনকার যুগে মোটেও অসম্ভব কিছু নয়। এগুলো দিয়েও যদি বিশ্লেষণ করা হতো তাহলে আরও ভালোভাবে ফলাফল পাওয়া যেতে পারতো।
তবুও আধুনিক গাণিতিক তত্ত্ব ব্যবহার করে যে বিশ্লেষণ জার্মান গবেষকদল করেছে সেটা কতটুকু সত্য হয় সেটা বৃহস্পতিবার থেকে শুরু হতে যাওয়া বিশ্বকাপ শেষ হওয়ার পরই বোঝা যাবে।