১৯৯২ সালের আগস্ট মাস। দক্ষিণ ফ্লোরিডায় আঘাত হানলো হারিকেন অ্যান্ড্রু। ৫ মাত্রার বিধ্বংসী এই হারিকেন যখন ফ্লোরিডার উপকূলে আছড়ে পড়লো, হাজার হাজার বাড়ি ভেঙে পড়লো তাসের ঘরের মতো, বাড়িছাড়া হয়ে অন্যত্র আশ্রয় নিতে বাধ্য হলো লক্ষ লক্ষ ফ্লোরিডাবাসী। হারিকেন অ্যান্ড্রু তখনও পর্যন্ত যুক্তরাষ্ট্রের ইতিহাসের সবচেয়ে ব্যয়বহুল হারিকেন, ক্ষতির অঙ্ক তৎকালীন সময়ের ২৭ বিলিয়ন ডলার, সাথে ৬৫ জনের মৃত্যু তো রয়েছেই।
‘কিন্তু ফ্লোরিডা এত বাজেভাবে ক্ষতিগ্রস্ত হবে কেন? এর আগেও তো বহু হারিকেন হয়েছে, বাড়িতে নিজেকে আটকে রেখে সাধারণ জনগণ সহজেই হারিকেন থেকে রক্ষা পেয়েছে,’ এই প্রশ্ন খোঁচাতে থাকলো ফ্লোরিডার প্রভাবশালী সংবাদপত্র মিয়ামি হেরাল্ডের প্রবীণ রিসার্চ এডিটর স্টিভ ডোয়েগকে। ২০ বছর ধরে সাংবাদিকতা করা পোড় খাওয়া সাংবাদিক স্টিভ ডোয়েগ এর পেছনের কারণ অনুসন্ধানে বের হলেন। সরকারি অফিসের ফাইল ঘেঁটে বাড়ি বানানোর তথ্য-উপাত্ত বের করলেন, একেবারে বাড়ি বাড়ি গিয়ে জোগাড় করলেন ক্ষতিগ্রস্ত বাড়িগুলোর ক্ষতির পরিমাণ।
অনুসন্ধান শেষে মিয়ামি হেরাল্ডের ১৬ পাতা জুড়ে ‘What Went Wrong’ শিরোনামে যে প্রতিবেদন প্রকাশ পেল তাতে টনক নড়ে উঠলো যুক্তরাষ্ট্রের গণপূর্ত বিভাগের। হারিকেন আঘাত হানার সময় থেকে ঠিক তার কয়েক বছর আগে যে সমস্ত বাড়ি বানানো হয়েছে, সেগুলোই সবচেয়ে বেশি ক্ষতিগ্রস্ত হয়েছে। কারণ? বাড়িগুলো বানাতে যথেষ্ট অবহেলা করা হয়েছে, বাড়ি বানানোর নিয়মাবলী মেনে চলা হয়নি, বাড়ির ডিজাইনও কোনো বিশেষজ্ঞ দ্বারা পরীক্ষা না করিয়েই অনুমোদন দিয়ে দেওয়া হয়েছে, যার ফল ২৯ বিলিয়ন ডলারের ক্ষয়ক্ষতি। যদি কাজে এ ধরনের গাফিলতি না হতো, তবে ক্ষয়ক্ষতি অনেকটাই এড়ানো যেত, প্রাণহানি তো বটেই।
১৯৯৩ সালে ‘পাবলিক সার্ভিস’ প্রতিবেদনের জন্য পুলিৎজার পুরস্কার পেলেন কম্পিউটার-অ্যাসিস্টেড সাংবাদিকতার অন্যতম পথিকৃৎ এই সাংবাদিক। ডোয়েগ পাতার পর পাতা তথ্য-উপাত্ত ঘেঁটে, এক্সসেল শিটে তার বিশ্লেষণ করে পাঠকদের সামনে সহজবোধ্যভাবে উপস্থাপন করে আধুনিক ডেটা সাংবাদিকতার ভবিষ্যৎ কেমন হবে তার একটা ছক কষে দিয়েছিলেন। আর সে কারণেই সামাজিক মাধ্যমের যুগে যখন সাদামাটা বিবরণভিত্তিক সংবাদ যখন পাঠকের আকর্ষণ হারিয়ে ফেলছে, পাঠককে সংবাদের দিকে আকর্ষণ করানোর জন্য বড় বড় সংবাদমাধ্যমগুলো ঝুঁকছে বিশ্লেষণভিত্তিক ডেটা সাংবাদিকতার দিকে। নিউ ইয়র্ক টাইমেসের আপশট, গার্ডিয়ানের ডেটাব্লগ কিংবা ওয়াশিংটন পোস্টের ডেটা সাংবাদিকতা দলই তার প্রমাণ।
ডেটা সাংবাদিকতা কী?
কোনটি ডেটা সাংবাদিকতা, তার তুলনায় কোন জিনিসটি ডেটা সাংবাদিকতা নয় তা ব্যাখ্যা করা আরও সহজ। এটি সামাজিক বিজ্ঞান নয়, তারপরও পরিসংখ্যানের মতো সামাজিক বিজ্ঞানের বিভিন্ন বিষয় ব্যবহার করতে হয়। এটি গণিত নয়, তারপরেও ডেটার ভেতর থেকে বিভিন্ন প্রাথমিক গণনা করতে হয়। এটি গ্রাফিক ডিজাইনও নয়, তারপরও গ্রাফ-চার্ট-মানচিত্রসহ নানা কিছু ডিজাইন করতে হয় একজন ডেটা সাংবাদিককে। এমনকি ডেটা বিশ্লেষণ, ডেটা স্ক্রেপিং কিংবা টেবিল বানানোর ক্ষেত্রেও কোডিংও জানতে হয় কিছু কিছু ক্ষেত্রে, যেটি হয়তো ট্রেডিশনাল সাংবাদিকতার ক্ষেত্রে সাধারণত করতে হয় না।
ডেটা সাংবাদিকতাকেও একেকজন একেকভাবে ব্যখ্যা করেন। কারো কারো মতে একে সাংবাদিকতাই বলা যায় না, আবার অনেকের মতে এটা সাংবাদিকতার নতুন যুগের সূচনা করেছে। ডেটা সাংবাদিকতার নাম নিয়েও সাংবাদিক বা গবেষকরা ভিন্নমত পোষণ করেন। ‘ডেটা-ড্রিভেন জার্নালিজম’, ‘প্রিসিশন জার্নালিজম’, ‘কম্পিউটেশনাল জার্নালিজম’, ‘ডেটাবেজ জার্নালিজম’সহ নানা ধরনের নামে ডাকা হয় একে।
ডেটা সাংবাদিকতার সংজ্ঞাও একেকজন একেকভাবে দিয়েছেন।
- দ্য গার্ডিয়ান ডেটাব্লগের প্রতিষ্ঠাতা এবং গুগলের ডেটা এডিটর সাইমন রজার্সের মতে, “ডেটা সাংবাদিকতা হলো সংখ্যাকে ব্যবহার করে সবচেয়ে ভালো সংবাদ বলা। এটা গণিত নয়, চার্ট আঁকা কিংবা কোড লেখাও নয়। ডেটা সাংবাদিকতার প্রথম কাজ গল্প বলা। গণিত, চার্ট আর কোড কেবল মূল কাজটি করতে সাহায্য করে।”
- ভক্স মিডিয়ার প্রকাশক মেলিসা বেলের মতে, “যে বিষয়টি ডেটা সাংবাদিকতাকে তৈরি করে তা এর গঠন (Form) নয়। একটি ডেটা সোর্স থেকে ডেটা সংগ্রহ করে পরিশোধন করে সেটা বোঝাই ডেটা সাংবাদিকতা।”
- বার্মিংহ্যাম সিটি ইউনিভার্সিটির ডেটা সাংবাদিকতার শিক্ষক পল ব্র্যাডশ ডেটা সাংবাদিকতা সম্পর্কে বলেন, “ডেটা সাংবাদিকতার উৎস/সূত্র হিসেবে ডেটা কাজ করতে পারে, আবার কেবল ডেটা ব্যবহার করেই নিউজস্টোরি বলা সম্ভব, আবার এই দুটো মিলেই ডেটা সাংবাদিকতা হতে পারে।”
- টো সেন্টার ফর ডেটা জার্নালিজম অ্যান্ড নাইট ফাউন্ডেশন থেকে প্রকাশিত এক রিপোর্টে আলেকজান্ডার হাওয়ার্ড লেখেন, “ডেটা সাংবাদিকতা হলো সাংবাদিকতার প্রক্রিয়ায় সাহায্য করার জন্য ডেটা ‘সংগ্রহ, পরিশোধন, সজ্জীকরণ, বিশ্লেষণ, ভিজ্যুয়ালাইজেশন এবং প্রকাশ করা’। এর আরও সংক্ষিপ্ত সংজ্ঞা হতে পারে সাংবাদিকতার ক্ষেত্রে ডেটা সায়েন্সের ব্যবহার, যেখানে ডেটা থেকে জ্ঞান বের করে আনার প্রক্রিয়াকেই ডেটা সায়েন্স হিসেবে সংজ্ঞায়িত করা যেতে পারে।”
উপরোক্ত সংজ্ঞাগুলো থেকে ডেটা সাংবাদিকতা কী, তা সম্পর্কে কিছুটা ধারণা পাওয়া যায়। তবে এই শব্দবন্ধ শুনলেই অনেকের মাথায় কেবল ইনফোগ্রাফিক্সের ছবি ভেসে ওঠে। কেউ কেউ হয়তো আরও একধাপ এগিয়ে বিভিন্ন ধরনের গ্রাফ-চার্টকে অন্তর্ভুক্ত করবেন, যেখানে সংখ্যার ব্যবহার রয়েছে। তবে পরিসংখ্যানগত তথ্য-উপাত্তকে ব্যবহার করে গ্রাফ-চার্টসহ অন্যান্য গ্রাফিক তৈরি করলেই সেটি ডেটা সাংবাদিকতা হয়ে ওঠে না।
যেমন: কেউ যদি দেশের বিভাগগুলোতে এক বছরের মোট সড়ক দুর্ঘটনার সংখ্যাকে কলাম বা বার চার্ট তৈরি করে প্রদর্শন করে, তবে সেটিকে বড়জোর ডেটা ভিজ্যুয়ালাইজেশন বলা যেতে পারে, ডেটা সাংবাদিকতা নয়। যদিও ডেটা ভিজ্যুয়ালাইজেশন ডেটা সাংবাদিকতার একটি গুরুত্বপূর্ণ অংশ, তারপরেও ডেটা সাংবাদিকতার ক্ষেত্র আরও বিশাল। আর এখানেই চলে আসে ডেটা বিশ্লেষণের নাম।
একটি ডেটাসেট বিশ্লেষণ করে সেখানে লুকিয়ে থাকা কাহিনী অডিয়েন্সের কাছে আকর্ষণীয়ভাবে উপস্থাপন করা পর্যন্ত পুরো প্রক্রিয়াই ডেটা সাংবাদিকতা, কেবল ভিজ্যুয়াল আউটপুটট নয়। ডেটা সাংবাদিকতার মূলে গেলে এর সাথে ট্রেডিশনাল সাংবাদিকতার তেমন কোনো ভিন্নতা পাওয়া যাবে না। দুটোর কাজই বিভিন্ন ঘটনার ভেতরে গিয়ে বিভিন্ন ঘটনার আসল স্বরূপ খুঁজে বের করা। ট্রেডিশনাল সাংবাদিকতায় যেখানে তথ্য নেওয়া হয় বিভিন্ন ধরনের সোর্স থেকে (ব্যক্তি, ডকুমেন্ট কিংবা অন্যান্য), সেখানে ডেটা সাংবাদিকতায় তথ্য বের করা হয় একটি ডেটাসেট থেকে। এর ফলে পুরো বিষয় সম্পর্কে একটি বিস্তারিত চিত্র পাওয়া যায়।
উদাহরণ হিসেবে সড়ক দুর্ঘটনাকেই বাছাই করা যাক। হিসাবের সুবিধার্থে কেবল মেট্রোপলিটন এলাকার সড়ক দুর্ঘটনাকে বাছাই করা হলো। বাংলাদেশ পরিসংখ্যান ব্যুরোর স্ট্যাটিস্টিকাল ইয়ারবুক থেকে ২০০৯-১৯ সাল পর্যন্ত সড়ক দুর্ঘটনার দিকে তাকালে দেখা যায়, সবচেয়ে বেশি দুর্ঘটনা ঘটেছে ঢাকা মেট্রোপলিটন সিটিতে। এরপরেই মোট দুর্ঘটনার সংখ্যার দিক থেকে এগিয়ে রয়েছে চট্টগ্রাম। অন্যদিকে, রাজশাহী মোট দুর্ঘটনার দিক থেকে চট্টগ্রামের তুলনায় পিছিয়ে রয়েছে।
তবে আসলেই কোন মেট্রোপলিটন সিটি জনগণের জন্য কতটা ঝুঁকিপূর্ণ তা কেবল মোট দুর্ঘটনার সংখ্যা দিয়ে বোঝা সম্ভব নয়। এর সাথে জনসংখ্যাও যোগ করা জরুরি। কারণ এর ফলে দুর্ঘটনা ঘটার হার বের করা সম্ভব হবে। ধরা যাক, ‘ক’ ও ‘খ’ জেলার জনসংখ্যা যথাক্রমে দশ লক্ষ এবং এক লক্ষ। ‘ক’ জেলাতে ১০০টি সড়ক দুর্ঘটনা এবং ‘খ’ জেলাতে ৫০টি সড়ক দুর্ঘটনা ঘটলেও ‘খ জেলা’ বেশি ঝুঁকিপূর্ণ। কারণ সেখানে মোট দুর্ঘটনা অর্ধেক হলেও দুর্ঘটনা ঘটার হার ‘ক’ জেলার ৫ গুণ।
দুর্ঘটনা ঘটার হার বের করার জন্য মেট্রোপলিটন সিটিগুলোর মোট জনসংখ্যার হিসাব পাওয়া যায়নি বলে ২০১১ সালের আদমশুমারি অনুযায়ী ঐ জেলাটির জনসংখ্যাকে হিসাব করা হয়েছে।
সড়ক দুর্ঘটনা ও জনসংখ্যার উপাত্ত হিসাব করে দেখা যায় যে, ঢাকায় মোট দুর্ঘটনার সংখ্যার পাশাপাশি দুর্ঘটনা ঘটার হারও বেশি। অন্যদিকে, রাজশাহীতে চট্টগ্রামের তুলনায় দুর্ঘটনার সংখ্যা কম হলেও ২০১৪ সালের পর রাজশাহী মেট্রোপলিটন সিটিতে দুর্ঘটনার হার বেড়ে গিয়েছে।
এই ফলাফল ডেটা বিশ্লেষণ না করে বের করা সম্ভব নয়। চট্টগ্রামে ২০১৪ সালের পর দুর্ঘটনা ঘটার হার কমে গেল কেন কিংবা রাজশাহীতে কেন হঠাৎ করে এই দুর্ঘটনা ঘটার হার বেড়ে গেল, তা আরও গভীরভাবে অনুসন্ধান করে একটি পুরোদস্তুর প্রতিবেদন তৈরি করা সম্ভব। এক্ষেত্রে সাংবাদিকের প্রাথমিক তথ্যসূত্র ছিল বাংলাদেশ পরিসংখ্যান ব্যুরোর ডেটাসেট, কোনো ব্যক্তি বা অন্য কোনো ডকুমেন্ট নয়। একেই একধরনের ডেটা সাংবাদিকতা বলা যায়।
প্রতিটি মেট্রোপলিটন সিটির প্রতি সালের জনসংখ্যা থেকে শুরু করে সড়ক দুর্ঘটনার সংখ্যা, ধরন, আহত-নিহতের সংখ্যাসহ আরও বিস্তারিত ডেটাসেট থাকলে কেবল ঐ ডেটা থেকেই বিভিন্ন অ্যাঙ্গেল থেকে ডেটা বিশ্লেষণ করে বিভিন্ন নিউজ স্টোরি বের করে আনা সম্ভব, যা অন্য কোনোভাবে বের করা সম্ভব হবে না। পর্যাপ্ত ডেটার অভাবই ডেটা সাংবাদিকতার অন্যতম বড় সীমাবদ্ধতা, যা বাংলাদেশের মতো দেশে আরও প্রকট।
একটি অর্থহীন সংখ্যা বসানো ইনফোগ্রাফিকের তুলনায় ডেটা বিশ্লেষণের মাধ্যমে পাওয়া ফলাফল থেকে লিখিত ডেটা স্টোরি ডেটা সাংবাদিকতার ভালো উদাহরণ। ডেটা সাংবাদিকতার ফরম্যাট বিভিন্ন ধরনের হতে পারে, কেবল ছবিই নয়। লিখিত আর্টিকেল থেকে শুরু করে গ্রাফ-চার্ট, মানচিত্র, ইনফোগ্রাফিক, অডিও, ভিডিও, অ্যানিমেশন, ইন্টারঅ্যাক্টিভ গ্রাফিক, সব কিছুর মাধ্যমেই একে প্রকাশ করা যায়। তবে পাঠকের কাছে আরও আকর্ষণীয় করে তোলার জন্য যা যা প্রয়োজন তার সবকিছুই করা যেতে পারে।
এটা মনে রাখা জরুরি, ডেটা সাংবাদিকতার অর্থ আধুনিক ডিজিটাল প্রযুক্তি ব্যবহার করে সাংবাদিকতা নয়। আধুনিক ডিজিটাল প্রযুক্তি ব্যবহার করে ডেটার ভেতর থেকে প্রাসঙ্গিক তথ্য খুঁজে বের করাই ডেটা সাংবাদিকতা।