අතීතයේ පටන්ම තොරතුරු තාක්ෂණ ලෝකය තුළ අහුමුළුවල ගැවසෙමින් සිටි Big Data සමාජයේ බහුලව කතාබහට ලක්වන්නට පටන් ගන්නේ AI ශීඝ්රයෙන් සමාජගතවීමට පටන් ගැන්මත් සමග යි. දරුවන්ට පොත්පත් මෙන් යාන්ත්රික ඉගෙනුම සඳහා කෘත්රීම බුද්ධියට මහා පරිමාණයෙන් දත්ත නමැති දැනුම අවශ්ය වෙයි.
කුඩා කාලයේ දොර උළුවස්සේ උස ලකුණු කිරීම නිසා ඔබේ උස වැඩිවන ශීඝ්රතාවය මැනගත හැකි විය. කොණ්ඩය කපන විට ඉදුණු කෙස් ගස් පරීක්ෂා කිරීමෙන් ඒවා එක-දෙක වැඩි වන හැටි, තට්ටය පෑදෙන හැටි දැක කෙතරම් ඉක්මණින් විවාහ විය යුතුද යන්න තීරණය කළ හැකි වේ. කාන්තාවන්ට තම ඔසප් චක්රය සිදුවන දින ලකුණු කරගැනීමෙන් ඊළඟ මාසයේ එය ඇතිවන දිනය පුරෝකථනය කළ හැකි වේ. මේ සියල්ල එදිනෙදා ජීවිතයේදී දත්ත එක්රැස් කිරීම මඟින් අනාගතය දැකිය හැකි අවස්ථා යි.
විනිමය අනුපාත, කොටස් වෙළඳපොළ දත්ත ගැන අවධානයෙන් සිටින අයට ඒවායේ අඩු/වැඩි වීම් පුරෝකථනය කර ලාභ ලබන්නාක් සේ ඔබටත් අනාගතය දැකිය යුතු නම්, එහි යතුර දත්ත රැස් කිරීම යි. Big Data යනු එහි මහා පරිමාණ අවස්ථාව යි.
Big Data හෙවත් විශාල දත්ත යනු
‘Big Data’ යන්න සිංහල පාරිභාෂික වචන මාලාව අනුව ‘විශාල දත්ත’ වෙයි. විශාල දත්ත ලෙස අදහස් වන්නේ ඉහළ පරිමාවකින් යුත්, ඉහළ ප්රවේගයකින් සහ / හෝ ඉහළ ප්රභේදනයකින් යුත් තොරතුරු වත්කම් වේ. එය යමක් වඩාත් හොඳින් නිරීක්ෂණයට, තීරණ ගැනීමට සහ ක්රියාවලි ස්වයංක්රීයකරණයට යොදා ගත හැකි පිරිවැය-ඵලදායී, නව්ය තොරතුරු සැකසුම් ක්රමවේදයකි.
සරලව කිවහොත්, විශාල දත්ත යනු පුළුල්, වඩා සංකීර්ණ දත්ත කට්ටල වේ. එහි විශේෂ ලක්ෂණ තුනකි:
- පරිමාව – දත්තවල පරිමාව ඉතා වැදගත් ය. විශාල දත්ත සමග කටයුතු කිරීමේ දී අඩු ඝනත්වයක් ඇති, ව්යුහාත්මක නොවන (unstructured) දත්ත සැකසීමට සිදුවේ. එක් ආයතනයකට එය ටෙරාබයිට් වන විට තවෙකකට පෙටාබයිට් විය හැක. ඇතැම්විට මේවායේ පරිමාව අසීමිත විය හැක. උදා: ෆේස්බුක්/ට්විටර් Feed එක
- ප්රවේගය – ප්රවේගය යනු දත්ත ලැබෙන සහ (ඇතැම් විට) ඒ මත ක්රියාත්මක විය යුතු ඉහළ අනුපාතය යි. එනිසාම ඒවා සාමාන්යයෙන් (හාඩ්) ඩිස්කයට පෙර පද්ධති මතකය (මෙමරිය) වෙත යොමු කෙරේ. තත්කාලීනව (real-time) ක්රියාත්මක වන උපාංගවලට ඒ මත ක්ෂණිකව ක්රියාත්මක වීමට සිදු වේ.
- ප්රභේදනය – දත්ත ලද හැකි වර්ගවල විවිධත්වය ප්රභේදනය යි. සාම්ප්රදායික දත්ත වර්ග ව්යුහගත කර ඇති අතර ඒවා සම්බන්ධතා දත්ත පාදකවලට (relational database) උචිත වේ. එහෙත් විශාල දත්ත ව්යුහගත නොවූ හෝ අර්ධ-ව්යුවහගත පෙළ (text), ශ්රව්ය (audio), දෘෂ්ය (video) මාධ්යයන්ගෙන් ද පවතී. ඒවා ගබඩා කිරීමේදී අර්ථ ගැන්වීම් හා මෙටාදත්තවලට සහාය දැක්වීමට පූර්ව-සැකසීම් (pre-processing) කිරීම අවශ්ය වේ.
සාම්ප්රදායික දත්ත සැකසුම් මෘදුකාංගයකට ඒවා කළමනාකරණය කළ නොහැකි තරමට මෙම දත්ත කට්ටල විශාල ය. නමුත් මෙම දැවැන්ත දත්ත පරිමාවන් මීට පෙර විසඳීමට නොහැකි වූ ව්යාපාරික ගැටලු විසඳීමට භාවිතා කළ හැකි ය.
භාවිත අවස්ථා
පාරිභෝගික අදහස් ලබා ගැනීමේ සිට විශ්ලේෂණ කටයුතු දක්වා ව්යාපාර ක්රියාකාරකම් රාශියක් ආවරණය කිරීමට විශාල දත්ත උපකාරී වේ.
නිෂ්පාදන වැඩි දියුණු කිරීමේදී අතීත හා වර්තමාන නිෂ්පාදන හෝ සේවාවන්හි ප්රධාන ගුණාංග වර්ගීකරණය කිරීමෙන් සහ එම ගුණාංග හා ඒවායේ වාණිජ්යමය සාර්ථකත්වය අතර සම්බන්ධතාවය නිරූපණය කිරීමෙන් නව නිෂ්පාදන හා සේවාවන් සඳහා පුරෝකථන ආකෘති ගොඩනැංවිය හැකි වේ. නව නිෂ්පාදන සැලසුම් කිරීම, නිෂ්පාදනය කිරීම සහ දියත් කිරීම සඳහා පර්යේෂණ කණ්ඩායම්, පර්යේෂණ වෙළඳපළ, සමාජ මාධ්ය ජාල ආදියෙන් ලැබෙන දත්ත සහ විශ්ලේෂණයන් භාවිතා කරනු ලැබේ.
යාන්ත්රික දෝෂ පුරෝකථනයේ දී නිෂ්පාදන වර්ෂය, උපකරණ ආකෘතිය වැනි ව්යුහාත්මක දත්ත මෙන්ම මිලියන ගණන් වූ කාර්ය ලොග් සටහන්, සංවේදකවලින් ලද දත්ත, දෝෂ පණිවිඩ සහ එන්ජින් උෂ්ණත්වය යනාදිය ආවරණය වන ව්යුහගත නොවන දත්තයන් ද යොදා ගත හැකිවේ. එවිට යන්ත්රයක් අකර්මණ්ය වීම නිසා සම්පූර්ණ ආයතනයට ම වන හානිය අවම කර ගැනීමට කල් තියා ම සූදානම් වීමට අවස්ථාව ලැබේ.
යාන්ත්රික ඉගෙනුම් (Machine Learning)වලදී දත්ත ලැබෙන තරමට තම බුද්ධි මට්ටම වර්ධනය කර ගැනීමට කෘත්රීම බුද්ධිමය වැඩසටහන්වලට හැකියාව ලැබේ. දත්ත කැවීම සඳහා මේවා වැඩිදුර කේතකරණය කිරීමක් අවශ්ය නොවන අතර එය ලබන අත්දැකීම් අනුව උගනින නිසා වඩ වඩාත් විශාල දත්ත ඊට යොදවන තරමට වඩාත් සාර්ථක නිෂ්පාදනයක් බිහි වේ.
පාරිභෝගික අත්දැකීම් මිනුම්කරණයේදී අන්තර්ක්රියාකාරී අත්දැකීම් වැඩිදියුණු කිරීමට සහ ලබා දුන් අගය උපරිම කිරීමට සමාජ මාධ්ය, දුරකතන ඇමතුම්, ලොග් සටහන් සහ වෙනත් ප්රභවයන්ගෙන් දත්ත එක්රැස් කිරීමට විශාල දත්ත අවස්ථාව සලසයි. ව්යාපාරයක ප්රධාන අංගය වන පාරිභෝගිකයා තෘප්තිමත් වන තරමට ඕනෑම ආයතනයකට දිගු ගමනක් යා හැකි වේ.
මිනිසුන්, ආයතන, ක්රියාවලීන් යනාදියෙහි අන්තර් පරායත්තතාවයන් අධ්යයනය කිරීමෙන් ඊට නවමු ක්රම ගොඩ නඟන්නට විශාල දත්ත උපකාරී වේ. මූල්ය හා සැලසුම්කරණය පිළිබඳ තීරණ වැඩි දියුණු කිරීම සඳහා දත්ත විශ්ලේෂණයන් භාවිතා කළ හැකි වේ. ප්රවණතාවන් අනුව පාරිභෝගිකයින්ට නව නිෂ්පාදන හා සේවාවන් ලබා දීමට අවශ්ය දේ පරීක්ෂා කිරීමට, ගතික මිලකරණය ක්රියාත්මක කිරීමට යනාදී වශයෙන් නිමක් නැති හැකියාවන් රැසක් විශාල දත්ත දායාද කරයි.
ක්රියාත්මක වන ආකාරය
විශාල දත්ත මඟින් නව්යකරණයට සහ නව ව්යාපාර ආකෘති වෙත දොරටු විවර කරගැනීමට උපකාරී වේ. ඒ සඳහා ඊට ප්රධාන ක්රියා තුනක් අවශ්ය වේ:
- ඒකාබද්ධ කිරීම
විශාල දත්ත, විවිධ ප්රභවයන්ගෙන් සහ යෙදුම්වලින් ලද දත්ත එක්තැන් කරයි. සාම්ප්රදායික දත්ත ඒකාබද්ධ කිරීමේ යාන්ත්රණ (ETL – දත්ත රැස් කිරීම, පරිණාමණය හා ගබඩා කිරීම) සාමාන්යයෙන් මෙයට නොගැලපෙන අතර ඊට ටෙරාබයිට් හෝ පෙටබයිට් පරිමාණයෙන් විශාල දත්ත කට්ටල විශ්ලේෂණය කිරීම සඳහා නව උපාය මාර්ග සහ තාක්ෂණයන් අවශ්ය වේ.
ඒකාබද්ධ කිරීමේදී, දත්ත ගෙන ඒම, සැකසීම සහ එය ව්යාපාර විශ්ලේෂකයින්ට කටයුතු කළ හැකි ආකාරයකින් ආකෘතිගත කර ඇති බවට වග බලා ගැනීම කළ යුතු වේ.
- කළමනාකරණය
විශාල දත්ත ගබඩා කර ගැනීම කළ යුතු වේ. මෙය Cloud එකක, ආයතනය තුළ හෝ දෙකෙහිම විය හැකිය. අවශ්ය ඕනෑම ආකාරයකින් දත්ත ගබඩා කළ හැකි අතර ඉල්ලුමට අනුව එම දත්ත කට්ටල වෙත අවශ්ය සැකසුම් සහ ක්රියාවලීන් යෙදවිය හැකි ය.
- විශ්ලේෂණය
විශාල දත්ත වෙත කළ ආයෝජනයේ ඵල ලැබෙන්නේ එම දත්ත විශ්ලේෂණය කොට ව්යාපාර උන්නතිය සඳහා යොදාගන්නා විට ය. දත්ත සඳහා දෘෂ්යමය විශ්ලේෂණයන් ගොඩනඟා ගැනීම, නව්යකරණයන් සඳහා දත්ත තවදුරටත් ගවේෂණය කිරීම, දත්ත ආකෘති යාන්ත්රික ඉගෙනුමට සහ කෘත්රීම බුද්ධිය වෙත යෙදවීම යනාදිය මෙහි ලා කළ යුතු වේ.
විශාල දත්ත වනාහි ව්යාපාරයක පෝෂ්යදායී ආහාරයක්
විශාල දත්ත කළමනාකරණය මඟින් සාමාන්යයෙන් හඳුනාගත නොහැකි රටාවන් සහ උදාහරණයන් පාදාගත හැකි අතර, එම අවස්ථාවේ දී ව්යාපාරය ක්රියාත්මක වන්නේ කෙසේ ද යන්න පිළිබඳව විමර්ශනයන් සිදු කළ හැකිවේ. ගූග්ල්, ෆේස්බුක්, මයික්රොසොෆ්ට් වැනි ප්රධාන සමාගම් රැසක් සේවාවන් නොමිලේ ලබා දෙමින් මහා පරිමාණයෙන් දත්ත රැස් කරන්නේ වසර ගණනාවක් ඉදිරියෙහි ඔවුන් ලබන මහත් ලාභයක් ඉලක්ක කරගෙන මිස (හැමවිටම) පුණ්ය චේතනාවකින් නොවේ.
එවැනි සොයාගැනීම්වල ප්රතිඵලයක් ලෙස, ව්යාපාරයට කිසිවක් (හොඳ/නරක) සිදුවන්නේ කවදාදැ යි පුරෝකථනය කිරීමේ හැකියාව සහ පසුව අවශ්යතාවයන් වෙනස් කිරීම සඳහා, ප්රවණතාවයන්ට සාපේක්ෂව ව්යාපාරයේ ස්වභාවය වෙනස් කරගනිමින් අඛණ්ඩ පැවැත්ම සහතික කරගැනීමට හැකිවේ. එවිට තවදුරටත් නක්ෂත්රකරුවන්, ෆෙං-ෂුයි පිළිම ආදිය ව්යාපාරයේ එකම පිහිට නොවනු ඇත.