දත්ත විශ්ලේෂණය සඳහා Machine Learning ක්‍රම තෝරාගන්නා ආකාරය සරලව

යාන්ත්‍රික ඉගෙනීම හෙවත් Machine Learning ප්‍රධාන පියවර තුනකට බෙදිය හැකිය. එනම්, දත්ත එක්රැස් කිරීම (collection), දත්ත ආකෘති නිර්මාණය (modelling) සහ යෙදවීම (deployment) යි. එම තුන, එකිනෙක වෙත බලපාන ඒවා ය.

එහි පළමු පියවර වන දත්ත රැස් කිරීම සිදු කරන්නේ කෙසේ ද යන්න ඔබ විසඳීමට තැත් කරන ගැටළුව මත රඳා පවතී. ඊට සරල ක්‍රමයක් වන්නේ ඔබේ පාරිභෝගිකයාගේ මිල දී ගැනීම් පැතුරුම්පතක් (spreadsheet) තුළ ගබඩා කර ගැනීම යි.

අවසන් අදියර වන ‘යෙදවීම’ යනු අදාල උපදෙස් මාලාව ගෙන, එය යෙදවීමක (application) භාවිතා කිරීම යි. මෙම යෙදුම ඔබේ අන්තර්ජාල වෙළඳසැලේ ගනුදෙනුකරුවන්ට නිෂ්පාදන නිර්දේශ කිරීම හෝ රෝහලක රෝග හඳුනාගැනීම වඩා හොඳින් පුරෝකථනය කිරීම වැනි යමක් විය හැකිය.

මේ ලිපියෙන් අපි සලකා බලන්නේ එහි දෙවැනි අදියර වන දත්ත ආකෘතිකරණය පිළිබඳව යි.

ආකෘති නිර්මාණය හෙවත් Data modelling

අමුද්‍රව්‍ය එක් කළ විට ලැබෙන ප්‍රතිදානය (blogspot.com)

ආකෘති නිර්මාණය යනු ඔබ එකතු කරන ලද දත්ත තුළින් ප්‍රයෝජන ලැබීමට අරුතක් ගොඩ නැඟීම සඳහා යාන්ත්‍රික ඉගෙනුම් ඇල්ගොරිතමයක් භාවිතා කිරීම යි. සාමාන්‍ය ඇල්ගොරිතමයක් සහ යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතමයක් අතර වෙනස කුමක්ද? එය මෙසේ පැහැදිලි කළ හැකියි.

පොල්සම්බෝලයක් සැකසීමට අවශ්‍ය අමුද්‍රව්‍ය ගෙන, ඒවා එකිනෙක යොදමින් අවසානයේ දෙහි බිංදුවක් ද දමා රස කරගන්නැ යි ඉවුම් පිහුම් පොත්වල තිබේ. එනම්, සැකසීමට අවශ්‍ය දේවල් සහ පියවර පොතෙහි ඇති ඇති අතර එය බලාගනෙ අපිට අවසන් ඵලය ලබා ගත හැකියි. එය සාමාන්‍ය ඇල්ගොරිතමයකි.

වැඩිදුර කියැවීමට: 2019 වන විට AIවල පසුබිම

යාන්ත්‍රික ඉගෙනුම් ඇල්ගොරිතමයක වෙනස, අමුද්‍රව්‍ය සහ සකසන ලද පොල්සම්බෝලයක් ඇති විට, එය සකසන ආකාරය පිළිබඳ පියවර ගොඩනගා ගැනීම යි. එනම්, කුමන ප්‍රමාණවලින් අමුද්‍රව්‍ය දැමිය යුතු ද, ඇඹරීමට කුමක් භාවිතා කළ යුතු ද යනාදිය ගොඩ නැඟීම යි. විවිධ වර්ගයේ යාන්ත්‍රික ඉගෙනීමේ ඇල්ගොරිතම ඇති අතර සමහර ඒවා විවිධ ගැටළු වලදී අනෙක් ඒවාට වඩා හොඳින් ක්‍රියා කරයි. එහෙත් එක් පොදු දෙයක් පවතී. එනම්, දත්තවල රටා හෝ උපදෙස් මාලාවක් සොයා ගැනීම සඳහා වූ පොදු ඉලක්කය යි.

මේ සඳහා යොදාගත යුතු යාන්ත්‍රික ඉගෙනුම් ක්‍රමවේද වර්ග කිහිපයක් තිබේ. ඒවා ගැටළුවට වඩාත් උචිත ලෙස අදාල වර්ගය අවස්ථානුකූලව තෝරාගත යුතු වේ. පහත කොටස්වල, දත්තයක් යනු ඔබ රැස්කරගත් දේවල් වන අතර, ලේබලයක් යනු ඒවා වර්ගීකරණය සඳහා යොදනු ලබන ප්‍රවර්ගයකි (category).

අධීක්ෂණය යටතේ සිදුවන ඉගෙනුම

අධීක්ෂණය කිරීම සිදුවන්නේ පුහුණුව අතරතුර දී ය (clickup.com)

දත්ත සහ ලේබල ඇති අවස්ථාවකදී අධීක්ෂණය යටතේ සිදුවන ඉගෙනීම හෙවත් Supervised learning යොදා ගැනේ. යාන්ත්‍රික ඉගෙනීමේ ඇල්ගොරිතමයක් මඟින් දත්තවල ඇති රටාවන් වෙත ලේබල් ලබා දෙයි. අධීක්ෂණය කිරීම සිදුවන්නේ පුහුණුව අතරතුර දී ය. ඇල්ගොරිතමය අනුමාන කරන ලේබලය වැරදි නම්, එය නිවැරදි කර ගැනීමට ස්වයංව උත්සාහ කරයි.

උදාහරණයක් ලෙස, නව රෝගියෙකු තුළ හෘද රෝග ඇති බවට අනුමාන කිරීමට අවශ්‍යව තිබේ. දැනටමත් පෙර රෝගීන් 100 දෙනෙකුගේ නිර්නාමික වාර්තා දත්ත ලබාගෙන ඒවායේ ඔවුන්ට හෘද රෝග තිබේ ද, නැද්ද යන්න ලේබල් කර තිබේ.

යාන්ත්‍රික ඉගෙනීමේ ඇල්ගොරිතමයකට වෛද්‍ය වාර්තා (ආදානය/Input) සහ රෝගියකුට හෘද රෝග (ප්‍රතිදානය/Output) තිබේ ද නැද්ද යන්න දෙස බලා වෛද්‍ය වාර්තාවල හෘද රෝග ඇතිවීමට හේතු වන රටාවන් මොනවාදැ යි සොයා ගත හැකිය (පෙර උදාහරණය අනුව සරල කළහොත් මේ, ‍පොල්සම්බල සඳහා අවශ්‍ය පියවර නිර්ණය කිරීම යි.)

පුහුණු කළ ඇල්ගොරිතමයක් සකසා ගත් පසු, නව රෝගියෙකුගේ වෛද්‍ය වාර්තා (ආදානය) හරහා ගොස් ඔවුන්ට හෘද රෝග (ප්‍රතිදානය) තිබේ ද යන්න පිළිබඳ පුරෝකථනයක් ලබා ගත හැකිය. මෙම අනාවැකිය නිශ්චිත නොවන බව මතක තබා ගැනීම වැදගත් ය. එය හුදෙක් සම්භාවිතාවකි.

අධීක්ෂණය නොකළ ඉගෙනීම

දෙන ලද ආදානය වර්ගීකරණය (intellipaat.com)

අධීක්ෂණය නොකළ ඉගෙනීම (Unsupervised learning) යොදා ගන්නේ ඔබ සතුව දත්ත ඇති නමුත් ලේබල නොමැති විට ය . දත්ත ලෙස ඇත්තේ ඔන්ලයින් වෙළඳසැලක පාරිභෝගිකයින්ගේ මිල දී ගැනීමේ ඉතිහාසය විය හැකිය.

මෙම දත්ත භාවිතා කරමින්, සමාන අවශ්‍යතාවයන් ඇති ගනුදෙනුකරුවන් සමූහගත කර වට්ටම් ලබාදීමට අවශ්‍ය වූ අවස්ථාවක් ගැන සිතන්න. මිල දී ගැනීමේ ඉතිහාසය අනුව ගනුදෙනුකරුවන් කාණ්ඩගත කිරීමට යාන්ත්‍රික ඉගෙනුම් ඇල්ගොරිතමයක් භාවිතා කළ හැකිය.

එම කණ්ඩායම් පරීක්ෂා කිරීමෙන් පසුව, ලේබල සපයනු ලැබේ. පරිගණක කොටස් ගැන උනන්දුවක් දක්වන කණ්ඩායමක්, ගෘහ භාණ්ඩවලට වැඩි කැමැත්තක් දක්වන තවත් කණ්ඩායමක් සහ පාවිච්චි කළ උපාංග (second hand) පමණක් මිල දී ගන්නා කණ්ඩායමක් සිටිය හැකිය.

වැදගත් දෙය නම්, ඇල්ගොරිතමය විසින් මෙම ලේබල ලබා නොදීම යි. එය සමාන ගනුදෙනුකරුවන් අතර රටා සොයා ගත් අතර හිමිකරු විසින් ලේබල ලබා දුන්නේ ය.

අර්ධව අධීක්ෂණය කළ ඉගෙනීම

දැනටමත් ලේබල් කර ඇති ලේඛන මත පදනම්ව නව ඒවා පිළියෙළ කෙරේ (lynda.com)

අර්ධව අධීක්ෂණය කරන ලද (Semi-supervised learning) ඇල්ගොරිතමවලට අර්ධ වශයෙන් ලේබල් කරන ලද දත්ත කට්ටලවලින් ඉගෙන ගත හැකිය.

සෑම ලේඛනයක්ම ලේබල් කර නොමැති ලිපි ලේඛන වර්ගීකරණය කිරීම සඳහා ආකෘතියක් පුහුණු කිරීමට අවශ්‍ය යැයි සිතන්න. දැනටමත් ලේබල් කර ඇති ලේඛන මත පදනම්ව, ලේබල් නොකළ ලේඛන වඩාත් නිවැරදිව වර්ගීකරණය කර ගැනීමට හැකි වේ.

එබැවින්, මෙය ඉහත කී අධීක්ෂණය කරන ලද සහ නොකරන ලද අවස්ථාවන්ගේ අතරමැදි ක්‍රමයකි.

හුවමාරු ඉගෙනුම

උගත් දෑ නැවත ප්‍රතිසංධානය (medium.com)

හුවමාරු ඉගෙනුම (Transfer learning) යනු දැනට පවතින, පුහුණු කළ යාන්ත්‍රික ඉගෙනීමේ ආකෘතියක් ගෙන, එහි ඇති තොරතුරු භාවිතයෙන් ඔබේ ම ගැටලුවකට අනුරූප වන පරිදි එය සකස් කර ගැනීමයි.

මුල සිටම යාන්ත්‍රික ඉගෙනීමේ ආකෘතියක් පුහුණු කිරීමට ඉහළ පිරිවැයක් හා කාලයක් ගත වේ. එහෙත් ඔබට සැමවිටම එසේ කිරීමට අවශ්‍ය නැත. යාන්ත්‍රික ඉගෙනීමේ ඇල්ගොරිතමයක් එක් ආකාරයක දත්තයක රටා සොයාගත් විට, මෙම රටා වෙනත් දත්ත වර්ගයක් සඳහා භාවිතා කළ හැකි වේ.

ඔබ මෝටර් රථ රක්ෂණ සමාගමක් පවත්වාගෙන යන්නේයැ යි සිතමු. මෝටර් රථ අනතුරක් සඳහා රක්ෂණ වන්දි මුදලක් ඉල්ලා සිටින අයෙකු වැරැද්දක් කර ඇත්ද නැද්ද යන්න වර්ගීකරණය කිරීම සඳහා ඔවුන් එවන ඊමේල් හෝ ලිපි ගොනු වර්ගීකරණය කිරීම සඳහා ආකෘතියක් තැනීමට අවශ්‍ය වේ.

මේ සඳහා මුල සිට ම ලිපි ගොනුවල ඇති දේ අවබෝධ කරගන්නා ආකෘතියක් පුහුණු නොකොට, දැනටමත් අන්තර්ජාලයේ ඇති වෙබ් අඩවිවලින් වචන පිළිබඳ අවබෝධයක් ලද එකක් ලබා ගත හැක. අනතුරුව, එයට ඔබ සතුව දැනට ඇති ලිපි ගොනු (දත්ත) සහ ඒවායේ වැරැද්දේ ස්වභාවය (ලේබලය) යොමු කරමින් ඔබේ ගැටළුවට අවශ්‍ය පරිදි කෙටි කාලයකින් ම පුහුණු කරවා ගත හැකි වේ.

යාන්ත්‍රික ඉගෙනුම් ආකෘතියක අවශ්‍යතාව තීරණය කිරීම

කාරණා තුනක් මත Machine Learning අවශ්‍ය ද නැද්ද යන්න තීරණය කළ හැක (autodesk.com)

කිසිවක් වර්ගීකරණය කළ යුතු නම්, පුරෝකථනය කළ යුතු නම් හෝ කෙනෙක්ට යමක් අලුතින් යෝජනා කිරීමට අවශ්‍ය නම් එය යාන්ත්‍රික ඉගෙනුමකට පාර කපන අවස්ථාවක් විය හැක. කිසියම් ගැටළුවකට යාන්ත්‍රික ඉගෙනුම් ආකෘතියක අවශ්‍යතාව තීරණය කිරීමේදී එම කරුණු තුනට එය යටත් වන්නේ ද යන්න සලකා බැලිය හැක.

ඉහත කී රක්ෂණ සමාගම් උදාහරණය සැලකුවහොත්, යාන්ත්‍රික ඉගෙනුම යොදා ගැනීමෙන් පසු එතෙක් කාලයක් කාර්ය මණ්ඩලය විසින් පැය ගණන් ගත කරමින් කළ දේවල් ඉතාම වේගයෙන් කරගන්නට අවස්ථාව උදාවනු ඇත. එසේම එය මෙතෙක් කල් කරමින් සිටි මිනිසුන්ට නව රැකියාවකට ගැලපෙන හැකියාවන් වර්ධනය කරගන්නට ද සිදුවනු ඇත. ඒ, ඵලදායීතාවය නමැති කාසියේ දෙපැත්ත යි.

මේ වන විටත් කෘත්‍රීම බුද්ධිය ඇදහිය නොහැකි ‍දේවල් රැසක් කර තිබෙනවා. ඉන් මිනිසාට ඇති බලපෑම ගැන දැනගන්නට ‘කෘත්‍රීම බුද්ධිය මානවයා නසන්නටම නොවේ’ ලිපිය බලන්න.

කවරය: searchenginejournal.com

මූලාශ්‍රයයන්:

  • medium.com/Inside Machine Learning
  • towardsdatascience.com
  • machinelearningmastery.com

Related Articles

Exit mobile version