ഡാറ്റാ വിശകലനത്തിൽ, അനോമലി ഡിറ്റക്ഷൻ (ഔട്ട്‌ലിയർ ഡിറ്റക്ഷൻ എന്നും ചിലപ്പോൾ നോവൽറ്റി ഡിറ്റക്ഷൻ എന്നും അറിയപ്പെടുന്നു). അതായത് കൂട്ടത്തിൽ പെടാതെ ഒറ്റപ്പെട്ടു നിൽക്കുന്നവയെ കണ്ടെത്തുക. ഉദാഹരണത്തിന് ഒരു കൂട്ടം വിദ്യാർത്ഥികളെ സങ്കൽപ്പിക്കുക അതിൽ മിക്കവർക്കും സമാനമായ ടെസ്റ്റ് സ്കോറുകൾ ലഭിക്കുമ്പോൾ, ഏതാനും കുറച്ചുപേർക്ക് വളരെ ഉയർന്നതോ തീരെ കുറഞ്ഞതോ ആയ സ്കോറുകൾ ലഭിക്കുന്നു. ഈ ഔട്ട്‌ലയറുകളെ (കൂട്ടം തെറ്റിയവ) അപഗ്രഥിക്കുന്നതിലൂടെ പലപ്പോഴും വിലയേറിയ വിവരങ്ങൾ ലഭിച്ചെന്നു വരാം. സാധാരണ ഡാറ്റാ പോയിന്റുകളിൽ നിന്ന് കാര്യമായി വ്യതിചലിക്കുന്ന വിചിത്രമായ സംഭവങ്ങൾ കണ്ടെത്തുന്ന ഒരു ഡിറ്റക്ടീവ് പോലെ, അസാധാരണമായ ഈ സംഭവങ്ങൾ കണ്ടെത്തുന്നത് ഈ പ്രക്രിയയിൽ ഉൾപ്പെടുന്നു. അടിസ്ഥാനപരമായി, ഇത് ഭൂരിഭാഗം ഡാറ്റാസെറ്റും നിർവചിച്ചിരിക്കുന്നതും പ്രതീക്ഷിക്കുന്നതുമായ പാറ്റേണുകളുമായോ പെരുമാറ്റങ്ങളുമായോ പൊരുത്തപ്പെടാത്ത ഡാറ്റ റിബലുകളെ കൃത്യമായി കണ്ടെത്തുന്നതിനെക്കുറിച്ചാണ് ഇവിടെ പറയുന്നത്.[1]അത്തരം ഉദാഹരണങ്ങൾ വ്യത്യസ്തമായ ഒരു മെക്കാനിസം സൃഷ്ടിച്ചതാണോ എന്ന സംശയം ജനിപ്പിച്ചേക്കാം[2], അല്ലെങ്കിൽ ആ ഡാറ്റയുടെ ബാക്കിയുള്ളവയുമായി പൊരുത്തപ്പെടുന്നില്ല.[3]

സൈബർ സെക്യൂരിറ്റി, മെഡിസിൻ, മെഷീൻ വിഷൻ, സ്റ്റാറ്റിസ്റ്റിക്‌സ്, ന്യൂറോസയൻസ്, ലോ എൻഫോഴ്‌സ്‌മെന്റ്, സാമ്പത്തിക തട്ടിപ്പ് എന്നിവ ഉൾപ്പെടെ നിരവധി ഡൊമെയ്‌നുകളിൽ അനോമലി ഡിറ്റക്ഷൻ ആപ്ലിക്കേഷൻ കണ്ടെത്താൻ സാധിക്കും. മറ്റ് ഡാറ്റയിൽ നിന്ന് വളരെ വ്യത്യസ്തമായ ഡാറ്റ പോയിന്റുകളാണ് അനോമലീസ്, ആവറേജ്, സ്റ്റാൻഡേർഡ് ഡീവിയേഷൻ, മറ്റ് സ്റ്റാറ്റിസ്റ്റിക്കൽ അളവുകൾ എന്നിവയെ ബാധിക്കും. ലീനിയർ റിഗ്രഷൻ പോലുള്ള മോഡലുകളുടെ കൃത്യത വർദ്ധിപ്പിക്കുന്നതിനായി ഔട്ട്‌ലയറുകൾ ആദ്യം നീക്കംചെയ്തു, ഇപ്പോൾ അവയുടെ ഒഴിവാക്കൽ മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങളുടെ മൊത്തത്തിലുള്ള പ്രകടനം മെച്ചപ്പെടുത്തുന്നു. എന്നിരുന്നാലും, വിവിധ സാഹചര്യങ്ങളിൽ, അനോമലീസ് തിരിച്ചറിയുന്നത് നിർണായകമാണ്, കാരണം അവ ഡാറ്റാസെറ്റിലെ ഏറ്റവും മൂല്യവത്തായ നിരീക്ഷണങ്ങളെ പ്രതിനിധീകരിക്കുന്നു, ശബ്ദത്തിൽ നിന്നോ അപ്രസക്തമായ ഔട്ട്‌ലൈയറുകളിൽ നിന്നോ വേറിട്ടുനിൽക്കുന്നു.

അനോമലി ഡിറ്റക്ഷൻ ടെക്നിക്കുകളുടെ മൂന്ന് വിശാലമായ വിഭാഗങ്ങൾ നിലവിലുണ്ട്.[1]സൂപ്പർവൈസ്ഡ് അനോമലി ഡിറ്റക്ഷൻ ടെക്‌നിക്ക് "സാധാരണം", "അസാധാരണം" എന്നിങ്ങനെ ലേബൽ ചെയ്‌ത ഒരു ഡാറ്റാ സെറ്റ് ആവശ്യമാണ്, കൂടാതെ ഒരു ക്ലാസിഫയറിനെ പരിശീലിപ്പിക്കുന്നതും ഇതിൽ ഉൾപ്പെടുന്നു. സാധാരണഗതിയിൽ വേണ്ടത്ര ലേബൽ ചെയ്‌ത ഡാറ്റ ലഭ്യമല്ലാത്തതിനാലും ക്ലാസുകൾ പലപ്പോഴും അസന്തുലിതാവസ്ഥയിലായതിനാലും, മോഡലുകളെ ഫലപ്രദമായി പരിശീലിപ്പിക്കുന്നത് ബുദ്ധിമുട്ടാക്കുന്നതിനാലും അപാകത കണ്ടെത്തുന്നതിനുള്ള ഡാറ്റ ലേബൽ ചെയ്യുന്നത് വളരെ അപൂർവമാണ്. സെമി-സൂപ്പർവൈസ്ഡ് അനോമലി ഡിറ്റക്ഷൻ ടെക്നിക്കുകൾ ചില ലേബൽ ചെയ്ത ഡാറ്റയുമായി പ്രവർത്തിക്കുന്നു, അത് സാധാരണമോ അസാധാരണമോ ആകാം. സാധാരണ ഡാറ്റയെ അടിസ്ഥാനമാക്കി ഒരു മോഡൽ സൃഷ്‌ടിക്കുന്നു, തുടർന്ന് ഈ സാധാരണ പാറ്റേണുമായി പൊരുത്തപ്പെടാൻ പുതിയ ഡാറ്റ എത്രത്തോളം സാധ്യതയുണ്ടെന്ന് പരിശോധിക്കുന്നു. അൺസൂപ്പർവൈസ്ഡ് അനോമലി ഡിറ്റക്ഷൻ ടെക്‌നിക്കുകൾ ലേബൽ ചെയ്യാത്ത ഡാറ്റയ്‌ക്കൊപ്പം പ്രവർത്തിക്കുന്നു, അവ വിവിധ സാഹചര്യങ്ങളിൽ വ്യാപകമായി ഉപയോഗിക്കുന്നു. വിചിത്രമായ കാര്യങ്ങൾ എന്താണെന്ന് മുൻകൂട്ടി അറിയാതെ തന്നെ ഡാറ്റയിൽ വിചിത്രമായ കാര്യങ്ങൾ കണ്ടെത്തുന്നു, ഇത് എല്ലാത്തരം ഡാറ്റയിലും ഔട്ട്‌ലൈയറുകൾ കണ്ടെത്തുന്നതിന് ഉപയോഗപ്രദമാക്കുന്നു.

  1. 1.0 1.1 Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey". ACM Computing Surveys. 41 (3): 1–58. doi:10.1145/1541880.1541882. S2CID 207172599.
  2. Hawkins, Douglas M. (1980). Identification of Outliers. Chapman and Hall London; New York.
  3. Barnett, Vic; Lewis, Lewis (1978). Outliers in statistical data. John Wiley & Sons Ltd.
"https://ml.wikipedia.org/w/index.php?title=അനോമലി_ഡിറ്റക്ഷൻ&oldid=3989426" എന്ന താളിൽനിന്ന് ശേഖരിച്ചത്