കമ്പ്യൂട്ടർ വിഷൻ ലോകത്തിൽ നിന്നുള്ള ദൃശ്യ വിവരങ്ങൾ മനസിലാക്കുന്നതിനും വ്യാഖ്യാനിക്കുന്നതിനും കമ്പ്യൂട്ടറുകൾ ഉപയോഗിക്കുന്നത് കമ്പ്യൂട്ടർ വിഷനിൽ ഉൾപ്പെടുന്നു. ഡിജിറ്റൽ ഇമേജുകൾ എടുക്കുക, അവ പ്രോസസ്സ് ചെയ്യുക, അവയിൽ നിന്ന് ഉപയോഗപ്രദമായ വിവരങ്ങൾ എക്‌സ്‌ട്രാക്‌റ്റ് ചെയ്യുക തുടങ്ങിയ ജോലികൾ ഇതിൽ ഉൾപ്പെടുന്നു. തീരുമാനങ്ങൾ എടുക്കാൻ ഉപയോഗിക്കാവുന്ന ഈ ചിത്രങ്ങളെ സംഖ്യാപരമായ അല്ലെങ്കിൽ പ്രതീകാത്മക ഡാറ്റയാക്കി മാറ്റുക എന്നതാണ് ലക്ഷ്യം. ഫോട്ടോകളിലെ ഒബ്‌ജക്‌റ്റുകൾ തിരിച്ചറിയുക, ചലനങ്ങൾ ട്രാക്കുചെയ്യുക, അല്ലെങ്കിൽ ഒരു സീനിന്റെ ഉള്ളടക്കം മനസ്സിലാക്കുക തുടങ്ങിയ വിവിധ മേഖലകളിൽ ഇത് പ്രയോഗിക്കാവുന്നതാണ്. അടിസ്ഥാനപരമായി, കമ്പ്യൂട്ടർ വിഷൻ കമ്പ്യൂട്ടറുകളെ നമുക്ക് ചുറ്റുമുള്ള ദൃശ്യ ലോകത്തെ "കാണാനും" മനസ്സിലാക്കാനും സഹായിക്കുന്നു.[1][2][3][4][5]ഈ സന്ദർഭത്തിൽ മനസ്സിലാക്കുന്നത്, നമ്മുടെ മനസ്സിന് ഗ്രഹിക്കാൻ കഴിയുന്ന അർത്ഥവത്തായ വിവരണങ്ങളിലേക്ക് നാം കാണുന്നതിനെ വിവർത്തനം ചെയ്യുന്നതുപോലെയാണ്, ലോകത്തെ മനസ്സിലാക്കാനും ആ ധാരണയുടെ അടിസ്ഥാനത്തിൽ ഉചിതമായ നടപടികൾ കൈക്കൊള്ളാനും നമ്മളെ അനുവദിക്കുന്നു. ഇമേജ് ഡാറ്റയിൽ നിന്ന് പ്രതീകാത്മക വിവരങ്ങൾ എക്‌സ്‌ട്രാക്‌റ്റുചെയ്യുന്നതിന് ജ്യാമിതി, ഭൗതികശാസ്ത്രം, സ്ഥിതിവിവരക്കണക്കുകൾ, ലേണിംഗ് തിയറി എന്നിവ സംയോജിപ്പിക്കുന്ന മോഡലുകൾ ഉപയോഗിച്ചുകൊണ്ട് ഇമേജ് എത് തരത്തിലുള്ളവയാണെന്ന് മനസ്സിലാക്കുന്നു. അടിസ്ഥാനപരമായി, ഗണിതശാസ്ത്ര തത്വങ്ങളുടെയും മെഷീൻ ലേണിംഗിന്റെയും മിശ്രിതത്തിലൂടെ വിഷ്വൽ വിവരങ്ങളെ അർത്ഥവത്തായ ഘടകങ്ങളായി വിഭജിക്കുന്ന പ്രക്രിയയാണിത്.

ചിത്രങ്ങൾ അല്ലെങ്കിൽ വീഡിയോകൾ പോലെയുള്ള വിഷ്വൽ വിവരങ്ങൾ മനസ്സിലാക്കാനും വ്യാഖ്യാനിക്കാനും കഴിയുന്ന സ്മാർട്ട് മെഷീനുകൾ സൃഷ്ടിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന ഒരു പഠന മേഖലയാണ് കമ്പ്യൂട്ടർ വിഷൻ. ഒബ്‌ജക്‌റ്റുകളും പാറ്റേണുകളും തിരിച്ചറിയാനും വിഷ്വൽ ഡാറ്റയെ മനസ്സിലാക്കാനും കമ്പ്യൂട്ടറുകളെ പ്രാപ്‌തമാക്കുന്ന അൽഗോരിതങ്ങളും സിസ്റ്റങ്ങളും വികസിപ്പിക്കുന്നത് ഇതിൽ ഉൾപ്പെടുന്നു. വീഡിയോ സീക്വൻസുകൾ, ഒന്നിലധികം ക്യാമറകളിൽ നിന്നുള്ള കാഴ്ചകൾ, ഒരു 3ഡി സ്കാനറിൽ നിന്നുള്ള മൾട്ടി-ഡൈമൻഷണൽ ഡാറ്റ, ലിഡാർ(LiDaR) സെൻസറുകളിൽ നിന്നുള്ള 3ഡി പോയിന്റ് ക്ലൗഡുകൾ അല്ലെങ്കിൽ മെഡിക്കൽ സ്കാനിംഗ് ഉപകരണങ്ങൾ എന്നിങ്ങനെ ഇമേജ് ഡാറ്റയ്ക്ക് നിരവധി രൂപങ്ങൾ എടുക്കാം. കമ്പ്യൂട്ടർ വിഷന്റെ സാങ്കേതിക വിഭാഗം അതിന്റെ സിദ്ധാന്തങ്ങളും മാതൃകകളും കമ്പ്യൂട്ടർ വിഷൻ സിസ്റ്റങ്ങളുടെ നിർമ്മാണത്തിൽ പ്രയോഗിക്കാൻ ശ്രമിക്കുന്നു.

കമ്പ്യൂട്ടർ വിഷന്റെ സബ്-ഡൊമെയ്‌നുകളിൽ സീൻ പുനർനിർമ്മാണം, ഒബ്‌ജക്റ്റ് കണ്ടെത്തൽ, ഇവന്റ് കണ്ടെത്തൽ, ആക്ടിവിറ്റി റിഗ്നിഷൻ, വീഡിയോ ട്രാക്കിംഗ്, ഒബ്‌ജക്റ്റ് തിരിച്ചറിയൽ, 3ഡി പോസ് എസ്റ്റിമേഷൻ, ലേണിംഗ്, ഇൻഡെക്‌സിംഗ്, മോഷൻ എസ്റ്റിമേഷൻ, വിഷ്വൽ സെർവോയിംഗ്, 3ഡി സീൻ മോഡലിംഗ്, ഇമേജ് പുനഃസ്ഥാപിക്കൽ എന്നിവ ഉൾപ്പെടുന്നു.

ഓർഗനൈസേഷനുകൾക്കായി കമ്പ്യൂട്ടർ വിഷൻ ടെക്നോളജി സ്വീകരിക്കുന്നത് വെല്ലുവിളി നിറഞ്ഞതാണ്, കാരണം ഒരൊറ്റ വലുപ്പത്തിന് അനുയോജ്യമായ ഒരു പരിഹാരമില്ല. കമ്പ്യൂട്ടർ വിഷൻ ആപ്ലിക്കേഷനുകൾ എളുപ്പത്തിൽ വിന്യസിക്കാനും കൈകാര്യം ചെയ്യാനും കഴിയുന്ന ഒരു ഏകീകൃത പ്ലാറ്റ്ഫോം ഓപ്പറേറ്റിംഗ് സിസ്റ്റം കുറച്ച് കമ്പനികൾ മാത്രമേ വാഗ്ദാനം ചെയ്യുന്നുള്ളൂ, ഇത് ബിസിനസ്സുകൾക്ക് പ്രക്രിയ കൂടുതൽ സങ്കീർണ്ണമാക്കുന്നു.

നിർവ്വചനം

തിരുത്തുക

കമ്പ്യൂട്ടർ വിഷൻ എന്നത് കമ്പ്യൂട്ടറുകളെ ചിത്രങ്ങളോ വീഡിയോകളോ കാണാനും മനസ്സിലാക്കാനും പഠിപ്പിക്കുന്നത് പോലെയാണ്, നമ്മുടെ കണ്ണുകൾക്കും തലച്ചോറിനും ചെയ്യാൻ കഴിയുന്ന ജോലികൾ ചെയ്യാൻ കമ്പ്യൂട്ടറുകളെ പ്രേരിപ്പിക്കുന്നു. വിഷ്വൽ വിവരങ്ങൾ തിരിച്ചറിയാനും വ്യാഖ്യാനിക്കാനും വേണ്ടി മെഷീനുകളെ സ്‌മാർട്ടാക്കുന്നതിനെക്കുറിച്ചാണ് ഇത് പ്രതിപാദിക്കുന്നത്.[6][7][4]ചിത്രങ്ങളിൽ നിന്നോ വീഡിയോകളിൽ നിന്നോ പ്രധാനപ്പെട്ട വിവരങ്ങൾ സ്വയമേവ കണ്ടെത്തുന്നതിന് കമ്പ്യൂട്ടറുകളെ പഠിപ്പിക്കുന്നതാണ് കമ്പ്യൂട്ടർ വിഷൻ. ഈ ആവശ്യത്തിനായി സിദ്ധാന്തങ്ങളും അൽഗോരിതങ്ങളും സൃഷ്ടിച്ച് വിഷ്വൽ ഡാറ്റ എങ്ങനെ മനസ്സിലാക്കാമെന്നും വ്യാഖ്യാനിക്കാമെന്നും മെഷീനുകളെ പഠിപ്പിക്കുന്നു. മനുഷ്യന്റെ ഇടപെടലില്ലാതെ ചിത്രങ്ങൾ "കാണാനും" മനസ്സിലാക്കാനും കമ്പ്യൂട്ടറുകളെ പ്രാപ്തമാക്കുക എന്നതാണ് ലക്ഷ്യം.[8]ഒരു ശാസ്ത്രശാഖ എന്ന നിലയിൽ, ചിത്രങ്ങളിൽ നിന്ന് വിവരങ്ങൾ വേർതിരിച്ചെടുക്കുന്ന കൃത്രിമ സംവിധാനങ്ങൾക്ക് പിന്നിലെ സിദ്ധാന്തവുമായി ബന്ധപ്പെട്ടതാണ് കമ്പ്യൂട്ടർ വിഷൻ. ഇമേജ് ഡാറ്റയ്ക്ക് വീഡിയോ സീക്വൻസുകൾ, ഒന്നിലധികം ക്യാമറകളിൽ നിന്നുള്ള കാഴ്ചകൾ, അല്ലെങ്കിൽ ഒരു മെഡിക്കൽ സ്കാനറിൽ നിന്നുള്ള മൾട്ടി-ഡൈമൻഷണൽ ഡാറ്റ എന്നിങ്ങനെ നിരവധി രൂപങ്ങൾ എടുക്കാം.[9]വിഷ്വൽ വിവരങ്ങൾ മനസ്സിലാക്കാനും വ്യാഖ്യാനിക്കാനും കമ്പ്യൂട്ടറുകളെ പ്രാപ്തമാക്കുന്ന സിസ്റ്റങ്ങൾ സൃഷ്ടിക്കുന്നതിന് സിദ്ധാന്തങ്ങളും മോഡലുകളും പ്രയോഗിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന ഒരു മേഖലയാണ് കമ്പ്യൂട്ടർ വിഷൻ. ഫാക്ടറി ഓട്ടോമേഷനിൽ പലപ്പോഴും ഉപയോഗിക്കുന്ന മെഷീൻ വിഷൻ, സിസ്റ്റം എഞ്ചിനീയറിംഗിലെ ഒരു അനുബന്ധ വിഭാഗമാണ്. കാലക്രമേണ, സാങ്കേതികവിദ്യകളും ആപ്ലിക്കേഷനുകളും വികസിച്ചതോടെ കമ്പ്യൂട്ടർ വിഷൻ, മെഷീൻ വിഷൻ എന്നീ പദങ്ങൾ കൂടുതൽ പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നു.[10]

ചരിത്രം

തിരുത്തുക

1960-കളുടെ അവസാനത്തിൽ, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന് തുടക്കമിട്ട സർവകലാശാലകളിൽ കമ്പ്യൂട്ടർ വിഷൻ ആരംഭിച്ചു. റോബോട്ടുകൾക്ക് ബുദ്ധിപരമായ പെരുമാറ്റം നൽകുന്നതിനുള്ള ഒരു ചവിട്ടുപടിയായി മനുഷ്യന്റെ ദൃശ്യ സംവിധാനത്തെ അനുകരിക്കാൻ ഉദ്ദേശിച്ചുള്ളതാണ് ഇത്.[11]1966-ൽ, വിഷ്വൽ സീനുകൾ വിവരിക്കാൻ കഴിവുള്ള ഒരു സംവിധാനം സൃഷ്ടിക്കുക എന്ന ലക്ഷ്യം ഒരു ബിരുദ വേനൽക്കാല പ്രോജക്റ്റ് ഉപയോഗിച്ച് പൂർത്തീകരിക്കാനാകുമെന്ന് ഒരു വിശ്വാസം ഉണ്ടായിരുന്നു. ഒരു കമ്പ്യൂട്ടറിൽ ക്യാമറ ഘടിപ്പിക്കുന്നതും "അത് കണ്ടത് വിവരിക്കുന്നതും" അതിനെ ചുമതലപ്പെടുത്തുന്നതും ഈ സമീപനത്തിൽ ഉൾപ്പെടുന്നു.[12][13][14]

കമ്പ്യൂട്ടർ വിഷൻ, ഡിജിറ്റൽ ഇമേജ് പ്രോസസ്സിംഗിൽ നിന്ന് വ്യത്യസ്തമായി, അടിസ്ഥാന ഇമേജ് മാനുപ്പുലേഷന് അപ്പുറത്തേക്ക് പോകാൻ ലക്ഷ്യമിടുന്നു. ചിത്രങ്ങളിൽ നിന്ന് ത്രിമാന വിവരങ്ങൾ എക്സ്ട്രാക്റ്റുചെയ്യുന്നു. വ്യക്തിഗത ഇമേജ് കമ്പോണന്റുകളെ പ്രോസസ്സ് ചെയ്യുന്നതിനേക്കാൾ മുഴുവൻ സീനുകളും ഉപയോഗിച്ച് സമഗ്രമായ ധാരണ കൈവരിക്കുക എന്നതാണ് ലക്ഷ്യം. 1970-കളിൽ ഫൗണ്ടഷണൽ പഠനങ്ങൾ ഇന്നത്തെ കമ്പ്യൂട്ടർ വിഷൻ അൽഗോരിതംസിനായി അടിത്തറയിട്ടു. ഈ പഠനങ്ങൾ എഡ്ജുകൾ, ലേബൽ ലൈനുകൾ, പോളിഹെഡ്രൽ, പോളിഹെഡ്രൽ ഘടനകൾ എന്നിവ ഉൾപ്പെടുത്തിയിരിക്കുന്ന വിവിധ വശങ്ങൾ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്.[11]

അടുത്ത ദശകത്തിൽ, ഗവേഷകർ കൃത്യമായ ഗണിതശാസ്ത്ര വിശകലനത്തിലും ക്വാണ്ടിറ്റേറ്റീവ് വശങ്ങളിലും കൂടുതൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച് കമ്പ്യൂട്ടർ വിഷനിലേക്ക് ആഴ്ന്നിറങ്ങി. വിഷ്വൽ ഇൻഫർമേഷൻ പ്രോസസ്സിംഗിന് പിന്നിലെ തത്ത്വങ്ങൾ നന്നായി മനസ്സിലാക്കുന്നതിനും അളക്കുന്നതിനും കർശനമായ രീതികൾ ഉപയോഗിക്കുന്നത് ഉൾപ്പെടെ ഈ മാറ്റത്തിൽ ഉൾപ്പെടുന്നു. മാർഗ്ഗനിർദ്ദേശങ്ങളും പാറ്റേണുകളും എങ്ങനെ ഉപയോഗിക്കുന്നു എന്നതിന് സമാനമായ ഒരു പ്രശ്നപരിഹാര സമീപനം ഉപയോഗിച്ച് വിവിധ ഗണിത ആശയങ്ങൾ ഒരുമിച്ച് കൈകാര്യം ചെയ്യാൻ കഴിയുമെന്ന് ശാസ്ത്രജ്ഞർ കണ്ടെത്തി. സമാനമായ തന്ത്രം ഉപയോഗിച്ച് വ്യത്യസ്ത പസിലുകൾ പരിഹരിക്കാൻ കഴിയുമെന്ന് മനസ്സിലാക്കുന്നത് പോലെയാണ് ഇത്.[15]1990-കളിൽ ഒപ്റ്റിമൈസേഷൻ രീതികൾ ഉപയോഗിച്ച് 3ഡി പുനർനിർമ്മാണങ്ങളിൽ ക്യാമറ കാലിബ്രേഷനുള്ള മെച്ചപ്പെട്ട സാങ്കേതിക വിദ്യകൾ സാധ്യമാക്കി. ഫോട്ടോഗ്രാമെട്രിയുടെ ബണ്ടിൽ അഡ്ജസ്റ്റ്‌മെൻ്റ് സിദ്ധാന്തത്തിൽ ഈ ആശയങ്ങളിൽ പലതും ഇതിനകം പഠിച്ചിട്ടുണ്ടെന്ന് ഗവേഷകർ കണ്ടെത്തി. ഇടതൂർന്ന സ്റ്റീരിയോ കറസ്പോണ്ടൻസ് പ്രശ്നത്തിലും കൂടുതൽ മൾട്ടി-വ്യൂ സ്റ്റീരിയോ ടെക്നിക്കുകളിലും പുരോഗതി ഉണ്ടായി. അതേ സമയം, ഇമേജ് സെഗ്മെൻ്റേഷൻ പരിഹരിക്കാൻ ഗ്രാഫ് കട്ടിൻ്റെ വ്യതിയാനങ്ങൾ ഉപയോഗിച്ചു. ചിത്രങ്ങളിലെ മുഖങ്ങൾ തിരിച്ചറിയാൻ ആദ്യമായി സ്റ്റാറ്റിസ്റ്റിക്കൽ ലേണിംഗ് ടെക്നിക്കുകൾ പ്രായോഗികമായി ഉപയോഗിച്ചതും ഈ ദശകം സാക്ഷിയായി(ഐജൻഫേസ് കാണുക). 1990-കളുടെ അവസാനത്തോടെ, കമ്പ്യൂട്ടർ ഗ്രാഫിക്‌സ്, കമ്പ്യൂട്ടർ വിഷൻ എന്നീ മേഖലകൾ തമ്മിലുള്ള വർദ്ധിച്ച ഇടപെടലോടെ കാര്യമായ മാറ്റം വന്നു. ഇമേജ് അടിസ്ഥാനമാക്കിയുള്ള റെൻഡറിംഗ്, ഇമേജ് മോർഫിംഗ്, വ്യൂ ഇൻ്റർപോളേഷൻ, പനോരമിക് ഇമേജ് സ്റ്റിച്ചിംഗ്, ആദ്യകാല ലൈറ്റ്-ഫീൽഡ് റെൻഡറിംഗ് എന്നിവ ഇതിൽ ഉൾപ്പെടുന്നു.[11]

  1. Reinhard Klette (2014). Concise Computer Vision. Springer. ISBN 978-1-4471-6320-6.
  2. Linda G. Shapiro; George C. Stockman (2001). Computer Vision. Prentice Hall. ISBN 978-0-13-030796-5.
  3. Tim Morris (2004). Computer Vision and Image Processing. Palgrave Macmillan. ISBN 978-0-333-99451-1.
  4. 4.0 4.1 Milan Sonka; Vaclav Hlavac; Roger Boyle (2008). Image Processing, Analysis, and Machine Vision. Thomson. ISBN 978-0-495-08252-1.
  5. Bernd Jähne; Horst Haußecker (2000). Computer Vision and Applications, A Guide for Students and Practitioners. Academic Press. ISBN 978-0-13-085198-7.
  6. Dana H. Ballard; Christopher M. Brown (1982). Computer Vision. Prentice Hall. ISBN 978-0-13-165316-0.
  7. Huang, T. (1996-11-19). Vandoni, Carlo, E (ed.). Computer Vision : Evolution And Promise (PDF). 19th CERN School of Computing. Geneva: CERN. pp. 21–25. doi:10.5170/CERN-1996-008.21. ISBN 978-9290830955. Archived (PDF) from the original on 2018-02-07.{{cite conference}}: CS1 maint: multiple names: editors list (link)
  8. http://www.bmva.org/visionoverview Archived 2017-02-16 at the Wayback Machine. The British Machine Vision Association and Society for Pattern Recognition Retrieved February 20, 2017
  9. Murphy, Mike (13 April 2017). "Star Trek's "tricorder" medical scanner just got closer to becoming a reality". Archived from the original on 2 July 2017. Retrieved 18 July 2017.
  10. Computer Vision Principles, algorithms, Applications, Learning 5th Edition by E.R. Davies Academic Press, Elselvier 2018 ISBN 978-0-12-809284-2
  11. 11.0 11.1 11.2 Richard Szeliski (30 September 2010). Computer Vision: Algorithms and Applications. Springer Science & Business Media. pp. 10–16. ISBN 978-1-84882-935-0.
  12. Sejnowski, Terrence J. (2018). The deep learning revolution. Cambridge, Massachusetts London, England: The MIT Press. pp. 28. ISBN 978-0-262-03803-4.
  13. Papert, Seymour (1966-07-01). "The Summer Vision Project". MIT AI Memos (1959 - 2004). hdl:1721.1/6125.
  14. Margaret Ann Boden (2006). Mind as Machine: A History of Cognitive Science. Clarendon Press. p. 781. ISBN 978-0-19-954316-8.
  15. Takeo Kanade (6 December 2012). Three-Dimensional Machine Vision. Springer Science & Business Media. ISBN 978-1-4613-1981-8.
"https://ml.wikipedia.org/w/index.php?title=കമ്പ്യൂട്ടർ_വിഷൻ&oldid=4024371" എന്ന താളിൽനിന്ന് ശേഖരിച്ചത്