നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്

നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻ‌എൽ‌പി) ഭാഷാശാസ്ത്രം[1], കമ്പ്യൂട്ടർ സയൻസ്[2], ഇൻഫർമേഷൻ എഞ്ചിനീയറിംഗ്, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്[3] എന്നിവയുടെ ഒരു ഉപഫീൽഡാണ്. കമ്പ്യൂട്ടറുകളും മനുഷ്യന്റെ ഭാഷകളും തമ്മിലുള്ള ഇടപെടലുകളുമായി ബന്ധപ്പെട്ട, പ്രത്യേകിച്ചും വലിയ അളവിൽ സ്വാഭാവിക ഭാഷാ ഡാറ്റ [4]പ്രോസസ്സ് ചെയ്യുന്നതിനും വിശകലനം ചെയ്യുന്നതിനും കമ്പ്യൂട്ടറുകളെ എങ്ങനെ പ്രോഗ്രാം ചെയ്യാം എന്നതിനെ കുറിച്ച ഉള്ള പഠനം ആണ് നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻ‌എൽ‌പി). എൻ‌എൽ‌പി മനുഷ്യ ഭാഷകളിൽ നിന്ന് വായിക്കാനും മനസിലാക്കാനും അർത്ഥം നേടാനുമുള്ള കഴിവ് മെഷീനുകൾക്ക് നൽകുന്നു. ഡാറ്റ[4] ലഭിക്കുന്നതിന്റെ മെച്ചപ്പെടുത്തലുകളും കമ്പ്യൂട്ടേഷണൽ പവറിന്റെ [5]വർദ്ധനവും കാരണം ഇന്ന് എൻ‌എൽ‌പി കുതിച്ചുയരുന്നു. ആരോഗ്യ സംരക്ഷണം[6], മാധ്യമങ്ങൾ[7], ധനകാര്യം[8], മാനവ വിഭവശേഷി[9] തുടങ്ങിയ മേഖലകളിൽ അർത്ഥവത്തായ ഫലങ്ങൾ നേടാൻ പരിശീലകരെ ഇത് സഹായിക്കുന്നു.

ഒരു വെബ് പേജിൽ ഉപഭോക്തൃ സേവനം നൽകുന്ന ഒരു ഓട്ടോമേറ്റഡ് ഓൺലൈൻ അസിസ്റ്റന്റ് .ഇത് നാച്ചുറൽ ലാംഗ്വേജ്  പ്രോസസ്സിങ്ങിന്റെ ഒരു ഉദാഹരണം ആണ് .

ഉദാഹരണങ്ങൾ തിരുത്തുക

ആളുകൾ ദിവസവും ഉപയോഗിക്കുന്ന എൻ‌ എൽ‌ പിയുടെ ചില ഉദാഹരണങ്ങൾ ഇവയാണ്:

  • അക്ഷരപ്പിശക് പരിശോധന[10]
  • രോഗനിർണയം
  • വ്യാജ വാർത്തകൾ തിരിച്ചറിയുക[11]
  • സ്പാം ഫിൽട്ടറുകൾ[12]
  • സെർച്ച് എഞ്ചിനുകളിലെ[13] അനുബന്ധ കീവേഡുകൾ[14]
  • സിരി,[15] അലക്സാ[16] അല്ലെങ്കിൽ ഗൂഗിൾ അസിസ്റ്റന്റ്[17]

സാധാരണ എൻ‌എൽ‌പി കാര്യങ്ങൾ തിരുത്തുക

നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ സാധാരണയായി ഗവേഷണം ചെയ്യപ്പെടുന്ന ചില ജോലികളുടെ പട്ടികയാണ് ഇനിപ്പറയുന്നത്. ഈ ടാസ്‌ക്കുകളിൽ ചിലതിന് നേരിട്ടുള്ള യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകൾ ഉണ്ട്, മറ്റുള്ളവ സാധാരണയായി വലിയ ടാസ്‌ക്കുകൾ പരിഹരിക്കുന്നതിന് സഹായിക്കുന്ന സബ്‌ടാസ്കുകളായി വർത്തിക്കുന്നു.നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ ജോലികൾ പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നുവെങ്കിലും, സൗകര്യാർത്ഥം അവ വിഭാഗങ്ങളായി തിരിക്കാം.

ടെക്സ്റ്റ്, സ്പീച്ച് പ്രോസസ്സിംഗ് തിരുത്തുക

ഒപ്റ്റിക്കൽ ക്യാരക്ടർ റെക്കഗ്നിഷൻ (OCR)[18] തിരുത്തുക

അച്ചടിച്ച വാചകത്തെ പ്രതിനിധീകരിക്കുന്ന ഒരു ചിത്രം നൽകിയാൽ, അനുബന്ധ വാചകം നിർണ്ണയിക്കുക.

സംഭാഷണ തിരിച്ചറിയൽ ( സ്പീച് റെക്കഗ്നിഷൻ ) [19] തിരുത്തുക
 
ഗൂഗിൾ ട്രാൻസ്ലേറ്റ് ഒരു നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്ഇന്റെ ഉദാഹരണം ആണ്

ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്‌ദ ക്ലിപ്പ് നൽകി, സംഭാഷണത്തിന്റെ വാചക പ്രാതിനിധ്യം നിർണ്ണയിക്കുക.സ്വാഭാവിക സംഭാഷണത്തിൽ തുടർച്ചയായ പദങ്ങൾക്കിടയിൽ താൽക്കാലികമായി നിർത്താനാകില്ല, അതിനാൽ സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)[20] സംഭാഷണ തിരിച്ചറിയലിന്റെ ഒരു ഉപവിഭാഗമാണ്. മിക്ക സംസാര ഭാഷകളിലും, കോ ആർട്ടിക്കലഷൻ[21] എന്ന് വിളിക്കപ്പെടുന്ന ഒരു പ്രക്രിയയിൽ തുടർച്ചയായ അക്ഷരങ്ങളെ പ്രതിനിധീകരിക്കുന്ന ശബ്ദങ്ങൾ പരസ്പരം കൂടിച്ചേരുന്നു, അതിനാൽ അനലോഗ് സിഗ്നലിനെ[22] വ്യതിരിക്ത പ്രതീകങ്ങളിലേക്ക് പരിവർത്തനം ചെയ്യുന്നത് വളരെ ബുദ്ധിമുട്ടുള്ള പ്രക്രിയയാണ് .

സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)[20] തിരുത്തുക

ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്‌ദ ക്ലിപ്പ് നൽകി, അത് വാക്കുകളായി വേർതിരിക്കുക. സ്പീച്ച് റെക്കഗ്നിഷന്റെ[19] ഒരു സബ് ടാസ്‌ക്, സാധാരണ അവയുമായി ഇതിനെ ഗ്രൂപ്പുചെയ്യുന്നു.

ടെക്സ്റ്റ്-ടു-സ്പീച്ച്[23] തിരുത്തുക

ഒരു വാചകം നൽകി, ആ യൂണിറ്റുകൾ രൂപാന്തരപ്പെടുത്തി ഒരു സംഭാഷണ പ്രാതിനിധ്യം സൃഷ്ടിക്കുക. കാഴ്ചയില്ലാത്തവരെ സഹായിക്കാൻ ടെക്സ്റ്റ്-ടു-സ്പീച്ച് ഉപയോഗിക്കാം.

പദ വിഭജനം (ടോക്കണൈസേഷൻ)[24] തിരുത്തുക

തുടർച്ചയായ വാചകത്തിന്റെ ഒരു ഭാഗം പ്രത്യേക പദങ്ങളായി വേർതിരിക്കുക. ഇംഗ്ലീഷ് [25]പോലുള്ള ഒരു ഭാഷയെ സംബന്ധിച്ചിടത്തോളം ഇത് വളരെ തുച്ഛമാണ്, കാരണം വാക്കുകൾ സാധാരണയായി ഇടങ്ങളാൽ വേർതിരിക്കപ്പെടുന്നു. എന്നിരുന്നാലും, ചൈനീസ്[26], ജാപ്പനീസ്[27], തായ് [28]തുടങ്ങിയ ചില ലിഖിത ഭാഷകൾ അത്തരം രീതിയിൽ പദത്തിന്റെ അതിരുകൾ അടയാളപ്പെടുത്തുന്നില്ല, കൂടാതെ ആ ഭാഷകളിൽ വാചക വിഭജനം ഭാഷയിലെ പദങ്ങളുടെ പദാവലിയെക്കുറിച്ചുള്ള അറിവ് ആവശ്യമുള്ള ഒരു പ്രധാന കാര്യമാണ് . ഡാറ്റാ മൈനിംഗിൽ[29] ബാഗ് ഓഫ് വേഡ്സ് (BOW)[30] സൃഷ്ടിക്കൽ പോലുള്ള സന്ദർഭങ്ങളിലും ചിലപ്പോൾ ഈ പ്രക്രിയ ഉപയോഗിക്കുന്നു.

വാക്യഘടന വിശകലനം തിരുത്തുക

വാക്യം വിഭജനം [31] തിരുത്തുക

വാചകത്തിന്റെ ഒരു ഭാഗം നൽകിയാൽ, വാക്യത്തിന്റെ അതിരുകൾ കണ്ടെത്തുക.

പാഴ്‌സിംഗ്[32] തിരുത്തുക

തന്നിരിക്കുന്ന വാക്യത്തിന്റെ പാഴ്‌സ് ട്രീ[33] (വ്യാകരണ വിശകലനം) നിർണ്ണയിക്കുക. . രണ്ട് പ്രാഥമിക തരം പാഴ്‌സിംഗ് ഉണ്ട്: ഡിപൻഡൻസി പാഴ്‌സിംഗ്, കോൺസ്റ്റിട്യൂൺസി പാഴ്‌സിംഗ്. ഡിപൻഡൻസി പാഴ്‌സിംഗ് ഒരു വാക്യത്തിലെ വാക്കുകൾ തമ്മിലുള്ള ബന്ധത്തെ കേന്ദ്രീകരിക്കുന്നു , എന്നാൽ കോൺസ്റ്റിട്യൂൺസി പാഴ്‌സിംഗ് ഒരു പ്രോബബിലിസ്റ്റിക് കോൺടെക്സ്റ്റ്-ഫ്രീ[34] വ്യാകരണം (പിസിഎഫ്ജി) ഉപയോഗിച്ച് പാഴ്‌സ് ട്രീ നിർമ്മിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.

ലെക്സിക്കൽ സെമാന്റിക്‌സ് (സന്ദർഭത്തിലെ വ്യക്തിഗത പദങ്ങളുടെ) തിരുത്തുക

ലെക്സിക്കൽ സെമാന്റിക്‌സ്[35] തിരുത്തുക

സന്ദർഭത്തിൽ വ്യക്തിഗത പദങ്ങളുടെ കമ്പ്യൂട്ടേഷണൽ അർഥം എന്താണ് എന്ന കടുപ്പിക്കുക .

ഡിസ്ട്രിബൂഷനാൽ സെമാന്റിക്സ്[36] തിരുത്തുക

ഡാറ്റയിൽ നിന്ന് നമുക്ക് എങ്ങനെ സെമാന്റിക് പ്രാതിനിധ്യം പഠിക്കാൻ കഴിയും?

നെയിംഡ്എ ന്റിറ്റി റെക്കഗ്നിഷൻ (NER)[37] തിരുത്തുക

വാചകത്തിന്റെ ഒരു സ്ട്രീം നൽകിയാൽ, ആളുകൾ അല്ലെങ്കിൽ സ്ഥലങ്ങൾ പോലുള്ള ശരിയായ പേരുകളിലേക്ക് ടെക്സ്റ്റ് മാപ്പിലെ ഏതെല്ലാം ഇനങ്ങൾ എന്ന് നിർണ്ണയിക്കുക.

സെന്റിമെന്റ് വിശകലനം [38] തിരുത്തുക

ടെക്സ്റ്റ് അനാലിസിസ്[39] ടെക്നിക്കുകൾ ഉപയോഗിച്ച് ടെക്സ്റ്റ് ഡാറ്റയ്ക്കുള്ളിലെ വികാരങ്ങളുടെ[40] (പോസിറ്റീവ്, നെഗറ്റീവ്, ന്യൂട്രൽ) വ്യാഖ്യാനവും വർഗ്ഗീകരണവുമാണ് സെന്റിമെന്റ് വിശകലനം.

ടെർമിനോളജി എക്സ്ട്രാക്ഷൻ[41] തിരുത്തുക

തന്നിരിക്കുന്ന കോർപ്പസിൽ നിന്ന് പ്രസക്തമായ പദങ്ങൾ സ്വപ്രേരിതമായി എക്‌സ്‌ട്രാക്റ്റുചെയ്യുക എന്നതാണ് ടെർമിനോളജി എക്‌സ്‌ട്രാക്റ്റേഷന്റെ ലക്ഷ്യം.

രൂപാന്തര വിശകലനം (മോർഫോളജിക്കൽ അനാലിസിസ് ) തിരുത്തുക

ലെമ്മറ്റൈസേഷൻ[42] തിരുത്തുക

ഒരു വാക്കിന്റെ വ്യതിചലന അവസാനങ്ങൾ മാത്രം നീക്കം ചെയ്ത് അതിന്റെ അടിസ്ഥാന നിഘണ്ടു രൂപത്തിൽ ലഭിക്കുന്നതിനെയാണ് ലെമ്മ എന്ന് വിശേഷിപ്പിക്കുന്നത്.

മോർഫോളജിക്കൽ സെഗ്മെന്റേഷൻ[43] തിരുത്തുക

വാക്കുകളെ വ്യക്തിഗത മോർഫീമുകളായി വേർതിരിച്ച് മോർഫീമുകളുടെ ക്ലാസ് തിരിച്ചറിയുന്ന പ്രക്രിയയെയാണ്  മോർഫോളജിക്കൽ സെഗ്മെന്റേഷൻ എന്ന് പറയുന്നത് .ഈ ടാസ്കിന്റെ ബുദ്ധിമുട്ട് പരിഗണിക്കപ്പെടുന്ന ഭാഷയുടെ രൂപശാസ്ത്രത്തിന്റെ[44] (പദങ്ങളുടെ ഘടന) സങ്കീർണ്ണതയെ ആശ്രയിച്ചിരിക്കുന്നു.

സംഭാഷണത്തിന്റെ ടാഗിംഗ് (പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ് )[45] തിരുത്തുക

ഒരു വാചകം നൽകിയാൽ, ഓരോ വാക്കിനും സംഭാഷണത്തിന്റെ ഭാഗം നിർണ്ണയിക്കുക. പല വാക്കുകൾക്കും, പ്രത്യേകിച്ച് പൊതുവായവയ്ക്ക്, സംഭാഷണത്തിന്റെ ഒന്നിലധികം ഭാഗങ്ങളായി പ്രവർത്തിക്കാൻ കഴിയും. ഉദാഹരണത്തിന്, "മണി" എന്ന ഒരു നാമം (മണി എത്രയായി ) അല്ലെങ്കിൽ (സ്കൂളിൽ മണി അടിച്ചു ) എന്ന് ആകാം. ചില ഭാഷകൾ‌ക്ക് മറ്റുള്ളവയേക്കാൾ‌ അവ്യക്തതയുണ്ട്. ചൈനീസ് അത്തരം അവ്യക്തതയ്ക്ക് സാധ്യതയുള്ള ഒരു ഭാഷയാണ്, കാരണം ഇത് വാക്കാൽ പ്രവചിക്കുന്ന സമയത്തുള്ള ഒരു ഭാഷയാണ് .

സ്റ്റെമ്മിംഗ്[46] തിരുത്തുക

വാക്കുകളെ അവയുടെ മൂലരൂപത്തിലേക്ക് എത്തിക്കുന്ന പ്രക്രിയ. (ഉദാ. "അടച്ചത്", "അടയ്ക്കൽ", "അടയ്ക്കുക", "അടുക്കുക" മുതലായവയുടെ മൂല വാക്ക് "അടയ്ക്കുക").

ഓപ്പൺ സോഴ്‌സ്[47] എൻ‌എൽ‌പി ലൈബ്രറികൾ തിരുത്തുക

യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകളിൽ എൻ‌എൽ‌പി പ്രയോഗിക്കാൻ ഈ ലൈബ്രറികൾ സഹായിക്കുന്നു.

  • അപ്പാച്ചെ ഓപ്പൺ‌എൻ‌എൽ‌പി:[48] [49]ടോക്കനൈസറുകൾ[50], വാക്യ വിഭജനം[51], സംഭാഷണത്തിന്റെ ഭാഗം ടാഗുചെയ്യൽ(പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്)[45], എന്റിറ്റി എക്‌സ്‌ട്രാക്ഷൻ[37], ചങ്കിംഗ്, പാഴ്‌സിംഗ്[52], കോർഫറൻസ് റെസലൂഷൻ എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു മെഷീൻ ലേണിംഗ് ടൂൾകിറ്റ്.
  • നാച്ചുറൽ ലാംഗ്വേജ് ടൂൾകിറ്റ് (എൻ‌എൽ‌ടി‌കെ)[53][54]: വാചകം പ്രോസസ് ചെയ്യുന്നതിനും തരംതിരിക്കുന്നതിനും ടോക്കണൈസ് ചെയ്യുന്നതിനും സ്റ്റെമിംഗ്[55], പാഴ്‌സിംഗ് [52]എന്നിവയ്‌ക്കും അതിലേറെ കാര്യങ്ങൾക്കുമായി മൊഡ്യൂളുകൾ നൽകുന്ന ഒരു പൈത്തൺ[56] ലൈബ്രറി,
  • സ്റ്റാൻ‌ഫോർഡ് എൻ‌എൽ‌പി:[57] പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്[45], പേരുള്ള എന്റിറ്റി റെക്കഗ്‌നൈസർ,[37] കോർ‌ഫറൻസ് റെസല്യൂഷൻ സിസ്റ്റം[58], സെന്റിമെന്റ് അനാലിസിസ് [59]എന്നിവയും അതിലേറെയും നൽകുന്ന എൻ‌എൽ‌പി ഉപകരണങ്ങളുടെ ഒരു സ്യൂട്ട്.
  • മല്ലെറ് (MALLET[60][61] ): ലേറ്റന്റ് ഡിറിക്ലെറ്റ് അലോക്കേഷൻ[62], ഡോക്യുമെന്റ് ക്ലാസിഫിക്കേഷൻ[63], ക്ലസ്റ്ററിംഗ്, ടോപ്പിക് മോഡലിംഗ്[64], ഇൻഫർമേഷൻ എക്സ്ട്രാക്ഷൻ[65] എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു ജാവ [66]പാക്കേജ്.

അവലംബം   തിരുത്തുക

  1. "Linguistics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
  2. "Computer science", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  3. "Artificial intelligence", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22
  4. 4.0 4.1 "Data", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
  5. "Computer performance by orders of magnitude", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-06, retrieved 2020-08-22
  6. "Health care", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
  7. "Media (communication)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
  8. https://en.wikipedia.org/wiki/Finance
  9. "Human resources", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
  10. "Autocorrection", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-17, retrieved 2020-08-22
  11. "Detecting fake news online", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
  12. "Email filtering", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-07, retrieved 2020-08-22
  13. "Web search engine", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-09, retrieved 2020-08-22
  14. "Keyword", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  15. "Siri", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
  16. "Amazon Alexa", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  17. "Google Assistant", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
  18. "Optical character recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  19. 19.0 19.1 "Speech recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  20. 20.0 20.1 "Speech segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-15, retrieved 2020-08-22
  21. "Coarticulation", Wikipedia (in ഇംഗ്ലീഷ്), 2016-12-11, retrieved 2020-08-22
  22. "Analog signal", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-24, retrieved 2020-08-22
  23. "Speech synthesis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-04, retrieved 2020-08-22
  24. "Lexical analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-14, retrieved 2020-08-22
  25. "English language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
  26. "Chinese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
  27. "Japanese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
  28. "Thai language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22
  29. "Data mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
  30. "Bag-of-words model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22
  31. "Sentence boundary disambiguation", Wikipedia (in ഇംഗ്ലീഷ്), 2019-12-18, retrieved 2020-08-22
  32. "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  33. "Parse tree", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22
  34. "Probabilistic context-free grammar", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22
  35. "Lexical semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-06-09, retrieved 2020-08-22
  36. "Distributional semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-21, retrieved 2020-08-22
  37. 37.0 37.1 37.2 "Named-entity recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
  38. "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  39. "Text mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  40. "Emotion", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
  41. "Terminology extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-02, retrieved 2020-08-22
  42. "Lemmatisation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22
  43. "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  44. "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  45. 45.0 45.1 45.2 "Part-of-speech tagging", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
  46. "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22
  47. "Open source", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
  48. "Apache OpenNLP", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-10, retrieved 2020-08-22
  49. "Documentation - Apache OpenNLP". Retrieved 2020-08-22.
  50. "Tokenization". Retrieved 2020-08-22.
  51. "Text segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-29, retrieved 2020-08-22
  52. 52.0 52.1 "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  53. "Natural Language Toolkit — NLTK 3.5 documentation". Retrieved 2020-08-22.
  54. "Natural Language Toolkit", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22
  55. "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22
  56. "Welcome to Python.org" (in ഇംഗ്ലീഷ്). Retrieved 2020-08-22.
  57. "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.
  58. "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.
  59. "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  60. "Mallet (software project)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-01, retrieved 2020-08-22
  61. "MALLET homepage". Retrieved 2020-08-22.
  62. "Latent Dirichlet allocation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-28, retrieved 2020-08-22
  63. "Document classification", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  64. "Topic model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-31, retrieved 2020-08-22
  65. "Information extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
  66. "Java (programming language)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22