നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്
നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻഎൽപി) ഭാഷാശാസ്ത്രം[1], കമ്പ്യൂട്ടർ സയൻസ്[2], ഇൻഫർമേഷൻ എഞ്ചിനീയറിംഗ്, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്[3] എന്നിവയുടെ ഒരു ഉപഫീൽഡാണ്. കമ്പ്യൂട്ടറുകളും മനുഷ്യന്റെ ഭാഷകളും തമ്മിലുള്ള ഇടപെടലുകളുമായി ബന്ധപ്പെട്ട, പ്രത്യേകിച്ചും വലിയ അളവിൽ സ്വാഭാവിക ഭാഷാ ഡാറ്റ [4]പ്രോസസ്സ് ചെയ്യുന്നതിനും വിശകലനം ചെയ്യുന്നതിനും കമ്പ്യൂട്ടറുകളെ എങ്ങനെ പ്രോഗ്രാം ചെയ്യാം എന്നതിനെ കുറിച്ച ഉള്ള പഠനം ആണ് നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻഎൽപി). എൻഎൽപി മനുഷ്യ ഭാഷകളിൽ നിന്ന് വായിക്കാനും മനസിലാക്കാനും അർത്ഥം നേടാനുമുള്ള കഴിവ് മെഷീനുകൾക്ക് നൽകുന്നു. ഡാറ്റ[4] ലഭിക്കുന്നതിന്റെ മെച്ചപ്പെടുത്തലുകളും കമ്പ്യൂട്ടേഷണൽ പവറിന്റെ [5]വർദ്ധനവും കാരണം ഇന്ന് എൻഎൽപി കുതിച്ചുയരുന്നു. ആരോഗ്യ സംരക്ഷണം[6], മാധ്യമങ്ങൾ[7], ധനകാര്യം[8], മാനവ വിഭവശേഷി[9] തുടങ്ങിയ മേഖലകളിൽ അർത്ഥവത്തായ ഫലങ്ങൾ നേടാൻ പരിശീലകരെ ഇത് സഹായിക്കുന്നു.
ഉദാഹരണങ്ങൾ
തിരുത്തുകആളുകൾ ദിവസവും ഉപയോഗിക്കുന്ന എൻ എൽ പിയുടെ ചില ഉദാഹരണങ്ങൾ ഇവയാണ്:
സാധാരണ എൻഎൽപി കാര്യങ്ങൾ
തിരുത്തുകനാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ സാധാരണയായി ഗവേഷണം ചെയ്യപ്പെടുന്ന ചില ജോലികളുടെ പട്ടികയാണ് ഇനിപ്പറയുന്നത്. ഈ ടാസ്ക്കുകളിൽ ചിലതിന് നേരിട്ടുള്ള യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകൾ ഉണ്ട്, മറ്റുള്ളവ സാധാരണയായി വലിയ ടാസ്ക്കുകൾ പരിഹരിക്കുന്നതിന് സഹായിക്കുന്ന സബ്ടാസ്കുകളായി വർത്തിക്കുന്നു.നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ ജോലികൾ പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നുവെങ്കിലും, സൗകര്യാർത്ഥം അവ വിഭാഗങ്ങളായി തിരിക്കാം.
ടെക്സ്റ്റ്, സ്പീച്ച് പ്രോസസ്സിംഗ്
തിരുത്തുകഅച്ചടിച്ച വാചകത്തെ പ്രതിനിധീകരിക്കുന്ന ഒരു ചിത്രം നൽകിയാൽ, അനുബന്ധ വാചകം നിർണ്ണയിക്കുക.
ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്ദ ക്ലിപ്പ് നൽകി, സംഭാഷണത്തിന്റെ വാചക പ്രാതിനിധ്യം നിർണ്ണയിക്കുക.സ്വാഭാവിക സംഭാഷണത്തിൽ തുടർച്ചയായ പദങ്ങൾക്കിടയിൽ താൽക്കാലികമായി നിർത്താനാകില്ല, അതിനാൽ സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)[20] സംഭാഷണ തിരിച്ചറിയലിന്റെ ഒരു ഉപവിഭാഗമാണ്. മിക്ക സംസാര ഭാഷകളിലും, കോ ആർട്ടിക്കലഷൻ[21] എന്ന് വിളിക്കപ്പെടുന്ന ഒരു പ്രക്രിയയിൽ തുടർച്ചയായ അക്ഷരങ്ങളെ പ്രതിനിധീകരിക്കുന്ന ശബ്ദങ്ങൾ പരസ്പരം കൂടിച്ചേരുന്നു, അതിനാൽ അനലോഗ് സിഗ്നലിനെ[22] വ്യതിരിക്ത പ്രതീകങ്ങളിലേക്ക് പരിവർത്തനം ചെയ്യുന്നത് വളരെ ബുദ്ധിമുട്ടുള്ള പ്രക്രിയയാണ് .
ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്ദ ക്ലിപ്പ് നൽകി, അത് വാക്കുകളായി വേർതിരിക്കുക. സ്പീച്ച് റെക്കഗ്നിഷന്റെ[19] ഒരു സബ് ടാസ്ക്, സാധാരണ അവയുമായി ഇതിനെ ഗ്രൂപ്പുചെയ്യുന്നു.
ഒരു വാചകം നൽകി, ആ യൂണിറ്റുകൾ രൂപാന്തരപ്പെടുത്തി ഒരു സംഭാഷണ പ്രാതിനിധ്യം സൃഷ്ടിക്കുക. കാഴ്ചയില്ലാത്തവരെ സഹായിക്കാൻ ടെക്സ്റ്റ്-ടു-സ്പീച്ച് ഉപയോഗിക്കാം.
തുടർച്ചയായ വാചകത്തിന്റെ ഒരു ഭാഗം പ്രത്യേക പദങ്ങളായി വേർതിരിക്കുക. ഇംഗ്ലീഷ് [25]പോലുള്ള ഒരു ഭാഷയെ സംബന്ധിച്ചിടത്തോളം ഇത് വളരെ തുച്ഛമാണ്, കാരണം വാക്കുകൾ സാധാരണയായി ഇടങ്ങളാൽ വേർതിരിക്കപ്പെടുന്നു. എന്നിരുന്നാലും, ചൈനീസ്[26], ജാപ്പനീസ്[27], തായ് [28]തുടങ്ങിയ ചില ലിഖിത ഭാഷകൾ അത്തരം രീതിയിൽ പദത്തിന്റെ അതിരുകൾ അടയാളപ്പെടുത്തുന്നില്ല, കൂടാതെ ആ ഭാഷകളിൽ വാചക വിഭജനം ഭാഷയിലെ പദങ്ങളുടെ പദാവലിയെക്കുറിച്ചുള്ള അറിവ് ആവശ്യമുള്ള ഒരു പ്രധാന കാര്യമാണ് . ഡാറ്റാ മൈനിംഗിൽ[29] ബാഗ് ഓഫ് വേഡ്സ് (BOW)[30] സൃഷ്ടിക്കൽ പോലുള്ള സന്ദർഭങ്ങളിലും ചിലപ്പോൾ ഈ പ്രക്രിയ ഉപയോഗിക്കുന്നു.
വാക്യഘടന വിശകലനം
തിരുത്തുകവാചകത്തിന്റെ ഒരു ഭാഗം നൽകിയാൽ, വാക്യത്തിന്റെ അതിരുകൾ കണ്ടെത്തുക.
തന്നിരിക്കുന്ന വാക്യത്തിന്റെ പാഴ്സ് ട്രീ[33] (വ്യാകരണ വിശകലനം) നിർണ്ണയിക്കുക. . രണ്ട് പ്രാഥമിക തരം പാഴ്സിംഗ് ഉണ്ട്: ഡിപൻഡൻസി പാഴ്സിംഗ്, കോൺസ്റ്റിട്യൂൺസി പാഴ്സിംഗ്. ഡിപൻഡൻസി പാഴ്സിംഗ് ഒരു വാക്യത്തിലെ വാക്കുകൾ തമ്മിലുള്ള ബന്ധത്തെ കേന്ദ്രീകരിക്കുന്നു , എന്നാൽ കോൺസ്റ്റിട്യൂൺസി പാഴ്സിംഗ് ഒരു പ്രോബബിലിസ്റ്റിക് കോൺടെക്സ്റ്റ്-ഫ്രീ[34] വ്യാകരണം (പിസിഎഫ്ജി) ഉപയോഗിച്ച് പാഴ്സ് ട്രീ നിർമ്മിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.
ലെക്സിക്കൽ സെമാന്റിക്സ് (സന്ദർഭത്തിലെ വ്യക്തിഗത പദങ്ങളുടെ)
തിരുത്തുകസന്ദർഭത്തിൽ വ്യക്തിഗത പദങ്ങളുടെ കമ്പ്യൂട്ടേഷണൽ അർഥം എന്താണ് എന്ന കടുപ്പിക്കുക .
ഡാറ്റയിൽ നിന്ന് നമുക്ക് എങ്ങനെ സെമാന്റിക് പ്രാതിനിധ്യം പഠിക്കാൻ കഴിയും?
വാചകത്തിന്റെ ഒരു സ്ട്രീം നൽകിയാൽ, ആളുകൾ അല്ലെങ്കിൽ സ്ഥലങ്ങൾ പോലുള്ള ശരിയായ പേരുകളിലേക്ക് ടെക്സ്റ്റ് മാപ്പിലെ ഏതെല്ലാം ഇനങ്ങൾ എന്ന് നിർണ്ണയിക്കുക.
ടെക്സ്റ്റ് അനാലിസിസ്[39] ടെക്നിക്കുകൾ ഉപയോഗിച്ച് ടെക്സ്റ്റ് ഡാറ്റയ്ക്കുള്ളിലെ വികാരങ്ങളുടെ[40] (പോസിറ്റീവ്, നെഗറ്റീവ്, ന്യൂട്രൽ) വ്യാഖ്യാനവും വർഗ്ഗീകരണവുമാണ് സെന്റിമെന്റ് വിശകലനം.
തന്നിരിക്കുന്ന കോർപ്പസിൽ നിന്ന് പ്രസക്തമായ പദങ്ങൾ സ്വപ്രേരിതമായി എക്സ്ട്രാക്റ്റുചെയ്യുക എന്നതാണ് ടെർമിനോളജി എക്സ്ട്രാക്റ്റേഷന്റെ ലക്ഷ്യം.
രൂപാന്തര വിശകലനം (മോർഫോളജിക്കൽ അനാലിസിസ് )
തിരുത്തുകഒരു വാക്കിന്റെ വ്യതിചലന അവസാനങ്ങൾ മാത്രം നീക്കം ചെയ്ത് അതിന്റെ അടിസ്ഥാന നിഘണ്ടു രൂപത്തിൽ ലഭിക്കുന്നതിനെയാണ് ലെമ്മ എന്ന് വിശേഷിപ്പിക്കുന്നത്.
വാക്കുകളെ വ്യക്തിഗത മോർഫീമുകളായി വേർതിരിച്ച് മോർഫീമുകളുടെ ക്ലാസ് തിരിച്ചറിയുന്ന പ്രക്രിയയെയാണ് മോർഫോളജിക്കൽ സെഗ്മെന്റേഷൻ എന്ന് പറയുന്നത് .ഈ ടാസ്കിന്റെ ബുദ്ധിമുട്ട് പരിഗണിക്കപ്പെടുന്ന ഭാഷയുടെ രൂപശാസ്ത്രത്തിന്റെ[44] (പദങ്ങളുടെ ഘടന) സങ്കീർണ്ണതയെ ആശ്രയിച്ചിരിക്കുന്നു.
ഒരു വാചകം നൽകിയാൽ, ഓരോ വാക്കിനും സംഭാഷണത്തിന്റെ ഭാഗം നിർണ്ണയിക്കുക. പല വാക്കുകൾക്കും, പ്രത്യേകിച്ച് പൊതുവായവയ്ക്ക്, സംഭാഷണത്തിന്റെ ഒന്നിലധികം ഭാഗങ്ങളായി പ്രവർത്തിക്കാൻ കഴിയും. ഉദാഹരണത്തിന്, "മണി" എന്ന ഒരു നാമം (മണി എത്രയായി ) അല്ലെങ്കിൽ (സ്കൂളിൽ മണി അടിച്ചു ) എന്ന് ആകാം. ചില ഭാഷകൾക്ക് മറ്റുള്ളവയേക്കാൾ അവ്യക്തതയുണ്ട്. ചൈനീസ് അത്തരം അവ്യക്തതയ്ക്ക് സാധ്യതയുള്ള ഒരു ഭാഷയാണ്, കാരണം ഇത് വാക്കാൽ പ്രവചിക്കുന്ന സമയത്തുള്ള ഒരു ഭാഷയാണ് .
വാക്കുകളെ അവയുടെ മൂലരൂപത്തിലേക്ക് എത്തിക്കുന്ന പ്രക്രിയ. (ഉദാ. "അടച്ചത്", "അടയ്ക്കൽ", "അടയ്ക്കുക", "അടുക്കുക" മുതലായവയുടെ മൂല വാക്ക് "അടയ്ക്കുക").
യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകളിൽ എൻഎൽപി പ്രയോഗിക്കാൻ ഈ ലൈബ്രറികൾ സഹായിക്കുന്നു.
- അപ്പാച്ചെ ഓപ്പൺഎൻഎൽപി:[48] [49]ടോക്കനൈസറുകൾ[50], വാക്യ വിഭജനം[51], സംഭാഷണത്തിന്റെ ഭാഗം ടാഗുചെയ്യൽ(പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്)[45], എന്റിറ്റി എക്സ്ട്രാക്ഷൻ[37], ചങ്കിംഗ്, പാഴ്സിംഗ്[52], കോർഫറൻസ് റെസലൂഷൻ എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു മെഷീൻ ലേണിംഗ് ടൂൾകിറ്റ്.
- നാച്ചുറൽ ലാംഗ്വേജ് ടൂൾകിറ്റ് (എൻഎൽടികെ)[53][54]: വാചകം പ്രോസസ് ചെയ്യുന്നതിനും തരംതിരിക്കുന്നതിനും ടോക്കണൈസ് ചെയ്യുന്നതിനും സ്റ്റെമിംഗ്[55], പാഴ്സിംഗ് [52]എന്നിവയ്ക്കും അതിലേറെ കാര്യങ്ങൾക്കുമായി മൊഡ്യൂളുകൾ നൽകുന്ന ഒരു പൈത്തൺ[56] ലൈബ്രറി,
- സ്റ്റാൻഫോർഡ് എൻഎൽപി:[57] പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്[45], പേരുള്ള എന്റിറ്റി റെക്കഗ്നൈസർ,[37] കോർഫറൻസ് റെസല്യൂഷൻ സിസ്റ്റം[58], സെന്റിമെന്റ് അനാലിസിസ് [59]എന്നിവയും അതിലേറെയും നൽകുന്ന എൻഎൽപി ഉപകരണങ്ങളുടെ ഒരു സ്യൂട്ട്.
- മല്ലെറ് (MALLET[60][61] ): ലേറ്റന്റ് ഡിറിക്ലെറ്റ് അലോക്കേഷൻ[62], ഡോക്യുമെന്റ് ക്ലാസിഫിക്കേഷൻ[63], ക്ലസ്റ്ററിംഗ്, ടോപ്പിക് മോഡലിംഗ്[64], ഇൻഫർമേഷൻ എക്സ്ട്രാക്ഷൻ[65] എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു ജാവ [66]പാക്കേജ്.
അവലംബം
തിരുത്തുക- ↑ "Linguistics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
- ↑ "Computer science", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ "Artificial intelligence", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22
- ↑ 4.0 4.1 "Data", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
- ↑ "Computer performance by orders of magnitude", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-06, retrieved 2020-08-22
- ↑ "Health care", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
- ↑ "Media (communication)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
- ↑ https://en.wikipedia.org/wiki/Finance
- ↑ "Human resources", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
- ↑ "Autocorrection", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-17, retrieved 2020-08-22
- ↑ "Detecting fake news online", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
- ↑ "Email filtering", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-07, retrieved 2020-08-22
- ↑ "Web search engine", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-09, retrieved 2020-08-22
- ↑ "Keyword", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ "Siri", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
- ↑ "Amazon Alexa", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ "Google Assistant", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
- ↑ "Optical character recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ 19.0 19.1 "Speech recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ 20.0 20.1 "Speech segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-15, retrieved 2020-08-22
- ↑ "Coarticulation", Wikipedia (in ഇംഗ്ലീഷ്), 2016-12-11, retrieved 2020-08-22
- ↑ "Analog signal", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-24, retrieved 2020-08-22
- ↑ "Speech synthesis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-04, retrieved 2020-08-22
- ↑ "Lexical analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-14, retrieved 2020-08-22
- ↑ "English language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
- ↑ "Chinese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
- ↑ "Japanese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
- ↑ "Thai language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22
- ↑ "Data mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
- ↑ "Bag-of-words model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22
- ↑ "Sentence boundary disambiguation", Wikipedia (in ഇംഗ്ലീഷ്), 2019-12-18, retrieved 2020-08-22
- ↑ "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ "Parse tree", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22
- ↑ "Probabilistic context-free grammar", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22
- ↑ "Lexical semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-06-09, retrieved 2020-08-22
- ↑ "Distributional semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-21, retrieved 2020-08-22
- ↑ 37.0 37.1 37.2 "Named-entity recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
- ↑ "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ "Text mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ "Emotion", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
- ↑ "Terminology extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-02, retrieved 2020-08-22
- ↑ "Lemmatisation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22
- ↑ "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ 45.0 45.1 45.2 "Part-of-speech tagging", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
- ↑ "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22
- ↑ "Open source", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
- ↑ "Apache OpenNLP", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-10, retrieved 2020-08-22
- ↑ "Documentation - Apache OpenNLP". Retrieved 2020-08-22.
- ↑ "Tokenization". Retrieved 2020-08-22.
- ↑ "Text segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-29, retrieved 2020-08-22
- ↑ 52.0 52.1 "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ "Natural Language Toolkit — NLTK 3.5 documentation". Retrieved 2020-08-22.
- ↑ "Natural Language Toolkit", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22
- ↑ "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22
- ↑ "Welcome to Python.org" (in ഇംഗ്ലീഷ്). Retrieved 2020-08-22.
- ↑ "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.
- ↑ "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.
- ↑ "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ "Mallet (software project)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-01, retrieved 2020-08-22
- ↑ "MALLET homepage". Retrieved 2020-08-22.
- ↑ "Latent Dirichlet allocation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-28, retrieved 2020-08-22
- ↑ "Document classification", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ "Topic model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-31, retrieved 2020-08-22
- ↑ "Information extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
- ↑ "Java (programming language)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22