ഭാഷാ കോർപ്പസ്
ഈ ലേഖനം ഏതെങ്കിലും സ്രോതസ്സുകളിൽ നിന്നുള്ള വേണ്ടത്ര തെളിവുകൾ ഉൾക്കൊള്ളുന്നില്ല. ദയവായി യോഗ്യങ്ങളായ സ്രോതസ്സുകളിൽ നിന്നുമുള്ള അവലംബങ്ങൾ ചേർത്ത് ലേഖനം മെച്ചപ്പെടുത്തുക. അവലംബമില്ലാത്ത വസ്തുതകൾ ചോദ്യം ചെയ്യപ്പെടുകയും നീക്കപ്പെടുകയും ചെയ്തേക്കാം. |
ഒരു ഭാഷയിലെ മുഴ്വൻ പദങ്ങളുടെയും യന്ത്രശേഖരമാണ് ഭാഷാകോർപ്പസ് എന്നു പറയുന്നത്.കമ്പ്യൂട്ടറധിഷ്ഠിത ഭാഷോപകരണങ്ങളുടെ നിർമ്മാണം, കമ്പ്യൂട്ടറധിഷ്ഠിത ഭാഷാപഗ്രഥനം തുടങ്ങിയ നിരവധി മേഖലകളിൽ കോർപ്പസുകൾ പ്രയോജനകരമാണ്. പദങ്ങൾ ലേഖന(Text), ശബ്ദ (Sound), ആഗ്യ (Sing) രൂപത്തിൽ ശേഖരിക്കാം. കോർപ്പസുകളുടെ പ്രയോഗങ്ങളെ അടിസ്ഥാനമാക്കിയാണ് ശേഖരണരീതി തൂരുമാനിക്കുന്നത്. ഇത്തരത്തിൽ ശേഖരിക്കുന്ന ഭാഷാംശങ്ങളിലെ ഓരോ പദങ്ങൾക്കും അവയുടെ വ്യാകരണ-അർഥ-പ്രകരണ വിവരങ്ങൾ നൽകാവുന്നതാണ്. ഈ പ്രക്രിയയെ ടീക്ക (Annotation) എന്നു പറയുന്നു. കോർപ്പസുകളുടെ ഉപയോഗത്തിനനുസരിച്ച് ടീക്ക നൽകാതെയും നൽകിയും കോർപ്പസുകൾ ശേഖരിക്കാവുന്നതാണ്.