"യൂണികോഡ്" എന്ന താളിന്റെ പതിപ്പുകൾ തമ്മിലുള്ള വ്യത്യാസം

(ചെ.) r2.7.1) (യന്ത്രം ചേർക്കുന്നു: as:ইউনিক’ড
No edit summary
വരി 7:
== ചരിത്രം ==
 
അക്ഷരങ്ങളും അക്കങ്ങളും ചിഹ്നങ്ങളും പൂജ്യത്തിന്റേയും ഒന്നിന്റേയും കൂട്ടങ്ങളായി മാറ്റിയാണ് കമ്പ്യൂട്ടറിൽ ശേഖരിച്ചു വയ്ക്കുന്നത്. ഇങ്ങനെ ശേഖരിക്കുന്നതിന് ഓരോന്നിനും അതി‍ന്റേതായ കോഡുകൾ ഉണ്ടായിരിക്കണം. ഇപ്പോൾ ഇത് കൂടുതലായും ASCII (അമേരിക്കൻ സ്റ്റാൻഡാർഡ് കോഡ് ഫോർ ഇൻഫർമേഷൻ ഇൻറ്റർചേഞ്ച്ഇന്റർചേഞ്ച്) കോഡുപയോഗിച്ചാണ് നിർവ്വഹിച്ചു വരുന്നത്. ഇതുപയോഗിച്ചുണ്ടാക്കാവുന്ന അക്ഷരാദികളുടെ എണ്ണം (256) പരിമിതമായതുകൊണ്ട് രണ്ടു ഭാഷകളിലെ അക്ഷരങ്ങളേ ഒരേ സമയം ഉപയോഗിക്കാൻ സാധിക്കുകയുള്ളു. ഇതില്‌ ആദ്യത്തെ 128 എണ്ണം ഇംഗ്ളീഷിനും അടുത്ത 128 എണ്ണം വേറെ ഏതെങ്കിലും ഭാഷക്കും ഉപയോഗിക്കാം.
 
ലോകമാസകലം കമ്പ്യുട്ടറുകൾ വരുകയും അവയെയെല്ലാം ബന്ധിപ്പിക്കുന്ന [[ഇന്റർനെറ്റ്]] സംജാതമാകുകയും ചെയ്തതോടെ ലോകഭാഷകൾ എല്ലാം അടങ്ങുന്ന ഒരു കോഡിംഗ് സിസ്റ്റം ആവശ്യമായിവന്നു. ഇതിലേക്കായി ഇന്റർനാഷണൽ സ്റ്റാൻഡാർഡ് ISO/IEC 106461, ഒരു പദ്ധതി തയ്യാറാക്കി. ഈ പദ്ധതിയിൽ ഉൾപ്പെടുത്തിയ എല്ലാ അക്ഷരാദികളേയും സ്വാംശീകരിച്ചുകൊണ്ട് കുറച്ചു കൂടി ബൃഹത്തായതും ലോകഭാഷകളാകമാനം ഉൾക്കൊള്ളാനാവുന്നതും ഭാവി വികസനങ്ങൾക്ക് പഴുതുള്ളതുമായ ഒരു കോഡിംഗ് സമ്പ്രദായം വേണമെന്ന് കമ്പ്യൂട്ടർ ലോകത്തിനു തോന്നി. അങ്ങനെയാണ് കമ്പ്യൂട്ടർ കോർപ്പറേഷനുകളും സോഫ്റ്റ്വെയർ ഡാറ്റാബേസ് കച്ചവടക്കാരും, അന്താരാഷ്ട്ര ഏജൻസികളും ഉപയോക്താക്കളും ചേർന്ന് 1991-ൽ ദി യുണിക്കോഡ് കണ്‌സോർഷ്യം എന്ന ഒരു സംഘടന രൂപവത്കരിച്ചത്. [[ഇന്ത്യ|ഇന്ത്യാ]] ഗവൺമെന്റിന്റെ ഇൻഫർമേഷൻ ടെക്നോളജി ഡിപ്പാർട്ട്മെൻറ്റ്ഡിപ്പാർട്ട്മെന്റ് ഇതിലെ ഒരു മുഴുവൻ സമയ അംഗമാണ് .
 
ലോകഭാഷകളെല്ലാം പിന്തുണയ്ക്കുന്ന ഒരു ഇന്റർ‌നാഷണൽ സ്റ്റാൻഡേർഡ് വികസിപ്പിച്ചെടുക്കാനും ഇതിനായുള്ള വിവിധതലങ്ങളിലെ പ്രവർത്തനങ്ങൾ ഏകോപിപ്പിക്കാനും ഉണ്ടാക്കിയ സംഘടനയാണ് യൂണീകോഡ് കൺ‌സോർഷ്യം. ഈ സംഘടനയുടെ കാര്യപ്രവർത്തനങ്ങൾ ജനങ്ങളെ അറിയിക്കുന്നതിനായാണ് യൂണീകോഡ് ഡോട്ട് ഓർഗ് എന്ന സൈറ്റ് നിലവിൽ വന്നത്.
വരി 27:
 
ആദ്യകാലത്ത് കമ്പ്യൂട്ടറുകൾ കൂടുതലും സംഖ്യാസംബന്ധമായ കണക്കുകൂട്ടലുകൾക്കാണ് കൂടുതലും ഉപയോഗിച്ചിരുന്നത്, എന്നിരുന്നാലും അക്കങ്ങളും അക്ഷരങ്ങളും രേഖപ്പെടുത്തേണ്ട അവസരങ്ങൾ അക്കാലത്തും ഉണ്ടായിരുന്നു. [[ടൈപ്പ്റൈറ്റർ|ടൈപ്പ്റൈറ്ററുകളായിരുന്നു]] ലിഖിതങ്ങളായ പ്രമാണങ്ങളും മറ്റും ഉണ്ടാക്കാൻ അധികം ഉപയോഗിച്ചിരുന്നത്. പതുക്കെ കമ്പ്യൂട്ടറുകൾ ടൈപ്പ്റൈറ്ററുകളെ പിന്തള്ളി. ലിഖിതങ്ങളും അല്ലാത്തതുമായ പ്രമാണങ്ങൾ, ചിത്രങ്ങൾ എന്നിവ സൃഷ്ടിക്കാനുള്ള കമ്പ്യൂട്ടറിന്റെ കഴിവ് വർദ്ധിച്ചു വന്നുകൊണ്ടിരുന്നതാണ് ഇതിനു കാരണം. അച്ചടിക്കുന്നതിനു മുമ്പ് തിരുത്താനുള്ള സൗകര്യവും കമ്പ്യൂട്ടർ സൃഷ്ടിതമായ പ്രമാണങ്ങൾക്കുണ്ടായിരുന്നു.
പക്ഷെപക്ഷേ വളരെ ചുരുക്കം അക്ഷരങ്ങളും , ചിഹ്നങ്ങളും മറ്റുമെ ഉപയോഗിക്കാൻ പറ്റുമായിരുന്നുള്ളൂ. ശരിക്കും പറഞ്ഞാൽ സംഖ്യകളും, സാധാരണ ഉപയോഗിക്കുന്ന ആംഗലേയ അക്ഷരങ്ങളും ചിഹ്നങ്ങളും മാത്രമേ ശരിയായി കമ്പ്യൂട്ടറിൽ പ്രയോഗിക്കാൻ സാധിക്കുമായിരുന്നുള്ളൂ അക്കാലത്ത്. ലോകത്ത് മനുഷ്യർ എഴുതാനും വായിക്കാനും ഉപയോഗിക്കുന്ന പതിനായിരക്കണക്കിനു അക്ഷരങ്ങളും ചിഹ്നങ്ങളും കൈകാര്യം ചെയ്യുവാൻ കമ്പ്യൂട്ടറുകൾക്ക് സാധിച്ചിരുന്നില്ല. എന്നു പറഞ്ഞാൽ വിവിധപ്രദേശങ്ങളിൽ ജീവിക്കുന്ന മനുഷ്യർക്ക് അവരുടെ ഭാഷയിൽ പ്രമാണങ്ങൾ സൃഷ്ടിക്കുകയോ, തിരുത്തുകയോ, മാറ്റിയെഴുതുകയോ, അച്ചടിക്കുകയോ ചെയ്യുക അസാധ്യമായിരുന്നു. ഈ സമസ്യകൾക്കെല്ലാമുള്ള ഒരുത്തരമാണ് യുണിക്കോഡ്.
 
== എന്തുകൊണ്ട് യുണിക്കോഡ് ==
വരി 45:
ഏതുരീതി ഉപയോഗിച്ചായാലും അക്ഷരങ്ങളെ (characters) ഏതെങ്കിലും ഒരു സംഖ്യ ഉപയോഗിച്ചു രേഖപ്പെടുത്തുന്നതിന് ‘ [[ക്യാരക്ട്ർ എൻകോഡിങ്ങ്]] ‘ (character encoding) എന്നു പറയുന്നു, പ്രസ്തുത അക്ഷരങ്ങളുടെ സംഖ്യാരൂപത്തിന് ' ക്യാരക്ട്ർ കോഡ് ' (character code) എന്നും പറയുന്നു. ലോകത്തിൽ കുറെയധികം ക്യാരക്ടർ കോഡുകൾ ഉപയോഗത്തിലുണ്ട്. മിക്ക ക്യാരക്ടർ എൻകോഡിങ് രീതികൾക്കും ഒരു സാമ്യത ഉണ്ട്, 0 മുതൽ 127 വരെ ഉള്ള സംഖ്യകൾ ഒരേ അക്ഷരങ്ങളെയായിരിക്കും അടയാളപ്പെടുത്തുന്നത്. ഈ അക്ഷരങ്ങൾ ആംഗലേയ അക്ഷരമാലയിലെ 26 അക്ഷരങ്ങൾ, അവയുടെ വലിയക്ഷരങ്ങൾ (Capital Letters), 0 തൊട്ട് 9 വരെയുള്ള സംഖ്യകൾ, ചിഹ്നങ്ങൾ എന്നിവയാ‍ണ്. 0 തൊട്ട് 127 വരെയുള്ള സംഖ്യകൾ മാത്രം ഉപയോഗിച്ചുള്ള ക്യാരക്ടർ എൻകോഡിങ്ങ് രീതിക്ക് ആസ്‌കി (എ.സ്.സി.ഐ.ഐ - ASCII) എന്നു പറയുന്നു.
 
പക്ഷെപക്ഷേ ആസ്‌കി ഉപയോഗിച്ച് തൽക്കാലം ആംഗലേയഭാഷമാത്രമേ അടയാളപ്പെടുത്തുവാൻ സാധിക്കൂ, ഉദാഹരണത്തിന് ഫ്രഞ്ചു ഭാഷയിലെ ചില അക്ഷരങ്ങൾ (é , ô) രേഖപ്പെടുത്തുവാനുള്ള വിസ്താരം ആസ്‌കിക്കില്ല. ആ സ്ഥിതിക്ക് 127 നു മുകളിലോട്ട് സംഖ്യകളുള്ള ഒരു എൻകോഡിങ്ങ് രീതി ആവശ്യമാണ് കൂടുതൽ അക്ഷരങ്ങൾ അടയാളപ്പെടുത്തുവാനായി. ഇങ്ങനെ ഒരു സമസ്യ വന്നപ്പോൾ ഉണ്ടാക്കപ്പെട്ട ഒരു ക്യാരക്ടർ എൻകോഡിങ്ങ് രീതിയാണ് [[ലാറ്റിൻ 1]] (Latin 1). ഈ രീതിയിൽ 0 തൊട്ട് 255 വരെയുള്ള സംഖ്യകളുപയോഗിച്ചാണ് എൻകോഡിങ്ങ് ചെയ്യുന്നത്, 0 തൊട്ട് 127 വരെ ആസ്‌കി അക്ഷരങ്ങൾ തന്നെയാണ്, 128 തൊട്ട് 255 വരെയുള്ള സംഖ്യകളുപയോഗിച്ച് ആവശ്യമായ ലാറ്റിൻ അക്ഷരങ്ങളും ചിഹ്നങ്ങളും അടയാളപ്പെടുത്തിയിരിക്കുന്നു. ഇവിടെയും പ്രശ്നങ്ങളുണ്ട് ലാറ്റിൻ 1 ഉപയോഗിച്ച് പടിഞ്ഞാറൻ യൂറോപ്പിയൻ ഭാഷകളായ ആംഗലേയം, [[ഫ്രെഞ്ച്]], [[സ്പാനിഷ്]], [[ജർമ്മൻ]] എന്നീ ഭാഷാക്ഷരങ്ങൾ മാത്രമേ രേഖപ്പെടുത്തുവാൻ സാധിച്ചിരുന്നുള്ളൂ. മദ്ധ്യ-കിഴക്കൻ യൂറോപ്പിയൻ പ്രദേശങ്ങളിലെ ഭാഷകൾക്കും, [[ഗ്രീക്ക്]], [[സിറില്ലിക്]], [[അറബിക്]], എന്നീ ഭാഷകൾക്കും വേണ്ടി [[ലാറ്റിൻ 2]] (Latin 2) എന്ന എൻകോഡിങ്ങ് രീതി നിലവിലുണ്ട്. ഏതെങ്കിലും ഒരു ഭാഷ ഉപയോഗിക്കുമ്പോൾ ആ ഭാഷയിലെ അക്ഷരങ്ങളും ചിഹ്നങ്ങളും അടയാളപ്പെടുത്തിയിട്ടുള്ള എൻകോഡിങ്ങ് രീതി നാം തെരഞ്ഞെടുക്കണം. ക്യാരക്ടർ എൻകോഡിങ്ങ് രീതികൾ ആവശ്യമനുസരിച്ച് മാറ്റുവാനുള്ള സംവിധാനം മിക്ക സോഫ്റ്റ്വെയറുകളിലും ഉണ്ട്.
 
പക്ഷെപക്ഷേ പ്രശ്നം ഉണ്ടാവുക ഒരേ സമയത്ത് വിവിധ ഭാഷകൾ ഉപയോഗിക്കേണ്ടി വരുമ്പോളാണ്. ഉദാഹരണത്തിന് [[ഫ്രെഞ്ച്|ഫ്രഞ്ചും]] [[ഗ്രീക്ക്|ഗ്രീക്കും]] ഒരു സ്ഥലത്ത് വേണമെന്നു കരുതുക, ഫ്രെഞ്ചിനെ പിന്താങ്ങുന്ന എൻകോഡിങ്ങ് രീതി ലാറ്റിൻ 1 ആണ് എന്നാൽ ഗ്രീക്ക് അക്ഷരങ്ങൾ ലാറ്റിൻ 2 എൻകോഡിങ്ങിലേ കാണുകയുള്ളൂ. ഒരേ പ്രമാണത്തിൽ രണ്ട് എൻകോഡിങ്ങ് രീതികൾ ഉപയോഗിക്കാൻ സാധ്യമല്ല, അപ്പോൾ പിന്നെ 0 തൊട്ട് 255 വരെയുള്ള സംഖ്യകൾ ഉപയോഗിച്ച് വിവിധ ഭാഷകൾക്ക് വേണ്ടി വ്യത്യസ്ത എൻകോഡിങ്ങ് രീതികൾ വികസിപ്പിക്കുന്നത് ശാ‍ശ്വതമല്ല എന്നു വേണം പറയാൻ.
 
മറ്റൊരു പ്രശ്നം കൂടിയുണ്ട് കണക്കിലെടുക്കാൻ, ചൈനീസ്, ജാപ്പനീസ് പോലുള്ള ഭാഷകളിലുള്ള അക്ഷരങ്ങളുടെ എണ്ണം വളരെക്കൂടുതലാണ്, 256 ൽ അവ ഒതുങ്ങില്ല.
"https://ml.wikipedia.org/wiki/യൂണികോഡ്" എന്ന താളിൽനിന്ന് ശേഖരിച്ചത്