DEVIYAR ILLAM: அடுத்த தலைமுறை தமிழ் -- OCR (Optical Character Recognition)

Monday, August 06, 2012

அடுத்த தலைமுறை தமிழ் -- OCR (Optical Character Recognition)

OCR (Optical Character Recognition) ஓசிஆர் மென்பொருள்களின் முக்கிய நோக்கம் பழைய ஆவணங்கள், புத்தகங்கள் போன்றவற்றை ஸ்கேன் செய்து அவற்றை மீண்டும் புதிய வகையில் பதிப்பிப்பதற்காக, திருத்தம் செய்யும் வகையிலான கோப்புகளாக உருவாக்குவதே ஆகும். மேலும் கோப்புகளை விரும்பும் வகையில் ஃபார்மெட் செய்யலாம், பல்வேறு டிவைஸ்களில் பயன்படுத்தும் வகையில் கோப்புகளை மாற்றியமைக்கலாம்.

ஆங்கிலத்தில் ஏராளமான வர்த்தகரீதியான மற்றும் கட்டற்ற இலவச மென்பொருள்கள் ஏராளமாக உள்ளன. ஆனால் இந்திய மொழிகளில், அதுவும் தமிழ் மொழியில் சிறப்பான ஓசிஆர் மென்பொருள் இதுவரை உருவாக்கப்படவில்லை.

ஏன் உருவாக்கப்படவில்லை? என ஒரு கேள்வி எழலாம். அதற்கு ஓரளவிற்கு இந்த கட்டுரை பதில் கூறும். தமிழ் ஓசிஆர் மென்பொருள் உருவாக்கப்படுவதில் எழக்கூடிய இடையூறுகள் பற்றி காண்போம்.

Scan:

பெரும்பாலும் ஓசிஆர் மென்பொருட்களின் முக்கிய நோக்கமே பழைய ஆவணங்களை புதுப்பிப்பதே ஆகும். எனவே அவ்வகை பழைய ஆவணங்களின் பதிப்பு சற்று சேதப்பட்டு இருப்பதற்கான சாத்தியக்கூறுகள் அதிகம். எனவே இவ்வகை ஆவணங்களை ஸ்கேன் செய்யும்பொழுது அதில் தெளிவற்ற படங்கள் கிடைக்கும் வாய்ப்பு அதிகமாகின்றது. இந்த தெளிவற்ற படங்களிலிருந்து ஓசிஆர் மென்பொருள் மூலம் துல்லியமான எழுத்து வடிவங்களை கொண்டு வருவது என்பது மிக கடினமான வேலையாகும்.

Font:

தமிழில் Unicode, Non-Unicode என இருவகைப்பட்ட ஃபோண்ட்கள் உள்ளன. யுனிகோட் வகை ஃபோண்ட்களை இணையத்தில் பரவலாக பயன்படுத்தி வருகிறோம். புத்தக பதிப்புகளுக்காக பயன்படுத்தப்படும் மென்பொருட்கள் இந்த யுனிகோட் வகை ஃபோண்ட்களை சப்போர்ட் செய்வதில்லை. எனவே இப்படிப்பட்ட மென்பொருட்களில் non-unicode வகை ஃபோண்ட்களே பயன்படுத்தப்படுகின்றது. இவற்றிலும் tscii, tab, tam, shrilipi போன்று பலவகையான ஃபோண்ட்கள் உள்ளன. ஒவ்வொரு பதிப்பாளரும் தனக்கென ஒவ்வொரு வகையான ஃபோண்ட்களை பயன்படுத்துகின்றன. எனவே ஓசிஆர் உருவாக்கப்படும்போது ஒவ்வொன்றின் எழுத்து வடிவம், அவற்றின் நுணுக்கமான வேறுபாடுகள் என எல்லாவற்றை கருத்தில் கொண்டு உருவாக்கப்பட வேண்டியது அவசியமாகின்றது.

Script:

தமிழ் மொழியின் எழுத்து வடிவமைப்பு ஓசிஆர் உருவாக்கத்தில் மிகவும் கவனத்தில் எடுத்துக்கொள்ள வேண்டிய அம்சமாகும். மேற்கண்ட படத்தில் காணுமாறு எழுத்துக்கள் மூன்று பிரிவுகளை கொண்டதாக அமைகின்றது. மேல்பகுதி மற்றும் கீழ்பகுதி பிரிவில் வரும் வளைவுகள் எந்தெந்த எழுத்துக்களுக்கு எப்படி வரும் என்பதையும் நடுவில் உள்ளவற்றோடு அவற்றை ஒத்திசைத்து முழு எழுத்தாக வெளிக்கொண்டு வருவது ஓசிஆர் நுட்பத்தில் மிகவும் கடினமான செயலாகும். மேலும் கா, மெ, போன்ற துணையெழுத்துகள் வரும் எழுத்துக்களை இணைத்து கொண்டு வருவதும் கருத்தில் கொள்ளப்பட வேண்டியாதகும். இவை தவிர, தமிழ்மொழியில் ஏற்படும் ல-வ, க-சு, ன-ள போன்ற எழுத்துக்களின் வடிவ ஒற்றுமை பல சமயங்களில் குழப்பம் விளைவிக்கும் ஒன்றாகும்.

மேலும் italic, bold போன்ற ஸ்டைல்கள் கலந்து வருவது, பலவகை ஃபோண்ட்கள் கலந்து வருதல், பல்வேறு எழுத்து அளவுகள் கலந்து வருதல், பழைய கிரந்த எழுத்துகள் கலந்திருத்தல், படங்கள் இணைந்திருத்தல், column பிரச்சினை போன்ற எல்லா வகையான இடையூறுகளை சமாளிக்கும் வகையிலான மென்பொருள் தயாரிக்கப்பட வேண்டும்.

இதுவரை தமிழ் ஓசிஆர் மென்பொருள் வளர்ச்சியில் எடுக்கப்பட்டுள்ள முயற்சிகளைக் காண்போம். 2002ஆம் ஆண்டு தமிழ்நாடு அரசு PonVizhi எனும் தமிழ் ஓசிஆர் மென்பொருளை வெளியிட்டது. இந்த மென்பொருள் ஆவணங்களின் ஸ்கேன்கள் துல்லியமாக இருந்தால் 90% சிறப்பாக எழுத்துக்களை பிரதியெடுக்கின்றன. இருந்தபோதிலும் இந்த மென்பொருள் ஒரு ஆரம்ப நிலை மென்பொருளாகவே இருக்கின்றது. இதுவரை இதில் பெரிதான மேம்பாடுகள் எதுவும் வரவில்லை. இதுபோக இணையத்தில் gTamilOCR எனும் மென்பொருளும் கிடைக்கின்றது. இது எவ்வகையில் செயல்படுகின்றதென தெரியவில்லை.

ஒரு முழுமையான தமிழ் ஓசிஆர் மென்பொருளை உருவாக்க மென்பொருள் வல்லுநர்கள் முனைந்து கொண்டுதான் இருக்கிறார்கள். தமிழ் மட்டுமின்றி இந்திய மொழிகள் பலவற்றிற்கும் ஓசிஆர் மென்பொருட்கள் உருவாக்கும் பணிகள் ஆங்காங்கே நடைபெற்று வருகின்றன. புதிதாக முயற்சிப்பவர்களுக்கும், அதற்கான அடிப்படை மூலங்களும் தேவையான தகவல்களுக்கும் இணையத்தில் ஏராளமாக கிடைக்கின்றன. கடினமான உழைப்பு மற்றும் முயற்சியுடன் முனைந்தால் நிச்சயம் மேற்கண்ட அனைத்து இடையூறுகளையும் சரிசெய்யும் வகையிலான மென்பொருளை உருவாக்குவது சாத்தியமே. ஆனால் அதற்கு எவ்வளவு காலம் ஆகும் என தெரியவில்லை. இம்முயற்சி வெற்றியடைந்தால் அடுத்ததாக கையெழுத்துப் பிரதிகளை படியெடுக்கும் Handwriting recognition மென்பொருள் உருவாக்கத்திற்கு அடியெடுத்து வைக்கலாம்.

11 comments:

ஜோதிஜி said...: ஞானாலயா என்பது புதுக்கோட்டையில் உள்ள தனிநபர்களால் நிர்வகிக்கப்படும் ஒரு நூலகம்.
இது தொடர்பாக நண்பர்கள் ஒன்றினைந்து சில காரியங்களை செய்ய முயற்சித்துக் கொண்டு
இருக்கின்றோம்.

ஒவ்வொரு நண்பர்களாக ஒன்று சேரத் தொடங்கினர். அப்போது தான்
இந்த ஓசிஆர் மென்பொருள் குறித்து எனக்கு புரிய வந்தது. இந்த கட்டுரையை எழுதியது
எஸ்.கே என்ற நண்பர்.

இவரின் தளத்தில் மென்பொருள் குறித்த ஏராளமான கட்டுரைகள் உண்டு.

திரு. எஸ்.கே வுக்கு நன்றி.

இவரைப்பற்றி தனியாக ஒரு பதிவே எழுதலாம் என்கிற அளவுக்கு நிறைய விசயங்கள் உண்டு. ஆச்சரியமான நண்பர். இவர் அடுத்த பகுதியாக இது குறித்து மேலும் விபரங்களை எழுதி தருகின்றேன் என்று சொல்லி இருக்கிறார்.; August 6, 2012 at 10:55 AM
கோவி.கண்ணன் said...: //தமிழில் Unicode, Non-Unicode என இருவகைப்பட்ட ஃபோண்ட்கள் உள்ளன. யுனிகோட் வகை ஃபோண்ட்களை இணையத்தில் பரவலாக பயன்படுத்தி வருகிறோம். புத்தக பதிப்புகளுக்காக பயன்படுத்தப்படும் மென்பொருட்கள் இந்த யுனிகோட் வகை ஃபோண்ட்களை சப்போர்ட் செய்வதில்லை.//

புத்தக எழுத்தை வாசித்து மென் பொருள் வடிவில் மாற்றிக் கொள்ள எழுத்துரு (Font) வகைகள் தடையாக இருக்காது, அது படிக்கும் வகையில் தெளிவாக இருக்கிறதா என்பதே முக்கியம்.

எந்த எழுத்துருவில் புத்தகம் அச்சிட்டு இருந்தாலும், அதே வகை எழுத்துருவை படித்து மாற்றிக் கொள்வது தான் பிரச்சனையாக உள்ளது. எழுத்து வடிவம் ஆப்டிகல் குறியிடாக மாற்றும் பொழுது ஒரு எழுத்திற்கான வரைவு அளவுகள் குறிப்பிட்ட வடிவத்தினுள்ளும், அளவிலும் இருக்க வேண்டும் என்கிற வரையரையில் எழுத்தை படிப்பதற்கு மென்பொருள் உருவாக்குவார்கள், ஒவ்வொரு எழுத்துருவின் வரைவு அளவுகள் மாறுவதால் பொதுவான மென் பொருளை வைத்து மாற்ற முடியாமல் போய்விடுகிறது.; August 6, 2012 at 11:45 AM
நீச்சல்காரன் said...: நமது உள்ளீடு படமாக இருப்பதால் யுனிக்கோட் பிரச்சனை இருக்காது என்று நினைக்கிறேன். எழுத்தின் வடிவமே பிரச்சனையாகயிருக்கும்.

நிங்கள் இணைத்துள்ள படம் மின்னஞ்சல் பிரதி என்பதால் பிறருக்குத் தெரியவில்லை. அதனை மீண்டும் புதிதாகப் பதிவேற்றுங்கள்

ஓ.சி.ஆர். நுட்பம்பற்றி விளக்கும் இணையத்தளங்களைப் பட்டியலிடுங்கள் . பிறருக்கு உதவலாம்; August 6, 2012 at 12:07 PM
கிருஷ்ண மூர்த்தி S said...: ஓசிஆர் இன்னும் கொஞ்சம் தகவல்கள் -

இந்த மென்பொருள் படங்களில் உள்ள எழுத்துக்களை இனம்கண்டு டெக்ஸ்டாக மாற்றுவதோடு நின்றுவிடுவதில்லை. ஒளியாகவும் அதாவது எழுத்துக்களை வார்த்தைகளாகப்படிக்க வைக்கும் வசதியும் கொண்டது. மைக்ரோசாப்ட் ரீடரில் .lit ரகக் கோப்பாக மாற்றி டெக்ஸ்டைப் படிக்கக் கேட்கவும் முடியும்.

1974 இல் இந்த ஓசிஆர் தொழில்நுட்பம் பார்வைக் குறைபாடு உள்ளவர்களுக்கும் கணினி செயல்பாடுகள் பயன்படுகிற மாதிரி விரிவடைந்தது.

ஓசிஆர் மென்பொருளை உருவாக்குவதில் கணிதத்தில் தேர்ச்சி அப்புறம் மொழி ஞானம் இரண்டுமே முக்கியத்தேவை. தமிழில் அப்படி இரண்டும் ஒன்று சேர வாய்ப்புக் கிட்டவில்லை என்பதனாலோ என்னவோ, இது வரை செய்யப்பட்ட முயற்சிகள் அப்படியே தேங்கி நிற்கின்றன.பொன்விழி வெர்ஷன் 2.1 வரை வந்த தகவல் இருக்கிறது.ஆனால், அதற்கு மேல் அபிவிருத்தி செய்யப்படவில்லை என்று கிழக்கு பத்ரி சொல்கிறார்.

டெசராக்ட் என்று கூகிள் கொட உபயோகித்துத் தமிழில் ஓபன் சோர்ஸ் தமிழ் ஓசிஆர் உருவாக்க முயற்சி மேற்கொள்ளப்பட்டது, ஒரு குறைந்தபட்ச ஊதியத்தைக் கூடத் தரமுடியாத நிலையில் அப்படியே நிற்கிறது. இப்போதும் குறைந்தபட்சம் ரூ. ஏழுலட்சம் (மூன்று வருட ஊதியம்) யாராவது ஸ்பான்சர் செய்ய முடிந்தால், ஆர்வமும் திறமையும் உள்ள ஒருவரைத் தேர்ந்தெடுத்து இந்தத் திட்டத்தை நிறைவேற்றித்தரத் தான் தயாராக இருப்பதாக திரு ம. ஸ்ரீ ராமதாஸ் சொல்கிறார். http://amachu.files.wordpress.com/2008/09/freesoftware_book.png

http://www.mitpressjournals.org/loi/coli you can download a quarterly magazine Computational Linguistics; August 6, 2012 at 1:26 PM
திண்டுக்கல் தனபாலன் said...: ocr-ரைப் பற்றி விரிவான தகவல்கள்... நன்றி...

ஒரு மாதத்தில் 240௦ to 260௦ பக்கங்கள் ஆங்கிலத்தில் script இருக்கும். அதை நாம் word-இல் மாற்றித் தர வேண்டும்... (இரண்டு space இருந்தாலும் தவறு) அதில் ஆங்கில scripts விதவிதமாக இருக்கும். எப்படி இருந்தாலும் ocr-இல் கொடுத்தால் மாற்றிக் கொடுத்து விடும்... (சிறு சிறு பிழைகளோடு) ஒரு காலத்தில் 16 மாதங்கள் நான் அதை செய்தேன்... இதே போல் தமிழில் வந்தால் நன்றாக இருக்கும் என்று அப்போதே நினைத்ததுண்டு... மேலே (Krishna Moorthy S) ஐயா சொன்னது போல கூட இருக்கலாம். குறைந்தபட்சம் ரூ. ஏழுலட்சம் யாராவது தந்து உதவினால், தமிழுக்கு கிடைத்த வரப்பிரசாதம் என்று சொல்லலாம்... அரிய பல தமிழ் புத்தகங்களை அழியாமல் காக்கலாம்...

நன்றி…; August 6, 2012 at 5:54 PM
ஜோதிஜி said...: தனபால் உங்கள் நீண்ட விமர்சனத்திற்கு நன்றி; August 6, 2012 at 6:46 PM
Anonymous said...: உண்மையில் பயனுள்ள பகிர்வே இது ... தமிழில் OCR மென்பொருள்கள் மேம்பாடு அடைய வேண்டும். அதற்கான முயற்சிகளை முன்னெடுக்க வேண்டும் என நினைக்கின்றேன். அரசின் கையை எதிர்ப்பாராமல் தனியார் உதவியோடு செய்யலாம் ... !!! பல தெளிவுகள் பெற்றேன் இப்பதிவினால்.; August 6, 2012 at 7:26 PM
Unknown said...: OCR (Optical Character Recognition) பற்றிய
கட்டுரையும் அதற்கான தொடர்புடைய விளக்கங்களும்
ஓசிஆர் தொழிற்நுட்பத்தை எளிதாக புரிய வைத்தது நன்றி; August 7, 2012 at 1:59 PM
ஜோதிஜி said...: விமர்சனங்களை, தங்கள் கருத்துக்களை பகிர்ந்து கொண்ட நண்பர்கள் அணைவருக்கும் நன்றி. இது தொடர்பான சுட்டிகள், விளக்கங்கள், தொடர்புகள் இருந்தால் இந்த விமர்சனத்தின் வாயிலாக பகிர்ந்து கொள்ளுங்க. நாலைந்து கட்டுரையாக பிரித்து எழுதப்படும் இந்த ஓசிஆர் குறித்து புரிந்து கொள்ள உதவும்.; August 7, 2012 at 3:46 PM
JaY Reborn @ Jaes said...: எஸ் கே அவர்களின் தொடர்பு எண் கிடைக்குமா ? எனது ஓ சி ஆர் திட்டப்பணியின் போதும் ஞானாலயாவை பற்றி கேள்விப்பட்டேன். உடன் செயலாற்ற வேண்டிய விடயமிது. நன்றி.; October 27, 2015 at 4:28 PM
ஜோதிஜி said...: http://manamplus.blogspot.in/

இது அவரின் வலைதளம். இதன் மூலம் அவரை தொடர்பு கொள்ள முயற்சிக்கவும். நன்றி.; October 27, 2015 at 7:11 PM