Monday, August 06, 2012

அடுத்த தலைமுறை தமிழ் -- OCR (Optical Character Recognition)

OCR (Optical Character Recognition) ஓசிஆர் மென்பொருள்களின் முக்கிய நோக்கம் பழைய ஆவணங்கள், புத்தகங்கள் போன்றவற்றை ஸ்கேன் செய்து அவற்றை மீண்டும் புதிய வகையில் பதிப்பிப்பதற்காக, திருத்தம் செய்யும் வகையிலான கோப்புகளாக உருவாக்குவதே ஆகும். மேலும் கோப்புகளை விரும்பும் வகையில் ஃபார்மெட் செய்யலாம், பல்வேறு டிவைஸ்களில் பயன்படுத்தும் வகையில் கோப்புகளை மாற்றியமைக்கலாம். 

ஆங்கிலத்தில் ஏராளமான வர்த்தகரீதியான மற்றும் கட்டற்ற இலவச மென்பொருள்கள் ஏராளமாக உள்ளன. ஆனால் இந்திய மொழிகளில், அதுவும் தமிழ் மொழியில் சிறப்பான ஓசிஆர் மென்பொருள் இதுவரை உருவாக்கப்படவில்லை.

ஏன் உருவாக்கப்படவில்லை? என ஒரு கேள்வி எழலாம். அதற்கு ஓரளவிற்கு இந்த கட்டுரை பதில் கூறும். தமிழ் ஓசிஆர் மென்பொருள் உருவாக்கப்படுவதில் எழக்கூடிய இடையூறுகள் பற்றி காண்போம்.

Scan:
பெரும்பாலும் ஓசிஆர் மென்பொருட்களின் முக்கிய நோக்கமே பழைய ஆவணங்களை புதுப்பிப்பதே ஆகும். எனவே அவ்வகை பழைய ஆவணங்களின் பதிப்பு சற்று சேதப்பட்டு இருப்பதற்கான சாத்தியக்கூறுகள் அதிகம். எனவே இவ்வகை ஆவணங்களை ஸ்கேன் செய்யும்பொழுது அதில் தெளிவற்ற படங்கள் கிடைக்கும் வாய்ப்பு அதிகமாகின்றது. இந்த தெளிவற்ற படங்களிலிருந்து ஓசிஆர் மென்பொருள் மூலம் துல்லியமான எழுத்து வடிவங்களை கொண்டு வருவது என்பது மிக கடினமான வேலையாகும்.

Font:
தமிழில் Unicode, Non-Unicode என இருவகைப்பட்ட ஃபோண்ட்கள் உள்ளன. யுனிகோட் வகை ஃபோண்ட்களை இணையத்தில் பரவலாக பயன்படுத்தி வருகிறோம். புத்தக பதிப்புகளுக்காக பயன்படுத்தப்படும் மென்பொருட்கள் இந்த யுனிகோட் வகை ஃபோண்ட்களை சப்போர்ட் செய்வதில்லை. எனவே இப்படிப்பட்ட மென்பொருட்களில் non-unicode வகை ஃபோண்ட்களே பயன்படுத்தப்படுகின்றது. இவற்றிலும் tscii, tab, tam, shrilipi போன்று பலவகையான ஃபோண்ட்கள் உள்ளன. ஒவ்வொரு பதிப்பாளரும் தனக்கென ஒவ்வொரு வகையான ஃபோண்ட்களை பயன்படுத்துகின்றன. எனவே ஓசிஆர் உருவாக்கப்படும்போது ஒவ்வொன்றின் எழுத்து வடிவம், அவற்றின் நுணுக்கமான வேறுபாடுகள் என எல்லாவற்றை கருத்தில் கொண்டு உருவாக்கப்பட வேண்டியது அவசியமாகின்றது.

Script:
Inline image 1
தமிழ் மொழியின் எழுத்து வடிவமைப்பு ஓசிஆர் உருவாக்கத்தில் மிகவும் கவனத்தில் எடுத்துக்கொள்ள வேண்டிய அம்சமாகும். மேற்கண்ட படத்தில் காணுமாறு எழுத்துக்கள் மூன்று பிரிவுகளை கொண்டதாக அமைகின்றது. மேல்பகுதி மற்றும் கீழ்பகுதி பிரிவில் வரும் வளைவுகள் எந்தெந்த எழுத்துக்களுக்கு எப்படி வரும் என்பதையும் நடுவில் உள்ளவற்றோடு அவற்றை ஒத்திசைத்து முழு எழுத்தாக வெளிக்கொண்டு வருவது ஓசிஆர் நுட்பத்தில் மிகவும் கடினமான செயலாகும். மேலும் கா, மெ, போன்ற துணையெழுத்துகள் வரும் எழுத்துக்களை இணைத்து கொண்டு வருவதும் கருத்தில் கொள்ளப்பட வேண்டியாதகும். இவை தவிர, தமிழ்மொழியில் ஏற்படும் ல-வ, க-சு, ன-ள போன்ற எழுத்துக்களின் வடிவ ஒற்றுமை பல சமயங்களில் குழப்பம் விளைவிக்கும் ஒன்றாகும்.

மேலும் italic, bold போன்ற ஸ்டைல்கள் கலந்து வருவது, பலவகை ஃபோண்ட்கள் கலந்து வருதல், பல்வேறு எழுத்து அளவுகள் கலந்து வருதல், பழைய கிரந்த எழுத்துகள் கலந்திருத்தல், படங்கள் இணைந்திருத்தல், column பிரச்சினை போன்ற எல்லா வகையான இடையூறுகளை சமாளிக்கும் வகையிலான மென்பொருள் தயாரிக்கப்பட வேண்டும்.

இதுவரை தமிழ் ஓசிஆர் மென்பொருள் வளர்ச்சியில் எடுக்கப்பட்டுள்ள முயற்சிகளைக் காண்போம். 2002ஆம் ஆண்டு தமிழ்நாடு அரசு PonVizhi எனும் தமிழ் ஓசிஆர் மென்பொருளை வெளியிட்டது. இந்த மென்பொருள் ஆவணங்களின் ஸ்கேன்கள் துல்லியமாக இருந்தால் 90% சிறப்பாக எழுத்துக்களை பிரதியெடுக்கின்றன. இருந்தபோதிலும் இந்த மென்பொருள் ஒரு ஆரம்ப நிலை மென்பொருளாகவே இருக்கின்றது. இதுவரை இதில் பெரிதான மேம்பாடுகள் எதுவும் வரவில்லை. இதுபோக இணையத்தில் gTamilOCR எனும் மென்பொருளும் கிடைக்கின்றது. இது எவ்வகையில் செயல்படுகின்றதென தெரியவில்லை.

ஒரு முழுமையான தமிழ் ஓசிஆர் மென்பொருளை உருவாக்க மென்பொருள் வல்லுநர்கள் முனைந்து கொண்டுதான் இருக்கிறார்கள். தமிழ் மட்டுமின்றி இந்திய மொழிகள் பலவற்றிற்கும் ஓசிஆர் மென்பொருட்கள் உருவாக்கும் பணிகள் ஆங்காங்கே நடைபெற்று வருகின்றன. புதிதாக முயற்சிப்பவர்களுக்கும், அதற்கான அடிப்படை மூலங்களும் தேவையான தகவல்களுக்கும் இணையத்தில் ஏராளமாக கிடைக்கின்றன. கடினமான உழைப்பு மற்றும் முயற்சியுடன் முனைந்தால் நிச்சயம் மேற்கண்ட அனைத்து இடையூறுகளையும் சரிசெய்யும் வகையிலான மென்பொருளை உருவாக்குவது சாத்தியமே. ஆனால் அதற்கு எவ்வளவு காலம் ஆகும் என தெரியவில்லை. இம்முயற்சி வெற்றியடைந்தால் அடுத்ததாக கையெழுத்துப் பிரதிகளை படியெடுக்கும் Handwriting recognition மென்பொருள் உருவாக்கத்திற்கு அடியெடுத்து வைக்கலாம். 

12 comments:

  1. ஞானாலயா என்பது புதுக்கோட்டையில் உள்ள தனிநபர்களால் நிர்வகிக்கப்படும் ஒரு நூலகம்.
    இது தொடர்பாக நண்பர்கள் ஒன்றினைந்து சில காரியங்களை செய்ய முயற்சித்துக் கொண்டு
    இருக்கின்றோம்.

    ஒவ்வொரு நண்பர்களாக ஒன்று சேரத் தொடங்கினர். அப்போது தான்
    இந்த ஓசிஆர் மென்பொருள் குறித்து எனக்கு புரிய வந்தது. இந்த கட்டுரையை எழுதியது
    எஸ்.கே என்ற நண்பர்.

    இவரின் தளத்தில் மென்பொருள் குறித்த ஏராளமான கட்டுரைகள் உண்டு.

    திரு. எஸ்.கே வுக்கு நன்றி.

    இவரைப்பற்றி தனியாக ஒரு பதிவே எழுதலாம் என்கிற அளவுக்கு நிறைய விசயங்கள் உண்டு. ஆச்சரியமான நண்பர். இவர் அடுத்த பகுதியாக இது குறித்து மேலும் விபரங்களை எழுதி தருகின்றேன் என்று சொல்லி இருக்கிறார்.

    ReplyDelete
    Replies
    1. எஸ் கே அவர்களின் தொடர்பு எண் கிடைக்குமா ? எனது ஓ சி ஆர் திட்டப்பணியின் போதும் ஞானாலயாவை பற்றி கேள்விப்பட்டேன். உடன் செயலாற்ற வேண்டிய விடயமிது. நன்றி.

      Delete
    2. http://manamplus.blogspot.in/

      இது அவரின் வலைதளம். இதன் மூலம் அவரை தொடர்பு கொள்ள முயற்சிக்கவும். நன்றி.

      Delete
  2. //தமிழில் Unicode, Non-Unicode என இருவகைப்பட்ட ஃபோண்ட்கள் உள்ளன. யுனிகோட் வகை ஃபோண்ட்களை இணையத்தில் பரவலாக பயன்படுத்தி வருகிறோம். புத்தக பதிப்புகளுக்காக பயன்படுத்தப்படும் மென்பொருட்கள் இந்த யுனிகோட் வகை ஃபோண்ட்களை சப்போர்ட் செய்வதில்லை.//

    புத்தக எழுத்தை வாசித்து மென் பொருள் வடிவில் மாற்றிக் கொள்ள எழுத்துரு (Font) வகைகள் தடையாக இருக்காது, அது படிக்கும் வகையில் தெளிவாக இருக்கிறதா என்பதே முக்கியம்.

    எந்த எழுத்துருவில் புத்தகம் அச்சிட்டு இருந்தாலும், அதே வகை எழுத்துருவை படித்து மாற்றிக் கொள்வது தான் பிரச்சனையாக உள்ளது. எழுத்து வடிவம் ஆப்டிகல் குறியிடாக மாற்றும் பொழுது ஒரு எழுத்திற்கான வரைவு அளவுகள் குறிப்பிட்ட வடிவத்தினுள்ளும், அளவிலும் இருக்க வேண்டும் என்கிற வரையரையில் எழுத்தை படிப்பதற்கு மென்பொருள் உருவாக்குவார்கள், ஒவ்வொரு எழுத்துருவின் வரைவு அளவுகள் மாறுவதால் பொதுவான மென் பொருளை வைத்து மாற்ற முடியாமல் போய்விடுகிறது.

    ReplyDelete
  3. நமது உள்ளீடு படமாக இருப்பதால் யுனிக்கோட் பிரச்சனை இருக்காது என்று நினைக்கிறேன். எழுத்தின் வடிவமே பிரச்சனையாகயிருக்கும்.

    நிங்கள் இணைத்துள்ள படம் மின்னஞ்சல் பிரதி என்பதால் பிறருக்குத் தெரியவில்லை. அதனை மீண்டும் புதிதாகப் பதிவேற்றுங்கள்

    ஓ.சி.ஆர். நுட்பம்பற்றி விளக்கும் இணையத்தளங்களைப் பட்டியலிடுங்கள் . பிறருக்கு உதவலாம்

    ReplyDelete
  4. வணக்கம் உறவே
    உங்களின் அருமையான இடுகையை இன்னும் பல பார்வையாளர்கள் படிக்க இங்கே இணைக்கவும்
    http://www.valaiyakam.com/

    முகநூல் பயனர் கணக்கின் மூலம் வலையகத்தில் நீங்கள் எளிதில் நுழையலாம்.

    5 ஓட்டுக்களை உங்கள் இடுகை பெற்றவுடன் தானியங்கியாக வலையகம் முகப்பில் உங்கள் இடுகை தோன்றும்.

    உங்கள் இடுகை பிரபலமடைய எமது புதிய ஓட்டுப்பட்டையை உங்கள் தளத்தில் இணைக்கவும்:
    http://www.valaiyakam.com/page.php?page=votetools

    நன்றி

    வலையகம்
    http://www.valaiyakam.com/

    ReplyDelete
  5. ஓசிஆர் இன்னும் கொஞ்சம் தகவல்கள் -

    இந்த மென்பொருள் படங்களில் உள்ள எழுத்துக்களை இனம்கண்டு டெக்ஸ்டாக மாற்றுவதோடு நின்றுவிடுவதில்லை. ஒளியாகவும் அதாவது எழுத்துக்களை வார்த்தைகளாகப்படிக்க வைக்கும் வசதியும் கொண்டது. மைக்ரோசாப்ட் ரீடரில் .lit ரகக் கோப்பாக மாற்றி டெக்ஸ்டைப் படிக்கக் கேட்கவும் முடியும்.

    1974 இல் இந்த ஓசிஆர் தொழில்நுட்பம் பார்வைக் குறைபாடு உள்ளவர்களுக்கும் கணினி செயல்பாடுகள் பயன்படுகிற மாதிரி விரிவடைந்தது.

    ஓசிஆர் மென்பொருளை உருவாக்குவதில் கணிதத்தில் தேர்ச்சி அப்புறம் மொழி ஞானம் இரண்டுமே முக்கியத்தேவை. தமிழில் அப்படி இரண்டும் ஒன்று சேர வாய்ப்புக் கிட்டவில்லை என்பதனாலோ என்னவோ, இது வரை செய்யப்பட்ட முயற்சிகள் அப்படியே தேங்கி நிற்கின்றன.பொன்விழி வெர்ஷன் 2.1 வரை வந்த தகவல் இருக்கிறது.ஆனால், அதற்கு மேல் அபிவிருத்தி செய்யப்படவில்லை என்று கிழக்கு பத்ரி சொல்கிறார்.

    டெசராக்ட் என்று கூகிள் கொட உபயோகித்துத் தமிழில் ஓபன் சோர்ஸ் தமிழ் ஓசிஆர் உருவாக்க முயற்சி மேற்கொள்ளப்பட்டது, ஒரு குறைந்தபட்ச ஊதியத்தைக் கூடத் தரமுடியாத நிலையில் அப்படியே நிற்கிறது. இப்போதும் குறைந்தபட்சம் ரூ. ஏழுலட்சம் (மூன்று வருட ஊதியம்) யாராவது ஸ்பான்சர் செய்ய முடிந்தால், ஆர்வமும் திறமையும் உள்ள ஒருவரைத் தேர்ந்தெடுத்து இந்தத் திட்டத்தை நிறைவேற்றித்தரத் தான் தயாராக இருப்பதாக திரு ம. ஸ்ரீ ராமதாஸ் சொல்கிறார். http://amachu.files.wordpress.com/2008/09/freesoftware_book.png

    http://www.mitpressjournals.org/loi/coli you can download a quarterly magazine Computational Linguistics

    ReplyDelete
  6. ocr-ரைப் பற்றி விரிவான தகவல்கள்... நன்றி...

    ஒரு மாதத்தில் 240௦ to 260௦ பக்கங்கள் ஆங்கிலத்தில் script இருக்கும். அதை நாம் word-இல் மாற்றித் தர வேண்டும்... (இரண்டு space இருந்தாலும் தவறு) அதில் ஆங்கில scripts விதவிதமாக இருக்கும். எப்படி இருந்தாலும் ocr-இல் கொடுத்தால் மாற்றிக் கொடுத்து விடும்... (சிறு சிறு பிழைகளோடு) ஒரு காலத்தில் 16 மாதங்கள் நான் அதை செய்தேன்... இதே போல் தமிழில் வந்தால் நன்றாக இருக்கும் என்று அப்போதே நினைத்ததுண்டு... மேலே (Krishna Moorthy S) ஐயா சொன்னது போல கூட இருக்கலாம். குறைந்தபட்சம் ரூ. ஏழுலட்சம் யாராவது தந்து உதவினால், தமிழுக்கு கிடைத்த வரப்பிரசாதம் என்று சொல்லலாம்... அரிய பல தமிழ் புத்தகங்களை அழியாமல் காக்கலாம்...

    நன்றி…

    ReplyDelete
  7. தனபால் உங்கள் நீண்ட விமர்சனத்திற்கு நன்றி

    ReplyDelete
  8. உண்மையில் பயனுள்ள பகிர்வே இது ... தமிழில் OCR மென்பொருள்கள் மேம்பாடு அடைய வேண்டும். அதற்கான முயற்சிகளை முன்னெடுக்க வேண்டும் என நினைக்கின்றேன். அரசின் கையை எதிர்ப்பாராமல் தனியார் உதவியோடு செய்யலாம் ... !!! பல தெளிவுகள் பெற்றேன் இப்பதிவினால்.

    ReplyDelete
  9. OCR (Optical Character Recognition) பற்றிய
    கட்டுரையும் அதற்கான தொடர்புடைய விளக்கங்களும்
    ஓசிஆர் தொழிற்நுட்பத்தை எளிதாக புரிய வைத்தது நன்றி

    ReplyDelete
  10. விமர்சனங்களை, தங்கள் கருத்துக்களை பகிர்ந்து கொண்ட நண்பர்கள் அணைவருக்கும் நன்றி. இது தொடர்பான சுட்டிகள், விளக்கங்கள், தொடர்புகள் இருந்தால் இந்த விமர்சனத்தின் வாயிலாக பகிர்ந்து கொள்ளுங்க. நாலைந்து கட்டுரையாக பிரித்து எழுதப்படும் இந்த ஓசிஆர் குறித்து புரிந்து கொள்ள உதவும்.

    ReplyDelete

கேட்பது தவறு. கொடுப்பது சிறப்பு.