Wednesday, August 08, 2012

கன்னித்தமிழ் இனியென்றும் கணினி தமிழ்

புதியதாக ஒரு ஓசிஆர் மென்பொருளை உருவாக்க வேண்டும் என்கிறபோது அதை உருவாக்க ஏற்ற கணிணி மொழிகளை அறிந்திருக்க வேண்டிய அவசியமாகின்றது. நமது தேவைகளுக்கு ஏற்ப (CODE) கோடிங்களை உருவாக்கி முழுமையாக்க நேரம் மற்றும் உழைப்பு நிறையவே தேவைப்படுகின்றது. அதுவும் தமிழ் மொழி போன்ற இந்திய மொழிகளுக்கு இன்னும் அதிகமாக இரண்டும் தேவைப்படும்.  


இந்நிலையில் ஏற்கனவே உள்ள சில மென்பொருட்களை கொண்டு புதிய மொழிகளுக்கு பயிற்சி அளிக்க முடியும். அவற்றை ocr engine என அழைக்கின்றனர்.Ocrad, Gocr என பலதரப்பட்ட ocr engine-கள் கிடைத்த போதிலும், பரவலாக தமிழ் ocr தயாரிக்க பயன்படுத்தப்படும் engine – Tesseract ocr engine ஆகும்.

Tesseract ஒரு இலவச ஓசிஆர் எஞ்சின் ஆகும். இதை எல்லா வகையான கணிணிகளிலும் பயன்படுத்த முடியும். இதுவரை மூன்று வெர்சன்களில் வந்துள்ள இம்மென்பொருள் ஏற்கனவே பல மொழிகளில் ocr பயன்பாட்டிற்காக பயன்படுத்தப்படுகின்றது. தமிழில் ocr மென்பொருளை உருவாக்க இதன் மூலம் முயற்சிகள் எடுக்கப்பட்டு வருகின்றன.  அடிப்படையாக இதில் ஸ்கேன் செய்யப்பட்ட எழுத்துக்களின் படங்களை கொண்டு ஒரு மொழியை பழக்கப்படுத்துகின்றனர்.

இம்மென்பொருளை இங்கே டவுன்லோட் செய்து கொள்ளலாம்.

புதிய மொழி ஒன்றிற்கு பயிற்சியளிக்கும் முறைகள் குறித்து இங்கே காணலாம்

அதிகமான மென்பொருள் அறிவு இல்லாத போதும், இம்மென்பொருளைக் கொண்டு தமிழ் ஓசிஆர் உருவாக்கும் பணிகளை முயற்சிக்க முடியும் என்கின்றனர். இருப்பினும் மேலே சொன்னது போல உழைப்பும் நேரமும் தேவைப்படுவதால் அது எப்போது முழுமையடையும் என காத்திருக்க வேண்டியுள்ளது. infitt  போன்ற அமைப்புகள் தொடர்ந்து தமிழ் ஓசிஆர் குறித்து ஆய்வுகள் செய்து வருகின்றன. கூடுதலாக தனிப்பட்ட முறையிலும் சில முயற்சிகள் நடக்கின்றன. அதன் ஒரு பலனாக tesseract மென்பொருள் கொண்டு தமிழுக்கான சில மொழிப்பயிற்சி தரவுகளை உருவாக்கியுள்ளனர்.

மேலும் அறிந்துகொள்ள சில கட்டுரைகள்:






3 comments:

  1. மிக்க நன்றி நண்பரே...

    நீங்கள் கொடுத்த தளங்களை சென்று பார்க்கிறேன்...

    தொடர வாழ்த்துக்கள்...

    ReplyDelete
  2. This post seem very yummy!!! I love chocolate!
    Technology, Free Software and Best Tutorial
    your blog is good! I'll visit again :)
    God Bless You

    ReplyDelete

கேட்பது தவறு. கொடுப்பது சிறப்பு.