Releasing Iyal Spellchecker 0.0.6

A Tamil Opensource Spellchecker is my long time dream. With the continious efforts of many friends, we released “Iyal Tamil Spellchecker” recently.

You can check it here – https://iyal.kaniyam.ca

Test this and add any issues here – https://github.com/KaniyamFoundation/iyal-tamil-spellchecker/issues

It has huge words collection, bloom filter based quick search, bk tree based suggestions, Tamil rules from Tamilinaiya Vaani spellchecker, Grammar rules from LanguageTool.org and more.

Read more about its architecure here – https://goinggnu.wordpress.com/2026/04/26/building-open-source-tamil-spellchecker-day-10-iyal-spellchecker/

In this release, today added 5147 new words to the collection.

There are total 1,55,966 words now in that repo, used as base word bank.

I am collecting these words from 625 tamil websites, blogs. Thanks for all of them for writing Tamil in public and to provide RSS feeds. I collect latest content daily, calculate the words frequency. If any word is used more than 50 times, I consider it as a good used word and add to the collection of Iyal tamil spellchecker.

Added few right words, few wrong words and few replacement words.

Hoping to release next versions with more words. Let me know if you want to add any new features.

Thanks for all the contributors.

#iyal #spellchecker #tamil
இயல் தமிழ் எழுத்துப் பிழைத்திருத்தி

இயல் சொற்பிழைத்திருத்தி – ஒரு அறிமுகம்

29/08/2025 அன்று, உலகத் தமிழாராய்ச்சி நிறுவனம் நடத்திய அறிஞர் அவையம் நிகழ்வு 4 ல் வழங்கிய உரை.

த.சீனிவாசன்     [email protected]

 

சொற்பிழைத்திருத்தி

 

நாம் அன்றாடம் பார்க்கும் பத்திரிக்கைகள், சுவரொட்டிகள், சமூக வலைத்தளங்களில் பல வகையான எழுத்துப் பிழைகளைக் காணலாம். சில பத்தாண்டுகளுக்கு முன்பெல்லாம், தவறான சொற்களைக் காணும் போதே, அவற்றின் சரியான சொற்களை தந்து திருத்தும் பலர் இருந்தனர். காலப்போக்கில், அவ்வகையான உரையாடல்கள் குறைந்து விட்டன.

கற்ப்பிக்கிறேன், விற்க்கிறேன், முன்ணணி, அதனால்த் தான், மேற்க்கோள்கள், முயற்ச்சி, தொலைகாட்சி, நிகழ்சிகள்

மேலே உள்ள சொற்களில் உள்ள தவறு என்ன? அவற்றை சரியாக எழுதுவது குறித்து யாராவது திருத்துவதை கடைசியாக நீங்கள் எங்கே பார்த்தீர்கள்?

ஏன் தமிழில் எழுதும் போது, தவறுகளை ஏற்றுக் கொள்கிறோம்?

  • தமிழ் எழுதுவதில் உள்ள தவறுகள், எழுதும் போது தெரிவதில்லை
  • இலக்கண விதிகளை கற்று பிறகு எழுதுவது கடினமாக உள்ளது.
  • எல்லோரும் இப்படித்தான் எழுதுகிறார்கள்.
  • தவறாகத்தான் இருந்து விட்டுப் போகட்டுமே. புரிகிறது அல்லவா? மொழியின் தேவை புரிய வைப்பதுதானே.

இன்னும் கூட சில காரணங்கள் இருக்கலாம்.

ஆனால், இதே காரணங்களை நாம் ஆங்கிலத்துக்கோ, பிற மொழிகளுக்கோ கூறுவதில்லை.

God Murnink. என்று எங்காவது பார்த்துள்ளோமா?

Thangs, Bhone, Mopile ? எங்கும் காண முடியாதே. இத்தனைக்கும் ஆங்கிலம் நமக்கு அன்னிய மொழி. ஏன் நமது தாய்மொழிக்கு மட்டும் ஓர வஞ்சனை?

கூர்ந்து ஆராய்ந்தால், கணினி, செல்பேசிகள் மூலம் ஆங்கிலம் வரும் போதே, அதனுடன் தேவையான எழுத்துப் பிழைத் திருத்தியும் இலவசமாக கிடைப்பதை உணரலாம்.

தமிழுக்கு இன்னும் நமது தமிழ் அறிவும் அனுபவமும் மட்டுமே துணை.

எனக்கு Entrepreneurship என்ற பெரிய சொல் இன்றும் சரியாகத் தெரியாது. இது போல பல சொற்கள். ஆனால், அவை ஓரளவு தெரிந்தால் போதும். கணினியில் உள்ள சொற்பிழைத்திருத்தி, அதற்கான சரியான சொல்லை தந்து விடுகிறது. இப்படி ஒரு கருவி இருப்பதால் தான் பல்லாயிரம் தமிழர்கள் கணினித் துறையில் வளர்ச்சி பெற்று வாழ்கின்றோம்.

நாளையே திடீரென, ‘எந்தக் கருவியிலும் ஆங்கில எழுத்துப் பிழைத்திருத்தி வேலை செய்யாது’ என்ற நிலை வந்தால், நாம் கற்கால வாழ்வுக்கு தயாராகி விட வேண்டியதுதான். LLM கருவிகள் போல, மாதம் 10 டாலர் விலை வைத்தால் போதும். சொற்பிழைத் திருத்தி விற்றே, பல எலான் மஸக்  உருவாகி விடலாம்.

ஈராயிரக் குழவிகளுக்கு பல்லாயிரம் ஆண்டு காலத் தமிழைத் தரும்போது, தேவையான கருவிகளைத் தராதது யார் பிழை?

கருவிகள் இல்லையா? நிறைய இருக்கின்றனவே? மென்தமிழ், தமிழா சொற்பிழைத்திருத்திருத்தி, வாணி, தமிழிணைய வாணி என பல கருவிகள் உள்ளனவே? அவை போதாதா?

போத வில்லையே. இத்தனை இருந்தும் ஏன் இவ்வளவு பிழைகள் காண்கிறோம்?

தமிழர்கள் கணினியைக் கண்ட நாள் முதல், தமிழுக்கென பல்வேறு மென்பொருட்கள் உருவாக்கி வருகிறோம். ஆயினும், அவை ஒரு சில தனி நபர்கள், சிறு குழுக்கள், சிறு நிறுவனங்கள், மூலமே உருவாகின்றன.

தமிழுக்கென மென்பொருள் உருவாக்குவது என்று முடிவு செய்த பின், சந்தை, வணிகம், இலாபம் என பல்வேறு கூறுகள் சேர்ந்து கொண்டு, நிலைமையை மேலும் சிக்கலாக்கி விடுகின்றன.  திறமூலமாக வெளியிடுவதா அல்லது தனியுரிம மென்பொருளாக வெளியிடுவதா என்ற கேள்வியில் நிறுவனங்கள் தனியுரிம வகையை தெரிவு செய்கின்றன. பல்கலைக் கழக ஆய்வுகளும் நிறுவனமயமாகி விடுகின்றன.

ஆங்கிலத்தில் பொதுவாக, மொழி சார்ந்த ஆய்வுகள், மென்பொருட்கள் பல்வேறு பல்கலைக் கழகங்களால், திற மூல மென்பொருட்களாக முதலில் வெளியிடப் படுகின்றன. பின் நிறுவனங்கள் அவற்றை வளர்த்தெடுக்கின்றன. பெரும்பாலான மென்பொருட்கள் திறமூலமாகவே உள்ளன.

நம் ஊரில் அன்னதானம் கிடைக்கும். அம்மா உணவகம் இருக்கும். சாலையோரக் கடையும் இருக்கும். சரவண பவனும் இருக்கும்.

இலவசம் என்பதால் அன்னதானம் தரம் குறைந்து விடுவதில்லை. விலை அதிக உணவகங்களிலும் தரம் எப்போதுமே இருக்கும் என்பதும் இல்லை. அவரவர் தேவை. அவரவர் வசதி. அவரவர் தெரிவு.

அதே போலத்தான் மென்பொருட்களுக்கும் இருக்க வேண்டும்.

முன்னோடிகள்

தமிழில் திற மூலமாகவும், தனியுரிம மென்பொருட்களாகவும் வெளிவந்த சில சொற்பிழைத்திருத்திகள் பற்றி காண்போம்.

தனியுரிமம் :

  • மென்தமிழ் – பேரா. தெய்வசுந்தரம்
  • வாணி – திரு. நீச்சல்காரன்
  • சர்மா சொல்யூசன்ஸ், புதுக் கோட்டை

திற மூலம் :

  • தமிழா பிழைத்திருத்தி – தமிழா குழுவினர்
  • Tamilpesu.us – முத்து அண்ணாமலை மற்றும் குழுவினர்
  • தமிழிணைய வாணி – திரு. நீச்சல்காரன்

இது ஒரு சிறு பட்டியல் மட்டுமே. இங்கு எழுதாமல் விட்டவை ஏராளம்.

இவற்றில் நாம் காணும் சிக்கல்கள்

தனியுரிமம் :

  • இலவசம் கிடையாது.
  • பெரும்பாலும் விண்டோசுக்கு மட்டும்
  • API கிடையாது
  • Offline ல் வேலை செய்யாது ( பெரும்பாலும். விதி விலக்குகள் உண்டு)
  • செல்பேசி செயலி கிடையாது
  • பெரும்பாலும் பிற மென்பொருட்களுடன் இணைத்து பயன் படுத்த முடியாது.
  • மூல நிரல் இல்லாததால், பலர் இணைந்து வளர்த்தெடுக்க முடியாது. உருவாக்கியவரின் ஆர்வம், வசதி குன்றும் போது, மென்பொருளும் மறைகிறது.

திற மூலம் :

  • Aspell அடிப்படையாகக் கொண்ட தமிழா பிழைத்திருத்தி, இரண்டு சொற்களை இணைத்து வரும் வார்த்தைகள் வரை மட்டுமே சரிபார்க்கும். தமிழில் நாம் பல சொற்களை இணைத்து புது சொற்களை உருவாக்க இயலும்.
  • சொல் வங்கி மிகவும் குறைவு
  • Tamilpesu.us, தமிழிணைய வாணி ஆய்வு நிலையிலேயே உள்ளன.
  • செல் பேசி செயலி கிடையாது

சரியாக எழுத நமக்கு என்ன தான் வேண்டும்?

பாலும் தெளிதேனும் தந்தால், சங்கத் தமிழ் கிடைக்கலாம். யாருக்காவது கிடைத்திருந்தால் சொல்லுங்கள். பிழைத்திருத்தி நாம் தான் உருவாக்க வேண்டும்.

நமது பல்கலைக் கழகங்கள் தேவையான அடிப்படைகளை உருவாக்கி திறமூலமாக அளித்திருந்தால், நாமும் பல வகையில் வளர்த்திருக்கலாம். பரவாயில்லை. ஆர்வமுள்ள பலர் இணைந்தால் போதும். பல்லாயிரம் திறமூல மென்பொருட்கள் கொண்ட, லினக்ஸ் போன்ற இயங்குதளங்களே உருவாகும் போது, பிழைத்திருத்தி உருவாக்க முடியும் தானே.

என்ன வசதிகள் இருக்க வேண்டும்?

  • நன்கு பிழைத் திருத்த வேண்டும்
  • புதிய வார்த்தைகளை தொடர்ந்து சேர்க்க வேண்டும்
  • இலவசமாக, திறமூலமாக உலக மக்கள் அனைவருக்கும் கிடைக்க வேண்டும்
  • பிழையான சொற்களைக் காட்ட வேண்டும்.
  • சரியான திருத்தங்களை பரிந்துரைக்க வேண்டும்
  • API வசதி வேண்டும்
  • இணையம் இல்லாமல் இயங்க வேண்டும்
  • செல்பேசிகளில் இயங்க வேண்டும்
  • பிற மென்பொருட்களிலும் இயங்க வேண்டும்
  • தொடர்ந்த மேம்பாடு இருக்க வேண்டும்.

“ஒருமையுடன் நினது திரு மலரடி நினைக்கின்ற உத்தமர் தம் உறவு வேண்டும்” என்று வள்ளலார் கேட்டது போல, இந்த வேண்டும் பட்டியல் எப்போதும் பெரிதாகிக் கொண்டே இருக்கும் ஒன்று.

நாம் என்ன செய்யலாம் என்று பார்ப்போம்.

ஒரு பிழைத்திருத்தி உருவாக்க தேவையான பொருட்கள் :

  • பெயர்ச்சொல், வினைச்சொல் தொகுதிகள்
  • அதிக அளவிலான சொல்வங்கி
  • தமிழ் இலக்கண விதிகள்
  • நல்ல எளிய நிரலாக்க மொழி
  • பல கோடி சொற்களில் இருந்து ஒரு சொல்லை அதி விரைவாக தேடும் வழிகள்
  • பரிந்துரைக்கான வழிகள்

கணியம் அறக்கட்டளை, காஞ்சி லினக்ஸ் பயனர் குழு, சென்னை லினக்ஸ் பயனர் குழு, சென்னை பைத்தான் குழு பங்களிப்பாளர்கள் ஒன்றிணைந்து, இப்பணிகளை சில ஆண்டுகளுக்கு முன் தொடங்கினோம்.

  • பெயர்ச்சொற்கள்

1,92,122  பெயர்ச் சொற்களை இங்கு தொகுத்துள்ளோம்.

github.com/KaniyamFoundation/all_tamil_nouns

வினைச்சொற்கள் பட்டியலை திரு. சுடர் அவர்கள் இங்கே தொகுத்துள்ளார் – sudar-ilakkanam.blogspot.com/

  • அதிக அளவிலான சொல் வங்கி

github.com/KaniyamFoundation/all_tamil_words

இங்கே 25,83,001 தனி சொற்களை தொகுத்துள்ளோம்.

இவை போக இன்னும் விக்கி மூலம் ( 450 நூல்கள் ) FreeTamilEbooks.com ( 850+ மின்னூல்கள் ) , 1000+ தமிழ்மண் பதிப்பக நூல்கள், விக்கிப்பீடியா, விக்கி செய்திகள், கிரியேட்டிவ் காமன்ஸ் உரிமையில் வெளிவரும் தீக்கதிர் இணைய இதழ், வலைப்பதிவுகள் என பகிரும் உரிமையில் கிடைக்கும் இடங்களில் இருந்து பெரும் சொல் வங்கி உருவாக்கி வருகிறோம். காண்க – github.com/KaniyamFoundation/ProjectIdeas/issues/198

Huggingface போன்ற கிடங்குகளில் கிடைக்கும் தகவல் பொதிகள் தனி. அவற்றில் இருந்தும் சொற்கள் பெறலாம்.

50 முறைக்கு மேல் பயன்பட்டிருக்கும் சொற்கள் சரியானவை என்று கொள்ளலாம்.

ஒரு கோடி தமிழ்ச் சொற்களை தொகுத்து வைத்தால் போதுமே.

  • சொல்வங்கியில் விரைந்து தேடுதல்

சரியான சொல் வங்கியில் ஒரு சொல் இருந்தால், அது சரியான சொல் எனக் கொள்ளலாம். கோடிக்கணக்கில் உள்ள, சொற்கள் உள்ள ஒரு சொல் வங்கியில் இருந்து எப்படி விரைவாகத் தேடுவது ?

இது பற்றி, சில ஆண்டுகளுக்கு முன், திரு.மலைக்கண்ணன் Bloom Filter என்ற நுட்பம் மூலம் தீர்வு வழங்கினார். அது தமிழுக்கும் அட்டகாசமாக வேலை செய்கிறது. ஒரு நொடிக்குள், பல இலட்சம் சொற்களில், ஒரு சொல் உண்டா, இல்லையா என்று சொல்லி விடுகிறது. நிரல் இங்கே – github.com/malaikannan/TamilSpellChecker/

 

  • நல்ல எளிய நிரலாக்க மொழி

பைத்தான் இருக்க பயமேன்?

  • பரிந்துரைக்கான வழிகள்

எழில் மொழி உருவாக்கிய திரு. முத்து அண்ணாமலை, Open-Tamil , TamilPesu.us  மூலம் சரியான சொற்களை பரிந்துரைக்கும் வழிகளை Norvig Algorithm மூலம் தமிழுக்கு செயல்படுத்திக் காட்டினார்.

நிரல் இங்கே – github.com/Ezhil-Language-Foundation/open-tamil

  • சந்தி விதிகள்

நித்யா துரைசாமி பைத்தான் மொழியில் ஒரு சந்திப் பிழைத்திருத்தி எழுதியுள்ளார்.

நிரல் இங்கே – github.com/nithyadurai87/tamil-sandhi-checker

  • இலக்கண விதிகள்

தமிழின் இலக்கண விதிகளை கற்று அவற்றை பைத்தான் நிரலாக மாற்றும் வகையில், பேரா. சத்யராஜ் (நேயக்கோ) அவர்கள் தலைமையில் ஒரு ஆண்டாக, சனி தோறும் கூடி, TolkaPy என்ற மென்பொருளை உருவாக்கி வருகிறோம்.

நிரல் இங்கே – gitlab.com/kachilug/tamilrulepy/

கூட்ட விவரங்கள் இங்கே –  github.com/KaniyamFoundation/ProjectIdeas/issues/214

தேவையான பொருட்களை ஒரு வாணலியில் இட்டு, மிதமான சூட்டில் பொரித்து எடுப்பது போல, ஓரளவு மேற்கண்ட அடிப்படைகள் கிடைப்பதால், இருப்பதைக் கொண்டு, ஒரு ஆய்வு நிலை சொற்பிழைத்திருத்தி உருவாக்கி உள்ளோம்.

காண்க – iyal.kaniyam.ca/

நிரல் இங்கே – github.com/KaniyamFoundation/iyal-tamil-spellchecker

இப்போதைக்கு, இலக்கண விதிகள் இல்லாமல், சொல் வங்கி அடிப்படையில் மட்டுமே வேலை செய்கிறது. விரைவில் இன்னும் அதிக சொற்கள், இலக்கண விதிகள் எல்லாம் சேரும் போது, நமது மாபெரும் தமிழ்க் கனவுகளில் ஒன்று நனவாகி விடும்.

அடுத்த கனவு – சொற்பிரிப்பான்

சிறு வயதில் பிரித்து எழுதுக, சேர்த்து எழுதுக கற்றிருப்போம். அதன் மென்பொருள் வடிவம் பார்த்துள்ளீர்களா? அது தான் சொற்பிரிப்பான். Tokenizer, Morpholocal Analyser என்பர்.

தற்போதைய AI காலத்தில், LLM கருவிகளில் தமிழ் இன்னும் மழலை மொழியாகவே இருப்பதன் காரணம், நாம் இன்னும் சரியான சொற்பிரிப்பாள், சொற்பிரிப்பான் மென்பொருட்களைத் தரவில்லை என்பதே.

திருமாலிருஞ்சோலையிலிருந்தபடியினாலே

இதை திரு + மால் + இரும் + சோலை + இல் + இருந்த + படி + இனால் + ஏ

என்று பிரிக்கலாம் என்று எப்படி கணினிக்கு சொல்வது?

நம் மூளைக்கு எளிதுதான். ஆனால் விதிகளை எழுதச் சொன்னால் திணறி விடுவோம்.

இதற்கான முயற்சிகள் பல காலமாக நடைபெற்று வருகின்றன.

தமிழுக்கு யாவரும் பகிரும் வகையிலான Annotated Corpus தமிழ் இணையக் கல்விக் கழகம் வெளியிட்ட ஒரு தொகுப்பு மட்டுமே உள்ளது. காண்க – github.com/Tamil-Virtual-Academy/Tamil-Annotated-Corpus

சரியான சொல் வங்கி இல்லாததால், பலரும் பல முறை தொடங்கி, ஆய்வு நிலையிலேயே நிறுத்தி விடுகின்றனர்.

இலங்கை மொரட்டுவா பல்கலைக்கழகப் பேராசிரியர் சர்வேஸ் ஒரு சொற்பிரிப்பான் திற மூலமாக வெளியிட்டுள்ளார். காண்க – nlp-tools.uom.lk/thamizhi-morph/parse-sentence.php#

நிரல் இங்கே – github.com/sarves/thamizhi-morph

இது ஆய்வு நிலையிலே உள்ளது.

இது தவிர, பல பேராசிரியர்கள், பல்கலைக் கழகங்கள், ஆய்வு அமைப்புகள் இது போன்ற மென்பொருட்களை உருவாக்கி, பல்வேறு சிக்கல்களால், வெளியிடாமலே போகும் நிலையும் உள்ளது.

தமிழுக்கான மென்பொருட்களை இணையத்தில் தேடினால், ஏராளனமான ஆய்வுக் கட்டுரைகள் மட்டுமே கிடைக்கும். அவற்றில் உருவாக்கியுள்ளதாக எழுதியுள்ள மென்பொருட்களை திறமூலமாக வெளியிட்டிருந்தாலே, பல புதுமைகள் அனைவருக்கும் கிடைத்திருக்கும்.

பிரியாணி செய்வது எப்படி என்று இணையத்தில் தேடினால், நெல் பயிரிடும் வழிகளுக்கான ஆய்வுக் கட்டுரைகள் மட்டும் கிடைப்பது போல உள்ளது தற்போதைய நிலை.

நெல் அரிசியாகி, பிறவும் விளைந்து, சந்தைக்கு வந்து, நமது வீட்டுக்கு வரும் காலம் விரைவில் வரட்டும். நாமே பிரியாணி செய்யவும் வேண்டும். தேவையெனில் சுவிகியில் ஆர்டர் செய்யவும் வேண்டும்.

நாம் என்ன செய்ய வேண்டும்?

நிரலாளர் உழைப்பினை நல்கீர்
இலக்கணம் அறிந்தோர் விதிகள் தாரீர்
எழுதுவோர் சொற்கள் தாரீர்
பேசுவோர் குரல் தாரீர்
நிதி மிகுந்தவர் பொற்குவை தாரீர்
நிதி குறைந்தவர் காசுகள் தாரீர்
அதுவுமற்றவர் தரவுகள் அருளீர்
மதுரத்தேமொழி மாந்தர்க ளெல்லாம்
பகிரும் வகையில்! கட்டற்ற உரிமையில்!!
ஊர் கூடித் தேர் இழுப்போம். வாருங்கள்!

 

slides –

Click to access iyal-tamil-spellchecker.pdf

காணொளி –

#iyal #OpenSource #spellchecker #tamil #சறபழததரதத_

tamilpesu.us - tamilpesu المصادر والمعلومات.

tamilpesu.us هل هو أول وأفضل مصادر جميع المعلومات التي تبحث عنها. من ضوء الموضوعات العامة إلى مزيد من الموضوعات التي كنت لتتوقعها هنا، tamilpesu.us تمتلكها جميعًا. نأمل أن تجد ما تبحث عنه!