I’m just too trusting with #SpellChecker|s / #TextReplacement. I should check the checked texts before I tap the send button.
You should assume that at least 50% of my typos are due to this.
I’m just too trusting with #SpellChecker|s / #TextReplacement. I should check the checked texts before I tap the send button.
You should assume that at least 50% of my typos are due to this.
Those fancy new local NPUs, like the one in my #AMD #Ryzen 7840HS, that get shipped with every new-enough box, SHOULD be capable of enhancing the #SpellChecker performance/hit-rate/semantic accuracy, shouldn't they?
Someone, more knowledgeable (#39c3?) than myself, should reply - please boost this toot.
This might be an ACTUALLY USEFUL (non-hallucinatory) application of #LLM #AI #DeepLearning #MachineLearning, that wouldn't make the #RAM #price exponentially through the moon
have this conversation with students all the time - "I don't care if it's 'polished!' I need facts, examples, explanations! But still run #spellchecker..."
Never use #Grammarly again — the reason every #writer should care https://www.makeuseof.com/ill-never-use-grammarly-again-reason-every-writer-should-care/
Look, #Spellchecker, I can do without the weird words with spelling close to common ones. I can assure you that when I type "alow" I really mean "allow" and I'd like you to catch that. #spelling
If I want an uncommon word in the dictionary, let me put it in. And let me remove any words I want, too. I'd rather be dinged every time I type "form" and mean it, than to have a mistyped "from" get by. #typo
இயல் சொற்பிழைத்திருத்தி – ஒரு அறிமுகம்
29/08/2025 அன்று, உலகத் தமிழாராய்ச்சி நிறுவனம் நடத்திய அறிஞர் அவையம் நிகழ்வு 4 ல் வழங்கிய உரை.
த.சீனிவாசன் [email protected]
சொற்பிழைத்திருத்தி
நாம் அன்றாடம் பார்க்கும் பத்திரிக்கைகள், சுவரொட்டிகள், சமூக வலைத்தளங்களில் பல வகையான எழுத்துப் பிழைகளைக் காணலாம். சில பத்தாண்டுகளுக்கு முன்பெல்லாம், தவறான சொற்களைக் காணும் போதே, அவற்றின் சரியான சொற்களை தந்து திருத்தும் பலர் இருந்தனர். காலப்போக்கில், அவ்வகையான உரையாடல்கள் குறைந்து விட்டன.
கற்ப்பிக்கிறேன், விற்க்கிறேன், முன்ணணி, அதனால்த் தான், மேற்க்கோள்கள், முயற்ச்சி, தொலைகாட்சி, நிகழ்சிகள்
மேலே உள்ள சொற்களில் உள்ள தவறு என்ன? அவற்றை சரியாக எழுதுவது குறித்து யாராவது திருத்துவதை கடைசியாக நீங்கள் எங்கே பார்த்தீர்கள்?
ஏன் தமிழில் எழுதும் போது, தவறுகளை ஏற்றுக் கொள்கிறோம்?
இன்னும் கூட சில காரணங்கள் இருக்கலாம்.
ஆனால், இதே காரணங்களை நாம் ஆங்கிலத்துக்கோ, பிற மொழிகளுக்கோ கூறுவதில்லை.
God Murnink. என்று எங்காவது பார்த்துள்ளோமா?
Thangs, Bhone, Mopile ? எங்கும் காண முடியாதே. இத்தனைக்கும் ஆங்கிலம் நமக்கு அன்னிய மொழி. ஏன் நமது தாய்மொழிக்கு மட்டும் ஓர வஞ்சனை?
கூர்ந்து ஆராய்ந்தால், கணினி, செல்பேசிகள் மூலம் ஆங்கிலம் வரும் போதே, அதனுடன் தேவையான எழுத்துப் பிழைத் திருத்தியும் இலவசமாக கிடைப்பதை உணரலாம்.
தமிழுக்கு இன்னும் நமது தமிழ் அறிவும் அனுபவமும் மட்டுமே துணை.
எனக்கு Entrepreneurship என்ற பெரிய சொல் இன்றும் சரியாகத் தெரியாது. இது போல பல சொற்கள். ஆனால், அவை ஓரளவு தெரிந்தால் போதும். கணினியில் உள்ள சொற்பிழைத்திருத்தி, அதற்கான சரியான சொல்லை தந்து விடுகிறது. இப்படி ஒரு கருவி இருப்பதால் தான் பல்லாயிரம் தமிழர்கள் கணினித் துறையில் வளர்ச்சி பெற்று வாழ்கின்றோம்.
நாளையே திடீரென, ‘எந்தக் கருவியிலும் ஆங்கில எழுத்துப் பிழைத்திருத்தி வேலை செய்யாது’ என்ற நிலை வந்தால், நாம் கற்கால வாழ்வுக்கு தயாராகி விட வேண்டியதுதான். LLM கருவிகள் போல, மாதம் 10 டாலர் விலை வைத்தால் போதும். சொற்பிழைத் திருத்தி விற்றே, பல எலான் மஸக் உருவாகி விடலாம்.
ஈராயிரக் குழவிகளுக்கு பல்லாயிரம் ஆண்டு காலத் தமிழைத் தரும்போது, தேவையான கருவிகளைத் தராதது யார் பிழை?
கருவிகள் இல்லையா? நிறைய இருக்கின்றனவே? மென்தமிழ், தமிழா சொற்பிழைத்திருத்திருத்தி, வாணி, தமிழிணைய வாணி என பல கருவிகள் உள்ளனவே? அவை போதாதா?
போத வில்லையே. இத்தனை இருந்தும் ஏன் இவ்வளவு பிழைகள் காண்கிறோம்?
தமிழர்கள் கணினியைக் கண்ட நாள் முதல், தமிழுக்கென பல்வேறு மென்பொருட்கள் உருவாக்கி வருகிறோம். ஆயினும், அவை ஒரு சில தனி நபர்கள், சிறு குழுக்கள், சிறு நிறுவனங்கள், மூலமே உருவாகின்றன.
தமிழுக்கென மென்பொருள் உருவாக்குவது என்று முடிவு செய்த பின், சந்தை, வணிகம், இலாபம் என பல்வேறு கூறுகள் சேர்ந்து கொண்டு, நிலைமையை மேலும் சிக்கலாக்கி விடுகின்றன. திறமூலமாக வெளியிடுவதா அல்லது தனியுரிம மென்பொருளாக வெளியிடுவதா என்ற கேள்வியில் நிறுவனங்கள் தனியுரிம வகையை தெரிவு செய்கின்றன. பல்கலைக் கழக ஆய்வுகளும் நிறுவனமயமாகி விடுகின்றன.
ஆங்கிலத்தில் பொதுவாக, மொழி சார்ந்த ஆய்வுகள், மென்பொருட்கள் பல்வேறு பல்கலைக் கழகங்களால், திற மூல மென்பொருட்களாக முதலில் வெளியிடப் படுகின்றன. பின் நிறுவனங்கள் அவற்றை வளர்த்தெடுக்கின்றன. பெரும்பாலான மென்பொருட்கள் திறமூலமாகவே உள்ளன.
நம் ஊரில் அன்னதானம் கிடைக்கும். அம்மா உணவகம் இருக்கும். சாலையோரக் கடையும் இருக்கும். சரவண பவனும் இருக்கும்.
இலவசம் என்பதால் அன்னதானம் தரம் குறைந்து விடுவதில்லை. விலை அதிக உணவகங்களிலும் தரம் எப்போதுமே இருக்கும் என்பதும் இல்லை. அவரவர் தேவை. அவரவர் வசதி. அவரவர் தெரிவு.
அதே போலத்தான் மென்பொருட்களுக்கும் இருக்க வேண்டும்.
முன்னோடிகள்
தமிழில் திற மூலமாகவும், தனியுரிம மென்பொருட்களாகவும் வெளிவந்த சில சொற்பிழைத்திருத்திகள் பற்றி காண்போம்.
தனியுரிமம் :
திற மூலம் :
இது ஒரு சிறு பட்டியல் மட்டுமே. இங்கு எழுதாமல் விட்டவை ஏராளம்.
இவற்றில் நாம் காணும் சிக்கல்கள்
தனியுரிமம் :
திற மூலம் :
சரியாக எழுத நமக்கு என்ன தான் வேண்டும்?
பாலும் தெளிதேனும் தந்தால், சங்கத் தமிழ் கிடைக்கலாம். யாருக்காவது கிடைத்திருந்தால் சொல்லுங்கள். பிழைத்திருத்தி நாம் தான் உருவாக்க வேண்டும்.
நமது பல்கலைக் கழகங்கள் தேவையான அடிப்படைகளை உருவாக்கி திறமூலமாக அளித்திருந்தால், நாமும் பல வகையில் வளர்த்திருக்கலாம். பரவாயில்லை. ஆர்வமுள்ள பலர் இணைந்தால் போதும். பல்லாயிரம் திறமூல மென்பொருட்கள் கொண்ட, லினக்ஸ் போன்ற இயங்குதளங்களே உருவாகும் போது, பிழைத்திருத்தி உருவாக்க முடியும் தானே.
என்ன வசதிகள் இருக்க வேண்டும்?
“ஒருமையுடன் நினது திரு மலரடி நினைக்கின்ற உத்தமர் தம் உறவு வேண்டும்” என்று வள்ளலார் கேட்டது போல, இந்த வேண்டும் பட்டியல் எப்போதும் பெரிதாகிக் கொண்டே இருக்கும் ஒன்று.
நாம் என்ன செய்யலாம் என்று பார்ப்போம்.
ஒரு பிழைத்திருத்தி உருவாக்க தேவையான பொருட்கள் :
கணியம் அறக்கட்டளை, காஞ்சி லினக்ஸ் பயனர் குழு, சென்னை லினக்ஸ் பயனர் குழு, சென்னை பைத்தான் குழு பங்களிப்பாளர்கள் ஒன்றிணைந்து, இப்பணிகளை சில ஆண்டுகளுக்கு முன் தொடங்கினோம்.
1,92,122 பெயர்ச் சொற்களை இங்கு தொகுத்துள்ளோம்.
github.com/KaniyamFoundation/all_tamil_nouns
வினைச்சொற்கள் பட்டியலை திரு. சுடர் அவர்கள் இங்கே தொகுத்துள்ளார் – sudar-ilakkanam.blogspot.com/
github.com/KaniyamFoundation/all_tamil_words
இங்கே 25,83,001 தனி சொற்களை தொகுத்துள்ளோம்.
இவை போக இன்னும் விக்கி மூலம் ( 450 நூல்கள் ) FreeTamilEbooks.com ( 850+ மின்னூல்கள் ) , 1000+ தமிழ்மண் பதிப்பக நூல்கள், விக்கிப்பீடியா, விக்கி செய்திகள், கிரியேட்டிவ் காமன்ஸ் உரிமையில் வெளிவரும் தீக்கதிர் இணைய இதழ், வலைப்பதிவுகள் என பகிரும் உரிமையில் கிடைக்கும் இடங்களில் இருந்து பெரும் சொல் வங்கி உருவாக்கி வருகிறோம். காண்க – github.com/KaniyamFoundation/ProjectIdeas/issues/198
Huggingface போன்ற கிடங்குகளில் கிடைக்கும் தகவல் பொதிகள் தனி. அவற்றில் இருந்தும் சொற்கள் பெறலாம்.
50 முறைக்கு மேல் பயன்பட்டிருக்கும் சொற்கள் சரியானவை என்று கொள்ளலாம்.
ஒரு கோடி தமிழ்ச் சொற்களை தொகுத்து வைத்தால் போதுமே.
சரியான சொல் வங்கியில் ஒரு சொல் இருந்தால், அது சரியான சொல் எனக் கொள்ளலாம். கோடிக்கணக்கில் உள்ள, சொற்கள் உள்ள ஒரு சொல் வங்கியில் இருந்து எப்படி விரைவாகத் தேடுவது ?
இது பற்றி, சில ஆண்டுகளுக்கு முன், திரு.மலைக்கண்ணன் Bloom Filter என்ற நுட்பம் மூலம் தீர்வு வழங்கினார். அது தமிழுக்கும் அட்டகாசமாக வேலை செய்கிறது. ஒரு நொடிக்குள், பல இலட்சம் சொற்களில், ஒரு சொல் உண்டா, இல்லையா என்று சொல்லி விடுகிறது. நிரல் இங்கே – github.com/malaikannan/TamilSpellChecker/
பைத்தான் இருக்க பயமேன்?
எழில் மொழி உருவாக்கிய திரு. முத்து அண்ணாமலை, Open-Tamil , TamilPesu.us மூலம் சரியான சொற்களை பரிந்துரைக்கும் வழிகளை Norvig Algorithm மூலம் தமிழுக்கு செயல்படுத்திக் காட்டினார்.
நிரல் இங்கே – github.com/Ezhil-Language-Foundation/open-tamil
நித்யா துரைசாமி பைத்தான் மொழியில் ஒரு சந்திப் பிழைத்திருத்தி எழுதியுள்ளார்.
நிரல் இங்கே – github.com/nithyadurai87/tamil-sandhi-checker
தமிழின் இலக்கண விதிகளை கற்று அவற்றை பைத்தான் நிரலாக மாற்றும் வகையில், பேரா. சத்யராஜ் (நேயக்கோ) அவர்கள் தலைமையில் ஒரு ஆண்டாக, சனி தோறும் கூடி, TolkaPy என்ற மென்பொருளை உருவாக்கி வருகிறோம்.
நிரல் இங்கே – gitlab.com/kachilug/tamilrulepy/
கூட்ட விவரங்கள் இங்கே – github.com/KaniyamFoundation/ProjectIdeas/issues/214
தேவையான பொருட்களை ஒரு வாணலியில் இட்டு, மிதமான சூட்டில் பொரித்து எடுப்பது போல, ஓரளவு மேற்கண்ட அடிப்படைகள் கிடைப்பதால், இருப்பதைக் கொண்டு, ஒரு ஆய்வு நிலை சொற்பிழைத்திருத்தி உருவாக்கி உள்ளோம்.
காண்க – iyal.kaniyam.ca/
நிரல் இங்கே – github.com/KaniyamFoundation/iyal-tamil-spellchecker
இப்போதைக்கு, இலக்கண விதிகள் இல்லாமல், சொல் வங்கி அடிப்படையில் மட்டுமே வேலை செய்கிறது. விரைவில் இன்னும் அதிக சொற்கள், இலக்கண விதிகள் எல்லாம் சேரும் போது, நமது மாபெரும் தமிழ்க் கனவுகளில் ஒன்று நனவாகி விடும்.
அடுத்த கனவு – சொற்பிரிப்பான்
சிறு வயதில் பிரித்து எழுதுக, சேர்த்து எழுதுக கற்றிருப்போம். அதன் மென்பொருள் வடிவம் பார்த்துள்ளீர்களா? அது தான் சொற்பிரிப்பான். Tokenizer, Morpholocal Analyser என்பர்.
தற்போதைய AI காலத்தில், LLM கருவிகளில் தமிழ் இன்னும் மழலை மொழியாகவே இருப்பதன் காரணம், நாம் இன்னும் சரியான சொற்பிரிப்பாள், சொற்பிரிப்பான் மென்பொருட்களைத் தரவில்லை என்பதே.
திருமாலிருஞ்சோலையிலிருந்தபடியினாலே
இதை திரு + மால் + இரும் + சோலை + இல் + இருந்த + படி + இனால் + ஏ
என்று பிரிக்கலாம் என்று எப்படி கணினிக்கு சொல்வது?
நம் மூளைக்கு எளிதுதான். ஆனால் விதிகளை எழுதச் சொன்னால் திணறி விடுவோம்.
இதற்கான முயற்சிகள் பல காலமாக நடைபெற்று வருகின்றன.
தமிழுக்கு யாவரும் பகிரும் வகையிலான Annotated Corpus தமிழ் இணையக் கல்விக் கழகம் வெளியிட்ட ஒரு தொகுப்பு மட்டுமே உள்ளது. காண்க – github.com/Tamil-Virtual-Academy/Tamil-Annotated-Corpus
சரியான சொல் வங்கி இல்லாததால், பலரும் பல முறை தொடங்கி, ஆய்வு நிலையிலேயே நிறுத்தி விடுகின்றனர்.
இலங்கை மொரட்டுவா பல்கலைக்கழகப் பேராசிரியர் சர்வேஸ் ஒரு சொற்பிரிப்பான் திற மூலமாக வெளியிட்டுள்ளார். காண்க – nlp-tools.uom.lk/thamizhi-morph/parse-sentence.php#
நிரல் இங்கே – github.com/sarves/thamizhi-morph
இது ஆய்வு நிலையிலே உள்ளது.
இது தவிர, பல பேராசிரியர்கள், பல்கலைக் கழகங்கள், ஆய்வு அமைப்புகள் இது போன்ற மென்பொருட்களை உருவாக்கி, பல்வேறு சிக்கல்களால், வெளியிடாமலே போகும் நிலையும் உள்ளது.
தமிழுக்கான மென்பொருட்களை இணையத்தில் தேடினால், ஏராளனமான ஆய்வுக் கட்டுரைகள் மட்டுமே கிடைக்கும். அவற்றில் உருவாக்கியுள்ளதாக எழுதியுள்ள மென்பொருட்களை திறமூலமாக வெளியிட்டிருந்தாலே, பல புதுமைகள் அனைவருக்கும் கிடைத்திருக்கும்.
பிரியாணி செய்வது எப்படி என்று இணையத்தில் தேடினால், நெல் பயிரிடும் வழிகளுக்கான ஆய்வுக் கட்டுரைகள் மட்டும் கிடைப்பது போல உள்ளது தற்போதைய நிலை.
நெல் அரிசியாகி, பிறவும் விளைந்து, சந்தைக்கு வந்து, நமது வீட்டுக்கு வரும் காலம் விரைவில் வரட்டும். நாமே பிரியாணி செய்யவும் வேண்டும். தேவையெனில் சுவிகியில் ஆர்டர் செய்யவும் வேண்டும்.
நாம் என்ன செய்ய வேண்டும்?
நிரலாளர் உழைப்பினை நல்கீர்
இலக்கணம் அறிந்தோர் விதிகள் தாரீர்
எழுதுவோர் சொற்கள் தாரீர்
பேசுவோர் குரல் தாரீர்
நிதி மிகுந்தவர் பொற்குவை தாரீர்
நிதி குறைந்தவர் காசுகள் தாரீர்
அதுவுமற்றவர் தரவுகள் அருளீர்
மதுரத்தேமொழி மாந்தர்க ளெல்லாம்
பகிரும் வகையில்! கட்டற்ற உரிமையில்!!
ஊர் கூடித் தேர் இழுப்போம். வாருங்கள்!
slides –
Click to access iyal-tamil-spellchecker.pdf
காணொளி –
Harper is a grammar checker that is on-device and open source
“When it comes to grammar checking, Grammarly is the premium tool for it. It’s a proprietary tool, and it was among the first one to make a mark as a web-based Grammar checking tool. Then there is LanguageTool that is/was open source, made in German ...continues
See https://gadgeteer.co.za/harper-is-a-grammar-checker-that-is-on-device-and-open-source/
Harper is a grammar checker that is on-device and open source
https://squeet.me/display/962c3e10-13fec589-ae609161c2135fb7
📝✅ One-Click Spellchecker – Instant Fix
No fuss, no menus. Just one click and your text is perfectly corrected.
⚡ Fast. Simple. Effective.
👉 Try it now:
https://nextstardrop.com/one-click-spellchecker/
#SpellChecker #WritingTools #Productivity #Nextstardrop #GrammarFix #OneClickFix