Mastodawn

Those fancy new local NPUs, like the one in my #AMD #Ryzen 7840HS, that get shipped with every new-enough box, SHOULD be capable of enhancing the #SpellChecker performance/hit-rate/semantic accuracy, shouldn't they?

Someone, more knowledgeable (#39c3?) than myself, should reply - please boost this toot.

This might be an ACTUALLY USEFUL (non-hallucinatory) application of #LLM #AI #DeepLearning #MachineLearning, that wouldn't make the #RAM #price exponentially through the moon

Show thread

Brian Johnson Nov 26

Oh, apparently, gritter isn't a word at all. It should be glitter, critter or fritter.
#spellchecker

Brian Johnson Nov 26

Dear spellchecker, I can't believe that "fritter" is a more common word than "gritter". I stand to be, erm, corrected.
#spellchecker

Kathy Bryson Nov 7

have this conversation with students all the time - "I don't care if it's 'polished!' I need facts, examples, explanations! But still run #spellchecker..."

Never use #Grammarly again — the reason every #writer should care https://www.makeuseof.com/ill-never-use-grammarly-again-reason-every-writer-should-care/

#generativeAI #settings

I’ll never use Grammarly again — and this is the reason every writer should care

Once felt like a helpful grammar checker for writers, Grammarly has now turned into an aggressive AI tool always trying to erase your individuality.

MakeUseOf

bok Oct 9

Look, #Spellchecker, I can do without the weird words with spelling close to common ones. I can assure you that when I type "alow" I really mean "allow" and I'd like you to catch that. #spelling

If I want an uncommon word in the dictionary, let me put it in. And let me remove any words I want, too. I'd rather be dinged every time I type "form" and mean it, than to have a mistyped "from" get by. #typo

கணியம் பொறுப்பாசிரியர்Sep 4

இயல் சொற்பிழைத்திருத்தி – ஒரு அறிமுகம்

29/08/2025 அன்று, உலகத் தமிழாராய்ச்சி நிறுவனம் நடத்திய அறிஞர் அவையம் நிகழ்வு 4 ல் வழங்கிய உரை.

த.சீனிவாசன் tshrinivasan@gmail.com

சொற்பிழைத்திருத்தி

நாம் அன்றாடம் பார்க்கும் பத்திரிக்கைகள், சுவரொட்டிகள், சமூக வலைத்தளங்களில் பல வகையான எழுத்துப் பிழைகளைக் காணலாம். சில பத்தாண்டுகளுக்கு முன்பெல்லாம், தவறான சொற்களைக் காணும் போதே, அவற்றின் சரியான சொற்களை தந்து திருத்தும் பலர் இருந்தனர். காலப்போக்கில், அவ்வகையான உரையாடல்கள் குறைந்து விட்டன.

கற்ப்பிக்கிறேன், விற்க்கிறேன், முன்ணணி, அதனால்த் தான், மேற்க்கோள்கள், முயற்ச்சி, தொலைகாட்சி, நிகழ்சிகள்

மேலே உள்ள சொற்களில் உள்ள தவறு என்ன? அவற்றை சரியாக எழுதுவது குறித்து யாராவது திருத்துவதை கடைசியாக நீங்கள் எங்கே பார்த்தீர்கள்?

ஏன் தமிழில் எழுதும் போது, தவறுகளை ஏற்றுக் கொள்கிறோம்?

தமிழ் எழுதுவதில் உள்ள தவறுகள், எழுதும் போது தெரிவதில்லை
இலக்கண விதிகளை கற்று பிறகு எழுதுவது கடினமாக உள்ளது.
எல்லோரும் இப்படித்தான் எழுதுகிறார்கள்.
தவறாகத்தான் இருந்து விட்டுப் போகட்டுமே. புரிகிறது அல்லவா? மொழியின் தேவை புரிய வைப்பதுதானே.

இன்னும் கூட சில காரணங்கள் இருக்கலாம்.

ஆனால், இதே காரணங்களை நாம் ஆங்கிலத்துக்கோ, பிற மொழிகளுக்கோ கூறுவதில்லை.

God Murnink. என்று எங்காவது பார்த்துள்ளோமா?

Thangs, Bhone, Mopile ? எங்கும் காண முடியாதே. இத்தனைக்கும் ஆங்கிலம் நமக்கு அன்னிய மொழி. ஏன் நமது தாய்மொழிக்கு மட்டும் ஓர வஞ்சனை?

கூர்ந்து ஆராய்ந்தால், கணினி, செல்பேசிகள் மூலம் ஆங்கிலம் வரும் போதே, அதனுடன் தேவையான எழுத்துப் பிழைத் திருத்தியும் இலவசமாக கிடைப்பதை உணரலாம்.

தமிழுக்கு இன்னும் நமது தமிழ் அறிவும் அனுபவமும் மட்டுமே துணை.

எனக்கு Entrepreneurship என்ற பெரிய சொல் இன்றும் சரியாகத் தெரியாது. இது போல பல சொற்கள். ஆனால், அவை ஓரளவு தெரிந்தால் போதும். கணினியில் உள்ள சொற்பிழைத்திருத்தி, அதற்கான சரியான சொல்லை தந்து விடுகிறது. இப்படி ஒரு கருவி இருப்பதால் தான் பல்லாயிரம் தமிழர்கள் கணினித் துறையில் வளர்ச்சி பெற்று வாழ்கின்றோம்.

நாளையே திடீரென, ‘எந்தக் கருவியிலும் ஆங்கில எழுத்துப் பிழைத்திருத்தி வேலை செய்யாது’ என்ற நிலை வந்தால், நாம் கற்கால வாழ்வுக்கு தயாராகி விட வேண்டியதுதான். LLM கருவிகள் போல, மாதம் 10 டாலர் விலை வைத்தால் போதும். சொற்பிழைத் திருத்தி விற்றே, பல எலான் மஸக் உருவாகி விடலாம்.

ஈராயிரக் குழவிகளுக்கு பல்லாயிரம் ஆண்டு காலத் தமிழைத் தரும்போது, தேவையான கருவிகளைத் தராதது யார் பிழை?

கருவிகள் இல்லையா? நிறைய இருக்கின்றனவே? மென்தமிழ், தமிழா சொற்பிழைத்திருத்திருத்தி, வாணி, தமிழிணைய வாணி என பல கருவிகள் உள்ளனவே? அவை போதாதா?

போத வில்லையே. இத்தனை இருந்தும் ஏன் இவ்வளவு பிழைகள் காண்கிறோம்?

தமிழர்கள் கணினியைக் கண்ட நாள் முதல், தமிழுக்கென பல்வேறு மென்பொருட்கள் உருவாக்கி வருகிறோம். ஆயினும், அவை ஒரு சில தனி நபர்கள், சிறு குழுக்கள், சிறு நிறுவனங்கள், மூலமே உருவாகின்றன.

தமிழுக்கென மென்பொருள் உருவாக்குவது என்று முடிவு செய்த பின், சந்தை, வணிகம், இலாபம் என பல்வேறு கூறுகள் சேர்ந்து கொண்டு, நிலைமையை மேலும் சிக்கலாக்கி விடுகின்றன. திறமூலமாக வெளியிடுவதா அல்லது தனியுரிம மென்பொருளாக வெளியிடுவதா என்ற கேள்வியில் நிறுவனங்கள் தனியுரிம வகையை தெரிவு செய்கின்றன. பல்கலைக் கழக ஆய்வுகளும் நிறுவனமயமாகி விடுகின்றன.

ஆங்கிலத்தில் பொதுவாக, மொழி சார்ந்த ஆய்வுகள், மென்பொருட்கள் பல்வேறு பல்கலைக் கழகங்களால், திற மூல மென்பொருட்களாக முதலில் வெளியிடப் படுகின்றன. பின் நிறுவனங்கள் அவற்றை வளர்த்தெடுக்கின்றன. பெரும்பாலான மென்பொருட்கள் திறமூலமாகவே உள்ளன.

நம் ஊரில் அன்னதானம் கிடைக்கும். அம்மா உணவகம் இருக்கும். சாலையோரக் கடையும் இருக்கும். சரவண பவனும் இருக்கும்.

இலவசம் என்பதால் அன்னதானம் தரம் குறைந்து விடுவதில்லை. விலை அதிக உணவகங்களிலும் தரம் எப்போதுமே இருக்கும் என்பதும் இல்லை. அவரவர் தேவை. அவரவர் வசதி. அவரவர் தெரிவு.

அதே போலத்தான் மென்பொருட்களுக்கும் இருக்க வேண்டும்.

முன்னோடிகள்

தமிழில் திற மூலமாகவும், தனியுரிம மென்பொருட்களாகவும் வெளிவந்த சில சொற்பிழைத்திருத்திகள் பற்றி காண்போம்.

தனியுரிமம் :

மென்தமிழ் – பேரா. தெய்வசுந்தரம்
வாணி – திரு. நீச்சல்காரன்
சர்மா சொல்யூசன்ஸ், புதுக் கோட்டை

திற மூலம் :

தமிழா பிழைத்திருத்தி – தமிழா குழுவினர்
Tamilpesu.us – முத்து அண்ணாமலை மற்றும் குழுவினர்
தமிழிணைய வாணி – திரு. நீச்சல்காரன்

இது ஒரு சிறு பட்டியல் மட்டுமே. இங்கு எழுதாமல் விட்டவை ஏராளம்.

இவற்றில் நாம் காணும் சிக்கல்கள்

தனியுரிமம் :

இலவசம் கிடையாது.
பெரும்பாலும் விண்டோசுக்கு மட்டும்
API கிடையாது
Offline ல் வேலை செய்யாது ( பெரும்பாலும். விதி விலக்குகள் உண்டு)
செல்பேசி செயலி கிடையாது
பெரும்பாலும் பிற மென்பொருட்களுடன் இணைத்து பயன் படுத்த முடியாது.
மூல நிரல் இல்லாததால், பலர் இணைந்து வளர்த்தெடுக்க முடியாது. உருவாக்கியவரின் ஆர்வம், வசதி குன்றும் போது, மென்பொருளும் மறைகிறது.

திற மூலம் :

Aspell அடிப்படையாகக் கொண்ட தமிழா பிழைத்திருத்தி, இரண்டு சொற்களை இணைத்து வரும் வார்த்தைகள் வரை மட்டுமே சரிபார்க்கும். தமிழில் நாம் பல சொற்களை இணைத்து புது சொற்களை உருவாக்க இயலும்.
சொல் வங்கி மிகவும் குறைவு
Tamilpesu.us, தமிழிணைய வாணி ஆய்வு நிலையிலேயே உள்ளன.
செல் பேசி செயலி கிடையாது

சரியாக எழுத நமக்கு என்ன தான் வேண்டும்?

பாலும் தெளிதேனும் தந்தால், சங்கத் தமிழ் கிடைக்கலாம். யாருக்காவது கிடைத்திருந்தால் சொல்லுங்கள். பிழைத்திருத்தி நாம் தான் உருவாக்க வேண்டும்.

நமது பல்கலைக் கழகங்கள் தேவையான அடிப்படைகளை உருவாக்கி திறமூலமாக அளித்திருந்தால், நாமும் பல வகையில் வளர்த்திருக்கலாம். பரவாயில்லை. ஆர்வமுள்ள பலர் இணைந்தால் போதும். பல்லாயிரம் திறமூல மென்பொருட்கள் கொண்ட, லினக்ஸ் போன்ற இயங்குதளங்களே உருவாகும் போது, பிழைத்திருத்தி உருவாக்க முடியும் தானே.

என்ன வசதிகள் இருக்க வேண்டும்?

நன்கு பிழைத் திருத்த வேண்டும்
புதிய வார்த்தைகளை தொடர்ந்து சேர்க்க வேண்டும்
இலவசமாக, திறமூலமாக உலக மக்கள் அனைவருக்கும் கிடைக்க வேண்டும்
பிழையான சொற்களைக் காட்ட வேண்டும்.
சரியான திருத்தங்களை பரிந்துரைக்க வேண்டும்
API வசதி வேண்டும்
இணையம் இல்லாமல் இயங்க வேண்டும்
செல்பேசிகளில் இயங்க வேண்டும்
பிற மென்பொருட்களிலும் இயங்க வேண்டும்
தொடர்ந்த மேம்பாடு இருக்க வேண்டும்.

“ஒருமையுடன் நினது திரு மலரடி நினைக்கின்ற உத்தமர் தம் உறவு வேண்டும்” என்று வள்ளலார் கேட்டது போல, இந்த வேண்டும் பட்டியல் எப்போதும் பெரிதாகிக் கொண்டே இருக்கும் ஒன்று.

நாம் என்ன செய்யலாம் என்று பார்ப்போம்.

ஒரு பிழைத்திருத்தி உருவாக்க தேவையான பொருட்கள் :

பெயர்ச்சொல், வினைச்சொல் தொகுதிகள்
அதிக அளவிலான சொல்வங்கி
தமிழ் இலக்கண விதிகள்
நல்ல எளிய நிரலாக்க மொழி
பல கோடி சொற்களில் இருந்து ஒரு சொல்லை அதி விரைவாக தேடும் வழிகள்
பரிந்துரைக்கான வழிகள்

கணியம் அறக்கட்டளை, காஞ்சி லினக்ஸ் பயனர் குழு, சென்னை லினக்ஸ் பயனர் குழு, சென்னை பைத்தான் குழு பங்களிப்பாளர்கள் ஒன்றிணைந்து, இப்பணிகளை சில ஆண்டுகளுக்கு முன் தொடங்கினோம்.

பெயர்ச்சொற்கள்

1,92,122 பெயர்ச் சொற்களை இங்கு தொகுத்துள்ளோம்.

github.com/KaniyamFoundation/all_tamil_nouns

வினைச்சொற்கள் பட்டியலை திரு. சுடர் அவர்கள் இங்கே தொகுத்துள்ளார் – sudar-ilakkanam.blogspot.com/

அதிக அளவிலான சொல் வங்கி

github.com/KaniyamFoundation/all_tamil_words

இங்கே 25,83,001 தனி சொற்களை தொகுத்துள்ளோம்.

இவை போக இன்னும் விக்கி மூலம் ( 450 நூல்கள் ) FreeTamilEbooks.com ( 850+ மின்னூல்கள் ) , 1000+ தமிழ்மண் பதிப்பக நூல்கள், விக்கிப்பீடியா, விக்கி செய்திகள், கிரியேட்டிவ் காமன்ஸ் உரிமையில் வெளிவரும் தீக்கதிர் இணைய இதழ், வலைப்பதிவுகள் என பகிரும் உரிமையில் கிடைக்கும் இடங்களில் இருந்து பெரும் சொல் வங்கி உருவாக்கி வருகிறோம். காண்க – github.com/KaniyamFoundation/ProjectIdeas/issues/198

Huggingface போன்ற கிடங்குகளில் கிடைக்கும் தகவல் பொதிகள் தனி. அவற்றில் இருந்தும் சொற்கள் பெறலாம்.

50 முறைக்கு மேல் பயன்பட்டிருக்கும் சொற்கள் சரியானவை என்று கொள்ளலாம்.

ஒரு கோடி தமிழ்ச் சொற்களை தொகுத்து வைத்தால் போதுமே.

சொல்வங்கியில் விரைந்து தேடுதல்

சரியான சொல் வங்கியில் ஒரு சொல் இருந்தால், அது சரியான சொல் எனக் கொள்ளலாம். கோடிக்கணக்கில் உள்ள, சொற்கள் உள்ள ஒரு சொல் வங்கியில் இருந்து எப்படி விரைவாகத் தேடுவது ?

இது பற்றி, சில ஆண்டுகளுக்கு முன், திரு.மலைக்கண்ணன் Bloom Filter என்ற நுட்பம் மூலம் தீர்வு வழங்கினார். அது தமிழுக்கும் அட்டகாசமாக வேலை செய்கிறது. ஒரு நொடிக்குள், பல இலட்சம் சொற்களில், ஒரு சொல் உண்டா, இல்லையா என்று சொல்லி விடுகிறது. நிரல் இங்கே – github.com/malaikannan/TamilSpellChecker/

நல்ல எளிய நிரலாக்க மொழி

பைத்தான் இருக்க பயமேன்?

பரிந்துரைக்கான வழிகள்

எழில் மொழி உருவாக்கிய திரு. முத்து அண்ணாமலை, Open-Tamil , TamilPesu.us மூலம் சரியான சொற்களை பரிந்துரைக்கும் வழிகளை Norvig Algorithm மூலம் தமிழுக்கு செயல்படுத்திக் காட்டினார்.

நிரல் இங்கே – github.com/Ezhil-Language-Foundation/open-tamil

சந்தி விதிகள்

நித்யா துரைசாமி பைத்தான் மொழியில் ஒரு சந்திப் பிழைத்திருத்தி எழுதியுள்ளார்.

நிரல் இங்கே – github.com/nithyadurai87/tamil-sandhi-checker

இலக்கண விதிகள்

தமிழின் இலக்கண விதிகளை கற்று அவற்றை பைத்தான் நிரலாக மாற்றும் வகையில், பேரா. சத்யராஜ் (நேயக்கோ) அவர்கள் தலைமையில் ஒரு ஆண்டாக, சனி தோறும் கூடி, TolkaPy என்ற மென்பொருளை உருவாக்கி வருகிறோம்.

நிரல் இங்கே – gitlab.com/kachilug/tamilrulepy/

கூட்ட விவரங்கள் இங்கே – github.com/KaniyamFoundation/ProjectIdeas/issues/214

தேவையான பொருட்களை ஒரு வாணலியில் இட்டு, மிதமான சூட்டில் பொரித்து எடுப்பது போல, ஓரளவு மேற்கண்ட அடிப்படைகள் கிடைப்பதால், இருப்பதைக் கொண்டு, ஒரு ஆய்வு நிலை சொற்பிழைத்திருத்தி உருவாக்கி உள்ளோம்.

காண்க – iyal.kaniyam.ca/

நிரல் இங்கே – github.com/KaniyamFoundation/iyal-tamil-spellchecker

இப்போதைக்கு, இலக்கண விதிகள் இல்லாமல், சொல் வங்கி அடிப்படையில் மட்டுமே வேலை செய்கிறது. விரைவில் இன்னும் அதிக சொற்கள், இலக்கண விதிகள் எல்லாம் சேரும் போது, நமது மாபெரும் தமிழ்க் கனவுகளில் ஒன்று நனவாகி விடும்.

அடுத்த கனவு – சொற்பிரிப்பான்

சிறு வயதில் பிரித்து எழுதுக, சேர்த்து எழுதுக கற்றிருப்போம். அதன் மென்பொருள் வடிவம் பார்த்துள்ளீர்களா? அது தான் சொற்பிரிப்பான். Tokenizer, Morpholocal Analyser என்பர்.

தற்போதைய AI காலத்தில், LLM கருவிகளில் தமிழ் இன்னும் மழலை மொழியாகவே இருப்பதன் காரணம், நாம் இன்னும் சரியான சொற்பிரிப்பாள், சொற்பிரிப்பான் மென்பொருட்களைத் தரவில்லை என்பதே.

திருமாலிருஞ்சோலையிலிருந்தபடியினாலே

இதை திரு + மால் + இரும் + சோலை + இல் + இருந்த + படி + இனால் + ஏ

என்று பிரிக்கலாம் என்று எப்படி கணினிக்கு சொல்வது?

நம் மூளைக்கு எளிதுதான். ஆனால் விதிகளை எழுதச் சொன்னால் திணறி விடுவோம்.

இதற்கான முயற்சிகள் பல காலமாக நடைபெற்று வருகின்றன.

தமிழுக்கு யாவரும் பகிரும் வகையிலான Annotated Corpus தமிழ் இணையக் கல்விக் கழகம் வெளியிட்ட ஒரு தொகுப்பு மட்டுமே உள்ளது. காண்க – github.com/Tamil-Virtual-Academy/Tamil-Annotated-Corpus

சரியான சொல் வங்கி இல்லாததால், பலரும் பல முறை தொடங்கி, ஆய்வு நிலையிலேயே நிறுத்தி விடுகின்றனர்.

இலங்கை மொரட்டுவா பல்கலைக்கழகப் பேராசிரியர் சர்வேஸ் ஒரு சொற்பிரிப்பான் திற மூலமாக வெளியிட்டுள்ளார். காண்க – nlp-tools.uom.lk/thamizhi-morph/parse-sentence.php#

நிரல் இங்கே – github.com/sarves/thamizhi-morph

இது ஆய்வு நிலையிலே உள்ளது.

இது தவிர, பல பேராசிரியர்கள், பல்கலைக் கழகங்கள், ஆய்வு அமைப்புகள் இது போன்ற மென்பொருட்களை உருவாக்கி, பல்வேறு சிக்கல்களால், வெளியிடாமலே போகும் நிலையும் உள்ளது.

தமிழுக்கான மென்பொருட்களை இணையத்தில் தேடினால், ஏராளனமான ஆய்வுக் கட்டுரைகள் மட்டுமே கிடைக்கும். அவற்றில் உருவாக்கியுள்ளதாக எழுதியுள்ள மென்பொருட்களை திறமூலமாக வெளியிட்டிருந்தாலே, பல புதுமைகள் அனைவருக்கும் கிடைத்திருக்கும்.

பிரியாணி செய்வது எப்படி என்று இணையத்தில் தேடினால், நெல் பயிரிடும் வழிகளுக்கான ஆய்வுக் கட்டுரைகள் மட்டும் கிடைப்பது போல உள்ளது தற்போதைய நிலை.

நெல் அரிசியாகி, பிறவும் விளைந்து, சந்தைக்கு வந்து, நமது வீட்டுக்கு வரும் காலம் விரைவில் வரட்டும். நாமே பிரியாணி செய்யவும் வேண்டும். தேவையெனில் சுவிகியில் ஆர்டர் செய்யவும் வேண்டும்.

நாம் என்ன செய்ய வேண்டும்?

நிரலாளர் உழைப்பினை நல்கீர்
இலக்கணம் அறிந்தோர் விதிகள் தாரீர்
எழுதுவோர் சொற்கள் தாரீர்
பேசுவோர் குரல் தாரீர்
நிதி மிகுந்தவர் பொற்குவை தாரீர்
நிதி குறைந்தவர் காசுகள் தாரீர்
அதுவுமற்றவர் தரவுகள் அருளீர்
மதுரத்தேமொழி மாந்தர்க ளெல்லாம்
பகிரும் வகையில்! கட்டற்ற உரிமையில்!!
ஊர் கூடித் தேர் இழுப்போம். வாருங்கள்!

slides –

Click to access iyal-tamil-spellchecker.pdf

காணொளி –

#iyal #OpenSource #spellchecker #tamil #சறபழததரதத_

tamilpesu.us - tamilpesu المصادر والمعلومات.

tamilpesu.us هل هو أول وأفضل مصادر جميع المعلومات التي تبحث عنها. من ضوء الموضوعات العامة إلى مزيد من الموضوعات التي كنت لتتوقعها هنا، tamilpesu.us تمتلكها جميعًا. نأمل أن تجد ما تبحث عنه!

Danie van der Merwe Jul 22

Harper is a grammar checker that is on-device and open source

“When it comes to grammar checking, Grammarly is the premium tool for it. It’s a proprietary tool, and it was among the first one to make a mark as a web-based Grammar checking tool. Then there is LanguageTool that is/was open source, made in German ...continues

See https://gadgeteer.co.za/harper-is-a-grammar-checker-that-is-on-device-and-open-source/

#opensource #privacy #spellchecker #technology

Harper is a grammar checker that is on-device and open source

"When it comes to grammar checking, Grammarly is the premium tool for it. It's a proprietary tool, and it was among the first one to make a mark as a

GadgeteerZA

Danie Jul 22

Harper is a grammar checker that is on-device and open source

https://squeet.me/display/962c3e10-13fec589-ae609161c2135fb7

nextstardrop Jun 21

📝✅ One-Click Spellchecker – Instant Fix
No fuss, no menus. Just one click and your text is perfectly corrected.

⚡ Fast. Simple. Effective.
👉 Try it now:
https://nextstardrop.com/one-click-spellchecker/

#SpellChecker #WritingTools #Productivity #Nextstardrop #GrammarFix #OneClickFix

One-Click-Spellchecker - nextstardrop

You just enter your sentence, and it does check it correctly. Awesome!

nextstardrop

Shrini Jun 3

My weekly notes 22 2025

https://goinggnu.wordpress.com/2025/06/03/weekly-notes-22-2025/

#Tamil #Spellchecker #FressRSS #Reading #Prometheus #Grafana

Weekly notes 22 2025

Missed weekly notes for few weeks. Got some interesting days. I reduced the time spent on facebook, twitter, instagram and youtube.Wanted to work on some long year dreams. I am happy on the progres…

Going GNU