Собираю частотную карту по символам чувашского алфавита, буду рад любым текстам (нормализацию сам сделаю). Лучше конечно большим. Вики стянул, но там мало :(
#chuvash #chuvashlanguage #чӑваш #чӑваш_чӗлхи
#chuvash #chuvashlanguage #чӑваш #чӑваш_чӗлхи
Получился такой хитмап по биграммам и триграммам из реальных текстов.
Пока примерно 5,5 миллионов уникальных коллокейшнов и около 26 миллионов символов.
Источники все со свободной лицензией для некомерческого использования (и библия там же, надо бы сделать для неё машиночитаемую разметку :D, наверное и коран тоже было бы прикольно, но там вроде нет свободного доступа). Тексты были нормализованны.
Для чего это задумывалось. Кажется можно назвать преальфой 😂