Получился такой хитмап по биграммам и триграммам из реальных текстов.

Пока примерно 5,5 миллионов уникальных коллокейшнов и около 26 миллионов символов.

Источники все со свободной лицензией для некомерческого использования (и библия там же, надо бы сделать для неё машиночитаемую разметку :D, наверное и коран тоже было бы прикольно, но там вроде нет свободного доступа). Тексты были нормализованны.

#chuvash #chavashlanguage #чӑваш_чӗлхи