Получился такой хитмап по биграммам и триграммам из реальных текстов.
Пока примерно 5,5 миллионов уникальных коллокейшнов и около 26 миллионов символов.
Источники все со свободной лицензией для некомерческого использования (и библия там же, надо бы сделать для неё машиночитаемую разметку :D, наверное и коран тоже было бы прикольно, но там вроде нет свободного доступа). Тексты были нормализованны.

