I'm going to have to work on the quality of my corpus network graphs. #ComputationalSocialScience #SociologyOfReligion #Python #BagOfWords #Gensim #NetworkX

Telegram-бот для анализа текста | выделение тематических групп

Буквально месяц назад, мы с моим коллегой участвовали в HAKATON. Наша команда взялась за интересную задачу от компании МТС: на основе тысяч опросов, найти усредненный синоним к определенной категории ответов и визуализировать это в виде графика, либо облака слов. После выполнения задачи и защиты проекта мы задумались...

https://habr.com/ru/articles/855786/

#aiogram #telegrambot #lda #lemmings #gensim #python #postgresql #nltk #gpt #mystem

Telegram-бот для анализа текста | выделение тематических групп

Предыстория Буквально месяц назад, мы с моим коллегой участвовали в HAKATON. Наша команда взялась за интересную задачу от компании МТС: на основе тысяч опросов, найти усредненный синоним к...

Хабр

Краткий обзор токенизаторов: что это такое и зачем это надо?

Представьте себе, что вы читаете книгу и хотите найти все места, где упоминается слово "кот". Не знаю, зачем вам это, но пока остановимся на том, что вы это хотите. Вот очень надо. Так как это сделать? Вы можете просто пролистать книгу и прочитать ее с начала до конца, буквально вручную находя всех котиков, но… Это может занять много времени и усилий. Гораздо проще будет воспользоваться индексом в конце книги, где перечислены все места, где упоминается слово "кот". Проблема в том, что в обычной печатной книге такого нет, а вот если вы читаете электронку — да, вполне. Можно воспользоваться поиском по слову. Но это вы так можете, а вот компьютеры — нет. Компьютеры не могут просто прочитать текст и понять, что он означает. Они нуждаются в помощи токенизаторов, которые преобразуют текст в набор токенов, или отдельных единиц информации, которые можно анализировать и обрабатывать. Токенизация — это первый шаг в обработке текстовых данных. Без токенизации компьютеры не смогли бы понимать текст и находить в нем полезную информацию. Токенизаторы помогают преобразовать текст в данные, которые можно анализировать и использовать для решения различных задач, таких как классификация текстов, распознавание речи, машинный перевод и многие другие. Токенизаторы, подобно электронным поисковым системам для текста, помогают компьютерам эффективно найти и организовать нужную информацию, так же как электронные индексы в электронных книгах облегчают поиск конкретных фраз. Без них компьютерам было бы гораздо сложнее “понимать” и анализировать текстовые данные.

https://habr.com/ru/articles/800595/

#python #nltk_python #spacy #библиотеки_python #gensim #токенизация

Краткий обзор токенизаторов: что это такое и зачем это надо?

Представьте себе, что вы читаете книгу и хотите найти все места, где упоминается слово "кот". Не знаю, зачем вам это, но пока остановимся на том, что вы это хотите. Вот очень надо. Так как это...

Хабр
TIL that #gensim removed the #mallet wrapper. 😯 See me standing and watching the shattered ruins of my established #TopicModeling workflow. 😫

#gensim #genism

Qiitadon のおかげで gensim を間違って覚えることができました!