Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников , и в этой статье я расскажу про разные способы векторизации текстов. Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе. О чем эта статья:

https://habr.com/ru/articles/820159/

#Onehot_encoding #Bag_of_words #TFIDF #Word2Vec #BERT #NLP #nlp_(natural_language_processing) #nlpмодели

Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала  AI для чайников , и в этой статье я расскажу про разные способы векторизации текстов. Всем привет! Вдохновившись  прикольной и...

Хабр