#fasttext
[Перевод] Краткий обзор техник векторизации в NLP
Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно. === Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового. Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.
https://habr.com/ru/articles/778048/
#токен #векторизация #fasttext #word2vec #glove #CBOW #skipgram #tfidf #nlp_(natural_language_processing)
Even though this post is in German, the research article "Classification of Tragedies and Comedies in Calderón de la Barca’s Comedias Nuevas" has been published in English at https://zfdg.de/2022_012
We analyze 112 comedies of the Spanish Golden Age dramatist, explore 4 methods to classify them using #word #embeddings, compute #log #likelihood #probability, use #skipgram & #fasttext to characterize the corpus, and contrastive vocabulary analysis to characterize both genres
This study aims at distinguishing comedies and tragedies among 112 dramas written by Calderón de la Barca, using procedures established by distributional semantics.