[Перевод] Краткий обзор техник векторизации в NLP

Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно. === Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового. Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.

https://habr.com/ru/articles/778048/

#токен #векторизация #fasttext #word2vec #glove #CBOW #skipgram #tfidf #nlp_(natural_language_processing)

Краткий обзор техник векторизации в NLP

Начало предисловия . Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную...

Хабр

@ZfdG

Even though this post is in German, the research article "Classification of Tragedies and Comedies in Calderón de la Barca’s Comedias Nuevas" has been published in English at https://zfdg.de/2022_012

We analyze 112 comedies of the Spanish Golden Age dramatist, explore 4 methods to classify them using #word #embeddings, compute #log #likelihood #probability, use #skipgram & #fasttext to characterize the corpus, and contrastive vocabulary analysis to characterize both genres

Classification of Tragedies and Comedies in Calderón de la Barca’s Comedias Nuevas | ZfdG - Zeitschrift für digitale Geisteswissenschaften

This study aims at distinguishing comedies and tragedies among 112 dramas written by Calderón de la Barca, using procedures established by distributional semantics.

The research article "#Classification of Tragedies and Comedies in Calderón de la Barca’s Comedias Nuevas", written by @sebastianpado and me, has just been published:
https://revistas.uned.es/index.php/RHD/article/view/34588/
We analyze 112 comedies of the Spanish Golden Age dramatist and explore 4 methods to classify them into tragedies and comedies using #word #embeddings. We also employ the calculation of #log #likelihood #probability, #skipgram and #fasttext to characterize the corpus as well as ...
Clasificación de tragedias y comedias en las comedias nuevas de Calderón de la Barca | Revista de Humanidades Digitales

Revista de Humanidades Digitales – RHD – UNED – CONICET - UNAM