เมื่อ FastText ยุติการพัฒนา การเขียนโค้ดเพื่อรันโมเดล FastText เลยยากกว่าเดิม แต่ก็ยังมีวิธีดึงโมเดลไปรันกับ numpy เพื่อใช้ get_sentence_vector ได้อยู่ สมกับเป็นตำนาน FastText จริง ๆ
#fasttext
Qdrant Summer of Code 24 - Qdrant

Introducing Qdrant Summer of Code 2024 program. GSoC alternative.

Announcing Qdrant's $28M Series A Funding Round - Qdrant

Qdrant is an Open-Source Vector Database and Vector Search Engine written in Rust. It provides fast and scalable vector similarity search service with convenient API.

[Перевод] Краткий обзор техник векторизации в NLP

Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно. === Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового. Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.

https://habr.com/ru/articles/778048/

#токен #векторизация #fasttext #word2vec #glove #CBOW #skipgram #tfidf #nlp_(natural_language_processing)

Краткий обзор техник векторизации в NLP

Начало предисловия . Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную...

Хабр

@ZfdG

Even though this post is in German, the research article "Classification of Tragedies and Comedies in Calderón de la Barca’s Comedias Nuevas" has been published in English at https://zfdg.de/2022_012

We analyze 112 comedies of the Spanish Golden Age dramatist, explore 4 methods to classify them using #word #embeddings, compute #log #likelihood #probability, use #skipgram & #fasttext to characterize the corpus, and contrastive vocabulary analysis to characterize both genres

Classification of Tragedies and Comedies in Calderón de la Barca’s Comedias Nuevas | ZfdG - Zeitschrift für digitale Geisteswissenschaften

This study aims at distinguishing comedies and tragedies among 112 dramas written by Calderón de la Barca, using procedures established by distributional semantics.

The research article "#Classification of Tragedies and Comedies in Calderón de la Barca’s Comedias Nuevas", written by @sebastianpado and me, has just been published:
https://revistas.uned.es/index.php/RHD/article/view/34588/
We analyze 112 comedies of the Spanish Golden Age dramatist and explore 4 methods to classify them into tragedies and comedies using #word #embeddings. We also employ the calculation of #log #likelihood #probability, #skipgram and #fasttext to characterize the corpus as well as ...
Clasificación de tragedias y comedias en las comedias nuevas de Calderón de la Barca | Revista de Humanidades Digitales

Revista de Humanidades Digitales – RHD – UNED – CONICET - UNAM

starSpaceを試してみた - Qiita

# 概要 Facebook ResearchがfastTextよりも早く学習ができると噂のものを出していた(2017/10)ので、お試し。 [Facebook Research github](https://github.co...