[Перевод] Чему именно учится word2vec?

Чему именно учится модель word2vec? Как она это делает? Ответы на эти вопросы мы поищем, анализируя то, как модель изучает представления данных при рассмотрении минималистичной, но достаточно актуальной задачи языкового моделирования. Модель word2vec — это широко известная предшественница современных языковых моделей. Но, несмотря на это, на протяжении долгих лет в распоряжении исследователей не было количественной прогностической теории, описывающей процесс обучения модели. В нашей новой публикации мы, наконец, представили общественности такую теорию. Мы доказали то, что существуют реалистичные, применимые на практике режимы, в которых задача обучения модели сводится к невзвешенной факторизации матриц с использованием метода наименьших квадратов. Мы занимаемся аналитическим моделированием градиентного потока. Представления данных, которые в итоге изучает модель, выводятся с помощью обычного метода главных компонент.

https://habr.com/ru/companies/wunderfund/articles/1031042/

#искусственный_интеллект #word2vec

Чему именно учится word2vec?

Чему именно учится модель word2vec? Как она это делает? Ответы на эти вопросы мы поищем, анализируя то, как модель изучает представления данных при рассмотрении минималистичной, но достаточно...

Хабр

От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги

Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа. Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов , или эмбеддингах . Проблема «слепого» кодирования: почему one-hot не работает Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:

https://habr.com/ru/articles/992928/

#эмбеддинги #word2vec #nlp #машинное_обучение #векторные_представления #косинусное_сходство #обработка_естественного_языка #нейросети #нейросеть #нейросети_python

От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги

И так, разбираем нейросети по винтикам. Мы уже разобрали градиентный спуск и обратное распространение ошибки. Сегодня погружаемся в самую сердцевину языковых моделей- векторные представления слов....

Хабр
Piotr Migda tries to explain vector math magic in 'king – man + woman = queen' using #word2vec 🤓, but it's basically just a linguistic Ouija board session. 🤔 Spoiler alert: it's still math, not #sorcery. 🧙‍♂️✨
https://p.migdal.pl/blog/2017/01/king-man-woman-queen-why/ #PiotrMigda #vectorMath #linguisticOuijaBoard #mathNotMagic #HackerNews #ngated
king - man + woman is queen; but why? - Piotr Migdał

Words, vectors, analogies and conceptual metaphors - the linear space of word2vec and GloVe. Or: how to change gender with a vector.

word2vec-style vector arithmetic on docs embeddings

🌘 文件嵌入的word2vec風格向量運算
➤ 探討文件嵌入的類比推理與語義操作
https://technicalwriting.dev/embeddings/arithmetic/index.html
本實驗探討了類似word2vec的向量加減法是否適用於技術文件嵌入。作者使用現代嵌入模型生成文件級別的向量,並進行了兩類實驗:同主題不同領域(將Supabase的文件嵌入替換為Angular的術語)和不同主題同領域(將Supabase的文件嵌入中的「測試」概念替換為「向量」)。實驗結果顯示,在特定任務類型(自訂任務類型)下,向量運算能成功捕捉到預期的語義變化,尤其是在同主題不同領域的實驗中,產生的向量與目標領域的測試文件高度相似。而在不同主題同領域的實驗中,即使不更改任務類型,向量運算也能準確地識別出與「向量」相關的嵌入。這證明瞭向量運算在文件嵌入中的潛力,以及任務類型對嵌入模型輸出結果的重要性。
+ 這篇文章很有啟發性!我一直認為word2vec的向量運算只適用於單詞,沒想到應用在文件層級也能有如此有趣且有意義的結
#自然語言處理 #文件嵌入 #向量運算 #word2vec
word2vec-style vector arithmetic on docs embeddings

Upgrading from word2vec to OpenAI #code #ml #openai #ithcwy #word2vec Using the Open AI embeddings API to find better related posts for a blog.

https://fed.brid.gy/r/https://ithoughthecamewithyou.com/post/upgrading-from-word2vec-to-openai

Upgrading from word2vec to OpenAI

Using the Open AI embeddings API to find better related posts for a blog.

I Thought He Came With You

Pre #2020: #Factorizing Tools

These #AI wre #DeepLearning breakthroughs. #Word2Vec, #DeepDream and #AlphaGo solved novel, previously unsolvable, problems.

If you weren't in the field, you might not think these were AI, and #GPT 2 might have surprised you.

GPTのしくみ入門:AIはどのように言葉を「理解」し、「生み出している」のか? - Qiita

日常的に使うようになった対話型AI、ChatGPT。まるで人間と話しているかのような自然な受け答えをしてくれますが、 「中身はどうなってるの?」 「何を理解しているの?」 と不思議に思った方も多いのではないでしょうか この記事では、GPTの仕組みをわかりやすく解説し、“...

Qiita

[Перевод] Простой механизм поиска с нуля

Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.

https://habr.com/ru/companies/ruvds/articles/920174/

#ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация

Простой механизм поиска с нуля

Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо....

Хабр

9. TL;DR
Word2Vec was more than just a way to embed words.
It showed us that contrastive learning works — and it’s now everywhere in LLMs and beyond.

#LLM #AI #Embeddings #NLP #MachineLearning #Word2Vec #ContrastiveLearning