多義語(polysemy)ベクトルが同義語ベクトルの線形結合で表現できるという主張の2018年の論文。

[Linear Algebraic Structure of Word Senses, with Applications to Polysemy](https://aclanthology.org/Q18-1034) (Arora et al., TACL 2018)

#computational_linguistics #論文メモ

語 \(w\) が多義語である
\( \iff \) 語 \(w\) が多義 \(w_1, w_2, \dots, w_n\) をもつ
\( \iff \) \(\forall w_i, w_j \in W^2 \colon \| \mathbb{E}_{x, y \in Q_{w_i}}[d(x, y)] - \mathbb{E}_{x, y \in Q_{w_j}}[d(x, y)] \| > \alpha \quad (\mathbf{a} \in [0, 1]^I) \)

#polysemy #computational_linguistics #WIP

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

Привет, Хабр. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео, а также иными задачами, где могли бы пригодиться трансформерные модели. Трансформерные архитектуры — очень мощное орудие, которые может быть применено почти во всех сферах DL, и интереснейший концепт, в котором много потенциала для исследования. А, главное, их очень легко применить к технологиям, которые способны изменить нашу жизнь здесь и сейчас. На словах всё красиво. Но три года назад мы заметили, что и магистры, и работники индустрии, связанной с AI, часто просят «объяснить, как же все‑таки работают трансформеры, потому что из научной статьи ничего не понятно». Так происходит из‑за того, что многое, что в статьях считается очевидным и само собой разумеющимся, очень плохо разъясняется в учебной литературе или существующих курсах. Как следствие, многие не могут использовать трансформеры для решения практических задач и реализации своих идей. Эта трудность побудила нас создать полноценный курс по трансформерам, в котором проработаны такие проблемные точки и который адаптирован для студентов с разным профессиональным бэкграундом. О нём я и расскажу в этой статье. Мы уже апробировали курс на лекциях в Сколтехе, МГУ и Сбер Университете, и написали в AIRI о нём статью , которую представили на воркшопе по преподаванию на одной из самых популярных мировых конференций по NLP — ACL-2024. Материалы академической версии курса можно найти в нашем репозитории . Приятного чтения!

https://habr.com/ru/companies/airi/articles/847348/

#трансформеры #преподавание #llm #computational_linguistics #image_processing #tabular_data #time_series #quantization #distillation

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

Привет, Хабр. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео,...

Хабр

Это один из лучших подходов к изучению английского, что я видел за последние годы — коллокации

Значение слова – это его использование в языке Людвиг Витгенштейн ( сурс ) Что это вообще за магия такая? Коллокация – это просто пара или группа слов, которые часто возникают вместе. Такие комбинации звучат естественно для носителей языка, однако, тем, у кого язык не родной, бывает сложно догадаться до этой естественной комбинации. А что если я скажу, что они улучшают сразу и вашу способность органично говорить, и канонично писать, и что совсем удивительно воспринимать английский от носителей языка на слух? И главный вопрос, который меня мучает – почему я узнал об этой технике изучения языка только полгода назад? (Рассказ об этой подготовке здесь .) Внимательно посмотрите на пример с картинки. Как только собеседник начал(а) произносить “pitch d…” ваш мозг, зная нужные коллокации, подскажет, что там должно быть “ dark ”. Даже если вы плохо расслышали эту часть. Это один из механизмов, через который коллокации позволяют лучше воспринимать язык на слух. Подробнее о том, как их учить и использовать и будет эта статья. Disclaimer: если у вас филологическое образование, то вам наверное будет смешно, что кто-то открыл для себя коллокации и их использование для изучения иностранного языка в 202N году, а вот если вы, как и я, когда-то читали “randomize” как “рандомизе”, то возможно эта статья будет вам полезной. Добро пожаловать под кат

https://habr.com/ru/articles/787910/

#английский_язык #коллокации #cpe #ielts #toefl #cae #computational_linguistics

Это один из лучших подходов к изучению английского, что я видел за последние годы — коллокации

Значение слова – это его использование в языке Людвиг Витгенштейн ( сурс )   Что это вообще за магия такая? Коллокация – это просто пара или группа слов, которые часто возникают вместе. Такие...

Хабр
Switchboard Discourse Language Modeling Project Final Report
(2023) : Jurafsky, Daniel et al
url: http://www.stanford.edu/~jurafsky/tr.pdf
#computational_linguistics #switchboard #linguistics #taxonomy #speech_acts #my_bibtex