Картель влиятельных датасетов в обучении ИИ

В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

https://habr.com/ru/companies/ruvds/articles/885924/

#ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

Картель влиятельных датасетов в обучении ИИ

В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится...

Хабр

Может ли простейшая нейросеть найти математическую закономерность в данных?

В этой небольшой статье мы научим нейросеть решать задачу умножения перестановок длины 5 (группа ) и визуализируем результаты обучения с помощью методов проекции t-SNE (с понижением размерности PCA) и алгоритма UMAP. Мы убедимся в том, что даже элементарная модель может "неосознанно" провести бинарную классификацию перестановок.

https://habr.com/ru/articles/851214/

#перестановки #переобучение #нейросеть #tsne #визуализация

Может ли простейшая нейросеть найти математическую закономерность в данных?

В этой небольшой статье мы научим нейросеть решать задачу умножения перестановок длины 5 (группа ) и визуализируем результаты обучения с помощью методов проекции t-SNE (и понизим размерность PCA) и...

Хабр

«Уволить нельзя оставить»: как найти баланс между эффективностью и эмпатией

На шкале стресса Рея и Холмса увольнение занимает восьмое место среди 43 наиболее стрессовых событий жизненного пути. Это тревожное событие как для сотрудника, так и для руководителя: мир IT тесен, и нужно понимать, что в какой-то момент вы можете встретиться снова, чтобы вместе работать. Так как поступить правильно и где всё-таки поставить запятую в «Уволить нельзя оставить»?

https://habr.com/ru/companies/oleg-bunin/articles/845320/

#управление_проектами #увольнение_сотрудников #онбординг #hard_skills #токсичное_общение #саботаж #второй_шанс #саморефлексия #коммуникации_в_команде #переобучение

«Уволить нельзя оставить»: как найти баланс между эффективностью и эмпатией

На шкале стресса Рея и Холмса увольнение занимает восьмое место среди 43 наиболее стрессовых событий жизненного пути. Это тревожное событие как для сотрудника, так и для руководителя: мир IT тесен, и...

Хабр

Слияние словарей в PyTorch: зачем нужно и подводные камни

Сейчас нейросети стали настолько большими, что обучение большой сети на 1 видеокарте технически невозможно или займёт десятки и сотни лет. Кроме того, на большой обучающей выборке всплывают проблемы забывания сетью того, чему её учили вначале. Одним из способов решения этих проблем является разбивка датасета на куски, и обучение одной и той же нейросети параллельно на разных устройствах. Потом, очевидно, нужно каким-то образом слить обученные нейросети в одну. Обсудим в этой статье детальнее, зачем это вообще может быть нужно, и как это сделать более-менее правильно. Сливаем клонов!

https://habr.com/ru/companies/ruvds/articles/825950/

#ruvds_статьи #PyTorch #переобучение #машинное_обучение #словари #floating_point

Слияние словарей в PyTorch: зачем нужно и подводные камни

Сейчас нейросети стали настолько большими, что обучение большой сети на 1 видеокарте технически невозможно или займёт десятки и сотни лет. Кроме того, на большой обучающей выборке всплывают проблемы...

Хабр