Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше

В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит сенсационной, ведь конкуренты тратят на создание своих моделей в тысячи раз большие суммы: например, для Claude Sonnet 3.7 давали оценку в несколько десятков миллионов долларов. Если бы взятая из Nature цифра была правдой, то получилось бы так, что у конкурентов нет никаких шансов перед командой DeepSeek. Но это не так.

https://habr.com/ru/articles/948882/

#DeepSeek #DeepSeek_R1 #deepseek_v3 #deepseek_v31

Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше

В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит...

Хабр

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы она обучалась в стандартных f16, её вес был бы 1400гб, а мы попробуем версию в 10 раз меньше. Запустим самый маленький 1.66-битный IQ1_S_R4 квант полноценной модели размером 130гб на игровом ПК, отдельно с 4090 и 4060ti. Загрузим туда очень-очень много контекста и проверим, такой квант всё ещё способен давать разумные ответы или нет.

https://habr.com/ru/articles/921540/

#llamacpp #ik_llama #deepseek #локальные_нейросети #deepseek_r1 #deepseek_v3

Запускаем самый маленький квант DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы...

Хабр

Запускаем самый маленький квант DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы она обучалась в стандартных f16, её вес был бы 1400гб, а мы попробуем версию в 10 раз меньше. Запустим самый маленький 1.66-битный IQ1_S_R4 квант полноценной модели размером 130гб на игровом ПК, отдельно с 4090 и 4060ti. Загрузим туда очень-очень много контекста и проверим, такой квант всё ещё способен давать разумные ответы или нет.

https://habr.com/ru/articles/921540/

#llamacpp #ik_llama #deepseek #локальные_нейросети #deepseek_r1 #deepseek_v3

Запускаем самый маленький квант DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы...

Хабр

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Локальный DeepSeek-R1-0528 на скромном железе? Реально. Со скоростью улитки? Первоначально – да. Но итог моего эксперимента: эту 'улитку' можно заставить работать вдвое быстрее.

https://habr.com/ru/articles/916966/

#deepseek #ai #llm #local_ai #epyc #deepseek_r1 #deepseek_v3 #llamacpp #huggingface #gguf

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Зачем? У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание...

Хабр

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Локальный DeepSeek-R1-0528 на скромном железе? Реально. Со скоростью улитки? Первоначально – да. Но итог моего эксперимента: эту 'улитку' можно заставить работать вдвое быстрее.

https://habr.com/ru/articles/916966/

#deepseek #ai #llm #local_ai #epyc #deepseek_r1 #deepseek_v3 #llamacpp #huggingface #gguf

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Зачем? У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание...

Хабр

DeepSeek V3-0324. Что изменилось?

Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно? Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии - она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно. Восхитительно. Хочу прочитать!

https://habr.com/ru/companies/bar/articles/894366/

#ai #ml #llm #deepseek #deepseek_v3

DeepSeek V3-0324. Что изменилось?

Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно? Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально...

Хабр

Дипсик не работает: Обходим ошибку Deepseek service is busy хитрым способом

DeepSeek всё чаще оказывается недоступен из-за перегруженности серверов. В этой статье решим проблему оригинальным способом – установим Дипсик локально, чтобы он работал вообще без подключения к Интернету.

https://habr.com/ru/articles/878498/

#deepseek_r1 #deepseek_v3 #deepseek_ai #deepseek #дипсик #нейросети #ии_помощник #ииассистент #ии_чатбот

Дипсик не работает: Обходим ошибку Deepseek service is busy хитрыми способами

DeepSeek взорвал рынок ИИ, и китайскую нейросеть уже наверное попробовал каждый. Однако из-за перегрузки чаще всего Дипсик не работает. Нейросеть не отвечает, отправляя ошибки типа: The server is...

Хабр

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других. Полистав WhitePaper HighFlyer, можно наткнуться на описание собственного непубличного тренировочного фреймворка HAI LLM , эксплуатирующего действительно новые фишки, которые позволяют значительно сэкономить на обучении модели. Именно в фреймворке и кроется, как мне кажется, одна из основных инноваций DeepSeek, о чем мне бы и хотелось поговорить далее. Приятного прочтения)

https://habr.com/ru/companies/bothub/articles/878742/

#deepseek #hai_llm #HighFlyer #llm #ии #ии_и_машинное_обучение #deepseek_v3

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Работу у AI отобрал другой AI ) Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и...

Хабр

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Рассказываю про способы, как можно установить китайскую модель локально и использовать без интернета. Причем так, чтобы работать не через консоль, а через удобный интерфейс чат-бота.

https://habr.com/ru/articles/877772/

#deepseek #deepseek_v3 #deepseek_r1 #дипсик #нейросеть #нейросети #llm #llmмодели #ии #ииассистент

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской...

Хабр

[Перевод] Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

DeepSeek-R1 — самая громкая новика в мире больших языковых моделей, сочетающий открытые веса, дистиллированные варианты и уникальную методику обучения рассуждению. Эта статья рассказывает, как создатели модели сумели добиться таких результатов, объединив широкомасштабное обучение с подкреплением, промежуточные модели и большой массив примеров с развёрнутыми цепочками мыслей, чтобы в итоге получить универсальную, эффективную и более удобочитаемую модель. Автор оригинала: Jay Alammar

https://habr.com/ru/articles/877360/

#nature #ai #artificial_intelligence #deepseek #deepseek_r1 #deepseek_v3 #ии #искусственный_интеллект #llm #большие_языковые_модели

Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

DeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение...

Хабр