fly51fly (@fly51fly)

[논문] "TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse"라는 2026년 arXiv 논문이 공개되었습니다(저자: P Dong, K Hung, A Swerdlow, D Sadigh 등). 이 연구는 트랜스포머를 활용한 Q-함수 확장(강화학습 맥락)에서 '어텐션 붕괴'를 방지하는 방법(TQL)을 제안합니다. Stanford 소속 연구입니다.

https://x.com/fly51fly/status/2018805453007069545

#transformers #qlearning #attention #arxiv #tql

fly51fly (@fly51fly) on X

[LG] TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse P Dong, K Hung, A Swerdlow, D Sadigh... [Stanford University] (2026) https://t.co/qXLLGN6otE

X (formerly Twitter)

[AI ⊂ TM] Машина Тьюринга и искусственный интеллект

Почему машина Тьюринга ( TM ) сегодня в теме про искусственный интеллект ( AI ) ? Ведь AI сегодня это все больше про машинное обучение ( ML ), искусственные нейронные сети ( ANN ), LLM, вычисления на CUDA и т. п. Причина в том, что никакой AI, с точки зрения математики, не превосходит по возможностям TM.

https://habr.com/ru/articles/982124/

#Turing_machine #машина_тьюринга #генетическое_программирование #генетические_алгоритмы #qlearning #reinforcementlearning #reinforecement_learning #нейронная_сеть #neural_network

[AI ⊂ TM] Машина Тьюринга и искусственный интеллект

Пререквизиты Обязательно - основы теории вычислений, искусственные нейронные сети. Желательно - генетические алгоритмы, RL-агенты. Почему машина Тьюринга? Действительно, почему машина Тьюринга ( TM )...

Хабр

Reinforcement Learning: Model-free & Deep RL

Продолжаю погружаться в Reinforcement Learning. Здесь продолжение статьи Intro Reinforcement Learning . Если предыдущая часть помогла вам понять, что такое среда, агент, награды и функции ценности, то здесь мы сделаем шаг дальше: мы переходим к model-free алгоритмам и Deep Reinforcement Learning , где агент учится оптимальной стратегии, не имея прямого доступа к модели среды.

https://habr.com/ru/articles/956890/

#Modelfree_RL #dql #sarsa #qlearning #rl #reinforcementlearning #reinforecement_learning #bellman_equation

Reinforcement Learning: Model-free & Deep RL

Продолжаю погружаться в Reinforcement Learning. Здесь продолжение статьи Intro Reinforcement Learning . Если предыдущая часть помогла вам понять, что такое среда, агент, награды и функции ценности, то...

Хабр
🚀🎮 "Revolutionary" newsflash: Q-learning is still gasping for air while the rest of AI freely dances around with scalable glory. Apparently, the memo didn't reach Park at UC Berkeley, who is still lost in some time-travel paradox from 2025. 🤖📉
https://seohong.me/blog/q-learning-is-not-yet-scalable/ #Qlearning #AIresearch #UCberkeley #TechNews #TimeTravel #HackerNews #ngated
Q-learning is not yet scalable

Q-learning is not yet scalable

Обыгрываем казино, с блэкджеком и стратегиями

В данной статье рассмотрим работу с библиотекой gymnasium для изучения машинного обучения с подкреплением. Реализуем агента, который использует метод машинного обучения q-learning для максимизации выигрыша в карточной игре blackjack. Сравним средний выигрыш за 100000 игр при различных реализациях игры blackjack.

https://habr.com/ru/articles/917924/

#rl #blackjack #ml #python #qlearning

Обыгрываем казино, с блэкджеком и стратегиями

В данной статье будет рассмотрена работа с библиотекой gymnasium для изучения машинного обучения с подкреплением. Реализация агента, который использует метод машинного обучения q-learning для...

Хабр

Как я открыл WebSocket для Сомников из Чёрного Зеркала, а они начали водить хороводы

С приходом популярности генеративных нейросетей, другие виды искусственного интеллекта тоже получили своё место под солнцем. Однако, ещё до этого уже существовали проекты, где искусственный интеллект играет в различные игры, получает очки за достижение целей и обучается на основе своих результатов. При этом, у каждого игрового ИИ есть свой массив доступных ему действий, который может быть постоянным или изменяемым согласно правилам. Я решил собрать небольшой проект, описать механизм взаимодействия ИИ с игровым пространством, а уже потом наполнить игру правилами и смыслом.

https://habr.com/ru/articles/912934/

#искусственный_интеллект #java #html #javascript #webflux #spring #qlearning #gamedev #черное_зеркало

Как я открыл WebSocket для Сомников из Чёрного Зеркала, а они начали водить хороводы

Это моя небольшая история про создание примитивного пет-проекта. Откуда растут ноги: Я посмотрел 4 эпизод 7 сезона сериала «Чёрное зеркало», где описывалась компьютерная игра с искусственным...

Хабр

Нейронные оптимизаторы запросов в реляционных БД (Часть 1)

В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная. Когда SQL-запрос становится немного сложнее: SELECT * FROM table , у нас появляется огромная вариативность его исполнения внутри системы — и не всегда понятно, какой из возможных вариантов эффективнее как по памяти, так и по скорости. Чтобы сократить огромное количество вариантов до приемлемого, обычно используются так называемые эвристики — эмпирические правила, которые придуманы человеком для сокращения пространства поиска на несколько порядков. Понятное дело, эти правила могут отсечь и сам оптимальный план выполнения запроса, но позволяют получить хоть что-то приемлемое за адекватное время. В последние годы в связи с активным развитием ML начали развиваться и нейронные оптимизаторы запросов —особенность которых в том, что они самостоятельно, без участия человека, находят необходимые закономерности в выполнении сложных планов исходя из обучения на огромном количестве данных. Тенденция началась приблизительно в 2017 году и продолжается до сих пор. Давайте посмотрим, что уже появилось в этой области в хронологическом порядке и какие перспективы нас ждут.

https://habr.com/ru/companies/postgrespro/articles/841918/

#postgresql #Оптимизация #оптимизация_запросов #reinforcementlearning #машинное_обучение #нейросети #qlearning #deep_qlearning #оптимизация_плана #субд

Нейронные оптимизаторы запросов в реляционных БД (Часть 1)

Введение В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое...

Хабр
OpenAI veut déjà révolutionner l’IA : qu’est-ce que le projet Strawberry ?

Avec le projet Strawberry, OpenAI tenterait de créer une IA dotée de capacités d'apprentissage autonome et de raisonnement presque humain.

BDM