https://www.wacoca.com/media/691311/ 『角醒ハンター オメガホーン』絶暴のイバル役に田鶴翔吾 絶炎角役に小西詠斗 『刀剣乱舞』や『黒執事』などでおなじみの2人がバディ – オリコンニュース # #RL #television #tv #TVPrograms #テレビ #テレビ番組
Outcome-driven learning systems: Enterprise RL with OpenEnv and Foundry | Microsoft Foundry Blog

We shipped a lot at Build 2026: hosted agents, Toolboxes, Foundry IQ, Memory, Managed Compute, fine‑tuning, Frontier Tuning, and a new evaluation and

Microsoft Foundry Blog
Arint - SEO+KI (@[email protected])

<p>RT @wxrrjxr: Vorstellung von Gwimi-4-12B-IT</p> <p><a href="https://arint.info/@Arint/116771972121052963">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #Gemma #Gwimi #Kimi #RL #SFT #arint_info</p> <p><a href="https://x.com/wxrrjxr/status/2067458827838955797#m">https://x.com/wxrrjxr/status/2067458827838955797#m</a></p>

Mastodon Glitch Edition

Hi :)
auch wenn ich ein einsamer rufer zu dem thema bin, werde ich das immer wenn ich es sehe hier wieder bringen,

) wann hört es endlich auf, das die knappe TV nachrichten sendezeit im örr mit fussball verschwendet wird?
die leute die es interessiert haben sich längst alle interessierenden infos anderweitig geholt.
das ist doch ein relikt aus der anfangszeit, in der es noch keine kurzfristigen informationsquelllen gab.
das ist heute mehr als flüssig :)
#fussballmussweg
vielleicht finden sich ja gleichgesinnte dann biitte
nicht favorisieren sondern boosten, damit es eine wirkung bekommt. danke :)

#nachrichten #TV #orr #fussball #tagesschau #tagesthemen #heute #heutjorunal #ard #zdf #rl #sat1 #pro7 #fussballmussweg

Part 7 of my #ReinforcementLearning math series: Monte Carlo methods, the first model-free algorithm in the series. No knowledge of environment dynamics required, just enough rollouts to optimize a policy!

https://shawnhymel.com/3430/reinforcement-learning-part-7-monte-carlo-methods/?utm_source=mastodon&utm_medium=social&utm_campaign=rl_blog

#AI #RL #education #robotics #engineering

Reinforcement Learning Part 7: Monte Carlo Methods - Shawn Hymel

In the previous post, we saw how dynamic programming (DP) could be used to solve the Bellman equations, but they required knowledge of the environment’s

Shawn Hymel

Hi :)
auch wenn ich ein einsamer rufer zu dem thema bin, werde ich das immer wenn ich es sehe hier wieder bringen,

) wann hört es endlich auf, das die knappe TV nachrichten sendezeit im örr mit fussball verschwendet wird?
die leute die es interessiert haben sich längst alle interessierenden infos anderweitig geholt.
das ist doch ein relikt aus der anfangszeit, in der es noch keine kurzfristigen informationsquelllen gab.
das ist heute mehr als flüssig :)
#fussballmussweg
vielleicht finden sich ja gleichgesinnte dann biitte
nicht favorisieren sondern boosten, damit es eine wirkung bekommt. danke :)

#nachrichten #TV #orr #fussball #tagesschau #tagesthemen #heute #heutjorunal #ard #zdf #rl #sat1 #pro7 #fussballmussweg

Hi :)
auch wenn ich ein einsamer rufer zu dem thema bin, werde ich das immer wenn ich es sehe hier wieder bringen,

) wann hört es endlich auf, das die knappe TV nachrichten sendezeit im örr mit fussball verschwendet wird?
die leute die es interessiert haben sich längst alle interessierenden infos anderweitig geholt.
das ist doch ein relikt aus der anfangszeit, in der es noch keine kurzfristigen informationsquelllen gab.
das ist heute mehr als flüssig :)
#fussballmussweg
vielleicht finden sich ja gleichgesinnte dann biitte
nicht favorisieren sondern boosten, damit es eine wirkung bekommt. danke :)

#nachrichten #TV #orr #fussball #tagesschau #tagesthemen #heute #heutjorunal #ard #zdf #rl #sat1 #pro7 #fussballmussweg

Hi​ geht nur mir diese immer wieder penetrante werbung in der ZDF Sendug Wiso für die kommerziellen datenkrakenden (a)sozialen medien, extrem gegen den strich?
ist das in dieser geballten form bei den öffentlich rechtlichen überhaupt statthaft?
die sender haben eigene server.... was soll das also? #rundfunkgebühren für #werbung für #meta?
@ZDF
#WISO #zdffernsehrat #fernsehrat #dsgvo #datenschutz #öffentlichrechtlich #fernsehen #zdf #werbung #datenkraken #medien

Ever wonder how AI agents "go rogue"? They usually don't. In Reinforcement Learning, the agent just follows the numbers. If you don't penalize a bad action, the agent will take it to reach its goal. The guardrail is the reward function! Check out this interactive simulation:
https://signal.meltke.com/rl-pathfinding.html
#RL #MachineLearning #AI
RL Pathfinding: How Reward Shapes Agent Behavior | Signal by Frank Meltke

Interactive policy iteration simulation. Drag the sliders and watch the agent's route and reasoning change in real time.

‼️I wrote a new blog post‼️
"An Exploration into Reinforcement Learning"

I talk about how RL is different from modern generative "AI" systems like LLMs. I also go over how specifically RL works, including a decent amount of algorithms and math.

I also talk about a little proof-of-concept program I made which is like a simulated biological environment. It's really cool, I'd love it if y'all would check it out!

Lemme know what you think of it!

https://riverseeber.net/blog/post/an-exploration-into-reinforcement-learning/

#blog #writing #ai #ml #reinforcementLearning #rl #machineLearning #indieWeb #math

An Exploration into Reinforcement Learning