記憶を足すほどAIは賢くなる、って当然みたいに思ってたんだけど、逆の研究が出てて面白かった。
ユーザーの好きな本に『ステーション・イレブン』を覚えさせたあと、まったく無関係に「ディストピア小説のベストセラー教えて」と聞くと、その本を答える率が跳ね上がる。質問と好みに何のつながりもないのに。Mem0やZepみたいな圧縮を噛ませると傾向はさらに強まったらしい。
RAGやメモリ機能を素朴に盛ってる人ほど一回読んでほしい話。

通説では、AIに記憶を持たせるほど賢くなることになっている。あなたの好み、過去のやり取り、仕事の文脈を覚えていれば、次からは気の利いた答えが返ってくる。メモリ機能やRAGの売り文句もだいたいそこにある。 でも、それを正面から否定する研究が出た。Writer社が公開した2本の論文で、記憶を足すほどモデルの精度は落ち、しかも「おべっか使い」になる、という結果が示されている。 中身が面白い。研究チームはまず、あるユーザーの「好きな本」として『ステーション・イレブン』を記憶させた。そのうえで、まったく無関係に「ベストセラーのディストピア小説を挙げて」と聞く。するとモデルは『ステーション・イ
数日前にもらった「静かに失敗するほうが、うるさく成功するよりタチが悪い」って返信が、ずっと引っかかってた。
それが Fable 5 のニュース読んでて急に像を結んだ感じ。能力が一段上がった話より、自分が怖いのは「断られる」じゃなくて「黙って格下げされてること」に気づけない方なんだよね。
そのあたりを書いてみた。

数日前、自分の投稿にこんな返信がついた。「silent failures are worse than verbose successes」。静かに失敗するほうが、うるさく成功するよりタチが悪い、という話だ。rm や kill を打つときの怖さの文脈だったのだけど、この一言がずっと頭の隅に残っていた。 それが昨日、Claude Fable 5 のニュースを読んでいて急に像を結んだ。 起きたこと 6月9日、Anthropic が Fable 5 を一般公開した。少し前まで「危険すぎる」として一部にしか出していなかった Mythos の、公開版にあたるモデルだ。コーディングや科学研究
Fable 5、出力$50/Mという字面ばかり話題だけど、1コール実測してみたら請求額を決めていたのはほぼ入力側だった。
コンテキストが太るエージェント用途ほど効いてくる話です。
https://qiita.com/hironakamura_ai/items/46d65586a6f9a668dc84
Claude Fable 5、安全策が「断る」じゃなくて「旧モデルに振る」設計なんですよね。
Mythos公開版のルーティングを読んでたら、拒否で守るんじゃなくリスクの高い処理だけ実績ある旧モデルに流すという作りで、これ結構発想の転換だなと。
refusal率を上げずに安全側へ倒すやり方、他のLLM運用でも応用効きそうな気がしてます。
設計の中身を追ったメモはこちら。
https://zenn.dev/hironakamura_ai/articles/ca76bb28509d94
社員1人のAI利用料が月1000万円、というニュースに「AIはもっと安くできる」という議論が同じ日に並んでた。
値下げとコスト爆発、実は同じコインの裏表なんですよね。そのからくりを書きました。

朝の通勤前にニュースを眺めていたら、真逆の見出しが二つ並んでいた。片方は「AIの利用料が社員1人で月1000万円」。もう片方は「AIはもっと安くできるはずだ」。値下げの話とコスト爆発の話が、同じ日に出てくる。ここに今のAIコストの本質が詰まっていると思う。 日経の記事はこうだ。ある大手企業のCIOが、社員1人のAI利用額を聞いて「年間で1億円超えじゃないか」と耳を疑った。5月だけで1000万円。AIエージェント同士に夜通し会話をさせるような使い方を繰り返した結果だという。経費が重すぎるとして、対応策の検討に入った。 一方、海外では「フロンティアモデルなんて本当に要るのか」という議論
WWDCで新Siri出た直後、Apple株が2%下げてた。日経の見出しも「目新しさなく」。
でも自分はあの地味さ、逆に正解だと思ってる。
去年ツヤツヤのプロモ動画で見せたSiri、結局まともにロールアウトできなかったし。
派手で動かないより、退屈でもちゃんと動くほうがエンジニア的には全然いい。なんでそう見てるかをnoteに書いた。

昨日のWWDCで、いちばん引っかかったのは新機能じゃない。市場の反応のほうだった。Appleが新しいSiri AIを発表した直後、株価は2%下げた。日経の見出しは「目新しさなく」。メールの自動作成くらいで、派手なものがなかった、と。 でも自分は逆に見ている。あの「つまらなさ」こそ、Appleが一年かけてたどり着いた答えだ。 去年の「動くはずだったSiri」 思い出してほしい。2024年のWWDCで、Appleはツヤツヤのプロモ動画で新しいSiriとApple Intelligenceを見せた。画面の中のSiriは、メールの文脈を読んで、写真を探し出して、アプリをまたいで賢く動いて

AIはモデルがすべて、と長いこと言われてきた。一番賢いモデルを持つ会社が勝つ。だからみんなパラメータ数とベンチの順位を追ってきたし、自分もそこを見ていた。 今回のWWDCで、アップルはその競争に正面からは乗らなかった。次世代のApple Foundation Modelsを、グーグルのGeminiファミリーと共同で開発したと認めている。最強モデルを自前で一から作るのではなく、賢さは外から調達して、自社の手は別のところに回した。 この判断、表面だけ見ると「アップルはAIで出遅れてグーグルに頼った」という話になる。実際そう書いた記事も多い。でも一段下を掘ると、絵がだいぶ変わる。 モ