MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?
MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?
ITmedia AI+ (@itm_aiplus)
구글이 손그림 스케치를 몇 초 만에 코드로 변환하는 베타 도구 ‘Stitch’를 공개했다. ‘바이브 디자인’ 방식으로 UI/프로토타입 제작을 빠르게 할 수 있어 AI 개발 및 디자인 워크플로우에 유용한 신기능으로 보인다.
Ivan Fioravanti ᯅ (@ivanfioravanti)
Claude Code, Codex, OpenCode, Droid 등 여러 코드 생성 모델 간에 산출물 품질 차이가 매우 크다고 지적하며, 이러한 '밤과 낮' 수준의 차이를 확인하기 위해 더욱 체계적인 벤치마크가 필요하다고 촉구하고 있습니다.
Tibo (@thsottiaux)
Codex 관련 피드백 요청 트윗: Codex에서 반복적으로 잘못되고 있는 점이나 개선·수정되었으면 하는 부분에 대해 사용자 의견을 묻고 있습니다.
Rethinking Assessment for Generative AI: Orals and discussions
This post is part of a series on rethinking assessment in light of generative AI. The posts draw on research and resources from K-12 and tertiary to suggest ways that educators can design engaging, compelling assessments which shift the narrative away from GAI and "cheating". In a previous post, I talked about the risks associated with trying to "catch" students, such as the ethical issues with detection software, the mistrust created by heavy-handed academic integrity policies, and the […]https://leonfurze.com/2023/09/27/rethinking-assessment-for-generative-ai-orals-and-discussions/
Rethinking Assessment for Generative AI: Beyond the Essay
This post is part of a series on rethinking assessment in light of generative AI. The posts draw on research and resources from K-12 and tertiary to suggest ways that educators can design engaging, compelling assessments which shift the narrative away from GAI and "cheating". Click here for the previous post on oral assessments. There are plenty of good reasons to use the essay as a formal piece of assessment. Essays offer an opportunity for students to demonstrate their knowledge in a […]https://leonfurze.com/2023/10/04/rethinking-assessment-for-generative-ai-beyond-the-essay/
Sudo su (@sudoingX)
5년 된 RTX 3060(12GB VRAM)에서 9B(약 90억) 파라미터 모델이 단일 프롬프트로 전체 우주 슈팅 게임을 작성한 사례를 보고함. 초기 실행에서 빈 화면이 나왔지만 작성자가 버그 목록을 보내자 동일 모델과 동일 GPU 환경에서 11개 파일에 걸쳐 모든 문제를 스스로 수정함. 경량 하드웨어에서의 강력한 코드 생성·수정 능력을 시연한 실험적 사례.

this is what 12 gigs of VRAM built in 2026. a 9 billion parameter model running on a 5 year old RTX 3060 wrote a full space shooter from a single prompt. blank screen on first try. i came back with a bug list and the same model on the same card fixed every issue across 11 files
RE: https://mastodon.social/@simple_sabotage/116233215808886534
Oh, that‘s exactly how AI-bros are trying to sabotage us:
„Never pass on your skill and experience to a new or less skillful worker“
Vaibhav (VB) Srivastav (@reach_vb)
짧은 선언형 트윗 'Codex for Open Source!'로, Codex와 오픈소스 연계를 알리거나 오픈소스 대상 지원을 환기하는 내용입니다. 구체 세부는 없지만 Codex의 오픈소스 관련 발표나 공개 정책 변화 가능성을 시사해 주목할 만합니다.
Bindu Reddy (@bindureddy)
우리는 코딩 작업을 GPT 5.4로 전환하기 위해 속도를 내고 있다는 발표입니다. GPT 5.4는 복잡한 코드베이스와 특히 어려운 문제에서 성능이 훨씬 우수하다고 평가되어 개발 워크로드 이전을 가속화하고 있습니다.