LLM eval에서 반복되는 5가지 함정, 데이터 사이언티스트라면 이렇게 다릅니다
LLM 시스템 평가에서 반복되는 5가지 함정과 데이터 사이언티스트적 접근법. eval 설계, 메트릭, 실험 설계 등 데이터 사이언스 역량이 LLM 시스템의 핵심인 이유를 소개합니다.LLM eval에서 반복되는 5가지 함정, 데이터 사이언티스트라면 이렇게 다릅니다
LLM 시스템 평가에서 반복되는 5가지 함정과 데이터 사이언티스트적 접근법. eval 설계, 메트릭, 실험 설계 등 데이터 사이언스 역량이 LLM 시스템의 핵심인 이유를 소개합니다.Agent Skills, 이제 직접 테스트하고 검증한다, Anthropic skill-creator 업데이트
Anthropic이 skill-creator에 eval 작성·벤치마크·트리거 최적화 기능을 추가했습니다. 코드 없이 Agent Skills 품질을 검증하고 개선할 수 있습니다.Почему AI-агенты сбоят и как сделать, чтобы они перестали
Привет, хочу поговорить об AI-агентах. Но не об их преимуществах: все и так уже знают, как они ускоряют разработку и освобождают команду от рутины. Здесь я хочу обсудить риски и новые варианты сбоев, которые появляются вместе с внедрением агентов. В реальности даже один AI-агент способен уронить проект быстрее, чем человеческая ошибка. Галлюцинации, удаление нужных данных, иллюзия компетентности — это лишь часть проблем. Когда агентов несколько и они зависят друг от друга, риск сбоев возрастает. Попробую разобраться, от чего зависят типичные проблемы, и расскажу, как я с ними справляюсь.
How to Stop assert From Becoming eval in Production
assert with string runs eval. One debug leftover and your server is owned. PHP 7.2 changed it.

Functional Programming in Lean 한국어 번역 - 1. Lean 알아보기
How to Avoid eval When Parsing Arrays
eval turns input into execution. Use JSON instead.

AI 제품 디자인의 새로운 역할, 모델 디자이너가 말하는 균형의 기술
Figma 모델 디자이너 Barron Webster의 8년 실무 경험. AI 제품을 만들 때 UI가 아닌 모델 행동을 설계하고, Eval로 성능을 관리하며, 과용과 부족 사이의 균형을 찾는 법을 소개합니다.#eval #check #synth #guard #guard_expr #exit #print #[ #v[ #reduce #check_tactic #check_tactic_failure #check_simp #discr_tree_key #discr_tree_simp_key #widget
(All the #commands in Lean that I could find by running rg '^syntax .* "#')