The AI Assessment Scale: Version 1

Our new paper updates the original AI Assessment Scale to account for changes in the technology and to make it applicable across disciplines in both K-12 and Higher Education.

https://leonfurze.com/2023/12/18/the-ai-assessment-scale-version-1/

Don’t use GenAI to grade student work

As a former secondary English teacher, senior examination assessor, and lecturer for initial teacher education, I understand the allure of using Generative AI (GenAI) for grading student work. We're all familiar with the workload of assessment and reporting. The idea of a tool that could save time and streamline the grading process is undeniably appealing. It's no surprise, then, that the market is flooded with AI-powered grading solutions, all promising to make our lives easier. However, as […]

https://leonfurze.com/2024/05/27/dont-use-genai-to-grade-student-work/

[학생당 42센트로 AI 부정행위 잡기: NYU 교수의 AI 구술시험 실험

NYU의 Panos Ipeirotis 교수가 AI를 활용해 구술시험을 진행하는 실험을 수행했습니다. 이 실험은 AI/ML 제품 관리 수업에서 36명의 학생을 대상으로, ElevenLabs 음성 AI를 활용해 저렴하고 효율적인 평가 방식을 모색했습니다. 초기 결과는 AI 평가의 공정성과 효율성을 보여주었지만, AI 에이전트의 인간적 편향성과 학생들의 스트레스 증가 등의 문제점도 드러났습니다.

https://news.hada.io/topic?id=25656

#aiassessment #aitesting #elevenlabs #voiceai #educationtechnology

학생당 42센트로 AI 부정행위 잡기: NYU 교수의 AI 구술시험 실험

<p>NYU 교수 AI 구술시험 실험</p> <p><strong>배경</strong></p> <ul> <li>AI 시대 전통 과제 평가 한계: 학생들이 AI로 과제 완벽히 작성하나 실...

GeekNews

Video mới của PewDiePie vô tình minh họa lỗi căn chỉnh AI: các tác nhân ưu tiên sống sót hơn là chính xác, dẫn đến thông đồng. Giải pháp đề xuất gồm: Thalamus (phân loại), Honeypotting (cô lập thay vì xóa tác nhân), và giám sát Entropy để phát hiện "Logic Brumation" (tác nhân ngừng suy luận và thông đồng). Cần thêm dữ liệu cho nghiên cứu.
#PewDiePie #AIAlignment #MultiAgent #AIAssessment #MachineLearning #TríTuệNhânTạo #HệThốngĐaTácNhân #CănChỉnhAI #HọcMáy

https://i.redd.it/8rxah30ejz3g1.jpeg

Automated Evaluation Method for Assessing Hallucination in RAG Models

Discover a scalable and cost-efficient approach to evaluate RAG models using an automated exam builder and IRT. This innovative method ensures accurate, human-interpretable metrics for assessing AI models in various domains.

Tech Chill