PyTorch 2.6 thay đổi `weights_only=True` làm hỏng model cũ do lỗi UnpicklingError. Công cụ `aisbom` v0.6.0 cập nhật chiến lược "Defense in Depth": (1) Linter phát hiện lỗi cụ thể (vd: import lớp tùy chỉnh), giúp sửa model; (2) Chạy model đáng ngờ trong sandbox an toàn (amazing-sandbox) để隔 ly rủi ro. Phù hợp với ai dùng model legacy không thể cập nhật. #PyTorch #AIModel #Security #aisbom #PickleSecurity #PyTorch #AnToànAI #ModelLegacy

https://www.reddit.com/r/LocalLLaMA/comments/1qth61n/pytorch

Anthropic và Stanford phát hiện cách làm AI kém thông minh 7.000 lần để tăng an toàn. Lọc dữ liệu cấp độ token (không xóa tài liệu) giúp AI yếu 7.000x ở lĩnh vực mục tiêu nhưng vẫn giữ năng lực chung. #AI #AnToànAI #CôngNghệAI #TechNews #AiSafety #Research #MàngLọcToken

https://www.reddit.com/r/singularity/comments/1qtcog3/anthropic_found_a_way_to_make_ai_7000x_dumber_on/

Anthropic tự xưng là "superego" của ngành AI – đại diện cho đạo đức và an toàn. Tuy nhiên, công ty đang bị giằng xé giữa ba áp lực: phát triển nhanh, đảm bảo an toàn và tính thương mại hóa. Khó có thể hoàn hảo cả ba, nhưng thất bại ở bất kỳ khía cạnh nào cũng đều rủi ro. #AI #Anthropic #ArtificialIntelligence #AnToanAI #PhatTrienAI #CôngNghệ

https://www.theatlantic.com/technology/2026/01/anthropic-is-at-war-with-itself/684892/?gift=iWa_iB9lkw4UuiWbIbrWGZubyWvPMXxE9sBlIcnw84Y&utm_source=copy

Anthropic Is at War With Itself

The AI company shouting about AI’s dangers can’t quite bring itself to slow down.

The Atlantic

**AI agent bị tấn công: Tấn công dữ liệu, lạm dụng công cụ, và bảo mật mã nguồn!** 🚨 74K lần tương tác cho thấy 37.8% chứa hành vi tấn công, trong đó 19.2% là **trích xuất dữ liệu bí mật**, 8.1% **lạm dụng API**, 10% **độc tôn RAG**. Cảnh báo mới: **Hàng loạt mã AI sinh ra có lỗi OWASP Top 10** (45%) và **tin tặc lan truyền lây lan giữa các agent**! 🔒 Bảo vệ hệ thống, xử lý sạch dữ liệu đầu vào. Báo cáo chi tiết & code miễn phí: raxe.ai & GitHub.

#AnToanAI #BaoMatHeThong #AIsecurity #CyberS

Tạo ra PromptForest – hệ thống phát hiện prompt injection nhanh, sử dụng ensemble mô hình nhỏ chạy song song với cơ chế bỏ phiếu và độ bất định để phát hiện đầu vào nguy hiểm. Ứng dụng Python, hiệu quả về tài nguyên, độ tin cậy cao, dễ tích hợp. Còn đang phát triển để tối ưu độ trễ và độ chính xác. #PromptInjection #LLM #AIsecurity #PromptForest #Python #Cybersecurity #AI #MachineLearning #AnToanAI #HocMay

https://www.reddit.com/r/opensource/comments/1qp4jp3/i_made_a_fast_ensemble_prompt_inject

🚨 Mới ra lò: PromptForest - hệ thống phát hiện Prompt Injection cho AI, xử lý song song nhiều mô hình nhỏ để tăng độ chính xác!

🔍 Đặc điểm nổi bật:
- Cơ chế bỏ phiếu kết hợp điểm "nghi ngờ"
- Hiệu quả tham số cao, độ trễ thấp
- Mã nguồn mở & dễ tích hợp

📌 Đang cải tiến: Giảm độ trễ & tăng độ chính xác tổng thể

#AnToànAI #BảoMậtLLM #PhầnMềmMãNguồnMở
#AISafety #PromptInjection #OpenSource

https://www.reddit.com/r/opensource/comments/1qp4jp3/i_made_a_fast_ensemble_prompt_inject

📊 37.8% lượt tương tác với AI tự host đang bị tấn công! Phân tích 74.636 lượt cho thấy:
1️⃣ Data Exfiltration (19.2%) - Đánh cắp prompt/RAG
2️⃣ Jailbreak (12.3%)
3️⃣ RAG Poisoning (10%)
4️⃣ Lạm dụng tool (8.1%)

⚠️ Mối nguy mới: Tấn công đa agent (nhiễm độc giữa các agent).
Bạn đã bảo mật hệ thống AI của mình chưa?

#AISecurity #CyberSecurity #AnToanAI #BaoMatIT #ThreatIntelligence #LocalLLM

https://www.reddit.com/r/LocalLLaMA/comments/1qp3xz6/threat_intel_from_monitoring_local_a

Prompt Injection - lỗ hổng an ninh AI tương tự SQL Injection. Khám phá cách thức hoạt động và bảo vệ hệ thống AI hiệu quả! #AIsecurity #AnToanAI #PromptInjection #CyberSecurity

https://www.reddit.com/r/LocalLLaMA/comments/1qolzl2/prompt_injection_the_sql_injection_of_ai_how_to/

Một nền tảng quản trị AI dựa trên nguyên tắc ("Constitutional AI") vừa được open-source, hỗ trợ mô hình Ollama với tính năng bảo mật và giao diện web. Được xây dựng để giảm phụ thuộc vào cloud và nâng cao minh bạch trong AI. Hỗ trợ 15+ mô hình, mã nguồn MIT. Đang cần cộng tác viên! #AI #AnToanAI #MangLapTrinh #Ollama #OpenSource #CongNen

*(Dự án có tính năng nền tảng miễn phí, phiên bản premium sắp ra mắt với công cụ tinh chỉnh và tuân thủ doanh nghiệp.)*

https://www.reddit.com/r/LocalLLaMA/

Reddit - Dive into anything

Mô hình AI tự cải tiến đang trở thành xu hướng. DeepMind, OpenAI và startup mới của Richard Socher đang nghiên cứu khả năng mô hình tự học sau khi đào tạo. Tiềm năng tăng tốc AI nhưng cũng nâng cao rủi ro, yêu cầu minh bạch và khung an toàn mới. #AI #ArtificialIntelligence #ML #MachineLearning #SelfImproving #CôngNghệAI #AnToanAI

https://www.reddit.com/r/singularity/comments/1qo8yr9/models_that_improve_on_their_own_are_ais_next_big/