Dự án mã nguồn mở PardusClawer hỗ trợ data scientist, tích hợp Ollama & tự động tìm kiếm dữ liệu qua web. Cộng đồng Reddit giới thiệu công cụ đáng thử từ tác giả /u/jasonhon2013.

#DataScience #OpenSource #AI #Python #MLOps
#KhoaHocDuLieu #MaNguonMo #TruongHopSVM #HocMay #RedditVietNam

https://www.reddit.com/r/LocalLLaMA/comments/1qt05j3/openclaw_for_data_scientist/

Một bạn của mình đã rời bỏ công việc vì mệt mỏi với việc 'có dữ liệu' nhưng không có câu trả lời. Dù dashboard và excel rất nhiều, quyết định vẫn mù mờ do thiếu công cụ tích hợp. Thay vì thêm phần mềm BI thông thường, anh ta xây dựng hệ thống quản lý dữ liệu tập trung, giúp nhóm nhanh chóng ra quyết định. Hệ sinh thái dữ liệu hiện nay nhiều vấn đề. #DataScience #DoanhNhan #SaaS #CongNhanNang #KhoaHocDuLieu

https://www.reddit.com/r/SaaS/comments/1qs05wy/a_friend_of_mine_built_a_company_after_get

Chào mọi người! Tác giả vừa chia sẻ pipeline huấn luyện sơ khai cho mô hình ngôn ngữ nhỏ, giải quyết cực đoan giữa demo đơn giản & thư viện công nghiệp. Cấu trúc đơn giản, dễ đọc, đủ mạnh để chạy huấn luyện thực tế, phù hợp NCKT nhanh & so sánh ý tưởng công bằng. Repo được GitHub. #AI #MachineLearning #VietnamAI #DeepLearning #NLP #MachineLearningVietnam #KhoaHocDuLieu #AIVietnam

https://www.reddit.com/r/LocalLLaMA/comments/1qrlbrk/a_simple_pretraining_pipeline_for_small_language/

Mini-LLM: Mô hình ngôn ngữ transformer hiện đại với **RoPE, RMSNorm, SwiGLU, Grouped Query Attention** và **SentencePiece BPE** - hoàn toàn tự xây dựng! Đào tạo 80 triệu tham số trên 361 triệu token, đạt tốc độ 200-500 tok/sec. Lý tưởng cho sinh viên muốn học kiến trúc LLM mà không cần xử lý mã tối ưu 1 tỷ tham số. #LLM #AI #MachineLearning #MiniLLM #KhoaHocDuLieu #MachineLearningVietNam

https://www.reddit.com/r/LocalLLaMA/comments/1qq5zdr/i_built_an_80m_parameter_llm_from_scratch_using/

📢 Dược sĩ chuyển sang Health Data Science đang triển khai 2 dự án: 1️⃣ pipeline thông minh giá thuốc (FDA/NADAC) dùng SCD‑2, gặp khó khăn tự động hoá; 2️⃣ kiến trúc SaaS giám sát y tế, cảm thấy quá “software dev”. Hỏi cộng đồng US health‑tech: nên tập trung vào pipeline dữ liệu sạch, tự động hoá hay phát triển app SaaS phức tạp? Lo ngại lạc hướng khỏi mục tiêu Data Scientist. #DataScience #HealthTech #Pharmacy #SaaS #DataEngineering #khoahocdulieu #yte #dungthuoc

https://www.reddit.com/r/SaaS/

🆕 THÔNG BÁO TUYỂN SINH MỚI

Trường Đại học Sư phạm Hà Nội sẽ mở thêm 7 ngành đào tạo mới:

🏃‍♂️ Huấn luyện thể thao
🇫🇷 Ngôn ngữ Pháp
🌍 Quốc tế học
👨‍🏫 Giáo dục học
🗺️ Địa lí học
🤖 Trí tuệ nhân tạo
📊 Khoa học dữ liệu

Thí sinh có thêm nhiều lựa chọn ngành học tại một trong những trường đại học uy tín hàng đầu!

#TuyenSinh2024 #DaiHocSuPhamHaNoi #NganhHocMoi #GiaoDucVietNam #AI #TriTueNhanTao #DataScience #KhoaHocDuLieu

https://vietnamnet.vn/truong-dai-hoc-su-pham-ha-noi-se-mo-them-7-

LiquidAI đã công bố phiên bản mô hình LFM2-2.6B-Exp, một checkpoint thử nghiệm được huấn luyện trên nền tảng LFM2-2.6B chỉ với học tăng cường. Mô hình hướng đến cải thiện hiệu năng thông qua phương pháp tối ưu hóa triệt để.

#AI #MachineLearning #HocMay #KhoaHocDuLieu #TienTienGan #AIVietNam #DeepLearning #NLP #MangTuongTac #CongNgheAI

https://www.reddit.com/r/LocalLLaMA/comments/1pvfmfv/liquidailfm26bexp/

Cá các mô hình ngôn ngữ (LLM) cài đặt cục bộ trong **Ollama** có tổng dung lượng lưu trữ dưới **200GB**. Dù là nhiều mô hình nhưng kích thước vẫn khá gọn.

#AI #LocalLLM #Ollama #KhoaHocDuLieu | #TríTuNhânTạo #MôHìnhTríTu #Ollama #KhoaHocDuLieuViet

https://www.reddit.com/r/LocalLLaMA/comments/1pu7xl0/how_much_storage_does_all_local_llms_take_in/

Dự án huấn luyện AI lớn đang bắt đầu tích hợp dữ liệu suy luận kiểu Chain-of-Thought (CoT) vào tập luyện. Điều này giúp mô hình hiểu sâu hơn các bước logic, nâng cao khả năng giải quyết vấn đề. Nguồn: [Reddit]([link]) #AINN #HocMay #CoT #KhoaHocDuLieu #AIResearch #MachineLearning #NeuralNetworks #TuitionLearning

https://www.reddit.com/r/LocalLLaMA/comments/1przir5/big_training_projects_appear_to_be_including_cot/

LangChain + Polars tạo nên agent độc đáo: Trí thông minh dữ liệu (Data Engineering) kết hợp kiểm toán cực kỳ cẩn trọng. Agent xử lý dữ liệu nhanh (Polars) + logic linh hoạt (LangChain) cho kết quả an toàn, hiệu quả. #LangChain #Polars #DataEngineering #AgentAI #KhoaHocDuLieu

https://www.reddit.com/r/SideProject/comments/1pqnkss/if_a_senior_data_engineer_and_a_paranoid_auditor/