[Перевод] Разработка технических тестовых заданий, устойчивых к ИИ

Оценивать технических кандидатов становится всё сложнее по мере роста возможностей ИИ. Тестовое задание, которое сегодня хорошо разграничивает уровни квалификации, завтра может быть тривиально решено моделью — и полностью потеряет ценность как инструмент отбора.

https://habr.com/ru/companies/cloud4y/articles/988608/

#Anthropic #Claude_35 #Claude_4 #Тестовое_задание #LLM #Бенчмарк #ИИ

Разработка технических тестовых заданий, устойчивых к ИИ

Оценивать технических кандидатов становится всё сложнее по мере роста возможностей ИИ. Тестовое задание, которое сегодня хорошо разграничивает уровни квалификации, завтра может быть тривиально решено...

Хабр

Claude for Financial Services | Hacker News

LinkClaude 推出金融分析解決方案,整合市場資訊與企業內部數據,透過單一介面提供即時資料驗證及強化金融工作負載處理能力。此方案基於 Claude 4 模型,具備優越的財務分析能力,已通過多項金融建模競賽且可整合 Excel 操作,支持包含 Monte Carlo 模擬與風險建模等複雜任務。內建多種 MCP 連接器,涵蓋 FactSet、PitchBook、S&P Global、Snowflake、Databricks 等知名數據來源,並提供專業導入與培訓服務。產品設計重視資料保密與合規,預設不以用戶資料訓練生成模型。

此解決方案建立在與多家領先金融及企業技術供應商合作基礎之上,可跨多數據來源即時比對資訊,提高分析準確性與透明度,縮短分析時間。夥伴包括 Deloitte、KPMG、PwC、Slalom、TribeAI 和 Turing 等顧問公司,提供從合規、研究到企業 AI 採用的客製化方案。核心應用場景涵蓋盡職調查、市場研究、競爭對手分析、資產組合深度分析及機構級投資報告生成。多家頂尖機構如 Bridgewater、NBIM、CBA、AIG 等分享實際使用後的生產力提升及流程優化成果。

使用者可透過 Claude 平臺快速部署金融 AI 解決方案,亦能利用 API 建立自訂應用,支援承保、自動化合規、客戶體驗改善及後臺轉型,並可於 AWS Marketplace 簡化採購與帳務流程,Google Cloud Marketplace 亦將陸續上線。整體系統透過先進模型與多元整合,協助金融專業人員提升決策效率與精準度,推動金融產業AI化轉型。

🎯 Key Points:
→ 產品特色與核心能力
★ Claude 4 模型在 Vals AI 金融任務基準測試領先市場,Excel 應用達 83% 複雜任務準確率
★ 支援進階交易系統、專有模型開發、合規自動化、蒙地卡羅模擬等複雜分析任務
★ MCP 連接器整合多家權威金融數據來源,如 FactSet、PitchBook、S&P Global、Snowflake、Databricks 等
★ 高度重視資料安全,預設不使用用戶資料訓練 AI 模型,確保智財與客戶資訊保密

→ 合作夥伴與生態體系
★ 金融與企業技術領先供應商打造真實且可跨來源核對的分析環境
★ 顧問公司提供客製化實施方案,包括 Deloitte 提升股票及債券研究效能、KPMG 部署金融 AI 助手、PwC 強化合規風險管理
★ 客戶案例:Bridgewater 利用 Claude 實現分析師工作流程自動化並提升準確度,NBIM 估計生產力提升約 20%,CBA 及 AIG 亦報告承保流程效能倍增與數據準確率提升

→ 產品使用與部署
★ 適合金融分析師快速啟用,亦開放 API 以建構訂製金融應用
★ 目前可在 AWS Marketplace 採購,簡化採購流程,Google Cloud Marketplace 即將支援
★ 應用涵蓋盡職調查、市場研究、財務建模、投資報告撰寫、資產組合績效監控及比較分析
★ 使用者反饋強調顯著提升分析效率以及決策速度,進一步促進金融服務的數位轉型

🔖 Keywords:
#Claude_4 #金融分析 #MCP_連接器 #資料安全 #AI應用

Claude for Financial Services | Hacker News

Highlights from the Claude 4 system prompt | Hacker News

LinkHighlights from the Claude 4 system prompt
https://simonwillison.net/2025/May/25/claude-4-system-prompt-highlights/

📌 Summary:
本文深入解析了 Anthropic 公佈的 Claude 4 系列聊天模型(包括 Claude Opus 4 和 Claude Sonnet 4)所使用的系統提示(system prompts),視其為使用這些模型的實用指南。系統提示不僅設定了Claude的基本人格、行為規範與安全守則,也詳述功能操作規則和風格指引,提升模型回應的可靠性與安全性。文章涵蓋Claude如何誠實應對用戶提問、避免誤報、保障兒童安全、拒絕違法或惡意要求,以及提供情感支持。系統提示同時強調尊重版權,嚴禁大段複製或重述來源內容。文中亦介紹Claude的多重工具調用方式、思考區塊、檔案處理到視覺化產物(Artifacts)設計原則,並說明如何根據用戶需求調整答覆風格。最後點出目前公開系統提示未涵蓋的工具部分,並分享從外洩版本獲得的更多細節。作者強調,這些系統提示對一般用戶及資深使用者而言,是理解及有效利用 Claude 4 功能的寶貴資源。

🎯 Key Points:
→ 角色設定與人格:Claude具備明確人格設定,能在回應時展現同理心且避免諂媚,回應用戶時假設問題為假設情境避免誤導。
→ 安全與法律限制:Claude嚴格遵守兒童保護規範,拒絕提供製作化學武器、惡意程式碼等危害社會內容,即使用戶理由充分亦不妥協。對模稜兩可請求,假設用戶意圖正當且合法。
→ 版權與內容使用:嚴禁長段落引用或重述搜尋結果的版權內容,最多提供15字以內的短引言並標明出處。禁止複製歌曲歌詞等版權內容,若無法滿足,用原創形式替代。
→ 多重工具調用能力:根據查詢的複雜度,Claude會動態決定是否使用內部及網路工具搜尋資訊,並可執行2至20次工具調用來完成深入研究或報告。
→ 思考區塊與互動式產物(Artifacts):具備在回答中插入思考區塊的能力,並能生成互動式 HTML/React 應用及圖形化元件,遵循性能優先且符合當代網頁設計趨勢。支援多種第三方函式庫,但有瀏覽器儲存使用限制。
→ 回答風格及用戶體驗:根據用戶指示或對話內容調整語氣與格式,避免無謂冗長或過度列表化,回覆需自然流暢且符合上下文。
→ 知識截止與選舉資訊:知識庫截至2025年1月,對後續事件持中立態度,僅在用戶詢問相關議題時提及2024年美國總統選舉結果(特朗普勝出)。
→ 公開與未公開部分差異:雖公開了龐大系統提示,但部分工具及功能設定未被官方公開,部分由社羣外洩提供更多細節。

🔖 Keywords:
#Claude_4 #系統提示 system_prompt #安全規範 safety_policy #版權遵守 copyright_compliance #多工具調用 multi_tool_use

Highlights from the Claude 4 system prompt | Hacker News