相比傳統(tǒng)大型語言模型(LLM),Claude 3.7 的獨(dú)特之處在于整合了快速本能反應(yīng)與深思熟慮的推理能力,類似于邁克爾·卡尼曼《思考快與慢》中描述的系統(tǒng) 1 和系統(tǒng) 2 思維。傳統(tǒng) LLM 擅長(zhǎng)即時(shí)生成連貫文本,但在需要逐步推理的任務(wù)(如算術(shù)或復(fù)雜規(guī)劃)上表現(xiàn)有限。Anthropic 通過強(qiáng)化學(xué)習(xí)優(yōu)化 Claude 3.7,利用額外人類數(shù)據(jù)訓(xùn)練模型生成準(zhǔn)確答案。研究產(chǎn)品負(fù)責(zé)人 Dianne Penn 指出,模型特別針對(duì)業(yè)務(wù)場(chǎng)景進(jìn)行了增強(qiáng),涵蓋代碼編寫與修復(fù)、計(jì)算機(jī)操作及復(fù)雜法律問題處理。她強(qiáng)調(diào):“我們?cè)诩夹g(shù)領(lǐng)域和長(zhǎng)時(shí)推理任務(wù)上實(shí)現(xiàn)了改進(jìn),以滿足客戶將模型應(yīng)用于實(shí)戰(zhàn)的需求。”
Claude 3.7 在編碼能力上表現(xiàn)突出,特別是在需要逐步推理的任務(wù)中,超越 OpenAI 的 o1 模型,在 SWE-bench 等基準(zhǔn)測(cè)試中取得領(lǐng)先成績(jī)。為進(jìn)一步支持開發(fā)者,Anthropic 同步發(fā)布 Claude Code 工具,專為 AI 輔助編碼設(shè)計(jì)。Penn 表示:“模型已具備出色編碼能力,而在處理大型代碼庫等復(fù)雜規(guī)劃場(chǎng)景時(shí),額外推理功能尤為關(guān)鍵。”相比 OpenAI 的 o3 和谷歌的 Gemini Flash Thinking,用戶無需切換模型即可享受靈活推理體驗(yàn)。