掃碼下載
BTC $76,446.03 -1.72%
ETH $2,277.27 -1.80%
BNB $622.11 -0.78%
XRP $1.39 -1.92%
SOL $83.64 -1.72%
TRX $0.3235 -0.47%
DOGE $0.0990 +1.11%
ADA $0.2461 -0.46%
BCH $447.53 -0.04%
LINK $9.22 -1.00%
HYPE $39.90 -5.49%
AAVE $96.88 +1.20%
SUI $0.9237 -0.45%
XLM $0.1628 -2.93%
ZEC $334.44 -6.19%
BTC $76,446.03 -1.72%
ETH $2,277.27 -1.80%
BNB $622.11 -0.78%
XRP $1.39 -1.92%
SOL $83.64 -1.72%
TRX $0.3235 -0.47%
DOGE $0.0990 +1.11%
ADA $0.2461 -0.46%
BCH $447.53 -0.04%
LINK $9.22 -1.00%
HYPE $39.90 -5.49%
AAVE $96.88 +1.20%
SUI $0.9237 -0.45%
XLM $0.1628 -2.93%
ZEC $334.44 -6.19%

DeepSeek 推出 NSA,用於超快速的長上下文訓練和推理

2025-02-18 16:37:45
收藏

ChainCatcher 消息,据金十報導,DeepSeek 推出 NSA。

DeepSeek 稱,NSA 是一種與硬體一致且本機可訓練的稀疏注意力機制,用於超快速的長上下文訓練和推理。通過針對現代硬體的優化設計,NSA 加快了推理速度,同時降低了預訓練成本,而不會影響性能。

在一般基準測試、長上下文任務和基於指令的推理上,它的表現與完全注意力模型相當甚至更好。

關聯標籤
關聯標籤
app_icon
ChainCatcher 與創新者共建Web3世界