QR 코드를 스캔하여 다운로드하세요.
BTC $77,292.64 -1.65%
ETH $2,302.52 -2.71%
BNB $626.38 -1.44%
XRP $1.40 -2.14%
SOL $84.67 -2.43%
TRX $0.3252 +0.54%
DOGE $0.0987 -0.31%
ADA $0.2478 -1.94%
BCH $451.27 -0.70%
LINK $9.31 -1.67%
HYPE $41.72 -1.55%
AAVE $97.55 +1.03%
SUI $0.9327 -1.35%
XLM $0.1658 -2.98%
ZEC $353.87 -1.30%
BTC $77,292.64 -1.65%
ETH $2,302.52 -2.71%
BNB $626.38 -1.44%
XRP $1.40 -2.14%
SOL $84.67 -2.43%
TRX $0.3252 +0.54%
DOGE $0.0987 -0.31%
ADA $0.2478 -1.94%
BCH $451.27 -0.70%
LINK $9.31 -1.67%
HYPE $41.72 -1.55%
AAVE $97.55 +1.03%
SUI $0.9327 -1.35%
XLM $0.1658 -2.98%
ZEC $353.87 -1.30%

DeepSeek는 초고속 긴 문맥 훈련 및 추론을 위한 NSA를 출시했습니다

2025-02-18 16:37:45
수집

ChainCatcher 메시지에 따르면, 금십 보도에 의하면 DeepSeek가 NSA를 출시했습니다.

DeepSeek는 NSA가 하드웨어와 일치하며 본래 훈련 가능한 희소 주의 메커니즘으로, 초고속의 긴 컨텍스트 훈련 및 추론을 위해 설계되었다고 말했습니다. 현대 하드웨어에 대한 최적화 설계를 통해 NSA는 추론 속도를 높이고, 사전 훈련 비용을 낮추면서 성능에는 영향을 미치지 않습니다.

일반 벤치마크 테스트, 긴 컨텍스트 작업 및 지시 기반 추론에서, 그것의 성능은 완전 주의 모델과 동등하거나 더 나은 것으로 나타났습니다.

관련 태그
관련 태그
app_icon
ChainCatcher Building the Web3 world with innovations.