QRコードをスキャンしてダウンロードしてください。
BTC $76,979.72 -1.63%
ETH $2,292.67 -3.19%
BNB $623.84 -1.82%
XRP $1.39 -2.71%
SOL $84.26 -2.93%
TRX $0.3257 +0.65%
DOGE $0.0980 -1.71%
ADA $0.2459 -2.65%
BCH $448.56 -1.35%
LINK $9.21 -2.83%
HYPE $41.65 -0.72%
AAVE $95.79 -1.24%
SUI $0.9241 -2.45%
XLM $0.1645 -3.94%
ZEC $354.01 -2.04%
BTC $76,979.72 -1.63%
ETH $2,292.67 -3.19%
BNB $623.84 -1.82%
XRP $1.39 -2.71%
SOL $84.26 -2.93%
TRX $0.3257 +0.65%
DOGE $0.0980 -1.71%
ADA $0.2459 -2.65%
BCH $448.56 -1.35%
LINK $9.21 -2.83%
HYPE $41.65 -0.72%
AAVE $95.79 -1.24%
SUI $0.9241 -2.45%
XLM $0.1645 -3.94%
ZEC $354.01 -2.04%

DeepSeekは、超高速の長いコンテキストトレーニングと推論のためのNSAを発表しました。

2025-02-18 16:37:45
コレクション

ChainCatcher のメッセージによると、金十の報道で、DeepSeek が NSA を発表しました。

DeepSeek は、NSA がハードウェアと一致し、ネイティブにトレーニング可能なスパースアテンションメカニズムであり、超高速の長いコンテキストのトレーニングと推論に使用されると述べています。現代のハードウェアに最適化された設計により、NSA は推論速度を向上させ、事前トレーニングコストを削減しながら、性能には影響を与えません。

一般的なベンチマークテスト、長いコンテキストタスク、および指示に基づく推論において、そのパフォーマンスは完全なアテンションモデルと同等か、それ以上です。

関連タグ
関連タグ
app_icon
ChainCatcher Building the Web3 world with innovations.