卧槽,刚刚横空出世的 SubQ 模型,直接干到 1200 万上下文!
预填充比 FlashAttention 快 52 倍,成本还不到 Opus 的 5%,1000 倍算力节省。
15M 在Opus上需要15美金,SubQ只需要1.5美金。
参数只是表面,实际如何还得体验了才知道。
来自推特
免责声明: 以上内容仅为作者观点, 不代表CoinNX的任何立场, 不构成与CoinNX相关的任何投资建议。
免责声明: 以上内容仅为作者观点, 不代表CoinNX的任何立场, 不构成与CoinNX相关的任何投资建议。