通过token mixing和pffn以及sMOE,达到计算效率最大化,mfu直接升9倍广告和首推都落地,欢迎讨论 #推荐算法 #搜广推 #算法 #机器学习 #坦诚清晰 #不设边界 #推荐算法
所以要先把每个特征都拉到dim维吗
论文链接大佬可以放一下吗?
it works.
所有emb concat后,先过个ffn映射为合适维度,然后切成多个token
论文链接大佬可以放一下吗?
it works.
所有emb concat后,先过个ffn映射为合适维度,然后切成多个token