写在前面

第一次参加这种PAC这种并行超算比赛,我和Jpx做的Winograd卷积算子优化,思路比较常规,就做了多线程,换核,改内存布局,向量化,调编译参等优化手段,最后也就30倍左右的加速,隔壁组有150倍的加速…..差距还是太大了。

后来得知他们参考了商汤-PPL的优化,害,只能说还是得站在巨人的肩膀上再入手,不然根本不是一个level的…..

dog