请问为什么roberta_large比roberta_middle在CMRC2018上低很多？

https://hfl-rc.github.io/cmrc2018/task/#section-1
想测一下roberta在阅读理解上的性能如何。尝试将middle和large转成pytorch在cmrc2018上跑了一下，middle的F1能到86，但是large的F1只能到77，非常奇怪。
直接使用提供的pytorch版本的large权重效果也是一样。