https://hfl-rc.github.io/cmrc2018/task/#section-1 想测一下roberta在阅读理解上的性能如何。尝试将middle和large转成pytorch在cmrc2018上跑了一下,middle的F1能到86,但是large的F1只能到77,非常奇怪。 直接使用提供的pytorch版本的large权重效果也是一样。