这里我在复现时,代码中所给的评估方法是acc, kappa, f1,但是在论文中呈现的是Balanced Accuracy, AUC-PR, AUROC。我也了解过四分类任务中,代码所给的评估方法是合适的。我不清楚是论文中误写还是另有说法。