Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ACL2020论文的疑惑 #14

Open
Helen-Hang opened this issue Jul 14, 2020 · 6 comments
Open

ACL2020论文的疑惑 #14

Helen-Hang opened this issue Jul 14, 2020 · 6 comments

Comments

@Helen-Hang
Copy link

Helen-Hang commented Jul 14, 2020

作者您好,有三个问题想请教您:
请问您table2上备注的结果是不是只考虑了人工标注的场景,没有在远程监督的场景下进行实验?
您的前四个baseline跟Yao的无论哪一种设置的实验结果有点不一样,是不是自己复现的结果?
论文中没有考虑到AUC评估吗?

@nanguoshun
Copy link
Owner

@Helen-Hang 谢谢关注提问。
Q1:请问您table2上备注的结果是不是只考虑了人工标注的场景,没有在远程监督的场景下进行实验?
A1: 我们没有使用远程监督数据集,因为太大,训练起来非常慢。

Q1: 您的前四个baseline跟Yao的无论哪一种设置的实验结果有点不一样,是不是自己复现的结果?
A1: IgnF1和F1我们直接使用的是Yao论文中的结果,我们也复现了,结果非常接近。由于Yao的Paper中没有Intra-F1和inter-F1,所以我们参考https://www.aclweb.org/anthology/D19-1498.pdf的设置计算出来Intra-F1和inter-F1

Q1:论文中没有考虑到AUC评估吗?
A1: 没有

@Helen-Hang
Copy link
Author

image
image
我看无论是Dev还是Test都不一样,楼主论文中的结果应该是自己复现的结果把!

@nanguoshun
Copy link
Owner

nanguoshun commented Jul 19, 2020

@Helen-Hang 我们复现的dev/test的F1跟Yao的很接近。IgnF1有些不同,我们当时复现的结果应该是比Yao的高一些,可能需要重新跑一下要的代码确认。

@nanguoshun
Copy link
Owner

nanguoshun commented Jul 20, 2020

@Helen-Hang 你好,谢谢提问关注。我重新运行了 https://github.com/thunlp/DocRED 中的BiLSTM,从复现结果可以看出无论F1和IgnF1跟我们paper中Table2的数据很接近,其中F1跟Yao的基本一致,我们复现的IgnF1比Yao的要高很多。

基本环境 ubuntu16.04/Pytorch 1.5.1/CUDA10.1/Python3.6

| step 1 | time: 66.82
total_recall 12323
ALL : Theta 0.3516 | F1 0.5025 | AUC 0.4856
Ignore ma_f1 0.4820 | input_theta 0.3516 test_result F1 0.4812 | AUC 0.4576
| epoch 29 | time: 197.11s

@DreamInvoker
Copy link

DreamInvoker commented Aug 29, 2020

thunlp/DocRED#47

@Helen-Hang 这个应该就是原因,DocRED原作者他们去年8月9日才更新正确的效果,所以aclweb上DocRED的paper可能是旧版的效果

@DreamInvoker
Copy link

DreamInvoker commented Aug 29, 2020

@nanguoshun 作者您好,我在thunlp/DocRED#47中也提到了ignore计算的问题,能否麻烦你们确认一下你们的逻辑,并更新至你们代码和arxiv,因为我们最近做实验发现你们ignore的效果好像挺低的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants