(demo) FactCC & Frank & QAGS results on pairwise MNLI model metrics (sample results using df[:10]) #23

lihebi · 2023-01-14T01:44:26Z

For frank, we have multiple system summaries for a doc, so we report regular correlation results in terms of:

system-level
summary-level

For qags-cnndm and factCC datasets, we don't have docID in the input data. Instead, we only have (doc, sum, human_score). Thus, we will report:

system-level
pool-level: where all rows are assigned the same ID; thus all rows are in one large batch to compute correlation. The file name is still summary-level. We won't have summary-level results as there's only one system.

The data is obtained with g2/env.py, i.e., it contains both bertscore and mnli models as the metrics.

The sample results are using the first 10 rows of the dataframe (df[:10]), just for demo purposes. The full experiments are running.

sample results using df[:10]

ee30d4d

lihebi mentioned this pull request Jan 14, 2023

(WIP) Factcc full results #24

Open

5 tasks

lihebi changed the title ~~FactCC & Frank & QAGS results on pairwise MNLI model metrics (sample results using df[:10])~~ (demo) FactCC & Frank & QAGS results on pairwise MNLI model metrics (sample results using df[:10]) Jan 14, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

(demo) FactCC & Frank & QAGS results on pairwise MNLI model metrics (sample results using df[:10]) #23

(demo) FactCC & Frank & QAGS results on pairwise MNLI model metrics (sample results using df[:10]) #23

Uh oh!

lihebi commented Jan 14, 2023

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

(demo) FactCC & Frank & QAGS results on pairwise MNLI model metrics (sample results using df[:10]) #23

Are you sure you want to change the base?

(demo) FactCC & Frank & QAGS results on pairwise MNLI model metrics (sample results using df[:10]) #23

Uh oh!

Conversation

lihebi commented Jan 14, 2023

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants