A multi-task benchmark for Korean legal language understanding and judgement prediction by LBox
-
Dec 2, 2022: We release additional 1024 examples of
drunk driving
cases forljp_criminal
task. Compared toljp_criminal
data, it includes the parses extracted from the facts (blood alchol level, driving distance, types of car, previous criminal history) and the suspension of exeuction period. See also this issue. The data shall be integrated toljp_criminal
in the next release. -
Dec 2, 2022: We will present our recent work "Data-efficient End-to-end Information Extraction for Statistical Legal Analysis" at NLLP workshop @ EMNLP22!
-
Nov 8, 2022: We release [
legal-mt5-small
], a domain adapted mt5-small usingprecedent_corpus
. We also release thelegal-mt5-small
fine-tuned on thesummarization
dataset. Both models can be download from here! To use the models,cd [project-dir]; tar xvfz legal-mt5-small.tar.gz
. -
Oct 25, 2022:
act_on_special_cases_concerning_the_settlement_of_traffic_accidents_corpus
corpus (๊ณ ํต์ฌ๊ณ ์ฒ๋ฆฌํน๋ก๋ฒ์๋ฐ(์น์)) has been released. The corpus consists of 768 criminal cases. The corpus will be integrated intoprecedent corpus
in the future (the overlap betweenprecedent corpus
anddefamation corpus-v0.1
is expected). See also this issue. -
Oct 18, 2022: We release three new datasets
casename_classification_plus
,statute_classification_plus
, andsummarization_plus
! -
Oct 2, 2022:
defamation corpus-v0.1
has been added. The corpus consists of 1,536 criminal cases related to "defamation (๋ช ์ํผ์)". The corpus will be integrated intoprecedent corpus
in the future (at the moment, there can be some overlap betweenprecedent corpus
anddefamation corpus-v0.1
). See also this issue. -
Sep 2022: Our paper is accepted for publication in NeurIPS 2022 Datasets and Benchmarks track! There will be major updates on the paper, the dataets, and the models soon! Meanwile, one can check the most recent version of our paper from OpenReview
-
Jun 2022: We release
lbox-open-v0.2
!- Two legal judgement prediction tasks,
ljp_criminal
,ljp-civil
, are added to LBox Open. LCube-base
, a LBox Legal Language model with 124M parameters, is added.- The baseline scores and its training/test scripts are added.
- Other updates
- Some missing values in
facts
fields ofcasename_classification
andstatute_classification
are updated. case_corpus
is renamed toprecedent_corpus
- Some missing values in
- Two legal judgement prediction tasks,
-
Mar 2022: We release
lbox-open-v0.1
!
A Multi-Task Benchmark for Korean Legal Language Understanding and Judgement Prediction
- Last updated at Oct 18 2022
Model | casename | statute | ljp-criminal | ljp-civil | summarization |
---|---|---|---|---|---|
EM | EM | F1-fine F1-imprisonment w/ labor F1-imprisonment w/o labor |
EM | R1 R2 RL |
|
KoGPT2 |
|
|
|||
KoGPT2 + d.a.
|
|
|
|||
LCube-base (ours) |
|
|
|||
LCube-base + d.a. (ours) |
|
|
|||
mt5-small |
|
|
|||
mt5-small + d.a.
|
|
|
- The errors are estimated from three independent experiments performed with different random seeds.
- ROUGE scores are computed at word level.
d.a.
stands for domain adaptation, an additional pre-trainig withPrecedent
corpus only.
We use datasets
library from HuggingFace
.
# !pip install datasets
from datasets import load_dataset
# casename classficiation task
data_cn = load_dataset("lbox/lbox_open", "casename_classification")
ata_cn_plus = load_dataset("lbox/lbox_open", "casename_classification_plus")
# statutes classification task
data_st = load_dataset("lbox/lbox_open", "statute_classification")
data_st_plus = load_dataset("lbox/lbox_open", "statute_classification_plus")
# Legal judgement prediction tasks
data_ljp_criminal = load_dataset("lbox/lbox_open", "ljp_criminal")
data_ljp_civil = load_dataset("lbox/lbox_open", "ljp_civil")
# case summarization task
data_summ = load_dataset("lbox/lbox_open", "summarization")
data_summ_plus = load_dataset("lbox/lbox_open", "summarization_plus")
# precedent corpus
data_corpus = load_dataset("lbox/lbox_open", "precedent_corpus")
-
Korean legal precedent corpus.
-
The corpus consists of 150k cases.
-
About 80k from LAW OPEN DATA and 70k from LBox database.
-
Example
{
"id": 99990,
"precedent": "์ฃผ๋ฌธ\nํผ๊ณ ์ธ์ ์ง์ญ 6๊ฐ์์ ์ฒํ๋ค.\n๋ค๋ง, ์ด ํ๊ฒฐ ํ์ ์ผ๋ก๋ถํฐ 1๋
๊ฐ ์ ํ์ ์งํ์ ์ ์ํ๋ค.\n\n์ด์ \n๋ฒ ์ฃ ์ฌ ์ค\n1. ์ฌ๊ธฐ\nํผ๊ณ ์ธ์ 2020. 12. 15. 16:00๊ฒฝ ๊ฒฝ๋ถ ์น ๊ณก๊ตฐ B์ ์๋ ํผํด์ C์ด ์ด์ํ๋ โDโ์์, ๋ง์น ์ ์์ ์ผ๋ก ๋๊ธ์ ์ง๊ธํ ๊ฒ์ฒ๋ผ ํ์ธํ๋ฉด์ ํผํด์์๊ฒ ์ ์ ์ฃผ๋ฌธํ์๋ค.\n๊ทธ๋ฌ๋ ์ฌ์ค ํผ๊ณ ์ธ์ ์์ค์ ์ถฉ๋ถํ ํ๊ธ์ด๋ ์ ์ฉ์นด๋ ๋ฑ ๊ฒฐ์ ์๋จ์ ๊ฐ์ง๊ณ ์์ง ์์ ์ ์์ ์ผ๋ก ๋๊ธ์ ์ง๊ธํ ์์ฌ๋ ๋ฅ๋ ฅ์ด ์์๋ค.\n๊ทธ๋ผ์๋ ํผ๊ณ ์ธ์ ์์ ๊ฐ์ด ํผํด์๋ฅผ ๊ธฐ๋งํ์ฌ ์ด์ ์์ ํผํด์๋ก๋ถํฐ ์ฆ์์์ ํฉ๊ณ 8,000์ ์๋น์ ์ ์ ๊ต๋ถ๋ฐ์๋ค.\n2. ๊ณต๋ฌด์งํ๋ฐฉํด\nํผ๊ณ ์ธ์ ์ 1ํญ ๊ธฐ์ฌ ์ผ์ยท์ฅ์์์, โ์๋์ด ์ ๊ฐ์ ์ง๋ถํ์ง ์๊ณ ์๋คโ๋ ๋ด์ฉ์ 112์ ๊ณ ๋ฅผ ์ ์ํ๊ณ ํ์ฅ์ ์ถ๋ํ ์น ๊ณก๊ฒฝ์ฐฐ์ E์ง๊ตฌ๋ ์์ ๊ฒฝ์ฐฐ๊ด F๋ก๋ถํฐ ์ ๊ฐ์ ์ง๋ถํ๊ณ ๊ท๊ฐํ ๊ฒ์ ๊ถ์ ๋ฐ์, โ์ง์ญ๊ฐ๊ณ ์ถ์๋ฐ ๋ฌด์ ์ทจ์ํ์ผ๋ ์ ์น์ฅ์ ๋ฃ์ด ๋ฌ๋ผโ๊ณ ๋งํ๋ฉด์ ์์ฐฐ์ฐจ์ ํ๋ ค๊ณ ํ์๋ค. ์ด์ ๊ฒฝ์ฐฐ๊ด๋ค์ด ์ํ ๊ท๊ฐ ํ ๊ฒ์ ์ฌ์ฐจ ์ข
์ฉํ์์ผ๋, ํผ๊ณ ์ธ์ ๊ฒฝ์ฐฐ๊ด๋ค์ ํฅํด โ๋ด๊ฐ ๋๋ก ์์ฐฐ์ฐจ๋ฅผ ์ฐ์ผ๋ฉด ์ง์ญ๊ฐ๋๊น?, ๋ด์ฌ๊ฒฝ ์๋ฉ์ด ๋ฐ๋ก ์ฐจ๋ฉด ๋ค์ด๊ฐ ์ ์๋?โ๋ผ๊ณ ๋งํ๊ณ , ์ด๋ฅผ ์ ์งํ๋ F์ ๊ฐ์ด์ ํ๊ฟ์น๋ก ์ํ ๋ฐ์ณ ํญํํ์๋ค.\n์ด๋ก์จ ํผ๊ณ ์ธ์ ๊ฒฝ์ฐฐ๊ด์ 112์ ๊ณ ์ฌ๊ฑด ์ฒ๋ฆฌ์ ๊ดํ ์ ๋นํ ์ง๋ฌด์งํ์ ๋ฐฉํดํ์๋ค. ์ฆ๊ฑฐ์ ์์ง\n1. ํผ๊ณ ์ธ์ ํ์ ์ 1์ ์ฌ์ค์ ๋ถํฉํ๋ ๋ฒ์ ์ง์ \n1. ์ฆ์ธ G, F์ ๋ํ ๊ฐ ์ฆ์ธ์ ๋ฌธ์กฐ์\n1. ์์์ฆ\n1. ํ์ฅ ์ฌ์ง\n๋ฒ๋ น์ ์ ์ฉ\n1. ๋ฒ์ฃ์ฌ์ค์ ๋ํ ํด๋น๋ฒ์กฐ ๋ฐ ํ์ ์ ํ\nํ๋ฒ ์ 347์กฐ ์ 1ํญ, ์ 136์กฐ ์ 1ํญ, ๊ฐ ์ง์ญํ ์ ํ\n1. ๊ฒฝํฉ๋ฒ๊ฐ์ค\nํ๋ฒ ์ 37์กฐ ์ ๋จ, ์ 38์กฐ ์ 1ํญ ์ 2ํธ, ์ 50์กฐ\n1. ์งํ์ ์\nํ๋ฒ ์ 62์กฐ ์ 1ํญ\n์ํ์ ์ด์ \n1. ๋ฒ๋ฅ ์ ์ฒ๋จํ์ ๋ฒ์: ์ง์ญ 1์โผ15๋
\n2. ์ํ๊ธฐ์ค์ ๋ฐ๋ฅธ ๊ถ๊ณ ํ์ ๋ฒ์\n๊ฐ. ์ 1๋ฒ์ฃ(์ฌ๊ธฐ)\n[์ ํ์ ๊ฒฐ์ ]\n์ฌ๊ธฐ๋ฒ์ฃ > 01. ์ผ๋ฐ์ฌ๊ธฐ > [์ 1์ ํ] 1์ต ์ ๋ฏธ๋ง\n[ํน๋ณ์ํ์ธ์]\n- ๊ฐ๊ฒฝ์์: ๋ฏธํ์ ๊ณ ์๋ก ๊ธฐ๋งํ์๋ฅผ ์ ์ง๋ฅธ ๊ฒฝ์ฐ ๋๋ ๊ธฐ๋งํ์์ ์ ๋๊ฐ ์ฝํ ๊ฒฝ์ฐ, ์ฒ๋ฒ๋ถ์\n[๊ถ๊ณ ์์ญ ๋ฐ ๊ถ๊ณ ํ์ ๋ฒ์]\nํน๋ณ๊ฐ๊ฒฝ์์ญ, ์ง์ญ 1์โผ1๋
\n[์ผ๋ฐ์ํ์ธ์] ์์\n๋. ์ 2๋ฒ์ฃ(๊ณต๋ฌด์งํ๋ฐฉํด)\n[์ ํ์ ๊ฒฐ์ ]\n๊ณต๋ฌด์งํ๋ฐฉํด๋ฒ์ฃ > 01. ๊ณต๋ฌด์งํ๋ฐฉํด > [์ 1์ ํ] ๊ณต๋ฌด์งํ๋ฐฉํด/์ง๋ฌด๊ฐ์\n[ํน๋ณ์ํ์ธ์]\n- ๊ฐ๊ฒฝ์์: ํญํยทํ๋ฐยท์๊ณ์ ์ ๋๊ฐ ๊ฒฝ๋ฏธํ ๊ฒฝ์ฐ\n[๊ถ๊ณ ์์ญ ๋ฐ ๊ถ๊ณ ํ์ ๋ฒ์]\n๊ฐ๊ฒฝ์์ญ, ์ง์ญ 1์โผ8์\n[์ผ๋ฐ์ํ์ธ์]\n- ๊ฐ๊ฒฝ์์: ์ฌ์ ๋ฏธ์ฝ(๋ณธ์ธ ์ฑ
์ ์์)\n๋ค. ๋ค์๋ฒ์ฃ ์ฒ๋ฆฌ๊ธฐ์ค์ ๋ฐ๋ฅธ ๊ถ๊ณ ํ์ ๋ฒ์: ์ง์ญ 1์โผ1๋
4์(์ 1๋ฒ์ฃ ์ํ + ์ 2๋ฒ์ฃ ์ํ์ 1/2)\n3. ์ ๊ณ ํ์ ๊ฒฐ์ : ์ง์ญ 6์์ ์งํ์ ์ 1๋
\n๋ง์ทจ์ํ์์ ์๋น์์ ์๋์ ํผ์ ๊ณ , 112์ ๊ณ ๋ก ์ถ๋ํ ๊ฒฝ์ฐฐ๊ด์ด ์ฌ๋ฌ ์ฐจ๋ก ๊ท๊ฐ๋ฅผ ์ข
์ฉํ์์์๋ ์ด๋ฅผ ๊ฑฐ๋ถํ๊ณ ๊ฒฝ์ฐฐ๊ด์ ๊ฐ์ด์ ๋ฐ์น ์ ๋ฑ์ ์ข
ํฉํ๋ฉด ์ฃ์ฑ
์ ๊ฐ๋ณ๊ฒ ๋ณผ ์ ์์ผ๋ฏ๋ก ์ง์ญํ์ ์ ํํ๋, ํ์ ์ฃผ๋๋ณด๋ค ํจ์ฌ ๋ง์ ์ ์ ๋ง์ ํ์ ์ ์ ์ ์ ๊ฐ๋์ง ๋ชปํด ์ ์ง๋ฅธ ๋ฒํ์ผ๋ก ๋ณด์ด๊ณ ํญํ ์ ๋๊ฐ ๋งค์ฐ ๊ฒฝ๋ฏธํ ์ , ํผ๊ณ ์ธ์ด ์ ์ด ๊นฌ ํ ์์ ์ ๊ฒฝ์ํ ์ธ๋์ ๊น์ด ๋ฐ์ฑํ๋ฉด์ ์ฌ๋ฒํ์ง ์๊ธฐ ์ํด ์ ์ ๊ฑด๊ฐ์ํ๊ณผ์ ์น๋ฃ ๋ฐ ์๋ด์ ๋ฐ๊ณ ์๋ ์ , ์๋น ์
์ฃผ์๊ฒ ํผํด๋ฅผ ๋ณ์ํ์ฌ ์ฉ์๋ฅผ ๋ฐ์ ์ , ํผ๊ณ ์ธ์ ๋์ด์ ๊ฐ์กฑ๊ด๊ณ ๋ฑ์ ์ฌ์ ์ ์ฐธ์ํ์ฌ ํ์ ์งํ์ ์ ์ํ๊ณ , ๋ฒํ ๊ฒฝ์์ ๋ฒํ ํ ํผ๊ณ ์ธ์ ํ๋ ๋ฑ์ ๋น์ถ์ด ๋ณผ ๋ ์ฌ๋ฒ์ ์ํ์ฑ์ ๊ทธ๋ค์ง ์ฐ๋ คํ์ง ์์๋ ๋ ๊ฒ์ผ๋ก ๋ณด์ฌ ๋ณดํธ๊ด์ฐฐ ๋ฑ ๋ถ์์ฒ๋ถ์ ๋ถ๊ณผํ์ง ์์.\n์ด์์ ์ด์ ๋ก ์ฃผ๋ฌธ๊ณผ ๊ฐ์ด ํ๊ฒฐํ๋ค."
}
id
: a data id.precedent
: a case from the court of Korea. It includes the ruling (์ฃผ๋ฌธ), the gist of claim (์ฒญ๊ตฌ์ทจ์ง), the claim of appeal (ํญ์์ทจ์ง), and the reasoning (์ด์ ).
- Task: for the given facts (์ฌ์ค๊ด๊ณ), a model is asked to predict the case name.
- The dataset consists of 10k
(facts, case name)
pairs extracted from Korean precedents. - There are 100 classes (case categories) and each class contains 100 corresponding examples.
- 8,000 training, 1,000 validation, 1,000 test, and 1,294 test2 examples. The test2 set consists of examples that do not overlap with the precedents in
precedent_corpus
. - We also provide
casename_classification_plus
, a dataset that extendscasename_classification
by including infrequent case categories.casename_classification_plus
consists of 31,283 examples with total 603 case categories. See our paper for the detail. - Example
{
"id": 80,
"casetype": "criminal",
"casename": "๊ฐ์ผ๋ณ์์๋ฐฉ๋ฐ๊ด๋ฆฌ์๊ดํ๋ฒ๋ฅ ์๋ฐ",
"facts": "์ง๋ณ๊ด๋ฆฌ์ฒญ์ฅ, ์ยท๋์ง์ฌ ๋๋ ์์ฅยท๊ตฐ์ยท๊ตฌ์ฒญ์ฅ์ ์ 1๊ธ ๊ฐ์ผ๋ณ์ด ๋ฐ์ํ ๊ฒฝ์ฐ ๊ฐ์ผ๋ณ์ ์ ํ๋ฐฉ์ง ๋ฐ ์๋ฐฉ์ ์ํ์ฌ ๊ฐ์ผ๋ณ์์ฌ์๋ฅผ ์ ๋นํ ์ฅ์์ ์ผ์ ํ ๊ธฐ๊ฐ ๊ฒฉ๋ฆฌ์ํค๋ ์กฐ์น๋ฅผ ํ์ฌ์ผ ํ๊ณ , ๊ทธ ๊ฒฉ๋ฆฌ์กฐ์น๋ฅผ ๋ฐ์ ์ฌ๋์ ์ด๋ฅผ ์๋ฐํ์ฌ์๋ ์๋ ๋๋ค. ํผ๊ณ ์ธ์ ํด์ธ์์ ๊ตญ๋ด๋ก ์
๊ตญํ์์์ ์ด์ ๋ก 2021. 4. 21.๊ฒฝ ๊ฐ์ผ๋ณ์์ฌ์๋ก ๋ถ๋ฅ๋์๊ณ , ๊ฐ์ ๋ ์ฐฝ๋
๊ตฐ์๋ก๋ถํฐ โ2021. 4. 21.๋ถํฐ 2021. 5. 5. 12:00๊ฒฝ๊น์ง ํผ๊ณ ์ธ์ ์ฃผ๊ฑฐ์ง์ธ ๊ฒฝ๋จ ์ฐฝ๋
๊ตฐ B์์ ๊ฒฉ๋ฆฌํด์ผ ํ๋คโ๋ ๋ด์ฉ์ ์๊ฐ๊ฒฉ๋ฆฌ ํต์ง์๋ฅผ ์๋ นํ์๋ค. 1. 2021. 4. 27.์ ๋ฒํ ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ํผ๊ณ ์ธ์ 2021. 4. 27. 11:20๊ฒฝ์์ ๊ฐ์ ๋ 11:59๊ฒฝ๊น์ง ์ฌ์ด์ ์ ๊ฒฉ๋ฆฌ์ฅ์๋ฅผ ๋ฌด๋จ์ผ๋ก ์ดํํ์ฌ ์์ ์ ์น์ฉ์ฐจ๋ฅผ ์ด์ฉํ์ฌ ๊ฒฝ๋จ ์ฐฝ๋
๊ตฐ C์ ์๋ โDโ ์๋น์ ๋ค๋
์ค๋ ๋ฑ ์๊ฐ๊ฒฉ๋ฆฌ ์กฐ์น๋ฅผ ์๋ฐํ์๋ค. 2. 2021. 5. 3.์ ๋ฒํ ํผ๊ณ ์ธ์ 2021. 5. 3. 10:00๊ฒฝ์์ ๊ฐ์ ๋ 11:35๊ฒฝ๊น์ง ์ฌ์ด์ ์ ๊ฒฉ๋ฆฌ์ฅ์๋ฅผ ๋ฌด๋จ์ผ๋ก ์ดํํ์ฌ ์์ ์ ์น์ฉ์ฐจ๋ฅผ ์ด์ฉํ์ฌ ๋ถ์์ ์ฅ์๋ฅผ ๋ค๋
์ค๋ ๋ฑ ์๊ฐ๊ฒฉ๋ฆฌ ์กฐ์น๋ฅผ ์๋ฐํ์๋ค."
}
id
: a data id.casetype
: a case type. The value is eithercivil
(๋ฏผ์ฌ) orcriminal
(ํ์ฌ).casename
: a case name.facts
: facts (์ฌ์ค๊ด๊ณ) extracted fromreasoning
(์ด์ ) section of individual cases.
- Task: for a given facts (์ฌ์ค๊ด๊ณ), a model is asked to predict related statutes (๋ฒ๋ น).
- The dataset consists of 2760
(facts, statutes)
pairs extracted from individual Korean legal cases. - There are 46 classes (case categories) and each class has 60 examples.
- 2,208 training, 276 validation, 276 test, 538 test2 examples. The test2 set consists of examples that do not overlap with the precedents in
precedent_corpus
. - We also release
statute_classification_plus
, a dataset that extendsstatute_classification
by including less frequent case categories.statute_classification_plus
includes 17,730 examples with total 434 case categories and 1,015 statutes. - Example
{
"id": 5180,
"casetype": "criminal",
"casename": "์ฌ๋ฌธ์์์กฐ, ์์กฐ์ฌ๋ฌธ์ํ์ฌ",
"statutes": [
"ํ๋ฒ ์ 231์กฐ",
"ํ๋ฒ ์ 234์กฐ"
],
"facts": "1. ์ฌ๋ฌธ์์์กฐ ํผ๊ณ ์ธ์ 2014. 5. 10.๊ฒฝ ์์ธ ์กํ๊ตฌ ๋๋ ํ๋จ์ ์ดํ ์ ์ ์๋ ์ฅ์์์ ์์์ฆ๋ฌธ๊ตฌ์ฉ์ง์ ๊ฒ์ ์ ๋ณผํ์ ์ฌ์ฉํ์ฌ ์์ ์ธ๋์ โAโ, ์ผ๊ธ๋์ โ์ค์ฒ์ค๋ฐฑ์ก์ญ๋ง์์ โ, ๋ด์ญ ๋์ โ2010๊ฐํฉ7485์ฌ๊ฑด์ ํฉ์๊ธ ๋ฐ ํผํด ๋ณด์๊ธ ์๊ฒฐ์กฐโ, ๋ฐํ์ผ๋์ โ2014๋
5์ 10์ผโ์ด๋ผ๊ณ ๊ธฐ์ฌํ ๋ค, ๋ฐํ์ธ ์์ ํผ๊ณ ์ธ์ด ์์๋ก ๋ง๋ค์๋ B์ ๋์ฅ์ ์ฐ์๋ค. ์ด๋ก์จ ํผ๊ณ ์ธ์ ํ์ฌํ ๋ชฉ์ ์ผ๋ก ์ฌ์ค์ฆ๋ช
์ ๊ดํ ์ฌ๋ฌธ์์ธ B ๋ช
์์ ์์์ฆ 1์ฅ์ ์์กฐํ์๋ค. 2. ์์กฐ์ฌ๋ฌธ์ํ์ฌ ํผ๊ณ ์ธ์ 2014. 10. 16.๊ฒฝ ํ๋จ์ ์ดํ ์ ์ ์๋ ์ฅ์์์ ํผ๊ณ ์ธ์ด B์ ๋ํ ์ฑ๋ฌด๋ฅผ ๋ชจ๋ ๋ณ์ ํ์๊ธฐ ๋๋ฌธ์ B๊ฐ Cํ์ฌ์ ์ฑ๊ถ์ ์๋ํ ๊ฒ์ ์ธ์ ํ ์ ์๋ค๋ ์ทจ์ง์ ๋ด์ฉ์ฆ๋ช
์๊ณผ ํจ๊ป ์์ ๊ฐ์ด ์์กฐํ ์์์ฆ ์ฌ๋ณธ์ ๋ง์น ์ง์ ํ๊ฒ ์ฑ๋ฆฝํ ๋ฌธ์์ธ ๊ฒ์ฒ๋ผ B์๊ฒ ์ฐํธ์ผ๋ก ๋ณด๋๋ค. ์ด๋ก์จ ํผ๊ณ ์ธ์ ์์กฐํ ์ฌ๋ฌธ์๋ฅผ ํ์ฌํ์๋ค."
}
id
: a data id.casetype
: a case type. The value is alwayscriminal
.casename
: a case name.statutes
: related statues.facts
: facts (์ฌ์ค๊ด๊ณ) extracted fromreasoning
(์ด์ ) section of individual cases.
- Task: a model needs to predict the ranges of fine (๋ฒ๊ธ), imprisonment with labor (์ง์ญ), imprisonment without labor (๊ธ๊ณ ).
- 10,500
facts
and the corresponding punishment are extracted from cases with following case categories are โindecent act by compulsionโ (๊ฐ์ ์ถํ), โobstruction of performance of official dutiesโ (๊ณต๋ฌด์งํ๋ฐฉํด), โbodily injuries from traffic accidentโ (๊ตํต์ฌ๊ณ ์ฒ๋ฆฌํน๋ก๋ฒ์๋ฐ(์น์)), โdrunk drivingโ (๋๋ก๊ตํต ๋ฒ์๋ฐ(์์ฃผ์ด์ )), โfraudโ (์ฌ๊ธฐ), โinflicting bodily injuriesโ (์ํด), and โviolenceโ (ํญํ) - 8,400 training, 1,050 validation, 1,050 test, 928 test2 examples. The test2 set consists of the examples from the test set that do not overlap with the precedents in
precedent_corpus
. - Example
{
"casename": "๊ณต๋ฌด์งํ๋ฐฉํด",
"casetype": "criminal",
"facts": "ํผ๊ณ ์ธ์ 2020. 3. 13. 18:57๊ฒฝ ์์์ ์ฅ์๊ตฌ B ์ ๋
ธ์์์ ์ง์ธ์ธ C์ ์ ์ ๋ง์๋ ์ค C๋ฅผ ๋๋ ค 112์ ๊ณ ๋ฅผ ๋ฐ๊ณ ์ถ๋ํ ์์์ค๋ถ๊ฒฝ์ฐฐ์ D์ง๊ตฌ๋ ์์ ๊ฒฝ์ E๊ฐ C์ ์ง์ ์ ์ฒญ์ทจํ๊ณ ์๋ ๋ชจ์ต์ ๋ณด๊ณ ํ๊ฐ ๋ '์จ๋ฐ,๊ฐ์๋ผ'๋ผ๋ฉฐ ์์ค์ ํ๊ณ , ์ E๊ฐ ์ด๋ฅผ ์ ์งํ๋ฉฐ ๊ท๊ฐ๋ฅผ ์ข
์ฉํ์ ๊ทธ์ ์ผ์ชฝ ๋บจ์ ์ค๋ฅธ ์ฃผ๋จน์ผ๋ก 1ํ ๋๋ ค ํญํํ์๋ค.\n์ด๋ก์จ ํผ๊ณ ์ธ์ ๊ฒฝ์ฐฐ๊ด์ 112์ ๊ณ ์ฌ๊ฑด ์ฒ๋ฆฌ์ ๊ดํ ์ ๋นํ ์ง๋ฌด์งํ์ ๋ฐฉํดํ์๋ค. ์ฆ๊ฑฐ์ ์์ง\n1. ํผ๊ณ ์ธ์ ๋ฒ์ ์ง์ \n1. ํผ๊ณ ์ธ์ ๋ํ ๊ฒฝ์ฐฐ ํผ์์์ ๋ฌธ์กฐ์\n1. E์ ๋ํ ๊ฒฝ์ฐฐ ์ง์ ์กฐ์\n1. ํ์ฅ์ฌ์ง ๋ฑ, ๋ฐ๋์บ ์์",
"id": 2300,
"label": {
"fine_lv": 0,
"imprisonment_with_labor_lv": 2,
"imprisonment_without_labor_lv": 0,
"text": "์ง์ญ 6์"
},
"reason": "์ํ์ ์ด์ \n1. ๋ฒ๋ฅ ์ ์ฒ๋จํ์ ๋ฒ์: ์ง์ญ 1์โผ5๋
\n2. ์ํ๊ธฐ์ค์ ๋ฐ๋ฅธ ๊ถ๊ณ ํ์ ๋ฒ์\n[์ ํ์ ๊ฒฐ์ ]\n๊ณต๋ฌด์งํ๋ฐฉํด๋ฒ์ฃ > 01. ๊ณต๋ฌด์งํ๋ฐฉํด > [์ 1์ ํ] ๊ณต๋ฌด์งํ๋ฐฉํด/์ง๋ฌด๊ฐ์\n[ํน๋ณ์ํ์ธ์] ์์\n[๊ถ๊ณ ์์ญ ๋ฐ ๊ถ๊ณ ํ์ ๋ฒ์] ๊ธฐ๋ณธ์์ญ, ์ง์ญ 6์โผ1๋
6์\n3. ์ ๊ณ ํ์ ๊ฒฐ์ \nํผ๊ณ ์ธ์ด ์ธ์ ๋ฐ์ ์ ๊ณ ๋ฅผ ๋ฐ๊ณ ์ถ๋ํ ๊ฒฝ์ฐฐ๊ด์๊ฒ ์์ค์ ํผ๋ถ๊ณ ๊ท๊ฐ๋ฅผ ์ข
์ฉํ๋ค๋ ์ด์ ๋ก ๊ฒฝ์ฐฐ๊ด์ ๋บจ์ ๋๋ฆฌ๋ ๋ฑ ํญํ์ ํ์ฌํ์ฌ ๊ฒฝ์ฐฐ๊ด์ ์ ๋นํ ๊ณต๋ฌด์งํ์ ๋ฐฉํดํ ์ ์์ ๊ทธ ์ฃ์ฑ
์ด ๋งค์ฐ ๋ฌด๊ฒ๋ค. ํผ๊ณ ์ธ์ ๋ฒ์ฃ ์ ๋ ฅ๋ ์๋นํ ๋ง๋ค.\n๋ค๋ง, ํผ๊ณ ์ธ์ด ๋ฒํ์ ์ธ์ ํ๋ฉด์ ๋ฐ์ฑํ๊ณ ์๋ ์ , ๊ณต๋ฌด์งํ๋ฐฉํด ๋ฒ์ฃ๋ก ์ฒ๋ฒ๋ฐ์ ์ ๋ ฅ์ด ์๋ ์ ๋ฑ์ ํผ๊ณ ์ธ์๊ฒ ์ ๋ฆฌํ ์ ์์ผ๋ก ์ฐธ์ํ๋ค.\n๊ทธ ๋ฐ์ ํผ๊ณ ์ธ์ ์ฐ๋ น, ์ฑํ, ํ๊ฒฝ, ๊ฐ์กฑ๊ด๊ณ, ๊ฑด๊ฐ์ํ, ๋ฒํ์ ๋๊ธฐ์ ์๋จ ๋ฐ ๊ฒฐ๊ณผ, ๋ฒํ ํ์ ์ ํฉ ๋ฑ ์ด ์ฌ๊ฑด ๊ธฐ๋ก ๋ฐ ๋ณ๋ก ์ ๋ํ๋ ๋ชจ๋ ์ํ์์๋ฅผ ์ข
ํฉํ์ฌ, ์ฃผ๋ฌธ๊ณผ ๊ฐ์ด ํ์ ์ ํ๋ค.",
"ruling": {
"parse": {
"fine": {
"type": "",
"unit": "",
"value": -1
},
"imprisonment": {
"type": "์ง์ญ",
"unit": "mo",
"value": 6
}
},
"text": "ํผ๊ณ ์ธ์ ์ง์ญ 6์์ ์ฒํ๋ค.\n๋ค๋ง ์ด ํ๊ฒฐ ํ์ ์ผ๋ก๋ถํฐ 2๋
๊ฐ ์ ํ์ ์งํ์ ์ ์ํ๋ค."
}
}
id
: a data id.casetype
: a case type. The value is alwayscriminal
.casename
: a case name.facts
: facts (์ฌ์ค๊ด๊ณ) extracted fromreasoning
(์ด์ ) section of individual cases.label
fine_lv
: a label representing individual ranges of the fine amount. See our paper for the detail.imprisonment_with_labor_lv
: a label representing the ranges of the imprisonemnt with labor.imprisonment_without_labor_lv
: a label for the imprisonment without labor case.
reason
: the reason for the punishment (์ํ์ ์ด์ ).ruling
: the ruling (์ฃผ๋ฌธ) and its parsing result."" and -1
indicates null values.
- Task: a model is asked to predict the claim acceptance level (= "the approved money" / "the claimed money")
- 4,678
facts
and the corresponding acceptance lv from 4 case categories: 929 examples from โprice of indemnificationโ (๊ตฌ์๊ธ), 745 examples from โloanโ (๋์ฌ๊ธ), 1,004 examples from โunfair profitsโ (๋ถ๋น์ด๋๊ธ), and 2,000 examples from โlawsuit for damages (etc)โ (์ํด๋ฐฐ์(๊ธฐ)). - 3,742 training, 467 validation, 467 test, 403 test2 examples. The test2 set consists of the test set examples those do not overlap with the precedents in
precedent_corpus
. - Example
{
"id": 99,
"casetype": "civil",
"casename": "๊ตฌ์๊ธ",
"claim_acceptance_lv": 1,
"facts": "๊ฐ. C๋ 2017. 7. 21. D์ผ๋ก๋ถํฐ 100,000,000์์ ์ด์จ ์ฐ 25%, ๋ณ์ ๊ธฐ 2017. 8. 20.๋ก ์ ํ์ฌ ์ฐจ์ฉํ์๊ณ (์ดํ โ์ด ์ฌ๊ฑด ์ฐจ์ฉ๊ธ์ฑ๋ฌด'๋ผ๊ณ ํ๋ค), ํผ๊ณ ๋ ์ด ์ฌ๊ฑด ์ฐจ์ฉ๊ธ ์ฑ๋ฌด๋ฅผ ๋ณด์ฆํ๋์ก 140,000,000์, ๋ณด์ฆ๊ธฐํ 10๋
์ผ๋ก ์ ํ์ฌ ์ฐ๋๋ณด์ฆํ์์ผ๋ฉฐ, ๊ฐ์ ๋ ์ด ์ฌ๊ฑด ์ฐจ์ฉ๊ธ์ฑ๋ฌด์ ๊ดํ ๊ณต์ ์ฆ์๋ฅผ ์์ฑํ์๋ค(๊ณต์ฆ์ธ๊ฐ ๋ฒ๋ฌด๋ฒ์ธ E ์ฆ์ 2017๋
์ 392ํธ, ์ดํ โ์ด ์ฌ๊ฑด ๊ณต์ ์ฆ์'๋ผ๊ณ ํ๋ค).\n๋. ์๊ณ ๋ ์ด ์ฌ๊ฑด ์ฐจ์ฉ๊ธ์ฑ๋ฌด์ ๊ด๋ จํ์ฌ ์๊ณ ์์ ์ ์์ฐ์ ์๋ก๊ตฌ F, G, H ๋ฐ ๊ทธ ์ง์ ๊ฑด๋ฌผ(์ดํ โ์ด ์ฌ๊ฑด ๋ถ๋์ฐ'์ด๋ผ๊ณ ํ๋ค)์ ๋ด๋ณด๋ก ์ ๊ณตํ๊ธฐ๋ก ํ์ฌ 2017. 7. 21. ์์์ง๋ฐฉ๋ฒ์ ์์ฐ์ง์ ์ ์ ์ 53820ํธ๋ก ์ฑ๊ถ์ต๊ณ ์ก 140,000,000์, ์ฑ๋ฌด์ C, ๊ทผ์ ๋น๊ถ์ D์ผ๋ก ํ ๊ทผ์ ๋น๊ถ์ค์ ๋ฑ๊ธฐ๋ฅผ ๊ฒฝ๋ฃํ๋ ํํธ, 2018. 7. 13. D์๊ฒ ์ด ์ฌ๊ฑด ๊ณต์ ์ฆ์์ ๊ธฐํ ์ฑ๋ฌด๋ฅผ 2018. 7. 31.๊น์ง ๋ณ์ ํ๊ณ , ๋ณ์ ๊ธฐ ์ดํ ์ฐ 24%์ ๋น์จ๋ก ๊ณ์ฐํ ์ง์ฐ์ํด๊ธ์ ์ง๊ธํ๊ธฐ๋ก ํ๋ ์ฐจ์ฉ์ฆ์ ์์ฑํ์ฌ ์ฃผ์๋ค(์ดํ โ์ด ์ฌ๊ฑด ์ฐจ์ฉ์ฆ'์ด๋ผ๊ณ ํ๋ค).\n๋ค. ์๊ณ ๋ 2019. 11. 29. D์๊ฒ ์ด ์ฌ๊ฑด ์ฐจ์ฉ๊ธ์ฑ๋ฌด ์๋ฆฌ๊ธ์ผ๋ก ํฉ๊ณ 157,500,000์์ ๋ณ์ ํ์๋ค.",
"gist_of_claim": {
"money": {
"provider": "ํผ๊ณ ",
"taker": "์๊ณ ",
"unit": "won",
"value": 140000000
},
"text": "ํผ๊ณ ๋ ์๊ณ ์๊ฒ 140,000,000์ ๋ฐ ์ด์ ๋ํ 2019. 11. 30.๋ถํฐ ์ด ์ฌ๊ฑด ์์ฅ ๋ถ๋ณธ ์ก๋ฌ์ผ๊น์ง๋ ์ฐ 5%์, ๊ทธ ๋ค์๋ ๋ถํฐ ๋ค ๊ฐ๋ ๋ ๊น์ง๋ ์ฐ 12%์ ๊ฐ ๋น์จ๋ก ๊ณ์ฐํ ๋์ ์ง๊ธํ๋ผ."
},
"ruling": {
"litigation_cost": 0.5,
"money": {
"provider": "ํผ๊ณ ",
"taker": "์๊ณ ",
"unit": "won",
"value": 78750000
},
"text": "1. ํผ๊ณ ๋ ์๊ณ ์๊ฒ 78,750,000์ ๋ฐ ์ด์ ๋ํ 2019. 11. 30.๋ถํฐ 2021. 11. 26.๊น์ง๋ ์ฐ 5%์, ๊ทธ ๋ค์๋ ๋ถํฐ ๋ค ๊ฐ๋ ๋ ๊น์ง๋ ์ฐ 12%์ ๊ฐ ๋น์จ๋ก ๊ณ์ฐํ ๋์ ์ง๊ธํ๋ผ.\n2. ์๊ณ ์ ๋๋จธ์ง ์ฒญ๊ตฌ๋ฅผ ๊ธฐ๊ฐํ๋ค.\n3. ์์ก๋น์ฉ ์ค 1/2์ ์๊ณ ๊ฐ ๋๋จธ์ง๋ ํผ๊ณ ๊ฐ ๊ฐ ๋ถ๋ดํ๋ค.\n4. ์ 1ํญ์ ๊ฐ์งํํ ์ ์๋ค."
}
}
id
: a data id.casetype
: a case type. The value is alwayscivil
.casename
: a case name.facts
: facts (์ฌ์ค๊ด๊ณ) extracted fromreasoning
(์ด์ ) section of individual cases.claim_acceptaance_lv
: the claim acceptance level.0
,1
, and2
indicate rejection, partial approval, and full approval respectively.gist_of_claim
: a gist of claim from plaintiffs (์ฒญ๊ตฌ ์ทจ์ง) and its parsing result.ruling
: a ruling (์ฃผ๋ฌธ) and its parsing results.litigation_cost
: the ratio of the litigation cost that the plaintiff should pay.
-
Task: a model is asked to summarize precedents from the Supreme Court of Korea.
-
The dataset is obtained from LAW OPEN DATA.
-
The dataset consists of 20k
(precendent, summary)
pairs. -
16,000 training, 2,000 validation, and 2,000 test examples.
-
We also provide
summarization_plus
by extendingsummarization
with precedents with longer text making the task more challenging and realistic. In the extended dataset there are a total of 51,114 examples. The average number of tokens in the precedents and the corresponding summaries are 1,516 and 248 respectively. The maximum number of tokens in the input texts and the summaries are 93,420 and 6,536 respectively. -
Example
{
"id": 16454,
"summary": "[1] ํผ๊ณ ์ ์ 3์ ์ฌ์ด์ ์์๋ ๋ฏผ์ฌ์์ก์ ํ์ ํ๊ฒฐ์ ์กด์ฌ๋ฅผ ๋์ด์ ๊ทธ ํ๊ฒฐ์ ์ด์ ๋ฅผ ๊ตฌ์ฑํ๋ ์ฌ์ค๊ด๊ณ๋ค๊น์ง ๋ฒ์์ ํ์ ํ ์ฌ์ค๋ก ๋ณผ ์๋ ์๋ค. ๋ฏผ์ฌ์ฌํ์ ์์ด์ ์ด๋ฏธ ํ์ ๋ ๊ด๋ จ ๋ฏผ์ฌ์ฌ๊ฑด์ ํ๊ฒฐ์์ ์ธ์ ๋ ์ฌ์ค์ ํน๋ณํ ์ฌ์ ์ด ์๋ ํ ์ ๋ ฅํ ์ฆ๊ฑฐ๊ฐ ๋์ง๋ง, ๋นํด ๋ฏผ์ฌ์ฌํ์์ ์ ์ถ๋ ๋ค๋ฅธ ์ฆ๊ฑฐ ๋ด์ฉ์ ๋น์ถ์ด ํ์ ๋ ๊ด๋ จ ๋ฏผ์ฌ์ฌ๊ฑด ํ๊ฒฐ์ ์ฌ์ค์ธ์ ์ ๊ทธ๋๋ก ์ฑ์ฉํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ์๋ ํฉ๋ฆฌ์ ์ธ ์ด์ ๋ฅผ ์ค์ํ์ฌ ์ด๋ฅผ ๋ฐฐ์ฒํ ์ ์๋ค๋ ๋ฒ๋ฆฌ๋ ๊ทธ์ ๊ฐ์ด ํ์ ๋ ๋ฏผ์ฌํ๊ฒฐ ์ด์ ์ค์ ์ฌ์ค๊ด๊ณ๊ฐ ํ์ ํ ์ฌ์ค์ ํด๋นํ์ง ์์์ ์ ์ ๋ก ํ ๊ฒ์ด๋ค.\n\n\n[2] ์์ฌ์ด ๋ค๋ฅธ ํ๊ธ์ฌํ๊ฒฐ์ ์ด์ ์ค ์ผ๋ถ ์ฌ์ค๊ด๊ณ์ ๊ดํ ์ธ์ ์ฌ์ค์ ๊ทธ๋๋ก ์ธ์ ํ๋ฉด์, ์ ์ฌ์ ๋ค์ด โ์ด ๋ฒ์์ ํ์ ํ ์ฌ์คโ์ด๋ผ๊ณ ๋ณธ ์ฌ์์์, ๋นํด ์ฌํ์ ์ 1์ฌ ๋ฐ ์์ฌ์์ ๋ค๋ฅธ ํ๊ธ์ฌํ๊ฒฐ์ ํ๊ฒฐ๋ฌธ ๋ฑ์ด ์ฆ๊ฑฐ๋ก ์ ์ถ๋ ์ ์ด ์๊ณ , ๋น์ฌ์๋ค๋ ์ด์ ๊ดํ์ฌ ์ฃผ์ฅํ ๋ฐ๊ฐ ์์์๋ ์ด๋ฅผ โ๋ฒ์์ ํ์ ํ ์ฌ์คโ๋ก ๋ณธ ์์ฌํ๋จ์ ๋ฒ๋ฆฌ์คํด์ ์๋ชป์ด ์๋ค๊ณ ํ ์ฌ๋ก.",
"precedent": "์ฃผ๋ฌธ\n์์ฌํ๊ฒฐ์ ํ๊ธฐํ๊ณ , ์ฌ๊ฑด์ ๊ด์ฃผ์ง๋ฐฉ๋ฒ์ ๋ณธ์ ํฉ์๋ถ์ ํ์กํ๋ค.\n\n์ด์ \n์๊ณ ์ด์ ๋ฅผ ํ๋จํ๋ค.\n1. ํผ๊ณ ์ ์ 3์ ์ฌ์ด์ ์์๋ ๋ฏผ์ฌ์์ก์ ํ์ ํ๊ฒฐ์ ์กด์ฌ๋ฅผ ๋์ด์ ๊ทธ ํ๊ฒฐ์ ์ด์ ๋ฅผ ๊ตฌ์ฑํ๋ ์ฌ์ค๊ด๊ณ๋ค๊น์ง ๋ฒ์์ ํ์ ํ ์ฌ์ค๋ก ๋ณผ ์๋ ์๋ค(๋๋ฒ์ 2010. 1. 14. ์ ๊ณ 2009๋ค69531 ํ๊ฒฐ ์ฐธ์กฐ). ๋ฏผ์ฌ์ฌํ์ ์์ด์ ์ด๋ฏธ ํ์ ๋ ๊ด๋ จ ๋ฏผ์ฌ์ฌ๊ฑด์ ํ๊ฒฐ์์ ์ธ์ ๋ ์ฌ์ค์ ํน๋ณํ ์ฌ์ ์ด ์๋ ํ ์ ๋ ฅํ ์ฆ๊ฑฐ๊ฐ ๋์ง๋ง, ๋นํด ๋ฏผ์ฌ์ฌํ์์ ์ ์ถ๋ ๋ค๋ฅธ ์ฆ๊ฑฐ ๋ด์ฉ์ ๋น์ถ์ด ํ์ ๋ ๊ด๋ จ ๋ฏผ์ฌ์ฌ๊ฑด ํ๊ฒฐ์ ์ฌ์ค์ธ์ ์ ๊ทธ๋๋ก ์ฑ์ฉํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ์๋ ํฉ๋ฆฌ์ ์ธ ์ด์ ๋ฅผ ์ค์ํ์ฌ ์ด๋ฅผ ๋ฐฐ์ฒํ ์ ์๋ค๋ ๋ฒ๋ฆฌ(๋๋ฒ์ 2018. 8. 30. ์ ๊ณ 2016๋ค46338, 46345 ํ๊ฒฐ ๋ฑ ์ฐธ์กฐ)๋ ๊ทธ์ ๊ฐ์ด ํ์ ๋ ๋ฏผ์ฌํ๊ฒฐ ์ด์ ์ค์ ์ฌ์ค๊ด๊ณ๊ฐ ํ์ ํ ์ฌ์ค์ ํด๋นํ์ง ์์์ ์ ์ ๋ก ํ ๊ฒ์ด๋ค.\n2. ์์ฌ์ ๊ด์ฃผ๊ณ ๋ฑ๋ฒ์ 2003๋8816 ํ๊ฒฐ ์ด์ ์ค โ์์ธ์ธ์ด ํผ๊ณ ํ์ฌ๋ฅผ ์ค๋ฆฝํ ๊ฒฝ์โ์ ๊ดํ ์ธ์ ์ฌ์ค, ๊ด์ฃผ์ง๋ฐฉ๋ฒ์ ๋ชฉํฌ์ง์ 2001๊ฐํฉ1664 ํ๊ฒฐ๊ณผ ๊ด์ฃผ๊ณ ๋ฑ๋ฒ์ 2003๋416 ํ๊ฒฐ ์ด์ ์ค โํผ๊ณ ํ์ฌ ์ด์ฌํ์ ๊ฐ์ต ์ฌ๋ถโ์ ๊ดํ ์ธ์ ์ฌ์ค์ ๊ทธ๋๋ก ์ธ์ ํ๋ฉด์, ์ ์ฌ์ ๋ค์ด โ์ด ๋ฒ์์ ํ์ ํ ์ฌ์คโ์ด๋ผ๊ณ ๋ณด์๋ค.\n๊ทธ๋ฐ๋ฐ ์ด ์ฌ๊ฑด ๊ธฐ๋ก์ ์ํ๋ฉด, ๊ด์ฃผ๊ณ ๋ฑ๋ฒ์ 2003๋8816 ํ๊ฒฐ, ๊ด์ฃผ์ง๋ฐฉ๋ฒ์ ๋ชฉํฌ์ง์ 2001๊ฐํฉ1664 ํ๊ฒฐ, ๊ด์ฃผ๊ณ ๋ฑ๋ฒ์ 2003๋416 ํ๊ฒฐ์ ์ 1์ฌ ๋ฐ ์์ฌ์์ ํ๊ฒฐ๋ฌธ ๋ฑ์ด ์ฆ๊ฑฐ๋ก ์ ์ถ๋ ์ ์ด ์๊ณ , ๋น์ฌ์๋ค๋ ์ด์ ๊ดํ์ฌ ์ฃผ์ฅํ ๋ฐ๊ฐ ์๋ค.\n๊ทธ๋ ๋ค๋ฉด ์์ฌ์ โ๋ฒ์์ ํ์ ํ ์ฌ์คโ์ ๊ดํ ๋ฒ๋ฆฌ๋ฅผ ์คํดํ ๋๋จธ์ง ํ์ํ ์ฌ๋ฆฌ๋ฅผ ๋คํ์ง ์๋ํ ์ฑ, ๋น์ฌ์๊ฐ ์ฆ๊ฑฐ๋ก ์ ์ถํ์ง ์๊ณ ์ฌ๋ฆฌ๊ฐ ๋์ง ์์๋ ์ ๊ฐ ํ๊ฒฐ๋ค์์ ์ธ์ ๋ ์ฌ์ค๊ด๊ณ์ ๊ธฐํ์ฌ ํ๋จํ ์๋ชป์ด ์๋ค. ์ด ์ ์ ์ง์ ํ๋ ์๊ณ ์ด์ ์ฃผ์ฅ์ ์ด์ ์๋ค.\n3. ๊ทธ๋ฌ๋ฏ๋ก ๋๋จธ์ง ์๊ณ ์ด์ ์ ๋ํ ํ๋จ์ ์๋ตํ ์ฑ ์์ฌํ๊ฒฐ์ ํ๊ธฐํ๊ณ , ์ฌ๊ฑด์ ๋ค์ ์ฌ๋ฆฌยทํ๋จํ๊ฒ ํ๊ธฐ ์ํ์ฌ ์์ฌ๋ฒ์์ ํ์กํ๊ธฐ๋ก ํ์ฌ, ๊ด์ฌ ๋๋ฒ๊ด์ ์ผ์น๋ ์๊ฒฌ์ผ๋ก ์ฃผ๋ฌธ๊ณผ ๊ฐ์ด ํ๊ฒฐํ๋ค."
}
id
: a data id.summary
: a summary (ํ๊ฒฐ์์ง) of given precedent (ํ๊ฒฐ๋ฌธ).precedent
: a case from the Korean supreme court.
# !pip instal transformers==4.19.4
import transformers
model = transformers.GPT2LMHeadModel.from_pretrained("lbox/lcube-base")
tokenizer = transformers.AutoTokenizer.from_pretrained(
"lbox/lcube-base",
bos_token="[BOS]",
unk_token="[UNK]",
pad_token="[PAD]",
mask_token="[MASK]",
)
text = "ํผ๊ณ ์ธ์ ๋ถ์์ง์ ์๋ ์ปคํผ์์์, ํผํด์ B์ผ๋ก๋ถํฐ"
model_inputs = tokenizer(text,
max_length=1024,
padding=True,
truncation=True,
return_tensors='pt')
out = model.generate(
model_inputs["input_ids"],
max_new_tokens=150,
pad_token_id=tokenizer.pad_token_id,
use_cache=True,
repetition_penalty=1.2,
top_k=5,
top_p=0.9,
temperature=1,
num_beams=2,
)
tokenizer.batch_decode(out)
conda create -n lbox-open pytyon=3.8.11
conda install pytorch==1.10.1 torchvision torchaudio cudatoolkit=11.3 -c pytorch
pip install -r requirements.txt
python run_model.py [TRINING_CONFIG_FILE_PATH] --mode train
See also scripts/train_[TASK].sh
- Make the test config file from the training config file by copying and changing the values of
trained
andpath
fields as shown below.
train:
weights:
trained: true
path: ./models/[THE NAME OF THE TRAININ CONFIG FILE]/epoch=[XX]-step=[XX].ckpt
python run_model.py [TEST_CONFIG_FILE_PATH] --mode test
See also scripts/test_[TASK].sh
Copyright 2022-present LBox Co. Ltd.
Licensed under the CC BY-NC 4.0