Skip to content

HEX-QWQ/Lucavirus-tutorial

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 

Repository files navigation

任务目标

利用Lucavirus的预训练模型做编码器,实现一个简单的下游回归任务网络。并在DMS_Bind_Reps_Strain数据集上进行训练和验证。

Task#1 下载数据集

下载http://47.93.21.181/lucavirus/DownstreamTasksDatasets/的第一个数据集DMS_Bind_Reps_Strain到dataset文件夹中,下载完成后,文件结构应为:

Lucavirus-tutorial
└── dataset
    └── DMS_Bind_Reps_Strain
        └── protein
            └── regression
                ├── dev
                ├── train
                └── predict

打开dev.csv熟悉数据集的结构

Task#2 实现EmbeddingEncoder

阅读huggingface和model.py中EmbeddingEncoder相关的代码,并补全_generate_embedding方法

Task#3 实现LucaDownstreamSequenceRegressor

model.py中实现LucaDownstreamSequenceRegressor,输入为蛋白质序列,输出为亲和力预测值。

Task#3 实现train.py

  1. 在main方法中定义train_dataloader与eval_dataloader,batch_size设置为16
  2. 实现evaluate方法,使用mse作为模型评判标准并输出
  3. 实现train方法,并且每训练5000个step进行一次evaluate
  4. 在main方法中调用train方法,在数据集上训练两个epoch

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages