利用Lucavirus的预训练模型做编码器,实现一个简单的下游回归任务网络。并在DMS_Bind_Reps_Strain数据集上进行训练和验证。
下载http://47.93.21.181/lucavirus/DownstreamTasksDatasets/的第一个数据集DMS_Bind_Reps_Strain到dataset文件夹中,下载完成后,文件结构应为:
Lucavirus-tutorial
└── dataset
└── DMS_Bind_Reps_Strain
└── protein
└── regression
├── dev
├── train
└── predict
打开dev.csv熟悉数据集的结构
阅读huggingface和model.py中EmbeddingEncoder相关的代码,并补全_generate_embedding方法
在model.py中实现LucaDownstreamSequenceRegressor,输入为蛋白质序列,输出为亲和力预测值。
- 在main方法中定义train_dataloader与eval_dataloader,batch_size设置为16
- 实现evaluate方法,使用mse作为模型评判标准并输出
- 实现train方法,并且每训练5000个step进行一次evaluate
- 在main方法中调用train方法,在数据集上训练两个epoch