Start Preparing train script

HakimBenkirane · HakimBenkirane · commit 82a779813c17 · 2024-06-26T10:27:04.000+02:00
diff --git a/novae_benchmark/__init__.py b/novae_benchmark/__init__.py
@@ -1 +1,2 @@
 from .model import MODEL_DICT, get_model
+from .dataset import AnnDataset
diff --git a/novae_benchmark/dataset.py b/novae_benchmark/dataset.py
@@ -0,0 +1,60 @@
+import os
+import numpy as np
+import pandas as pd
+import scanpy as sc
+import anndata
+
+class AnnDataset:
+    def __init__(self, data_dir, metadata_filename):
+        self.data_dir = data_dir
+        self.metadata_file = os.path.join(data_dir, metadata_filename)
+        self.metadata = pd.read_csv(self.metadata_file)
+        
+    def load_data(self, tissue_types, use_common_genes=True, multi_slide=False):
+        anndata_list = []
+        anndata_list_original = []
+        
+        for tissue in tissue_types:
+            files_to_load = self.metadata[self.metadata['tissue'] == tissue]['dataset_name']
+            
+            for dataset_name in files_to_load:
+                file_path = os.path.join(self.data_dir, f"{dataset_name}.h5ad")
+                adata = sc.read_h5ad(file_path)
+                anndata_list_original.append(adata)
+
+                
+                # Convert gene names to lowercase to handle case insensitivity
+                adata.var.index = adata.var.index.str.lower()
+                
+                # Add a column to indicate the dataset
+                adata.obs['dataset'] = dataset_name
+                
+                anndata_list.append(adata)
+        
+        if anndata_list:
+            if use_common_genes:
+                # Find common genes across all datasets
+                common_genes = set(anndata_list[0].var.index)
+                for adata in anndata_list[1:]:
+                    common_genes.intersection_update(adata.var.index)
+                
+                # Filter each AnnData to include only the common genes
+                anndata_list = [adata[:, list(common_genes)] for adata in anndata_list]
+            
+            combined_adata = anndata.concat(
+                anndata_list, 
+                axis=0,
+                join='inner', 
+                label='slide_id', 
+                keys=[adata.obs['slide_id'][0] for adata in anndata_list],
+                pairwise=True
+            )
+        
+        else:
+            combined_adata = None
+        
+        if multi_slide:
+            return combined_adata
+        else:
+            return anndata_list_original
+
diff --git a/novae_benchmark/model/GraphST/graphst_model.py b/novae_benchmark/model/GraphST/graphst_model.py
@@ -29,7 +29,7 @@ def __init__(self,
         lamda1 = 10,
         lamda2 = 1,
         datatype = '10X',
-        batch_key='slide_name'
+        batch_key=None,
         ):
         '''\
 
@@ -92,7 +92,10 @@ def __init__(self,
         
         fix_seed(self.random_seed)
 
-        list_adatas = [self.adata[self.adata.obs[batch_key] == b].copy() for b in self.adata.obs[batch_key].unique()]
+        if batch_key:
+            list_adatas = [self.adata[self.adata.obs[batch_key] == b].copy() for b in self.adata.obs[batch_key].unique()]
+        else:
+            list_adatas = [self.adata]
         
         for adata in list_adatas:
             if 'highly_variable' not in adata.var.keys():
diff --git a/novae_benchmark/model/__init__.py b/novae_benchmark/model/__init__.py
@@ -3,4 +3,5 @@
 from .build import MODEL_DICT, get_model
 from . import SpaceFlow
 from . import cluster_utils
+from . import eval_utils
 from . import GraphST
diff --git a/novae_benchmark/model/build.py b/novae_benchmark/model/build.py
@@ -4,7 +4,7 @@
 from anndata import AnnData
 from sklearn.decomposition import PCA
 
-from . import SEDR, STAGATE, SpaceFlow, cluster_utils, GraphST
+from . import SEDR, STAGATE, SpaceFlow, cluster_utils, eval_utils, GraphST
 
 DEFAULT_N_CLUSTERS = 7
 DEFAULT_RADIUS_CLUSTERS = 50
@@ -32,14 +32,18 @@ def train(
         """
         raise NotImplementedError
 
-    def cluster(self, adata: AnnData, n_clusters: int = DEFAULT_N_CLUSTERS,
-                radius : int = DEFAULT_RADIUS_CLUSTERS, method: str = "mclust", 
-                pca: bool = False):
+    def cluster(self, adata: AnnData, n_clusters: int = DEFAULT_N_CLUSTERS, 
+                method: str = "mclust", pca: bool = False):
         """
         Clusters the data. The output should be stored in `adata.obs[self.model_name]`.
         """
         cluster_utils.clustering(adata=adata, model_name=self.model_name, 
-                                 n_clusters=n_clusters, method=method, radius=radius, pca=pca)
+                                 n_clusters=n_clusters, method=method, pca=pca)
+        
+    def evaluate(self, adata: AnnData, batch_key: str | None = None, n_clusters: int = DEFAULT_N_CLUSTERS,
+                 n_top_genes: int =3):
+        self.model_performances = eval_utils.evaluate_latent(adatas=adata, obs_key=self.model_name, slide_key=batch_key,
+                                          n_classes=n_clusters, n_top_genes=n_top_genes)
 
 
     def __call__(
@@ -49,16 +53,27 @@ def __call__(
         batch_key: str | None = None,
         device: str = "cpu",
         fast_dev_run: bool = False,
+        multi_slide:bool = False,
     ) -> tuple[np.ndarray, pd.Series]:
         """
         Runs all steps, i.e preprocessing -> training -> inference -> clustering.
 
         Returns:
             A numpy array of shape (n_cells, hidden_dim) and a pandas Series with the cluster labels.
         """
+        print("--------------- {}: Preprocessing Started-------------------".format(self.model_name))
         self.preprocess(adata)
+        print("--------------- {}: Preprocessing Finished-------------------".format(self.model_name))
+        print("--------------- {}: Training Started-------------------".format(self.model_name))
         self.train(adata, batch_key=batch_key, device=device, fast_dev_run=fast_dev_run)
+        print("--------------- {}: Training Finished-------------------".format(self.model_name))
+        print("--------------- {}: Clustering Started-------------------".format(self.model_name))
         self.cluster(adata, n_clusters)
+        print("--------------- {}: Clustering Finished-------------------".format(self.model_name))
+        self.evaluate(adata, batch_key, n_clusters)
+        print("--------------- {}: Evaluation completed-------------------".format(self.model_name))
+        print(self.model_performances)
+
 
         adata.obs[self.model_name] = adata.obs[self.model_name].astype("category")
 
@@ -88,10 +103,6 @@ def train(self, adata: AnnData, batch_key: str | None = None, device: str = "cpu
             adata, key_added=self.model_name, device=device, n_epochs=2 if fast_dev_run else 1000
         )
 
-    #def cluster(self, adata: AnnData, n_clusters: int = DEFAULT_N_CLUSTERS):
-    #    STAGATE.mclust_R(adata, used_obsm=self.model_name, num_cluster=n_clusters)
-    #    adata.obs[self.model_name] = adata.obs["mclust"]
-
 
 class SEDRModel(Model):
     def preprocess(self, adata: AnnData):
@@ -102,8 +113,6 @@ def preprocess(self, adata: AnnData):
         adata_X = PCA(n_components=200, random_state=42).fit_transform(adata.X)
         adata.obsm["X_pca"] = adata_X
 
-    #def cluster(self, adata: AnnData, n_clusters: int):
-    #    SEDR.mclust_R(adata, n_clusters, use_rep=self.model_name, key_added=self.model_name)
 
     def train(self, adata: AnnData, batch_key: str | None = None, device: str = "cpu", fast_dev_run: bool = False):
         graph_dict = SEDR.graph_construction(adata, 6)
@@ -135,7 +144,6 @@ class GraphSTModel(Model):
     def train(self, adata: AnnData, batch_key: str | None = None, device: str = "cpu", fast_dev_run: bool = False):
         graphst_net = GraphST.Graphst(adata=adata, device=device, epochs=2 if fast_dev_run else 1000)
         adata = graphst_net.train()
-    
 
 
 MODEL_DICT = {
diff --git a/novae_benchmark/model/eval_utils.py b/novae_benchmark/model/eval_utils.py
@@ -0,0 +1,174 @@
+from __future__ import annotations
+
+import numpy as np
+import scanpy as sc
+from anndata import AnnData
+from sklearn import metrics
+
+
+ALL_METRICS = ["FIDE", "JSD", "SVG"]
+ADJ = "spatial_distances"
+EPS = 1e-8
+
+
+def mean_fide_score(
+    adatas: AnnData | list[AnnData], obs_key: str, slide_key: str = None, n_classes: int | None = None
+) -> float:
+    """Mean FIDE score over all slides. A low score indicates a great domain continuity.
+
+    Args:
+        adatas: An `AnnData` object, or a list of `AnnData` objects.
+        {obs_key}
+        {slide_key}
+        n_classes: Optional number of classes. This can be useful if not all classes are predicted, for a fair comparision.
+
+    Returns:
+        The FIDE score averaged for all slides.
+    """
+    return np.mean(
+        [fide_score(adata, obs_key, n_classes=n_classes) for adata in _iter_uid(adatas, slide_key=slide_key)]
+    )
+
+
+def fide_score(adata: AnnData, obs_key: str, n_classes: int | None = None) -> float:
+    """F1-score of intra-domain edges (FIDE). A high score indicates a great domain continuity.
+
+    Note:
+        The F1-score is computed for every class, then all F1-scores are averaged. If some classes
+        are not predicted, the `n_classes` argument allows to pad with zeros before averaging the F1-scores.
+
+    Args:
+        adata: An `AnnData` object
+        {obs_key}
+        n_classes: Optional number of classes. This can be useful if not all classes are predicted, for a fair comparision.
+
+    Returns:
+        The FIDE score.
+    """
+    adata.obs[obs_key] = adata.obs[obs_key].astype("category")
+
+    i_left, i_right = adata.obsp[ADJ].nonzero()
+    classes_left, classes_right = adata.obs.iloc[i_left][obs_key].values, adata.obs.iloc[i_right][obs_key].values
+
+    where_valid = ~classes_left.isna() & ~classes_right.isna()
+    classes_left, classes_right = classes_left[where_valid], classes_right[where_valid]
+
+    f1_scores = metrics.f1_score(classes_left, classes_right, average=None)
+
+    if n_classes is None:
+        return f1_scores.mean()
+
+    assert n_classes >= len(f1_scores), f"Expected {n_classes:=}, but found {len(f1_scores)}, which is greater"
+
+    return np.pad(f1_scores, (0, n_classes - len(f1_scores))).mean()
+
+
+def jensen_shannon_divergence(adatas: AnnData | list[AnnData], obs_key: str, slide_key: str = None) -> float:
+    """Jensen-Shannon divergence (JSD) over all slides
+
+    Args:
+        adatas: One or a list of AnnData object(s)
+        {obs_key}
+        {slide_key}
+
+    Returns:
+        The Jensen-Shannon divergence score for all slides
+    """
+    distributions = [
+        adata.obs[obs_key].value_counts(sort=False).values
+        for adata in _iter_uid(adatas, slide_key=slide_key, obs_key=obs_key)
+    ]
+
+    return _jensen_shannon_divergence(np.array(distributions))
+
+
+def mean_svg_score(adata: AnnData | list[AnnData], obs_key: str, slide_key: str = None, n_top_genes: int = 3) -> float:
+    """Mean SVG score over all slides. A high score indicates better niche-specific genes, or spatial variable genes.
+
+    Args:
+        adata: An `AnnData` object, or a list.
+        {obs_key}
+        {slide_key}
+        {n_top_genes}
+
+    Returns:
+        The mean SVG score accross all slides.
+    """
+    return np.mean(
+        [svg_score(adata, obs_key, n_top_genes=n_top_genes) for adata in _iter_uid(adata, slide_key=slide_key)]
+    )
+
+
+def svg_score(adata: AnnData, obs_key: str, n_top_genes: int = 3) -> float:
+    """Average score of the top differentially expressed genes for each niche.
+
+    Args:
+        adata: An `AnnData` object
+        {obs_key}
+        {n_top_genes}
+
+    Returns:
+        The average SVG score.
+    """
+    sc.tl.rank_genes_groups(adata, groupby=obs_key)
+    sub_recarray: np.recarray = adata.uns["rank_genes_groups"]["scores"][:n_top_genes]
+    return np.mean([sub_recarray[field].mean() for field in sub_recarray.dtype.names])
+
+
+def _jensen_shannon_divergence(distributions: np.ndarray) -> float:
+    """Compute the Jensen-Shannon divergence (JSD) for a multiple probability distributions.
+
+    The lower the score, the better distribution of clusters among the different batches.
+
+    Args:
+        distributions: An array of shape (B x C), where B is the number of batches, and C is the number of clusters. For each batch, it contains the percentage of each cluster among cells.
+
+    Returns:
+        A float corresponding to the JSD
+    """
+    distributions = distributions / distributions.sum(1)[:, None]
+    mean_distribution = np.mean(distributions, 0)
+
+    return _entropy(mean_distribution) - np.mean([_entropy(dist) for dist in distributions])
+
+
+def _entropy(distribution: np.ndarray) -> float:
+    """Shannon entropy
+
+    Args:
+        distribution: An array of probabilities (should sum to one)
+
+    Returns:
+        The Shannon entropy
+    """
+    return -(distribution * np.log(distribution + EPS)).sum()
+
+
+def _iter_uid(adatas: AnnData | list[AnnData], slide_key: str | None = None, obs_key: str | None = None):
+    if isinstance(adatas, AnnData):
+        adatas = [adatas]
+
+    if obs_key is not None:
+        categories = set.union(*[set(adata.obs[obs_key].astype("category").cat.categories) for adata in adatas])
+        for adata in adatas:
+            adata.obs[obs_key] = adata.obs[obs_key].astype("category").cat.set_categories(categories)
+
+    for adata in adatas:
+        if slide_key is not None:
+            for slide_id in adata.obs[slide_key].unique():
+                yield adata[adata.obs[slide_key] == slide_id].copy()
+        else:
+            yield adata
+
+
+def evaluate_latent(adatas: AnnData | list[AnnData],
+                     obs_key: str, slide_key: str = None, 
+                     n_classes: int | None = None, n_top_genes: int = 3):
+    eval_dt = {}
+    eval_dt["FIDE"] = mean_fide_score(adatas=adatas, obs_key=obs_key, slide_key=slide_key, n_classes=n_classes)
+    eval_dt["JSD"] = jensen_shannon_divergence(adatas=adatas, obs_key=obs_key, slide_key=slide_key)
+    eval_dt["SVG"] = mean_svg_score(adata=adatas, obs_key=obs_key, slide_key=slide_key, n_top_genes=n_top_genes)
+    return eval_dt
+
+
+
diff --git a/scripts/train.py b/scripts/train.py
@@ -0,0 +1,10 @@
+from novae_benchmark import get_model, AnnDataset
+
+
+def train(tissue_types, model_names, data_dir='../../data/spatial', metadata_filename='metadata_2024_06_21.csv', hidden_dim=64, multi_slide=False):
+    dataset = AnnDataset(data_dir=data_dir, metadata_filename=metadata_filename)
+    adataset = dataset.load_data(tissue_types=tissue_types)
+
+    for model_name in model_names:
+        model = get_model(model_name=model_names, hidden_dim=hidden_dim)
+        
diff --git a/tests/dummy_dataset.py b/tests/dummy_dataset.py

Original file line number	Diff line number	Diff line change
`@@ -1 +1,2 @@`
`1`	`1`	`from .model import MODEL_DICT, get_model`
	`2`	`+from .dataset import AnnDataset`