Labeling factor analysis outputs¶

[2]:

import cytopus as cp
import pandas as pd
import scanpy as sc

[3]:

G = cp.KnowledgeBase()

KnowledgeBase object containing 92 cell types and 201 cellular processes

write files required to re-build cytopus KnowledgeBase to .csv¶

[4]:

#write cell type hierarchy
cp.tl.hierarchy_to_csv(G.get_celltype_hierarchy(),filename='hierarchy.csv',header_name=['Parent','Child'])

[5]:

#write cellular processes
cp.tl.geneset_to_csv(G.processes, filename='processes.csv', header_name=['gene_set_name','gene_name'])

[6]:

#write cellular processes
cp.tl.geneset_to_csv(G.identities, filename='identities.csv', header_name=['gene_set_name','gene_name'])

[7]:

#write metadata to csv
#current cellular processes have no 'class' attribute, this will be fixed in future versions
cp.tl.metadata_to_csv(G.graph, 'metadata.csv', specific_class = False, class_value=None)

Export gene sets from KnowledgeBase as .gmt files¶

[4]:

#get cellular processes
gp_dict = G.processes

[5]:

#get cellular identities
cell_dict = G.identities

[8]:

#save to gmt files
cp.label.get_gmt(cell_dict,save=True,path='cell_identities.gmt')
cp.label.get_gmt(gp_dict,save=True,path='cellular_processes.gmt')

print saving to: cell_identities.gmt
print saving to: cellular_processes.gmt

[9]:

#load cellular identities gmt files
cell_gmt = pd.read_csv('cell_identities.gmt',sep='\t',header=None,index_col=0)
cell_gmt

[9]:

	1	2	3	4	5	6	7	8	9	10	...	24	25	26	27	28	29	30	31	32	33
0
TCM	S1PR4	CD27	CXCR3	CD58	CD44	S1PR1	IL7R	CCR7	ITGAL	CD28	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
Treg	ENTPD1	IL2RA	TGFB1	NT5E	TNFRSF9	TNFRSF18	FOXP3	CTLA4	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
T-naive	S1PR4	CD28	S1PR1	IL7R	CD27	CCR7	SELL	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B-pb-t2	IGHM	CR2	JCHAIN	FCER2	PRSS3	MME	CD38	CD24	IL10	IGHD	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
endo-lymphatic	PKHD1L1	MMRN1	FLT4	TFF3	SEMA3D	TBX1	PROX1	RELN	LINC02147	TM4SF18	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
TSCM	CD28	ATXN1	SELL	CD27	FAS	IL2RB	CCR7	IL7R	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
cDC1	DPP4	CLEC9A	THBD	CD8A	BTLA	IRF8	XCR1	ID2	CADM1	CD226	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
ILC1	KLRB1	IL1R1	IL1R2	IL12RB1	NCR3	TNFRSF10A	CXCR3	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
NK-adaptive	FCGR3A	NCAM1	KLRC2	CD2	LILRB1	IFNG	B3GAT1	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
TEM	CD28	B3GAT1	IL7R	CD27	FAS	CD58	ITGAL	IL2RB	CD44	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
FDC	MFGE8	FDCSP	CR2	CR1	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
endo-systemic-venous	IGFBP7	BMPR2	ESAM	VWF	AQP1	EBF1	ZNF385D	PCDH17	LIMS2	IFI27	...	PDE7B	CLEC14A	SLCO2A1	TSHZ2	MCTP1	COL15A1	NaN	NaN	NaN	NaN
endo-aerocyte	IFI27	CA4	EXPH5	FLT1	B3GALNT1	ITM2A	PCDH17	HPGD	AFF3	ESAM	...	ADGRL2	CYP3A5	ADGRF5	RCSD1	KIAA1217	PRKG1	ENG	SOSTDC1	SHROOM4	RGCC
CD56bright-NK	NCR1	ITGA5	KLRF1	IL7R	CCR7	NCR3	KLRG1	KLRC1	IFNG	KLRK1	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
plasma-blast	XBP1	IL6RA	ZBTB20	TNFRSF17	IL6ST	CXCR4	IRF4	HLA-DPB1	HLA-DQB1	HLA-DQA1	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
CD8-T_KLRG1pos-effector	ITGAL	IFNG	GZMB	FAS	CD58	IL2RB	B3GAT1	KLRG1	CD44	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
p-DC	FCER1G	CLEC4C	IRF4	NRP1	ZEB2	IRF7	IL3RA	TCF4	IRF8	LILRB4	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
mast	KIT	TPSB2	ENPP3	MS4A2	TPSD1	PTGDR	GATA2	HDC	IL1RL1	TPSAB1	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B-memory-DN	JCHAIN	IGHA1	IGHM	IGHA2	IGHG1	IGHG3	IGHG2	IGHG4	FCRL5	ITGAX	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B-naive	CCR7	CD40	SELL	IGHD	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
CD4-T	IL17A	RORC	IL6	CD4	BCL6	IL21	IL17B	CD40LG	ICOS	GATA3	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B-pb-t3	PRSS3	IGHD	CD24	CD38	IL10	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B	CD79A	CD79B	CD19	MS4A1	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B-pb-mature	IGHD	CD38	CD80	CD69	FCER2	CD24	CD86	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
Mac	MARCO	CD36	MSR1	CD68	APOE	MRC1	CD163	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
gran	CXCR2	CSF3R	ACOD1	CEACAM8	FFAR4	MPO	CD24	CTSG	FUT4	LTF	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
cDC2	CD33	ID2	CD2	LILRA2	IL23A	CLEC10A	IRF4	FCER1G	CD1C	FCER1A	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
CD56dim-NK	CXCR1	CXCR2	KLRK1	GZMB	KLRG1	EOMES	ITGA5	GZMA	KLRF1	NCR1	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
TRM	CD69	ITGAE	ITGAL	CD44	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
Lti	RORC	IL7R	IL1R2	TNFSF11	KIT	CCR6	IL23R	IL1R1	AHR	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
ILC3-NCRpos	KLRB1	IL23R	AHR	KIT	IL1R2	RORC	ICOS	IL7R	TNFSF11	NCR2	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
abT	CD3E	CD3D	CD3G	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
TFH	IL6	CD84	S1PR1	IL21R	CXCR5	BCL6	IL21	STAT3	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
mono	FCGR1B	FCGR2A	FCGR2B	FCGR1A	TLR2	CR1	ITGAM	SPI1	RXRA	CD14	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
CD8-T_KLRG1neg-effector	IL2RB	ITGAL	B3GAT1	CD44	IL7R	CD58	IFNG	FAS	GZMB	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B-memory-IgM-MZ	DTX1	CD1D	NOTCH2	JCHAIN	CD1C	CD24	IGHM	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
cDC3	TNFSF18	CD14	FSCN1	IL15	CCR7	CD86	LAMP3	CD1C	CCL22	CD163	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B-memory-switched	IGHM	IGHG3	IGHA2	IGHG2	JCHAIN	IGHA1	IGHG1	IGHG4	CD24	CD38	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
ILC3-NCRneg	KLRB1	IL7R	IL1R2	IL23R	KIT	TNFSF11	RORC	AHR	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
Langerhans	CDH1	EPCAM	TGFBR3	CD1A	RUNX3	TACSTD2	ID2	LILRA4	CD207	TGFBR1	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
mo-DC	CD1C	MAFB	ITGAX	FCGR1A	CD209	CD1A	S100A8	SIRPA	S100A9	KLF4	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
endo-arterial	CLEC14A	CLDN10	ITM2A	EPAS1	LTBP4	CXCL12	DKK2	HEY1	IGFBP3	SHROOM4	...	LIMS2	ENG	ADGRL4	NaN	NaN	NaN	NaN	NaN	NaN	NaN
ILC2	PTGDR2	KLRB1	AHR	IL7R	IL17RB	CCR4	GATA3	ICOS	IL2RA	KLRG1	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
plasma	IL6ST	IL6RA	ZBTB20	TNFRSF17	IRF4	PRDM1	XBP1	ENPP1	IL6R	HLA-DMA	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B-pb-t1	IGHM	JCHAIN	IL10	CD38	PRSS3	CD24	MME	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
lung-endo-venous	BMPR2	MMRN1	EFEMP1	MCTP1	CDH11	PTGS1	PLAT	CLU	ACKR1	DKK3	...	ITM2A	PDZRN4	ADGRL4	IGFBP7	SHROOM4	IFI27	VWF	NaN	NaN	NaN
gdT	TRGC2	IL17F	TRDC	IL17B	TRGC1	IL17A	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
NK	KLRK1	NCR3	IL12RB1	KLRF1	NCAM1	EOMES	NCR1	KLRG1	TBX21	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
capillary	ADGRF5	IL18R1	CD36	SLCO2A1	NRXN3	RGCC	ESAM	FLT1	BTNL9	CLEC14A	...	IFI27	AFF3	ENG	FCN3	NaN	NaN	NaN	NaN	NaN	NaN
CD8-T	TRBC1	TRAC	TRBC2	GZMB	PRF1	GZMA	EOMES	CD8A	CD8B	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B-memory	CXCR3	CD24	CD27	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
B-memory-non-switched	IGHM	JCHAIN	CD1C	CD38	CD24	IGHD	CD27	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
GC-B	LTA	CXCL13	BCL6	TCF3	CD38	TLR4	MKI67	AICDA	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

53 rows × 33 columns

[10]:

#load cellular identities gmt files
cell_gmt = pd.read_csv('cellular_processes.gmt',sep='\t',header=None,index_col=0)
cell_gmt

[10]:

	1	2	3	4	5	6	7	8	9	10	...	410	411	412	413	414	415	416	417	418	419
0
all_chondroitine-and-heparan-sulfate_synthesis	HS3ST1	UST	CHST11	HS3ST4	XYLT1	CHPF2	NDST3	B3GAT3	EXTL1	HS3ST5	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
all_retinol_metabolism	ZADH2	ADH1A	UGT1A8	ADH7	SDR16C5	RDH12	ALDH1A2	ALDH1A3	AOX1	RDH16	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
all_RIG-I-like-receptor_signaling	IKBKG	IL12A	IFIH1	IFNA14	MAPK14	ATG12	MAPK8	STING1	TNF	MAPK9	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
leuko_transendothelial-migration	ESAM	MYLPF	CTNNA2	MYL12A	TXK	CLDN8	PTK2B	MMP9	PTPN11	CLDN9	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
all_propanoate_metabolism	SLC16A3	SLC5A12	SLC16A8	HIBCH	SLC16A1	SLC16A7	SLC5A8	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
all_eicosanoid_metabolism	CYP4F12	MGST3	SLCO4A1	TBXAS1	CYP4F8	CBR1	PTGDS	SLCO2A1	PTGS2	SLC22A2	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
CD4-T_IL12_response	ACVR1B	RHOG	UPF3A	LCP1	PLXNB2	SLC6A12	ZNF516	STK40	PDE6D	SLC38A2	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
all_fatty-acid-beta-oxidation-mitochondrial	ACAD10	ACOT2	ETFDH	ETFB	ECHS1	HADHA	ADH5	ADH6	ECI1	ADH1A	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
all_posttranslation-modification	P4HA2	P4HB	PLOD2	HMGCR	SLC25A1	SLC33A1	MTMR3	P4HA1	PLOD1	GGPS1	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
all_transmembrane-transport-cellmembrane	ATP2B4	ATP1A3	SLC34A2	SLC20A1	SLC17A4	SLC26A9	SLC26A4	SLC8A1	SLC26A2	SLC17A2	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

201 rows × 419 columns

Label output from Spectra or other factor analysis method¶

[12]:

#load example data
#this data contains a standard Spectra output in adata.obsm and adata.uns
adata = sc.read('data/adata_spectra.h5ad')
adata

[12]:

AnnData object with n_obs × n_vars = 10000 × 6397
    obs: 'cell_type_annotations'
    var: 'n_cells_by_counts', 'highly_variable', 'spectra_vocab'
    uns: 'SPECTRA_L', 'SPECTRA_factors', 'SPECTRA_markers', 'annotation_SPADE_1_colors', 'cell_type_annotations_colors', 'diffmap_evals', 'draw_graph', 'hvg', 'neighbors', 'pca'
    obsm: 'SPECTRA_cell_scores', 'X_diffmap', 'X_draw_graph_fa', 'X_pca', 'X_tsne', 'X_umap'
    varm: 'PCs'
    obsp: 'connectivities', 'distances'

[13]:

#the marker genes are stored here (but you can use any other numpy array or a list of lists)
adata.uns['SPECTRA_markers']

[13]:

array([['SLC5A6', 'BTD', 'SLC16A1', ..., 'NOD2', 'MTDH', 'IL22RA1'],
       ['SLC2A9', 'NT5E', 'XDH', ..., 'ITPA', 'FDX1', 'NDUFB3'],
       ['ALDH3B1', 'ALDH1B1', 'ALDH3A1', ..., 'S100A11', 'SV2A',
        'POLR2G'],
       ...,
       ['ZAP70', 'SGK1', 'TCF7', ..., 'CDC42EP2', 'CYB561D2', 'PODN'],
       ['TCF4', 'LILRA4', 'PLPP3', ..., 'CYP19A1', 'ASPM', 'CUL2'],
       ['FKBP11', 'IGLL5', 'CRELD2', ..., 'PELI1', 'FN3KRP', 'TCEAL7']],
      dtype=object)

load the cytopus KnoweldgeBase or a dictionary of format:

{‘gene_set_name_a’:[‘gene_a’,’gene_b’,’gene_c’,…],’gene_set_name_b’:[‘gene_a’,’gene_d’,…]}

[14]:

G = cp.KnowledgeBase()
G

KnowledgeBase object containing 92 cell types and 201 cellular processes

[14]:

<cytopus.knowledge_base.kb_queries.KnowledgeBase at 0x7fa4c7dabac0>

Get the factor cell type

In Spectra the cell scores for cell type specific factors will be != 0 only for the cell type they are specific too. All other “global” actors will be express across cell types. Currently we are not aware of another method which allows for incorporating both global and cell type specific factors. This might be extended in the future to give the degree of cell type specificity for methods which do not explicitly incorporate the cell type.

Use the get_celltype function to infer cell type specificity.

Description:

For a list of factors check in which cell types they are expressed

adata: anndata.AnnData, containing cell type labels in adata.obs[celltype_key]

celltype_key: str, key for adata.obs containing the cell type labels

factor_list: list, list of keys for factor loadings in .obs, if none use factor loadings in adata.obsm[‘SPECTRA_factors’]

return: dictionary mapping factor names and celltypes

Spectra_cell_scores: str, key for Spectra cell scores in adata.obsm

[15]:

#use function to infer cell type specificity
cell_type_specificity = cp.label.get_celltype(adata, celltype_key='cell_type_annotations',
             factor_list=None, Spectra_cell_scores= 'SPECTRA_cell_scores')

Use the label_marker_genes function to label marker genes based on their Szymkiewicz–Simpson overlap coefficient with the input gene sets

Description:

label an array of marker genes using a KnowledgeBase or a dictionary derived from the KnowledgeBase

returns a dataframe of overlap coefficients for each gene set annotation and marker gene

marker_genes: numpy.array or list of lists, factors x marker genes

gs_label_dict: cytopus.KnowledgeBase or dict, with gene set names (str) as keys and gene sets (list) as values

threshold: float, if overlap coefficient > than threshold the factor will be labeled with the gene set name with

maximum overlap coefficient

returns: pandas.DataFrame, with overlap coefficients of factors (rows) and gene sets (columns), indices are relabeled to the gene set with the maximum overlap coefficient

[16]:

#label marker genes
overlap_df = cp.label.label_marker_genes(adata.uns['SPECTRA_markers'], G.processes, threshold = 0.2)
overlap_df

[16]:

	all_chondroitine-and-heparan-sulfate_synthesis	all_retinol_metabolism	all_RIG-I-like-receptor_signaling	leuko_transendothelial-migration	all_propanoate_metabolism	NSCLC-carcinoma-cell_TGFB1_response	all_p53-signaling	all_autophagy-selective	all_circadian-rhythm	all_VAL-LEU-ILE_metabolism	...	all_folate_metabolism	all_CYP_metabolism	T_IL21_response	p-DC_CpG-TLR9_response	all_NOD-like-receptor_signaling	all_eicosanoid_metabolism	CD4-T_IL12_response	all_fatty-acid-beta-oxidation-mitochondrial	all_posttranslation-modification	all_transmembrane-transport-cellmembrane
all_biotin_metabolism	0.00	0.000000	0.00	0.0	0.142857	0.00	0.00	0.0	0.0	0.04	...	0.058824	0.0	0.0	0.0	0.04	0.00	0.0	0.000000	0.000000	0.04
all_purine_metabolism	0.00	0.000000	0.00	0.0	0.000000	0.00	0.08	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.000000	0.000000	0.00
all_ethanol_metabolism	0.00	0.181818	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.086957	0.000000	0.00
all_amino-sugar-nucleotide-sugar_metabolism	0.00	0.000000	0.00	0.0	0.000000	0.04	0.04	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.000000	0.000000	0.00
all_steroid_metabolism	0.00	0.000000	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.08	0.0	0.000000	0.090909	0.00
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
mast_granule-exocytosis	0.04	0.000000	0.00	0.0	0.000000	0.00	0.04	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.04	0.0	0.000000	0.000000	0.00
192	0.00	0.000000	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.08	0.0	0.000000	0.000000	0.00
p-DC_CpG-TLR9_response	0.00	0.000000	0.04	0.0	0.000000	0.00	0.04	0.0	0.0	0.00	...	0.000000	0.0	0.0	1.0	0.04	0.00	0.0	0.000000	0.000000	0.00
194	0.00	0.000000	0.00	0.0	0.000000	0.04	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.04	0.0	0.000000	0.000000	0.00
195	0.00	0.000000	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.000000	0.000000	0.00

196 rows × 201 columns

[17]:

#add cell type to relabeled factor marker genes dataframe

#get celltypes
new_index = []
for i,v in enumerate(overlap_df.index):
  new_index.append(cell_type_specificity[i]+'-X-'+str(v))

#change index
overlap_df.index = new_index
overlap_df

[17]:

	all_chondroitine-and-heparan-sulfate_synthesis	all_retinol_metabolism	all_RIG-I-like-receptor_signaling	leuko_transendothelial-migration	all_propanoate_metabolism	NSCLC-carcinoma-cell_TGFB1_response	all_p53-signaling	all_autophagy-selective	all_circadian-rhythm	all_VAL-LEU-ILE_metabolism	...	all_folate_metabolism	all_CYP_metabolism	T_IL21_response	p-DC_CpG-TLR9_response	all_NOD-like-receptor_signaling	all_eicosanoid_metabolism	CD4-T_IL12_response	all_fatty-acid-beta-oxidation-mitochondrial	all_posttranslation-modification	all_transmembrane-transport-cellmembrane
global-X-all_biotin_metabolism	0.00	0.000000	0.00	0.0	0.142857	0.00	0.00	0.0	0.0	0.04	...	0.058824	0.0	0.0	0.0	0.04	0.00	0.0	0.000000	0.000000	0.04
global-X-all_purine_metabolism	0.00	0.000000	0.00	0.0	0.000000	0.00	0.08	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.000000	0.000000	0.00
global-X-all_ethanol_metabolism	0.00	0.181818	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.086957	0.000000	0.00
global-X-all_amino-sugar-nucleotide-sugar_metabolism	0.00	0.000000	0.00	0.0	0.000000	0.04	0.04	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.000000	0.000000	0.00
global-X-all_steroid_metabolism	0.00	0.000000	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.08	0.0	0.000000	0.090909	0.00
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
mast-X-mast_granule-exocytosis	0.04	0.000000	0.00	0.0	0.000000	0.00	0.04	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.04	0.0	0.000000	0.000000	0.00
mast-X-192	0.00	0.000000	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.08	0.0	0.000000	0.000000	0.00
pDC-X-p-DC_CpG-TLR9_response	0.00	0.000000	0.04	0.0	0.000000	0.00	0.04	0.0	0.0	0.00	...	0.000000	0.0	0.0	1.0	0.04	0.00	0.0	0.000000	0.000000	0.00
pDC-X-194	0.00	0.000000	0.00	0.0	0.000000	0.04	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.04	0.0	0.000000	0.000000	0.00
plasma-X-195	0.00	0.000000	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.000000	0.000000	0.00

196 rows × 201 columns

[18]:

#add index to make labels unique
new_index =[]
for h,i in enumerate(overlap_df.index):
    new_index.append(str(h)+'-X-'+str(i))

overlap_df.index = new_index
overlap_df

[18]:

	all_chondroitine-and-heparan-sulfate_synthesis	all_retinol_metabolism	all_RIG-I-like-receptor_signaling	leuko_transendothelial-migration	all_propanoate_metabolism	NSCLC-carcinoma-cell_TGFB1_response	all_p53-signaling	all_autophagy-selective	all_circadian-rhythm	all_VAL-LEU-ILE_metabolism	...	all_folate_metabolism	all_CYP_metabolism	T_IL21_response	p-DC_CpG-TLR9_response	all_NOD-like-receptor_signaling	all_eicosanoid_metabolism	CD4-T_IL12_response	all_fatty-acid-beta-oxidation-mitochondrial	all_posttranslation-modification	all_transmembrane-transport-cellmembrane
0-X-global-X-all_biotin_metabolism	0.00	0.000000	0.00	0.0	0.142857	0.00	0.00	0.0	0.0	0.04	...	0.058824	0.0	0.0	0.0	0.04	0.00	0.0	0.000000	0.000000	0.04
1-X-global-X-all_purine_metabolism	0.00	0.000000	0.00	0.0	0.000000	0.00	0.08	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.000000	0.000000	0.00
2-X-global-X-all_ethanol_metabolism	0.00	0.181818	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.086957	0.000000	0.00
3-X-global-X-all_amino-sugar-nucleotide-sugar_metabolism	0.00	0.000000	0.00	0.0	0.000000	0.04	0.04	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.000000	0.000000	0.00
4-X-global-X-all_steroid_metabolism	0.00	0.000000	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.08	0.0	0.000000	0.090909	0.00
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
191-X-mast-X-mast_granule-exocytosis	0.04	0.000000	0.00	0.0	0.000000	0.00	0.04	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.04	0.0	0.000000	0.000000	0.00
192-X-mast-X-192	0.00	0.000000	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.08	0.0	0.000000	0.000000	0.00
193-X-pDC-X-p-DC_CpG-TLR9_response	0.00	0.000000	0.04	0.0	0.000000	0.00	0.04	0.0	0.0	0.00	...	0.000000	0.0	0.0	1.0	0.04	0.00	0.0	0.000000	0.000000	0.00
194-X-pDC-X-194	0.00	0.000000	0.00	0.0	0.000000	0.04	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.04	0.0	0.000000	0.000000	0.00
195-X-plasma-X-195	0.00	0.000000	0.00	0.0	0.000000	0.00	0.00	0.0	0.0	0.00	...	0.000000	0.0	0.0	0.0	0.00	0.00	0.0	0.000000	0.000000	0.00

196 rows × 201 columns