Skip to main content

一个能操作GEO MINiML formatted family文件的Python工具(A Python tool that can manipulate GEO MINiML formatted files)

Project description

pymff

一个Python工具,可以操作GEO MINiML formatted family文件。

功能:

1. 合并每个样本的tbl文件
2. 根据平台文件把探针ID转换为gene symbol
3. 从family xml中提取样本表型信息

安装

使用pip安装:

$ pip install pymff

使用源码安装:

$ git clone git@github.com:taishengxin/pymff.git
$ cd pymff
$ python setup.py install

合并每个样本的tbl文件

$ pymff merge-tbl --help
Usage: pymff merge-tbl [OPTIONS]

  合并tbl文件到探针表达矩阵

Options:
  -wc, --wildcard TEXT            MINiML tbl文件通配符,
                                  例如:'GSE124647/GSM*txt',注意一定要加引号  [required]
  -pemf, --probe-expression-matrix-file PATH
                                  探针表达谱文件  [required]
  --help                          Show this message and exit.

例如:

$ pymff merge-tbl -wc 'GSE124647/GSM*txt' -pemf probe_exp_GSE124647.tsv

关于输出的探针表达谱文件:

1. 一行代表一个探针、一列代表一个样本
2. 第一列是探针ID
3. 以tab键分割

根据平台文件把探针ID转换为gene symbol

$ pymff probe2gene --help
Usage: pymff probe2gene [OPTIONS]

  根据GEO平台文件把探针表达谱文件转换为基因表达谱文件

Options:
  -pemf, --probe-expression-matrix-file PATH
                                  探针表达谱文件  [required]
  -gpf, --geo-platform-file PATH  GEO平台文件  [required]
  -gc, --gene-col INTEGER         GEO平台文件哪一列是gene symbol  [required]
  -af, --aggregation-function [min|max|first|last|mean|median]
                                  当有多个探针对应同一个基因的时候使用什么方法合并,默认是median
  -gemf, --gene-expression-matrix-file PATH
                                  基因表达谱文件  [required]
  --help                          Show this message and exit.

例如:

pymff probe2gene -pemf probe_exp_GSE124647.tsv -gpf GSE124647/GPL96-tbl-1.txt -gc 11 -gemf gene_exp_GSE124647.tsv

关于输出的基因表达谱文件:

1. 一行代表一个基因、一列代表一个样本
2. 第一列是gene symbol
3. 以tab键分割

从family xml中提取样本表型信息

$ pymff parse-pheno --help
Usage: pymff parse-pheno [OPTIONS]

  从family XML中获取表型信息

Options:
  -fxf, --family-xml-file PATH  family XML文件  [required]
  -pf, --pheno-file PATH        表型信息文件  [required]
  --help                        Show this message and exit.

例如:

$ pymff parse-pheno -fxf GSE124647/GSE124647_family.xml -pf pheno_GSE124647.tsv

关于输出表型文件:

1. 行是样本、列是表型属性(例如,性别、年龄、生存时间)
2. 以tab键分割

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Files for pymff, version 0.3.0
Filename, size File type Python version Upload date Hashes
Filename, size pymff-0.3.0-py2.py3-none-any.whl (3.3 kB) File type Wheel Python version py2.py3 Upload date Hashes View hashes
Filename, size pymff-0.3.0.tar.gz (4.6 kB) File type Source Python version None Upload date Hashes View hashes

Supported by

Elastic Elastic Search Pingdom Pingdom Monitoring Google Google BigQuery Sentry Sentry Error logging AWS AWS Cloud computing DataDog DataDog Monitoring Fastly Fastly CDN DigiCert DigiCert EV certificate StatusPage StatusPage Status page