biotite - 生物信息瑞士军刀
文章目录
一、关于 biotite
biotite是您生物信息学的瑞士军刀。
无论您是想识别蛋白质家族中的同源序列区域,还是想在蛋白质结构中找到二硫键:biotite都有适合您的工具。
- github : https://github.com/biotite-dev/biotite
- 官网:https://www.biotite-python.org/latest/
- 官方文档:https://www.biotite-python.org/latest/tutorial/index.html
- examples : https://www.biotite-python.org/latest/examples/gallery/sequence/index.html
- 贡献指南 | discord
此软件包将计算分子生物学中的流行任务捆绑到统一的Python库中。它可以处理序列和生物分子结构数据的典型工作流程的主要部分:
- 从生物数据库中搜索和获取数据
- 读写流行的序列/结构文件格式
- 分析和编辑序列/结构数据
- 可视化序列/结构数据
- 连接外部应用程序以进行进一步分析
biotite内部将大部分数据存储为NumPy ndarray对象,启用
- 快速C加速分析,
- 通过类似NumPy的索引语法实现直观的可用性,
- 通过直接访问内部NumPy数组实现可扩展性。
因此,用户可以跳过为基本功能(如文件解析器)编写代码,并且可以专注于他们的代码的独特之处——从小型分析脚本到整个生物信息学软件包。
如果您在科学出版物中使用biotite,请引用:
Kunzmann, P.&Hamacher,K.BMC生物信息学(2018)19:346。
https://doi.org/10.1186/s12859-018-2367-z
安装
biotite需要以下软件包:
- numpy
- requests
- msgpack
- networkx
某些功能需要一些额外的包:
- matplotlib - 绘图所需。
biotite可以通过 conda 安装…
conda install -c conda-forge biotite
…或pip
pip install biotite
三、用法
这是一个小示例,它从 NCBI Entrez 数据库下载两个蛋白质序列并将它们对齐:
import biotite.sequence.align as align
import biotite.sequence.io.fasta as fasta
import biotite.database.entrez as entrez
# Download FASTA file for the sequences of avidin and streptavidin
file_name = entrez.fetch_single_file(
uids=["CAC34569", "ACL82594"], file_name="sequences.fasta",
db_name="protein", ret_type="fasta"
)
# Parse the downloaded FASTA file
# and create 'ProteinSequence' objects from it
fasta_file = fasta.FastaFile.read(file_name)
avidin_seq, streptavidin_seq = fasta.get_sequences(fasta_file).values()
# Align sequences using the BLOSUM62 matrix with affine gap penalty
matrix = align.SubstitutionMatrix.std_protein_matrix()
alignments = align.align_optimal(
avidin_seq, streptavidin_seq, matrix,
gap_penalty=(-10, -1), terminal_penalty=False
)
print(alignments[0])
MVHATSPLLLLLLLSLALVAPGLSAR------KCSLTGKWDNDLGSNMTIGAVNSKGEFTGTYTTAV-TA
-------------------DPSKESKAQAAVAEAGITGTWYNQLGSTFIVTA-NPDGSLTGTYESAVGNA
TSNEIKESPLHGTQNTINKRTQPTFGFTVNWKFS----ESTTVFTGQCFIDRNGKEV-LKTMWLLRSSVN
ESRYVLTGRYDSTPATDGSGT--ALGWTVAWKNNYRNAHSATTWSGQYV---GGAEARINTQWLLTSGTT
DIGDDWKATRVGINIFTRLRTQKE---------------------
-AANAWKSTLVGHDTFTKVKPSAASIDAAKKAGVNNGNPLDAVQQ
2024-10-02(三)
原文地址:https://blog.csdn.net/lovechris00/article/details/142686427
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!