RoseTTAFold parse_hhr函数解读

🕗 发布于 2024-11-18 09:05 生物信息学 python

parse_hhr 函数用于解析 .hhr 文件并结合 ffindex 数据库提取比对信息。它提取每个比对的详细信息，包括匹配的位置信息、相似性评分、置信度和其他统计信息，最终返回所有有效比对的结果。

在蛋白质结构计算中，该函数的主要作用是从 .hhr 文件中提取与查询序列相关的模板信息，用于下游分析，比如蛋白质的同源建模、功能预测、或结构比对优化。

源代码：

from collections import namedtuple
import re

FFindexEntry = namedtuple("FFindexEntry", "name, offset, length")

def read_index(ffindex_filename):
    entries = []
    
    fh = open(ffindex_filename)
    for line in fh:
        tokens = line.split("\t")
        entries.append(FFindexEntry(tokens[0], int(tokens[1]), int(tokens[2])))
    fh.close()
    
    return entries


# parse HHsearch output
def parse_hhr(filename, ffindex, idmax=105.5):

    # labels present in the database
    label_set = set([i.name for i in ffindex])

    out = []

    with open(filename, "r") as hhr:

        # read .hhr into a list of lines
        lines = [s.rstrip() for _,s in enumerate(hhr)]

        # read list of all hits, 前两个空行之间。
        start = lines.index("") + 2
        stop = lines[start:].index("") + start
        hits = []
        for line in lines[start:stop]:

            # ID of the hit
            #label = re.sub('_','',line[4:10].strip())
            label = line[4:10].strip()

            # position in the query where the alignment starts
            qstart = int(line[75:84].strip().split("-")[0])-1

            # position in the template where the alignment starts
            tstart = int(line[85:94].strip().split("-")[0])-1

            hits.append([label, qstart, tstart, int(line[69:75])]) # line[69:75] 比对上的序列数


        #print(f"hits:{hits}")
        
        # get line numbers where each hit starts
        start = [i for i,l in enumerate(lines) if l and l[0]==">"] # and l[1:].strip() in label_set]

        # process hits
        for idx,i in enumerate(start):

            # skip if hit is too short
            if hits[idx][3] < 10:
                continue

            # skip if template is not in the database
            if hits[idx][0] not in label_set:
                continue

            # get hit statistics
            p,e,s,_,seqid,sim,_,neff = [float(s) for s in re.sub('[=%]', ' ', lines[i+1]).split()[1::2]]
           
            #print(f"p:{p}")
            #print(f"seqid:{seqid}")
            #print(f"s:{s}")
            #print(f"sim:{sim}")
            #print(f"neff:{neff}")
            
            # skip too similar hits
            if seqid > idmax:
                continue

            query = np.array(list(lines[i+3].split()[3]), dtype='|S1')
            tmplt = np.array(list(lines[i+7].split()[3]), dtype='|S1')

            simlr = np.array(list(lines[i+7][22:]), dtype='|S1').view(np.uint8)
            abc = np.array(list(" =-.+|"), dtype='|S1').view(np.uint8)
            
            for k in range(abc.shape[0]):
                simlr[simlr == abc[k]] = k

            confd = np.array(list(lines[i+10][22:]), dtype='|S1

原文地址：https://blog.csdn.net/qq_27390023/article/details/143828354

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：红外遥控信号解码
下一篇：LabVIEW三针自动校准系统

Flink学习连载文档第一篇--Flink集群的安装
Flink支持多种安装模式。local（本地）——本地模式standalone——独立模式，Flink自带集群，开发测试环境使用standaloneHA—独立集群高可用模式，Flink自带集群，开发测
阅读更多2024-11-22
小R的随机播放顺序
小R有一个特殊的随机播放规则。他首先播放歌单中的第一首歌，播放后将其从歌单中移除。如果歌单中还有歌曲，则会将当前第一首歌移到最后一首。这个过程会一直重复，直到歌单中没有任何歌曲。为了实现这个播放规则，
阅读更多2024-11-22
【无标题】
shell脚本判断服务是否安装及运行状态。
阅读更多2024-11-22
R语言debug01-安装bibliometrix出现错误
使用install.packages(“webshot2”)是可以打开成功的，但是仍然出现报错！在一台新电脑上安装bibliometrix，因为有经验，觉得不会出什么问题。更新重新安装都尝试了，仔细
阅读更多2024-11-22
单例模式与QT中的C++实现
单例模式在Qt中的实现
阅读更多2024-11-22
C语言菜鸟入门·关键字·void的用法
在 C 语言中，void 是一个关键字，用于表示“无类型”或“没有值”。
阅读更多2024-11-22
MySQL 的 Change Buffer 是什么？它有什么作用？
是 MySQL InnoDB 存储引擎中的一个缓存机制，它用于缓存对非主键索引（Secondary Indexes）页的更改。这个缓存区的主要目的是延迟对这些索引页的写操作，以减少磁盘 I/O，从而提
阅读更多2024-11-22
1.langchain中的prompt模板(Prompt Templates)
通过本教程，我们学习了如何使用 LangChain 的和来创建和处理文本提示。这些工具可以帮助我们灵活地生成和管理多轮对话和动态内容。希望这个教程对你有所帮助！如果有任何问题，欢迎随时提问。
阅读更多2024-11-22
经验笔记：git checkout 与 git switch
在使用 Git 进行版本控制时，和git switch是两个常用的命令，用于分支管理和文件恢复。虽然它们有一些相似之处，但各自的功能和使用场景有所不同。本文将详细介绍这两个命令的用法、区别和实际应用示
阅读更多2024-11-22
Git推送+拉去+uwsgi+Nginx服务器部署项目
本文介绍了一个项目从开发到部署的全过程，重点关注Git版本控制系统的使用，包括代码的推送、拉取操作，以及使用uwsgi与Nginx服务器进行项目部署的步骤。
阅读更多2024-11-22

RoseTTAFold parse_hhr函数解读

源代码：

相关文章