TM-align蛋白质聚类数据格式转化

🕗 发布于 2024-09-24 06:59 python 生物信息学

TM-align 对蛋白质结构中的序列进行同源性聚类分析的结果格式如下：

8p0k_H8p0k_H
8p0k_H8p0n_H
8p0k_H8p0j_H
8p0v_M8p0v_M
8p0y_O8p0y_O
8p0y_O8p10_O
8p0y_O8p0y_A
8p0y_O8p10_D
8p0y_O8p24_V
8p0y_O8p24_Z

其中，第一列为聚类的代表序列，第二列为这一聚类的同源序列

把这个格式转换成csv文件：

第一列为编号，第二列为聚类的代表序列，第三列为所有的其它同源序列，逗号隔开。

如：

IDX   CLUSTER   HOMOLOG

1     8p0k_H    "8p0n_H,8p0j_H"

代码：

import csv
from collections import defaultdict

# 初始化字典存储代表序列及其同源序列
clusters = defaultdict(list)

# 从文件中读取数据
with open('result.tsv', 'r') as file:
    for line in file:
        rep, seq = line.strip().split()  # 去除换行符并按制表符分割
        if rep != seq:  # 只保留同源序列，去掉代表序列
            clusters[rep].append(seq)

# 将结果写入CSV
with open('clusters.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['IDX', 'CLUSTER', 'HOMOLOG'])
    
    for idx, (rep, seqs) in enumerate(clusters.items(), 1):
        writer.writerow([idx, rep, ','.join(seqs)])

print("CSV文件已生成")

可以进一步把不符合要求的结构过滤掉，从而得到的数据集可以用于结构预测或蛋白质设计的模型研究。

原文地址：https://blog.csdn.net/qq_27390023/article/details/142468491

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲
下一篇：掌上高考爬虫逆向分析

软考之面向服务架构SOA-通信方法
SOAP 是一种基于 XML 的协议，用于在分布式计算环境中交换结构化信息。它定义了一套标准的消息格式，可以通过各种网络协议（如 HTTP、SMTP）进行传输。REST 是一种基于 HTTP 协议的架
阅读更多2024-11-14
Python基础教程：文件操作
上述内容介绍了Python中文件操作的基本方法，包括使用`open()`函数打开文件、读取和写入文件、关闭文件以及使用`with`语句自动管理文件的打开和关闭。还提到了文件操作中可能遇到的异常处理。
阅读更多2024-11-14
24/11/13 算法笔记＜强化学习＞ DQN算法
DQN维护两个神经网络，一个是用于预测Q值的评估网络（Evaluation Network），另一个是用于生成目标Q值的目标网络（Target Network）。：在传统的Q学习中，需要维护一个Q表来
阅读更多2024-11-14
测试自动化如何和业务流程结合？
测试自动化框架固然重要，但是最终自动化的目的都是为了业务服务的。那测试自动化如何对业务流程产生积极影响？
阅读更多2024-11-14
通过微信测试公众号实现扫码登录
实现微信的扫码登录，向微信服务器发送请求，获取accesstoken和ticket，获取二维码，登录成功后会回调，发送模板信息
阅读更多2024-11-14
【2024最新】基于springboot+vue的闲一品交易平台lw+ppt
开发技术：SpringBoot、php、Python、小程序、SSM、Vue、MySQL、JSP、ElementUI等，。专栏推荐：SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小
阅读更多2024-11-14
java组件安全
默认端口：8983。
阅读更多2024-11-14
1111111111待修改--大流量分析（三）-BUUCTF
https://buuoj.cn/challenges#%E5%A4%A7%E6%B5%81%E9%87%8F%E5%88%86%E6%9E%90%EF%BC%88%E4%B8%89%EF%BC%89
阅读更多2024-11-14
DAY111PHP开发框架&THIKNPHP&反序列化&POP利用链&RCE执行&文件删除
函数方法file_exists，@unlink($filename);//$relation可控，找到一个没有visible方法或不可访问这个方法的类时，即可调用_call()魔法方法。1、__des
阅读更多2024-11-14
如何在OCI上配置并使用OCI GenAI服务的步骤
如何在OCI上配置并使用OCI GenAI服务的步骤
阅读更多2024-11-14

TM-align蛋白质聚类数据格式转化

相关文章