病理组学分析系列教程1:使用Python-histolab进行病理图像预处理,tiles切片自动生成
首先,先上参考资料链接:
一、病理图像预处理
相信很多朋友对于WSI这种巨大的病理图像的预处理都觉得束手无策,其实我一开始也是,总觉得几个G的图像该如何预处理才能使其适合深度学习的输入呢?我们看到很多文献都是说将一个完整的WSI切分成tiles(处理成512*512或者1024*1024等分辨率),但是如何切分呢?需要什么样性能的设备才能够满足处理要求呢?在网上搜教程大多数的描述也都是浅尝辄止。
接下来我将使用自己本地的台式机(配置:内存64G;显卡:4090; CPU:Intel 13代 i9-13900K)进行病理WSI的tiles花式切分。
裁剪的要领是什么?就是保留尽可能多的WSI的靶区,然后剔除掉空白或者多余的部分。目前常用的病理图像处理的桌面工具有imagescope、Cellprofier、Qupath。我们进行Qupath的病理图像查看示范,这是一个完整的病理SVS格式的图像。左侧方框内是图像的详细信息,可以进行标注,分割,特征提取等操作。
虽然Qupath已经非常强大,但是要进行深度学习的大批量病理图像tiles切分和预处理,还是效率差了一些。当我们需要训练模型做深度学习时,需要输入的图片往往是要成千上万塞入深度学习网络进行学习的,需要将一张完整的WSI切分N个tiles进行后续分析,大小在256*256左右,这个时候其实大小需要自己设置,那怎么办呢?
Histolab-强大的病理图像处理库:https://pypi.org/project/histolab/(教程非常齐全)
安装方法:创建病理图像处理的虚拟环境之后,直接 pip install histolab,支持Python3.8及以上的版本。
1. 首先是读入并查看WSI的详细图像信息:
from histolab.slide import Slide
import os
BASE_PATH = os.getcwd() # 获取当前工作目录
print(BASE_PATH) # 输出当前工作目录
HCC_path = './WSI_data/57967.svs' # SVS文件路径
path = r"./WSI_data/57967" # 切割后图片存放的位置
HCC_slide = Slide(HCC_path,processed_path=path) # 实例化slide对象
print(f"Slide name:{HCC_slide.name}") # 输出slide名称
print(f"Levels:{HCC_slide.levels}") # 输出slide的可用放大级别
print(f"Dimensions at level 0:{HCC_slide.dimensions}") # 输出级别0的slide的尺寸,一般level0是原始图像尺寸,接下来的level1、level2、level3是缩小的尺寸
print(f"Dimensions at level 1:{HCC_slide.level_dimensions(level=1)}") # 输出级别1的slide的尺寸
print(f"Dimensions at level 2:{HCC_slide.level_dimensions(level=2)}") # 输出级别2的slide的尺寸
print(f"Dimensions at level 3:{HCC_slide.level_dimensions(level=3)}") # 输出级别3的slide的尺寸
print("Native magnification factor:", HCC_slide.level_magnification_factor()) # 输出slide的原生放大倍率
print("Magnification factor corresponding to level 0:", HCC_slide.level_magnification_factor(level=0), ) # 输出级别0的slide的放大倍率
print("Magnification factor corresponding to level 1:", HCC_slide.level_magnification_factor(level=1), ) # 输出级别1的slide的放大倍率
print("Magnification factor corresponding to level 2:", HCC_slide.level_magnification_factor(level=2), ) # 输出级别2的slide的放大倍率
print("Magnification factor corresponding to level 3:", HCC_slide.level_magnification_factor(level=3), ) # 输出级别3的slide的放大倍率
HCC_slide.thumbnail # 输出slide的缩略图
运行速度非常快,我的设备上只需要0.2s,该WSI图像的大小是2.57G, 运行结果如下:
2. 不同的裁剪Tiles方式设置(随机抽取、网格提取,基于分数的提取),
histolab的优势:histolab具有自动检测具有最大连接区域的组织区域并裁减该区域内的tile的功能,不同的tiler模块可实现不同的tile提取策略。
2.1 随机抽取最大连接区域的组织区域并裁剪tiles,运行RandomTiler方法,其中的tile_size, n_tiles, level, prefix, suffix参数分别根据自身的要求设置,依次代表切分的tiles的尺寸,数目, 分辨率层级,创建子文件夹的名字,保存图像的类型。其中check_tissue参数设置为True才能仅获取有足够组织图像的区域,否则会包括空白的区域。
from histolab.tiler import RandomTiler # 导入RandomTiler类
"""
histolab自动检测具有最大连接区域的组织区域并裁减该区域内的tile
"""
# 实例化RandomTiler类
random_tiles_extractor = RandomTiler(
tile_size=(224, 224), # 设置裁剪的tile尺寸
n_tiles=500, # 设置生成的tile数量
level=1, # 设置tile的分辨率层数
seed=42, # 设置随机数种子
check_tissue=True, # 设置为True时,仅保留具有组织的tile, 否则保留所有tile
tissue_percent=80.0, # 介于0-100之间的数字,表示图像中总面积中所需的最小组织百分比(默认为80.0)
prefix="RandomTiles/", # 会自动在WSI文件所在的文件夹中创建WSI文件名命名的子文件夹,并在该子文件夹中创建RandomTiles子文件夹并保存tiles
suffix=".png" # 要添加到tiles文件名末尾的文件类型后缀(默认为.png)
)
# 运行locate_tiles()方法,将图块定位到slide中,可以预览图块的位置,不满意的话可以调整参数
random_tiles_extractor.locate_tiles(
slide=HCC_slide,
scale_factor=24, # default
alpha=128, # default
outline="red", # 以红色方框显示定位的图块
)
显示随机获取的tiles切片定位预览图像
保存随机抽取的这500张tiles到指定文件夹下(RandomTiles),只有运行了下面这行代码才会保存这些tiles
# 运行extract()方法将图块保存到磁盘
random_tiles_extractor.extract(HCC_slide)
2.2 使用网格区域划分来获取所有的tiles,注意这是划分所有的切片而非随机抽取。根据上面读入的WSI图像,我们可以对其网格区域进行全范围搜索可用切片,并将切片结果保存为png图像文件。
from histolab.tiler import GridTiler
grid_tiles_extractor = GridTiler(
tile_size=(512, 512),
level=1, # 由于这是全局网格切片,如果设置level=0,则由于分辨率非常高导致运行时间非常长,所以这里设置为1
check_tissue=True, # 挑选出有组织的区域
pixel_overlap=0, # default
prefix="grid/", # save tiles in the "grid" subdirectory of slide's processed_path
suffix=".png" # default
)
grid_tiles_extractor.locate_tiles(
slide=HCC_slide,
scale_factor=64,
alpha=64,
outline="#046C4C",
)
预览网格切分的图像定位,注意如果上面的check_tissue设置为false,则保存的是所有WSI区域,包含空白的区域。
保存tiles,使用下面这行代码保存切分好的tiles
grid_tiles_extractor.extract(HCC_slide)
2.3 基于分数的tiles分割方法 ScoreTiler,它允许我们根据特定的评分函数仅保存使用网格结构提取的所有tiles中最佳的“tile”。例如,具有较高核存在的tile比具有很少或没有核的tile更可取。
from histolab.tiler import ScoreTiler
from histolab.scorer import NucleiScorer
scored_tiles_extractor = ScoreTiler(
scorer = NucleiScorer(),
tile_size=(512, 512),
n_tiles=100,
level=1,
check_tissue=True,
tissue_percent=80.0,
pixel_overlap=0, # default
prefix="Scored/", # save tiles in the "scored" subdirectory of slide's processed_path
suffix=".png" # default
)
scored_tiles_extractor.locate_tiles(slide=HCC_slide)
得到的tiles定位预览图如下:
保存tiles和tiles组织评分表,组织评分表会保存在最开始定义的path文件夹下。tiles会在path文件夹下创建Scored子文件夹然后进行保存
summary_filename = "summary_HCC_tiles.csv"
SUMMARY_PATH = os.path.join(HCC_slide.processed_path, summary_filename)
scored_tiles_extractor.extract(HCC_slide, report_path=SUMMARY_PATH)
保存好的组织评分表的内容如下:
生成的tiles如下:
原文地址:https://blog.csdn.net/qq_43449643/article/details/144151280
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!