【利用GroundingDINO裁剪分类任务的数据集】及文本提示检测图像任意目标(Grounding DINO) 的使用

🕗 发布于 2024-07-10 22:16 分类数据挖掘 人工智能 计算机视觉

文章目录

背景
1.Grounding DINO安装
2.裁剪指定目标的脚本

背景

在处理公开数据集ImageNet-21k的时候发现里面有很多的数据有问题，比如，数据目标有很多背景，且部分类别有其他种类的图片。
针对数据目标有很多背景，公开数据集ImageNet-21k的21k种类别进行裁剪。
文本提示检测图像任意目标(Grounding DINO)，这更模型可以很好的应用在这个场景。

1.Grounding DINO安装

github地址

从 GitHub 克隆 GroundingDINO 存储库。

git clone https://github.com/IDEA-Research/GroundingDINO.git

将当前目录更改为 GroundingDINO 文件夹。

cd GroundingDINO/

pip install -e .

下载预训练模型权重。

mkdir weights
cd weights
wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
cd ..

下载bert-base-uncased到text_encoder_type（自己创建一个文件夹）

需要下载下面的三个文件，放进text_encoder_type里面就好。
在这里插入图片描述

修改地址

修改/GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py文件中text_encoder_type的路径。

在这里插入图片描述

如果您有 CUDA 环境，请确保设置了环境变量 CUDA_HOME 。如果没有可用的 CUDA，它将在仅 CPU 模式下编译。
可能遇到的bug

 Segmentation fault (core dumped)

是因为timm版本和cuda，pytorch等版本不匹配重新安装可以解决这个bug。

pip uninstall timm
pip install timm

2.裁剪指定目标的脚本

如下是测试的demo

import cv2

print("456")
from groundingdino.util.inference import load_model, load_image, predict, annotate

print("123")
model = load_model("groundingdino/config/GroundingDINO_SwinT_OGC.py", "weight/groundingdino_swint_ogc.pth", "cpu")
IMAGE_PATH = r"images/th.jpg"
TEXT_PROMPT = "dolphins"
BOX_TRESHOLD = 0.35
TEXT_TRESHOLD = 0.25
print("456")
image_source, image = load_image(IMAGE_PATH)

print("789")
boxes, logits, phrases = predict(
    model=model,
    image=image,
    caption=TEXT_PROMPT,
    box_threshold=BOX_TRESHOLD,
    text_threshold=TEXT_TRESHOLD
)

print("10")
print(boxes)
annotated_frame = annotate(image_source=image_source, boxes=boxes, logits=logits, phrases=phrases)
cv2.imwrite("annotated_image.jpg", annotated_frame)

在这里插入图片描述

裁剪指定目标的脚本

该脚本指定目录后，会对该目录下子文件夹的不同目标类别，进行裁剪并将裁剪结果放在与原路径对应的相对路径种。

脚本全部代码：

import os
import time
from groundingdino.util.inference import load_model, load_image, predict
import cv2
import torch
from torchvision.ops import box_convert

def save_cropped_images(image, boxes, image_name, output_folder):
    os.makedirs(output_folder, exist_ok=True)
    h, w, _ = image.shape
    boxes = boxes * torch.tensor([w, h, w, h])
    xyxy_boxes = box_convert(boxes=boxes, in_fmt="cxcywh", out_fmt="xyxy").numpy()

    for i, box in enumerate(xyxy_boxes):
        x_min, y_min, x_max, y_max = map(int, box)
        cropped_image = image[y_min:y_max, x_min:x_max]
        # Ensure the color channels are in BGR order for OpenCV
        cropped_image_bgr = cv2.cvtColor(cropped_image, cv2.COLOR_RGB2BGR)
        cv2.imwrite(f"{output_folder}/{image_name}_cropped_{i}.jpg", cropped_image_bgr)

def process_image(image_path, model, output_folder, box_threshold=0.35, text_threshold=0.25):
    image_source, image = load_image(image_path)
    try:
      boxes, logits, phrases = predict(
          model=model,
          image=image,
          caption=TEXT_PROMPT,
          box_threshold=box_threshold,
          text_threshold=text_threshold
      )
    except RuntimeError as e:
      print(f"RuntimeError: {e}")

    # Get the image name without extension
    image_name = os.path.splitext(os.path.basename(image_path))[0]

    # Save cropped images with image name included
    save_cropped_images(image_source, boxes, image_name, output_folder)

def process_images_in_folder(folder_path, model, box_threshold=0.35, text_threshold=0.25):
    folder_name = os.path.basename(folder_path.rstrip('/'))
    output_folder = os.path.join("/animals_classify/Cropped_Dataset/QuanKe", folder_name)
    print(f"{folder_name}, cropping.")
    # Start timer for processing this folder
    start_time = time.time()
    
    for filename in os.listdir(folder_path):
        if filename.endswith(".jpg") or filename.endswith(".png") or filename.endswith(".JPEG"):
            image_path = os.path.join(folder_path, filename)
            process_image(image_path, model, output_folder, box_threshold, text_threshold)
    
    # End timer for processing this folder
    folder_processing_time = time.time() - start_time
    process_images_in_folder.total_time += folder_processing_time
    
    print(f"{folder_name}, cropped. Time taken: {folder_processing_time:.2f} seconds")
    print(f"Total time taken so far: {process_images_in_folder.total_time:.2f} seconds")

# Initialize the total time taken to 0
process_images_in_folder.total_time = 0.0

# Configuration and model loading
model = load_model("groundingdino/config/GroundingDINO_SwinT_OGC.py", "weight/groundingdino_swint_ogc.pth")
TEXT_PROMPT = "canine"
BOX_THRESHOLD = 0.35
TEXT_THRESHOLD = 0.25

FOLDERS_PATH = "/animals_classify/Raw_Dataset/QuanKe"
for FOLDER_Name in os.listdir(FOLDERS_PATH):
FOLDER_PATH = os.path.join(FOLDERS_PATH, FOLDER_Name)
# Process all images in the folder
process_images_in_folder(FOLDER_PATH, model, BOX_THRESHOLD, TEXT_THRESHOLD)

裁剪示例：
原图：
在这里插入图片描述

结果：
在这里插入图片描述

在这里插入图片描述

原文地址：https://blog.csdn.net/ban102055/article/details/140329322

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Django之项目开发（一）
下一篇：单片机关键任务优先级的实现学习

特权帐户安全 CyberArk
它隔离、控制和监控整个数据中心的所有特权活动，补充了CyberArk在市场领先的特权身份管理套件‌。‌CyberArk PTA（Privileged Threat Analytic）‌：特权威胁分析，
阅读更多2024-11-16
消息中间件分类
1. JMS（Java Message Service）：这是 Java 平台上的一套消息服务 API 标准，它定义了消息系统的基本功能，如消息的创建、发送、接收和读取等。5. 其他消息中间件：除了上
阅读更多2024-11-16
企业知识中台：构建智慧企业的核心
知识中台是企业数字化转型的重要一环，它能够帮助企业更有效地管理和利用知识资产，提升企业的竞争力。在选择搭建知识中台的工具时，HelpLook是一个值得考虑的选择。HelpLook以其直观易用的内容管理
阅读更多2024-11-16
如何恢復電腦IP地址的手動設置？
如何恢復電腦IP地址的手動設置。
阅读更多2024-11-16
OSPF动态路由配置(Cisco Packet Tracer)
OSPF路由协议通过向全网扩散本设备的链路状态信息，使网络中每台设备最终同步一个具有全网链路状态的数据库，然后路由器采用OSPF算法，以自己为根，计算到达其他网络的最短路径，最终形成全网路由信息。（4
阅读更多2024-11-16
HarmonyOS ArkTs 解决流式传输编码问题
使用 HarmonyOS ArkTs 解决流式传输中的编码和 JSON 解析问题。
阅读更多2024-11-16
每日论文20-24RFIC四核三模带自动模式跟踪输出缓冲器的VCO
每日论文20-24RFIC四核三模带自动模式跟踪输出缓冲器的VCO
阅读更多2024-11-16
PG数据库数据库时间字段开始时间和结束时间，判断和查询条件的开始和截止时间存在交集，SQL如何编写
假设你的表名是 events，开始时间字段为 start_time，结束时间字段为 end_time，而你要检查的时间段是 query_start_time 和 query_end_time。在 Po
阅读更多2024-11-16
cls(c基础)
作用清屏格式#include
阅读更多2024-11-16
see的本质是什么？
如果你喜欢看【龙虎斗】，看【猫蛇大战】相关的视频，你会发现，蛇的头会跟随性地转动，这不仅是因为蛇很紧张，更重要的，是因为蛇的眼睛的问题，蛇的眼睛对稍远一点的东西，其实是看不太清楚的，而且蛇的眼睛是没有
阅读更多2024-11-16

【利用GroundingDINO裁剪分类任务的数据集】及文本提示检测图像任意目标(Grounding DINO) 的使用

文章目录

背景

1.Grounding DINO安装

2.裁剪指定目标的脚本

相关文章