Datawhale组队学习|全球AI攻防挑战赛——赛道二：AI核身之金融场景凭证篡改检测

🕗 发布于 2024-10-13 12:26 学习 人工智能 金融

前言

Datawhale 2024.10 组队学习来了！这次选择的是动手实践专区——CV方向——“全球AI攻防挑战赛—赛道二：AI核身之金融场景凭证篡改检测”。

Baseline代码解读

1、读取数据集

!apt update > /dev/null; apt install aria2 git-lfs axel -y > /dev/null
!pip install ultralytics==8.2.0 numpy pandas opencv-python Pillow matplotlib > /dev/null
!axel -n 12 -a http://mirror.coggle.club/seg_risky_testing_data.zip; unzip -q seg_risky_testing_data.zip
!axel -n 12 -a  http://mirror.coggle.club/seg_risky_training_data_00.zip; unzip -q seg_risky_training_data_00.zip

（1）!apt update > /dev/null; apt install aria2 git-lfs axel -y > /dev/null
!：告诉 Jupyter Notebook （或 Google Colab），运行的是 apt update 这个shell 命令，而不是 Python 代码
apt update：更新Ubuntu的包管理器APT的包列表
-y：自动同意安装提示，省去手动确认。
> /dev/null：将输出重定向到/dev/null，相当于忽略输出日志。

安装用于下载文件的工具：
aria2：支持多源下载
git-lfs：用于处理大文件
axel：一个多线程下载工具
（2）!pip install ultralytics==8.2.0 numpy pandas opencv-python Pillow matplotlib > /dev/null
安装一些Python库：
ultralytics==8.2.0：一个开源的YOLOv8框架，用于目标检测、分割等任务。
numpy：用于数值计算的库。
pandas：用于数据处理和分析的库。
opencv-python：用于图像处理的库。
Pillow：用于图像处理的Python库。
matplotlib：用于绘制图形的库。
（3）!axel -n 12 -a http://mirror.coggle.club/seg_risky_testing_data.zip; unzip -q seg_risky_testing_data.zip
使用axel以12个线程并行下载名为seg_risky_testing_data.zip的文件。下载完成后，使用unzip命令解压该压缩文件。
-n 12：指定12个线程进行下载
-a：显示下载进度
-q：以安静模式解压（即不显示解压过程的详细信息）
（4）!axel -n 12 -a http://mirror.coggle.club/seg_risky_training_data_00.zip; unzip -q seg_risky_training_data_00.zip

与（3）类似，使用axel以12个线程下载名为seg_risky_training_data_00.zip的文件，并解压。

import os, shutil
import cv2
import glob
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

training_anno = pd.read_csv('http://mirror.coggle.club/seg_risky_training_anno.csv')

train_jpgs = [x.replace('./', '') for x in glob.glob('./0/*.jpg')]
training_anno = training_anno[training_anno['Path'].isin(train_jpgs)]
training_anno['Polygons'] = training_anno['Polygons'].apply(json.loads)

training_anno.head()

在这里插入图片描述
（1）import *导入库
os 和 shutil：用于文件和目录操作。
cv2：OpenCV库，用于计算机视觉任务（如图像处理）。
glob：用于查找符合特定规则的文件路径名。
json：用于解析和处理JSON格式的数据。
pandas：用于数据处理和分析。
numpy：用于数值计算，提供高效的数组操作。
matplotlib.pyplot：用于绘制图形和可视化数据。

（2）training_anno = pd.read_csv('http://mirror.coggle.club/seg_risky_training_anno.csv')
加载篡改后的凭证图像的位置标注，标注文件以csv格式给出（seg_risky_training_anno.csv），csv文件中包括两列，Path列内容为篡改凭证图像的名称，Polygons列内容采用轮廓点的方式存储每个篡改区域的位置；

使用 pandas 的** read_csv** 函数从指定的 URL 加载 CSV 文件，创建一个 DataFrame，名为training_anno。
（3）training_anno = training_anno[training_anno['Path'].isin(train_jpgs)]
获取训练图像文件列表：glob.glob(‘./0/*.jpg’) 会返回 ./0 目录下所有 JPG 文件的路径。
列表推导式将这些路径中的 ‘./’ 替换为空字符串，生成 train_jpgs 列表，包含相对路径的 JPG 文件名。

（4）training_anno = training_anno[training_anno['Path'].isin(train_jpgs)]
条件过滤，保留 training_anno 中仅与训练图像相对应的行。
isin(train_jpgs)：检查 training_anno 中的 ‘Path’ 列是否在 train_jpgs 列表中。

（5）training_anno['Polygons'] = training_anno['Polygons'].apply(json.loads)
解析 ‘Polygons’ 列
apply()：是 pandas DataFrame 或 Series 的方法，它允许对列中的每个元素应用一个函数。这里对 Polygons 列的每个元素应用了 json.loads 函数。
json.loads：将 training_anno 中的 ‘Polygons’ 列应用 json.loads 函数，以将存储为字符串格式的 JSON 数据（字符串，表示存储Polygons坐标的JSON对象）解析为 Python 对象（如字典或列表），为后续的图像处理或模型训练做准备。假如 Polygons 列的某一单元格是 “[ [10, 20], [30, 40], [50, 60] ]”，它会将其转换为 Python 列表：[[10, 20], [30, 40], [50, 60]]。

training_anno.shape

(63785, 2)

np.array(training_anno['Polygons'].iloc[4], dtype=np.int32)

在这里插入图片描述

idx = 23
img = cv2.imread(training_anno['Path'].iloc[idx])

plt.figure(figsize=(12, 6))
plt.subplot(121)
plt.imshow(img)
plt.title("Original Image")
plt.axis('off')

plt.subplot(122)
img = cv2.imread(training_anno['Path'].iloc[idx])
polygon_coords = np.array(training_anno['Polygons'].iloc[idx], dtype=np.int32)

for polygon_coord in polygon_coords:
    cv2.polylines(img, np.expand_dims(polygon_coord, 0), isClosed=True, color=(0, 255, 0), thickness=2)
    img= cv2.fillPoly(img, np.expand_dims(polygon_coord, 0), color=(255, 0, 0, 0.5))

plt.imshow(img)
plt.title("Image with Polygons")
plt.axis('off')

原文地址：https://blog.csdn.net/weixin_44259058/article/details/142872892

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：linux系统，不定时kernel bug :soft lockup的问题
下一篇：Ubuntu 18.04安装storcli查看阵列信息

Web前端高级工程师培训：函数式编程
管道、组合取舍：管道及组合最大区别在于执行顺序的不同，数据流向不同，达到目的是类似的。可读性更强，js函数不管是否是纯函数都会有一个语义化的名称，更便于阅读。js是多范式编程语言，
阅读更多2024-10-18
前端如何在生成环境下实现自动检测更新
建立一个WebSocket连接，服务器在发布新版本时通过WebSocket向客户端发送更新通知。优点：实时性强，能够即时通知客户端更新。缺点：需要额外的服务器资源来维护WebSocket连接，且可能受
阅读更多2024-10-18
从零实现数据结构：堆的实现和简单堆排序
同理这里向下调整也是一样，需要注意的是这里的写法，我们先是假设左边的结点是小的，然后再用判断。如果不这样做，则需要将父节点和两个子节点进行比较，这样会造成多余的比较次数。当我们交换完成之后，发现依然不
阅读更多2024-10-18
webAPI中的排他思想、自定义属性操作、节点操作（配大量案例练习）
本文旨在帮助大家学习webAPI中的排他思想、自定义属性操作以及节点操作，里面加入了大量练习帮助掌握相关技术
阅读更多2024-10-18
Linux之实战命令41：lshw应用实例(七十五)
本篇目的：Linux之实战命令41：lshw应用实例lshw是 Linux 系统中的一个强大命令行工具，用于获取系统硬件的详细信息。与其他命令相比，lshw提供了更全面的硬件配置报告，涵盖了处理器、内
阅读更多2024-10-18
Nodemon 深入解析与使用
Nodemon 深入解析与使用指南Nodemon 是一个强大的开发工具，用于监控 Node.js 应用程序中的文件变更，能自动重启应用，极大提高开发效率
阅读更多2024-10-18
【Midjourney 中文版】想象的舞台
只需用中文输入你心中的画面描述，无论是梦幻般的仙境、未来感十足的城市景观，还是充满故事的人物形象，它都能迅速理解你的意图，并在瞬间将其转化为令人震撼的视觉图像。这种从文字到图像的神奇转变，仿佛为你的想
阅读更多2024-10-18
C语言 | Leetcode C语言题解之第492题构造矩形
C语言 | Leetcode C语言题解之第492题构造矩形
阅读更多2024-10-18
Github 2024-10-18Java开源项目日报Top9
根据Github Trendings的统计，今日(2024-10-18统计)共有9个项目上榜。
阅读更多2024-10-18
汽车3D动画外包还是自己动手渲染？
高质量的3D渲染往往需要大量的计算资源和时间，如何在保证效果的同时提高渲染效率，是制作过程中的一大挑战。通过将渲染任务提交到云渲染农场，你可以利用专业的渲染集群来完成工作，而你的本地计算机可以继续进行
阅读更多2024-10-18

Datawhale组队学习|全球AI攻防挑战赛——赛道二：AI核身之金融场景凭证篡改检测

目录

前言

Baseline代码解读

相关文章