Python实现图片定位与自动输入文字

🕗 发布于 2024-11-22 17:43 python 开发语言

简介

本文介绍如何使用Python实现在屏幕上定位特定图片，并在目标位置自动输入文字的功能。主要使用OpenCV进行图像识别，PyAutoGUI实现鼠标控制和键盘输入。

主要功能

在屏幕上查找指定图片位置
自动移动鼠标到目标位置
模拟鼠标点击
自动输入中文文字

技术要点

1. 图片定位

使用OpenCV的模板匹配功能，通过cv2.matchTemplate()函数在屏幕截图中查找目标图片。匹配度阈值设为0.7，可根据实际需求调整。

2. 屏幕操作

使用ImageGrab获取屏幕截图
使用pyautogui控制鼠标移动和点击
设置FAILSAFE = True启用PyAutoGUI的安全机制

3. 中文输入

通过剪贴板实现中文输入：

将文字复制到剪贴板
使用Ctrl+V模拟粘贴操作

使用说明

环境准备

pip install opencv-python
pip install pyautogui
pip install pillow
pip install numpy
pip install pyperclip

使用步骤

准备要查找的目标图片(test.png)
运行程序
程序会自动查找图片位置并执行点击和输入操作

注意事项

确保目标图片清晰可见
图片匹配阈值可根据需要调整
建议在执行自动操作前关闭输入法

完整代码

import cv2
import numpy as np
import pyautogui
import time
from PIL import ImageGrab
import pyperclip

def type_chinese_text(text):
    """使用剪贴板输入中文"""
    pyperclip.copy(text)  # 复制到剪贴板
    pyautogui.hotkey('ctrl', 'v')  # 粘贴

def find_image_on_screen(template_path, threshold=0.7):
    """在屏幕上查找指定图片的位置"""
    try:
        # 读取模板图片
        template = cv2.imread(template_path)
        template_height, template_width = template.shape[:2]
        
        # 截取整个屏幕
        screen = np.array(ImageGrab.grab())
        screen = cv2.cvtColor(screen, cv2.COLOR_RGB2BGR)
        
        # 模板匹配
        result = cv2.matchTemplate(screen, template, cv2.TM_CCOEFF_NORMED)
        locations = np.where(result >= threshold)
        
        matches = []
        for pt in zip(*locations[::-1]):
            matches.append({
                'left': pt[0],
                'top': pt[1],
                'width': template_width,
                'height': template_height,
                'confidence': result[pt[1], pt[0]]
            })
        
        matches.sort(key=lambda x: x['confidence'], reverse=True)
        return matches
        
    except Exception as e:
        print(f"查找图片时发生错误: {e}")
        return []

def interact_with_image(matches, text_to_type="你好"):
    """移动到图片位置并输入文字"""
    if not matches:
        print("未找到目标图片")
        return False
    
    # 使用最佳匹配
    best_match = matches[0]
    
    # 计算图片中心位置
    center_x = best_match['left'] + best_match['width'] // 2
    center_y = best_match['top'] + best_match['height'] // 2
    
    try:
        # 移动鼠标
        print(f"正在移动鼠标到位置: ({center_x}, {center_y})")
        pyautogui.moveTo(center_x, center_y, duration=0.5)
        
        # 点击位置
        print("点击位置")
        pyautogui.click()
        
        # 等待一小段时间确保点击生效
        time.sleep(0.5)
        
        # 输入中文
        print(f"正在输入文字: {text_to_type}")
        type_chinese_text(text_to_type)
        
        print("操作完成")
        return True
        
    except Exception as e:
        print(f"操作失败: {e}")
        return False

def main():
    # 设置PyAutoGUI的安全设置
    pyautogui.FAILSAFE = True
    
    # 设置中文输入
    pyautogui.PAUSE = 0.5  # 增加操作间隔时间
    
    print("开始查找图片...")
    
    # 查找图片
    matches = find_image_on_screen('test.png')
    
    if matches:
        print(f"找到 {len(matches)} 个匹配位置")
        for i, match in enumerate(matches, 1):
            print(f"\n匹配 {i}:")
            print(f"位置: 左={match['left']}, 上={match['top']}")
            print(f"大小: {match['width']}x{match['height']}")
            print(f"匹配度: {match['confidence']:.2%}")
        
        # 移动鼠标并输入文字
        interact_with_image(matches)
    else:
        print("未找到目标图片")

if __name__ == '__main__':
    try:
        main()
    except KeyboardInterrupt:
        print("\n程序已停止")
    except Exception as e:
        print(f"发生错误: {e}")

总结

本文介绍的方法可以实现屏幕图片定位和自动输入文字的功能，适用于自动化测试、重复性操作等场景。通过调整参数和添加更多功能，可以满足不同的自动化需求。

原文地址：https://blog.csdn.net/exlink2012/article/details/143908239

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【实战】使用YOLO11进行驾驶疲劳检测及警报【附源码与详细说明】
下一篇：深入探索JMeter bin目录中的Properties文件：优化性能测试的关键

【计算机网络】水平触发与边缘触发有什么优缺点呢？
我们在平时的开发过程中，经常会遇到水平触发与边缘触发这两种IO机制的选择，常常会比较难选择。定义：优点：减少通知次数：高效性：适合高性能场景：缺点：需要完全处理事件：复杂性增加：调试困难：定义：优点：
阅读更多2024-11-23
【HarmonyOS Next】鸿蒙实用装饰器一览(一)
装饰器是现代js一个很重要(尚未成熟)的特性，TS4.9开始对装饰器的Stage 3支持，并在TS5.0中发布了装饰器规范的完整版本。ArkTS[2]在TS生态基础上做了进一步扩展，保持了TS的基本风
阅读更多2024-11-23
＜C++＞ unordered_map、unordered_set模拟实现
模拟实现过STL版的map、set之后，我们再来模拟实现STL版的unordered_map、unordered_set，相较于上一次模拟实现，这次的封装又稍微复杂了一些。先写哈希表，测试map、se
阅读更多2024-11-23
PHP导出EXCEL含合计行，设置单元格格式
PHP导出EXCEL含合计行，设置单元格格式，水平居中垂直居中。
阅读更多2024-11-23
unity li2cpp逆向原理是什么？
主要涉及将Unity游戏引擎中的C#代码转换为C++代码，并进一步编译为各平台的原生（Native）代码的过程，以及逆向工程工具如何利用这一过程中的特定文件来还原和分析原始代码。
阅读更多2024-11-23
Docker+fastapi
COPY 拷贝指令，这里的. 表示为当前dockerfile所在目录下的所有文件拷贝到工作目录/home/MicroServices下。WORKDIR 在docker内建立的工作目录，这里是在/ho
阅读更多2024-11-23
ChatGPT 与其他 AI 技术在短视频营销中的技术应用与协同策略
随着技术的不断发展与创新，短视频营销者应积极探索并整合 AI 技术，充分发挥其优势，以在竞争激烈的市场环境中实现高效、精准且富有创意的营销目标，满足消费者日益多样化与个性化的需求，推动短视频营销领域不
阅读更多2024-11-23
解锁 ChatGPT 超强交互：超级提示词的魔力
反之，若你不同意，ChatGPT 会询问你想要移除哪些角色，剔除这些角色后，保留包括 ChatGPT 提示词工程师角色在内的其余角色，然后继续下一步。若你表示同意，它会询问你所需参考源的数量。接着，基
阅读更多2024-11-23
postman 最强内置函数使用集合
库可让您使用预定义变量在 Postman 中生成示例数据。使用这些变量就像使用 Postman 中的任何其他变量一样。它们的值是在执行时生成的，其名称以符号开头。以下是动态变量的列表，其值是在请求/收
阅读更多2024-11-23
BY组态-低代码web可视化组件
BY组态是集实时数据展示、动态交互等一体的全功能可视化平台。帮助物联网、工业互联网、电力能源、水利工程、智慧农业、智慧医疗、智慧城市等场景快速实现数字孪生、大屏可视化、Web组态、SCADA等解决方案
阅读更多2024-11-23