使用Python开发了一个AI截图解答工具，可自定义设置多模态模型和提示词

AI摘要

这是一个基于PyQt5和OpenAI API的智能截图解答工具，可截取屏幕任意区域，通过多模态模型识别图片内容并自动解答问题。支持源码安装或直接下载可执行文件，配置简单，能有效提升学习和工作效率。项目开源，适用于需要快速获取AI解答的场景。

一、简介

这是一个基于PyQt5和OpenAI API的智能截图解答应用程序，能够截取屏幕上的任意区域，并自动使用多模态模型识别图片中的文本内容，自动解答题目或解释文本内容
功能特点包括智能截图、AI图像识别、自动解题、数学公式渲染、Markdown渲染、简洁的GUI视窗界面等
主要开发语言是python，基于PyQt5开发的UI，依赖于openai兼容API的多模态模型，可打包成一个可执行程序使用
该项目的代码地址参考：github.com/luler/hello_gpt_answer
该工具的工作原理和架构图可参考：

二、安装与使用

1. 源码安装

系统要求Windows/Linux/macOS，需要安装好Python 3.11+

克隆项目到本地

git clone https://github.com/luler/hello_gpt_answer
cd hello_gpt_answer

安装依赖包
```
pip install -r requirements.txt
```
启动应用
```
python app.py
```

2. 直接下载打包好的二进制文件（适用于windows）

下载地址参考：github.com/luler/hello_gpt_answer/...

3. 自定义配置大语言模型

必须使用Openai API接口兼容的多模态模型配置
魔塔上可白嫖强大的通义千问多模态模型API，参考：modelscope.cn/models/Qwen/Qwen3-VL...
相关信息配置如下，可修改模型API配置、提示词等

4. 开始使用

如上配置好后，可以点击立即截图，会提示框选指定区域并自动截图
截图完成，会识别截图中的题目并生成解答
更换提示词为“请准确识别出图片中的文字”，参考如下

截图后，就会根据新的提示词来处理并返回AI解答

三、总结

这是一个简易的AI小工具，界面有点简陋，但是可以加速截图到AI提问与解答的过程，有助于提供学习、工作效率
安装配置使用简单，windows系统可以直接下载软件运行，其他系统可以自行源码安装
对经常需要答题的用户非常友好，特别是一些无法复制文字同时需要AI识别解答的内容

更多工具参考我的应用：cas.luler.top/

本作品采用《CC 协议》，转载必须注明作者和本文链接

我只想看看蓝天

luler

184 声望

我是天边的一片云，偶尔投影在你的波心

0 人点赞

使用Python开发了一个AI截图解答工具，可自定义设置多模态模型和提示词

一、简介

二、安装与使用

1. 源码安装

2. 直接下载打包好的二进制文件（适用于windows）

3. 自定义配置大语言模型

4. 开始使用

三、总结

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

使用Python开发了一个AI截图解答工具，可自定义设置多模态模型和提示词

一、简介

二、安装与使用

1. 源码安装

2. 直接下载打包好的二进制文件（适用于windows）

3. 自定义配置大语言模型

4. 开始使用

三、总结

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录