推荐一个使用thinkphp开发的文档全文搜索工具
一、简介
- 可以解析常用格式文档,并进行全文索引,支持所有text类型文本、doc、docx、xls、xlsx、ppt、pptx,pdf等等
- 提供在线访问页面,支持文档的在线上传、搜索、预览等操作,相关操作相应API接口,可以轻松接入第三方系统
- 相关技术应用包括:thinkphp 6.0框架,ant design pro V5,轻量级全文搜索引擎zincsearch,文档转换工具LibreOffice
- 开源地址参考:github.com/luler/hello_document
- 该项目的系统架构设计图可参考:
二、安装
- 提前安装好Docker、docker-compose软件环境
- 克隆代码
git clone https://github.com/luler/hello_document.git
- 进入代码根目录,编辑 docker-compose.yml,内容参考下面:
services: php_nginx: image: registry.cn-shenzhen.aliyuncs.com/luler/linux_php_nginx:libreoffice restart: always privileged: true ports: - 3322:80 volumes: - ./config/nginx/conf:/usr/local/nginx/conf #nginx配置 - ./config/php/etc:/usr/local/php/etc #php配置 - ./config/init.sh:/init.sh #初始化脚本 - ./code/api:/home/wwwroot/api #api代码 - ./code/web/dist:/home/wwwroot/web/dist #web代码 - ./runtime/wwwlogs:/home/wwwlogs #日志、数据缓存 - ./config/supervisor/supervisord.conf:/etc/supervisord.conf #supervisor配置 - ./config/supervisor/supervisord.d:/etc/supervisord.d #supervisor配置 zincsearch: image: public.ecr.aws/h9e2j3o7/zinc:latest restart: always privileged: true user: root volumes: - ./runtime/zinc_data:/data environment: - DATA_PATH="/data" - ZINC_FIRST_ADMIN_USER=admin - ZINC_FIRST_ADMIN_PASSWORD=zincsearch ports: - 4080:4080
- 执行如下命令,一键启动
启动成功,服务即可正常访问docker-compose up -d
三、使用
1. 访问在线页面进行使用
- 安装成功后,可以访问页面:http://ip:3322/,默认登录账号:admin,密码:admin
- 上传文档,入库之后,就能建立文档全文索引
- 根据关键词搜索文档,模糊匹配到文档内容,搜索语法类似 Elasticsearch
- 点击文档,支持在线预览word文档、文本文档等(本质上是转成PDF预览)
- 支持批量操作,打包下载、批量上传、删除等
2. 使用相关API
- 相关接口与页面逻辑一致
- 授权登录接口
接口: POST:/api/getAccessToken 参数(json): { "appid": "admin", "appsecret": "admin" } 返回(json): { "message": "登录成功", "code": 200, "info": { "access_token": "eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpc3MiOiJseiIsImF1ZCI6IiIsImV4cCI6MTc1NDA2MTM2NCwiZGF0YSI6eyJ1aWQiOiIxIn19.YDrUl8XaAZFDU-Gok2ZYGcSChXPCYiHZ2HsFloNcXLQ", "expires_in": 86400, "is_admin": "1" } }
- 上传文档接口
接口: POST:/api/uploadFile 请求头: Authorization: {access_token} 参数(form-data): files[]=@"/C:/Users/12070/Desktop/php面试题/PHP算法面试题.docx 返回(json): { "message": "上传成功", "code": 200, "info": [] }
- 搜索文档接口
接口: POST:/api/getFileList 请求头: Authorization: {access_token} 参数(form-data): { "search": "冒泡排序" } 返回(json): { "message": "获取成功", "code": 200, "info": { "list": [ { "id": "25", "name": "PHP算法面试题.docx", //文件名 "path": "/storage/doc/20250731/bcf8fc7e70275a3942769aa955c19e92.docx", //文件路径 "pdf": "/storage/pdf/20250731/bcf8fc7e70275a3942769aa955c19e92.pdf", //预览PDF路径 ..... "size": "120369", //大小 "md5": "0e6dda72bc4c8451128699fa6456b96c", //文件md5 ...... "highlight_text": "…1 潮涌来也\t \n1.使用PHPif (…" //搜索内容高亮 } ], "total": 1 } }
- 其他接口,可根据需要自行探索
四、总结
- 文档搜索小工具,提供在线页面,简单易用,可作为凌乱文档的一个存储库,需要时快速搜索使用
- 可根据提供API进行接入,集成到第三方系统,作为文档搜索引擎(数据库默认是sqlite,生产建议更换为mysql)
- Docker一键部署,几乎零配置,小白轻松入手使用
本作品采用《CC 协议》,转载必须注明作者和本文链接
推荐文章: