python for office
Project description
search4file
pip install search4file
功能
- 通过内容查找文件
- 通过名称查找图片
- ocr识别图片内容
- 通过字幕、画面查找视频
To List
有3类并行推进的任务:
1、查找逻辑
3个按照内容查找的接口,需要实现
接口传送门 负责开发:@yinzeyuan
def search_pdf_file(self, file_path, search_content):
pass
def search_ppt_file(self, file_path, search_content):
pass
def search_excel_file(self, file_path, search_content):
pass
1个按照文件名查找的接口,需要实现
接口传送门 负责开发:@yinzeyuan
class SearchByName():
# 搜索文件名的逻辑
def search_files(self, search_path, search_content):
pass
2、优化逻辑
优化内容,目前主要有:
- 目前的word查找基于python-docx库,而这个库不支持mac、linux库。
- 考虑改为解压docx的方式,对解压后的文件进行查找。
- 目前对文件的查找,采用单线程同步遍历的方式,速度太慢。
- 考虑改为进程 + 协程的异步方式,提高查询效率。
- 增加OCR自动根据指定的图片内容,进行图片搜索。
- 例如:用户输入:河流,查找出电脑里所有和河流有关的图片
- 识别出视频里的内容。
- 例如:用户输入:大山,查找出某个视频里,所有和大山有关的画面、字幕
3、发布该库的文章
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
search4file-0.1.7.tar.gz
(9.8 kB
view hashes)
Built Distribution
Close
Hashes for search4file-0.1.7-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 76884e196eccf1bc298ed5e56140255d6a92090b702a6e61a68cd99155688711 |
|
MD5 | eb704fbfa8c009e58e682a64e8555c69 |
|
BLAKE2b-256 | 35a2c6c3e67b6a8fe1ad4ca5b997202219f1503691d2c1fcd38b931b9041eaa6 |