python for office
Project description
search4file
pip install search4file
功能
- 通过内容查找文件
- 通过名称查找图片
- ocr识别图片内容
- 通过字幕、画面查找视频
To List
有3类并行推进的任务:
1、查找逻辑
3个按照内容查找的接口,需要实现
接口传送门 负责开发:@yinzeyuan
def search_pdf_file(self, file_path, search_content):
pass
def search_ppt_file(self, file_path, search_content):
pass
def search_excel_file(self, file_path, search_content):
pass
1个按照文件名查找的接口,需要实现
接口传送门 负责开发:@yinzeyuan
class SearchByName():
# 搜索文件名的逻辑
def search_files(self, search_path, search_content):
pass
2、优化逻辑
优化内容,目前主要有:
- 目前的word查找基于python-docx库,而这个库不支持mac、linux库。
- 考虑改为解压docx的方式,对解压后的文件进行查找。
- 目前对文件的查找,采用单线程同步遍历的方式,速度太慢。
- 考虑改为进程 + 协程的异步方式,提高查询效率。
- 增加OCR自动根据指定的图片内容,进行图片搜索。
- 例如:用户输入:河流,查找出电脑里所有和河流有关的图片
- 识别出视频里的内容。
- 例如:用户输入:大山,查找出某个视频里,所有和大山有关的画面、字幕
3、发布该库的文章
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
search4file-0.1.4.tar.gz
(9.7 kB
view hashes)
Built Distribution
Close
Hashes for search4file-0.1.4-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 8a3a836577488019f989adaf0344523086d342a8cdf67bb50207671e8e4bd1d2 |
|
MD5 | 6d83f777019425cbb46850e44e935f10 |
|
BLAKE2b-256 | d6b74562a796f83b99d38c783f2071b8c8f0f4e519a5d60370af33ba5d7360b0 |