文章详情页
python - 對於不同文件夾的特徵提取策略問題
浏览:171日期:2022-08-11 08:43:16
问题描述
問題描述:
有很多文件夾,一個文件夾下有很多文件。目的是將每個文件夾的特徵提取出來,特徵規定是該文件夾下的一個或少量文件(名,內容hash及相對位置)。有什麼較好的算法或策略來解決該問題嗎?
我想的是暴力求解,但這效率低下。直接把该文件夾下的文件與其它文件夾下所有的文件做比較,如果有相同的,则该文件夾的下一个文件又去比较其它所有的,如果不同,则说明这个文件可以表达出该文件夹的特征。然后每个文件夹都这么做。
統計方法。按順序將每個文件夾的文件排序,選最大最小及中位數文件來作每個文件夾的特徵。但會出現這麼個問題,兩個文件夾可能就只有一個或少量文件不同,使用這種策略會產生遺漏,無法準確提取出所有文件夾的特徵。
因此,我希望是在既能保證效率又能保證準確率的情況下來對這問題進行求解。希望各位表哥能隨便提提建議或意見,指導指導。thx。
问题解答
回答1:将当前文件夹随机取固定数目个文件,将他们的文件名、大小、修改时间、权限等组合起来做个哈希,然后判重,一般重复率是不会很高的,因为即使文件名和大小一样,修改时间一般是不一样的。
相关文章:
1. javascript - swiper.js嵌套了swiper 初始设置不能向下一个滑动 结束后重新初始2. angular.js - angular-ui-bootstrap 报错无法使用?3. 为什么span的color非要内联样式才起作用?4. python - 如何修改twisted自带的日志输出格式?5. docker - 如何修改运行中容器的配置6. 求救一下,用新版的phpstudy,数据库过段时间会消失是什么情况?7. 如何使用git对word文档进行版本控制?8. 请问一下各位老鸟 我一直在学习独孤九贱 现在是在tp5 今天发现 这个系列视频没有实战9. 老师,请问我打开browsersync出现这个问题怎么解决啊?10. html5 - H5做的手机分享页微信更新后,分享出去不再默认显示第一个图 作为缩略图
排行榜

网公网安备