大橙子网站建设,新征程启航
为企业提供网站建设、域名注册、服务器等服务
本篇内容介绍了“Python快速去重脚本是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
创新互联始终坚持【策划先行,效果至上】的经营理念,通过多达10余年累计超上千家客户的网站建设总结了一套系统有效的全网推广解决方案,现已广泛运用于各行各业的客户,其中包括:纯水机等企业,备受客户赞美。
一、下载pyhon脚本到本地
二、用法
1、必须python2环境
2、把去重的文件和该python脚本放到一起
3、新建几个有重复内容的文件,放到一个与python脚本不在一起的位置/root/123
4、修改python脚本
#coding=utf-8import sys, re, osdef file_merge(): input_path = "/root/123/" #此处填好自己的路径,注意最后的"/" #使用os.listdir函数获取路径下的所有的文件名,并存在一个list中 #使用os.path.join函数,将文件名和路径拼成绝对路径 whole_file = [os.path.join(input_path,file) for file in os.listdir(input_path)] content = [] #对于每一个路径,将其打开之后,使用readlines获取全部内容 for w in whole_file: with open(w,'rb') as f: content = content+f.readlines() #构造输出的路径,和输入路径在同一个文件夹下,如果该文件夹内没有这个文件会自动创建 output_path = os.path.join(input_path,'合并所有文件.txt') #将内容写入文件 with open(output_path,'wb') as f: f.writelines(content) def getDictList(dict): regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+''' with open(dict) as f: data = f.read() return re.findall(regx, data) def rmdp(dictList): return list(set(dictList)) def fileSave(dictRmdp, out): with open(out, 'a') as f: for line in dictRmdp: f.write(line + '\n') def main(): try: dict = '/root/123/合并所有文件.txt' out = '/root/123/去重所有文件.txt' except Exception, e: print 'error:', e me = os.path.basename(__file__) exit() dictList = getDictList(dict) dictRmdp = rmdp(dictList) fileSave(dictRmdp, out) if __name__ == '__main__': file_merge() main()
5、python2 quchong.py运行脚本,会在/root/123目录下生成去重文件
6、工作原理
将当前目录下所有文件合并为一个文件:合并所有文件.txt,对该文件进行去重,最终生成去重所有文件.txt,该文件就是最后想要的文件。
“Python快速去重脚本是什么”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站,小编将为大家输出更多高质量的实用文章!