python - 关于NumPy数组操作的问题
问题描述
[’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]
numpy数组,总共有几个万个元素。现在想保留每个元素前面的编号000001之类的,并且去掉重复,只保留唯一的一个编号。结果应该是[’000001’,’000002’,’000003’,’000004’]除了用for语句实现外,有没有更高效的办法?
问题解答
回答1:写个NumPy的吧~
python3
>>> import numpy as np>>> a = np.array([’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’])>>> b = np.unique(np.fromiter(map(lambda x:x.split(’_’)[0],a),’|S6’))>>> barray([b’000001’, b’000002’, b’000003’, b’000004’], dtype=’|S6’)
还可以这样写:np.frompyfunc’|S6’是以6个字节存储字符串
’<U6’是以6个小端序Unicode字符存储字符串
>>> b = np.array(np.unique(np.frompyfunc(lambda x:x[:6],1,1)(a)),dtype=’<U6’)>>> barray([’000001’, ’000002’, ’000003’, ’000004’], dtype=’<U6’)回答2:
综合两位仁兄的写法@同意并接受 @xiaojieluoff
如果编号长度固定是前六位,最快的写法下面第一种最快
import timelst = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000start = time.time()data = {_[:6] for _ in lst}print ’dic: {}’.format(time.time() - start)start = time.time()data = set(_[:6] for _ in lst)print ’set: {}’.format(time.time() - start)start = time.time()data = set(map(lambda _: _[:6], lst))print(’map:{}’.format(time.time() - start))start = time.time()data = set()[data.add(_[:6]) for _ in lst]print(’for:{}’.format(time.time() - start))耗时:dic: 0.72798705101set: 0.929664850235map:1.89214396477for:1.76194214821回答3:
使用 map 和匿名函数
lists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’,’000002_2017-03-21.csv’,’000002_2017-03-22.csv’,’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]data = list(set(map(lambda x:x.split(’_’)[0], lists)))print(data)
输出:
[’000003’, ’000004’, ’000001’, ’000002’]
运行下面代码可以看到 , 在 6百万 条数据下,map 比 for 快了 0.6s 左右
import timelists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000map_start = time.clock()map_data = list(set(map(lambda x:x.split(’_’)[0], lists)))map_end = (time.clock() - map_start)print(’map 运行时间:{}’.format(map_end))for_start = time.clock()data = set()for k in lists: data.add(k.split(’_’)[0])for_end = (time.clock() - for_start)print(’for 运行时间:{}’.format(for_end))
输出:
map 运行时间:2.36173for 运行时间:2.9405870000000003
如果把测试数据扩大到 6千万, 差距就更明显了
map 运行时间:29.620203for 运行时间:33.132621
相关文章:
1. javascript - vue 移动端的input 数字输入优化2. java - mongodb分片集群下,count和聚合统计问题3. java - 自己制作一个视频播放器,遇到问题,用的是内置surfaceview类,具体看代码!4. android - java 泛型不支持数组,那么RxJava的Map集合有什么方便的手段可以定义获得一串共同父类集合数据呢?5. 服务器端 - 采用nginx做web服务器,C++开发应用程序 出现拒绝连接请求?6. 为什么我ping不通我的docker容器呢???7. 关于docker下的nginx压力测试8. python - pandas按照列A和列B分组,将列C求平均数,怎样才能生成一个列A,B,C的dataframe9. javascript - 有什么兼容性比较好的办法来判断浏览器窗口的类型?10. java - 静态属性中的赋值和静态代码块中的赋值有什么区别?
