python简单实现hadoop map reduce统计功能

小小长毛象

1035人浏览 · 2013-10-11 15:30:58

小小长毛象 · 2013-10-11 15:30:58 发布

#!/usr/bin/env python

def hadoopMap(fd):
    lines={}
    for line in fd:
        if lines.has_key(line):
            lines[line]+=1
        else:
            lines[line]=1

    return lines

def hadoopReduce(result,mapResult):
    for key in mapResult:
        if result.has_key(key):
            result[key]+=mapResult[key]
        else:
            result[key]=mapResult[key]
    print result
    return result
fd=(open("test.0",'r'),open("test.1"))
mapData=map(hadoopMap,fd)
for fds in fd:
    fds.close()
print mapData
reduceResult=reduce(hadoopReduce,mapData,{})
print reduceResult

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

小小长毛象

已为社区贡献1条内容