• 发文
  • 评论
  • 微博
  • 空间
  • 微信

大数据的实时处理和离线处理

我秀中国 2017-11-30 16:44 发文

我秀中国目前基于引擎和接口,为各种用户提供导航和定位服务。通过GPS、传感器获取用户的一些日志,从而实时获取用户的接口调用和访问情况。

跑批量,每隔一小时执行一次的数据处理方式,在一定程度上已不能满足用户需求。现在常用的数据处理方式,可分为实时处理和离线处理。

数据的分类

一.实时处理:Flume+Kafka+Storm+Mongo

通过Flume进行数据的的采集,将数据推送给Kafka作为数据的缓存层,Storm作为kafka的消费者,从而进行实时的处理。最终,通过Web展示给前端,能够实时统计和分析车辆的在线总数,轨迹点总数,对此可以做一些相关的应用。

数据来源:主要是Nginx 服务器获取的GPS数据和MSp数据格式都是JSON。

数据采集:通过Flume的拦截器对日志进行预处理,将数据存储在缓存层kafka。

数据统计:通过Storm实时拉取数据做计算,将临时结果数据存储在Redis。

数据落地:最终的数据存储在Mongo中,定时获取Redis中的数据,存储在Mongo。

Web展示:查询数据库定时更新前端页面,可以查看车辆的一些情况。

二.离线处理:hadoop +hive

Hadoop分布式存储+分布式运算的框架,可以对海量数据进行统计分析,解决单节点极限性。

通过编写MapReduce可以批量统计某个地域的车辆里程情况、道路等级,通过速度判断车型、车辆驾驶情况等,使用Hive做数据仓库,可以统计最近一年或者两年的数据,进行数据的建模和历史数据的统计和分析。


来源:我秀中国

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    我秀中国

    专业互联网地图平台,个性化的位置...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码