n****n 发帖数: 11 | 1 现在大家都说大数据,个人翻了翻一些资料,发现相关的内容大致有两类:
1-Map-Reduce:就是用所谓的Pig /Hive/Hbase来调用Hadoop系统里众多Cluster的一
个不断搜索,查询,分类和整理的过程。这个过程的性质和现在大家普遍所熟悉的SQ
L功能相似,只不过是针对更大的量(PB/TB)和更复杂的结构(来自Web log/网络交
易/Social/甚至物理终端设备)。所以Map + Reduce就是个便于在这些数据中不断查,
不断合并的过程。
整理完的结果可以生成现在的RDBMS(彻底淘汰RDBMS是需要相当勇气的)。也就是说,
基本上,一旦数据整理完成,还是依然可以采用现在的方式来做模型,Predictive
Modeling, Scoring, Forecasting. 该怎么,就怎么,方法和程序不会太变化。尤其
是在金融行业,面对行业准则和政府法规,很难有大的变化在这上面。可能影响到的职
业或许会是:Business Intelligent, DBA, Database Programmer..etc 以数据准备
、整理和规范化作为主要职业的。这些是统计建模的前端。
2-Machine Learning: 机器学习方法就是自动化地高效地完成知识的分类和预测。
其实,这些方法都是近60年来已经成熟的方法:智能分类,Random Forests, SVM, ANN
, Decision Tree, etc. 以往这些人工智能方法坐冷板凳,只不过最近赶上网络交易
和社交网站才时来运转,赶上了春天。大多数这些方法的一个致命弱点就是难于解释。
没有背后的理论解释支持,就很难应用到更多更广的领域,不能提炼综合为一个共同认
知或规律,也很难有发展壮大的机会。预测模型是希望用现在的数据说明问题,进而应
用到将来的环境中。靠机器学习的发法预测建模,分类整理很好,Testing data结果也
很棒,就是不知道该怎样合理解释这些背后的因果。做模型往往是data driven, Batch
by Batch,很容易一锤子买卖,不行下次再试另一个模型。真正需要归纳,到最后还
是要靠统计的来支招。
我不知道那些公司做大数据的,他们做线上建模 scoring /marketing Campaign的具体
案例和实际效果怎样,是否可延续? 个人感觉是,现在的大数据的价值和功用有些被
夸大了。 | l******n 发帖数: 9344 | 2 ML的结果有时候“难于解释“是和简单传统统计模型相比较而言的,这早已不是ML应用
的瓶颈。现在主要看结果,能抓到耗子,就是好猫
【在 n****n 的大作中提到】 : 现在大家都说大数据,个人翻了翻一些资料,发现相关的内容大致有两类: : 1-Map-Reduce:就是用所谓的Pig /Hive/Hbase来调用Hadoop系统里众多Cluster的一 : 个不断搜索,查询,分类和整理的过程。这个过程的性质和现在大家普遍所熟悉的SQ : L功能相似,只不过是针对更大的量(PB/TB)和更复杂的结构(来自Web log/网络交 : 易/Social/甚至物理终端设备)。所以Map + Reduce就是个便于在这些数据中不断查, : 不断合并的过程。 : 整理完的结果可以生成现在的RDBMS(彻底淘汰RDBMS是需要相当勇气的)。也就是说, : 基本上,一旦数据整理完成,还是依然可以采用现在的方式来做模型,Predictive : Modeling, Scoring, Forecasting. 该怎么,就怎么,方法和程序不会太变化。尤其 : 是在金融行业,面对行业准则和政府法规,很难有大的变化在这上面。可能影响到的职
| b********1 发帖数: 291 | 3 我觉得也是,big data, 到底能干嘛 ?
有没有big data, 该买哪些东西还是那些东西,不该买的还是不买. 我的每月工资还是
那么多,账单也是那么多。 说明传统的数据处理,建模肯定也够用了。
除非有朝一日老百姓的工资变成'大数据', 大家都玩命消费,一秒钟刷一次信用卡,
我看 map_reduce, hive,hadoop才真正有用武之地。
当然要是新型网络公司, 还有犹他州的数据中心, 特别热衷收集个人资料, 上网记
录,通话记录甚至电费水费煤气费的, 算我没说。 问题收集这么些资料, 能转化为
生产力嘛? | c*****a 发帖数: 808 | 4 big data挺有意思的
想想要design一个系统实时整理大流量数据,删掉旧数据,再分析数据,然后更新到一
些数据库上. | S******y 发帖数: 1123 | 5 哈哈,都是很好问题 不过您说的都是CEO 级别操的心。
对我们干技术活的,技不压身,多多益善
现在有公司愿出优厚薪水请DS及懂Python R Hadoop人才,大家不妨先把钱赚了再说
两年后上面提到的有些讨论命题可能就不成立了
祝大家马年大吉 马上发财!
欢迎联络我 m*********[email protected]
http://plus.google.com/109275868505226513618/about
【在 c*****a 的大作中提到】 : big data挺有意思的 : 想想要design一个系统实时整理大流量数据,删掉旧数据,再分析数据,然后更新到一 : 些数据库上.
| c***z 发帖数: 6348 | 6 我的每月工资还是那么多
wrong, if you pick up big data :) |
|