由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 现在大数据及其技术的价值和功用有些被夸大了
相关主题
在集成的cloudera hadoop中计算词频(wordcount)请问:为什么if then 在do loop 中就不起作用了呢?
【旧文重发】 Python and R study guide求教:R里面怎么屏蔽一个子程序打印到屏幕的输出?
提供内推data science engineerOpening for SAS analyst
请教decision science这个领域主要应用什么技能两个internship offer, 该选哪一个?
统计MASTER是不是就银行和药厂两条出路?银行工作地点和工作内容的比较,请教大家。
急问,有学金融的吗?做loss forecasting大概需要什么知识,onstatistical score modeling, and scoring models 是什么东西?
银行的risk management vs. marketing analyticslos angeles的openings (转载)
FICO 好吗?Insurance company job openings
相关话题的讨论汇总
话题: 数据话题: 方法话题: 模型话题: 整理话题: 建模
进入Statistics版参与讨论
1 (共1页)
n****n
发帖数: 11
1
现在大家都说大数据,个人翻了翻一些资料,发现相关的内容大致有两类:
1-Map-Reduce:就是用所谓的Pig /Hive/Hbase来调用Hadoop系统里众多Cluster的一
个不断搜索,查询,分类和整理的过程。这个过程的性质和现在大家普遍所熟悉的SQ
L功能相似,只不过是针对更大的量(PB/TB)和更复杂的结构(来自Web log/网络交
易/Social/甚至物理终端设备)。所以Map + Reduce就是个便于在这些数据中不断查,
不断合并的过程。
整理完的结果可以生成现在的RDBMS(彻底淘汰RDBMS是需要相当勇气的)。也就是说,
基本上,一旦数据整理完成,还是依然可以采用现在的方式来做模型,Predictive
Modeling, Scoring, Forecasting. 该怎么,就怎么,方法和程序不会太变化。尤其
是在金融行业,面对行业准则和政府法规,很难有大的变化在这上面。可能影响到的职
业或许会是:Business Intelligent, DBA, Database Programmer..etc 以数据准备
、整理和规范化作为主要职业的。这些是统计建模的前端。
2-Machine Learning: 机器学习方法就是自动化地高效地完成知识的分类和预测。
其实,这些方法都是近60年来已经成熟的方法:智能分类,Random Forests, SVM, ANN
, Decision Tree, etc. 以往这些人工智能方法坐冷板凳,只不过最近赶上网络交易
和社交网站才时来运转,赶上了春天。大多数这些方法的一个致命弱点就是难于解释。
没有背后的理论解释支持,就很难应用到更多更广的领域,不能提炼综合为一个共同认
知或规律,也很难有发展壮大的机会。预测模型是希望用现在的数据说明问题,进而应
用到将来的环境中。靠机器学习的发法预测建模,分类整理很好,Testing data结果也
很棒,就是不知道该怎样合理解释这些背后的因果。做模型往往是data driven, Batch
by Batch,很容易一锤子买卖,不行下次再试另一个模型。真正需要归纳,到最后还
是要靠统计的来支招。
我不知道那些公司做大数据的,他们做线上建模 scoring /marketing Campaign的具体
案例和实际效果怎样,是否可延续? 个人感觉是,现在的大数据的价值和功用有些被
夸大了。
l******n
发帖数: 9344
2
ML的结果有时候“难于解释“是和简单传统统计模型相比较而言的,这早已不是ML应用
的瓶颈。现在主要看结果,能抓到耗子,就是好猫

【在 n****n 的大作中提到】
: 现在大家都说大数据,个人翻了翻一些资料,发现相关的内容大致有两类:
: 1-Map-Reduce:就是用所谓的Pig /Hive/Hbase来调用Hadoop系统里众多Cluster的一
: 个不断搜索,查询,分类和整理的过程。这个过程的性质和现在大家普遍所熟悉的SQ
: L功能相似,只不过是针对更大的量(PB/TB)和更复杂的结构(来自Web log/网络交
: 易/Social/甚至物理终端设备)。所以Map + Reduce就是个便于在这些数据中不断查,
: 不断合并的过程。
: 整理完的结果可以生成现在的RDBMS(彻底淘汰RDBMS是需要相当勇气的)。也就是说,
: 基本上,一旦数据整理完成,还是依然可以采用现在的方式来做模型,Predictive
: Modeling, Scoring, Forecasting. 该怎么,就怎么,方法和程序不会太变化。尤其
: 是在金融行业,面对行业准则和政府法规,很难有大的变化在这上面。可能影响到的职

b********1
发帖数: 291
3
我觉得也是,big data, 到底能干嘛 ?
有没有big data, 该买哪些东西还是那些东西,不该买的还是不买. 我的每月工资还是
那么多,账单也是那么多。 说明传统的数据处理,建模肯定也够用了。
除非有朝一日老百姓的工资变成'大数据', 大家都玩命消费,一秒钟刷一次信用卡,
我看 map_reduce, hive,hadoop才真正有用武之地。
当然要是新型网络公司, 还有犹他州的数据中心, 特别热衷收集个人资料, 上网记
录,通话记录甚至电费水费煤气费的, 算我没说。 问题收集这么些资料, 能转化为
生产力嘛?
c*****a
发帖数: 808
4
big data挺有意思的
想想要design一个系统实时整理大流量数据,删掉旧数据,再分析数据,然后更新到一
些数据库上.
S******y
发帖数: 1123
5
哈哈,都是很好问题 不过您说的都是CEO 级别操的心。
对我们干技术活的,技不压身,多多益善
现在有公司愿出优厚薪水请DS及懂Python R Hadoop人才,大家不妨先把钱赚了再说
两年后上面提到的有些讨论命题可能就不成立了
祝大家马年大吉 马上发财!
欢迎联络我 m*********[email protected]
http://plus.google.com/109275868505226513618/about

【在 c*****a 的大作中提到】
: big data挺有意思的
: 想想要design一个系统实时整理大流量数据,删掉旧数据,再分析数据,然后更新到一
: 些数据库上.

c***z
发帖数: 6348
6
我的每月工资还是那么多
wrong, if you pick up big data :)
1 (共1页)
进入Statistics版参与讨论
相关主题
Insurance company job openings统计MASTER是不是就银行和药厂两条出路?
PROC SQL运行速度问题.急问,有学金融的吗?做loss forecasting大概需要什么知识,on
[合集] SAS 程序 Editor 窗口显示 在 running,实际上是死了,请教银行的risk management vs. marketing analytics
batch?FICO 好吗?
在集成的cloudera hadoop中计算词频(wordcount)请问:为什么if then 在do loop 中就不起作用了呢?
【旧文重发】 Python and R study guide求教:R里面怎么屏蔽一个子程序打印到屏幕的输出?
提供内推data science engineerOpening for SAS analyst
请教decision science这个领域主要应用什么技能两个internship offer, 该选哪一个?
相关话题的讨论汇总
话题: 数据话题: 方法话题: 模型话题: 整理话题: 建模