由买买提看人间百态

topics

全部话题 - 话题: hdf
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
w**z
发帖数: 8232
1
来自主题: Programming版 - persistence的选择
从benchmark 看hbase is the best. 但它有single point of failure , 管理起来比
较复杂。但好处是用hdfs , 和hadoop 象一个娘养的。
z*******3
发帖数: 13709
2
来自主题: Programming版 - Web不是已经走下坡路很久了么...
dropbox是文件系统
instragram也是文件系统,适用hdfs
wechat是message,跟通信还有twitter类似
大部分都是瞬时连接的网络协议比如http搞定
现在后端唯一有所不同的可能就剩下那种3d网游了
这个主要是网络协议有所区别
网游的server不是一般的web server能搞定的
需要定制,要能支持多个客户端在相当长时间内保持连接的状态
而且处理逻辑相对复杂,比较难做切割,很多手段用不上
但是一般app游戏的后端问题不大
netflix这种看片的后端也还好
z*******3
发帖数: 13709
3
来自主题: Programming版 - Web不是已经走下坡路很久了么...
dropbox是文件系统
instragram也是文件系统,适用hdfs
wechat是message,跟通信还有twitter类似
大部分都是瞬时连接的网络协议比如http搞定
现在后端唯一有所不同的可能就剩下那种3d网游了
这个主要是网络协议有所区别
网游的server不是一般的web server能搞定的
需要定制,要能支持多个客户端在相当长时间内保持连接的状态
而且处理逻辑相对复杂,比较难做切割,很多手段用不上
但是一般app游戏的后端问题不大
netflix这种看片的后端也还好
w**z
发帖数: 8232
4
来自主题: Programming版 - NOSQL排名
HBase和Hadoop都是用HDFS 存储。
Cassandra 不是,除非你付钱用Datastax enterprise version.
r****c
发帖数: 2585
5
来自主题: Programming版 - AWS cloud 内部做log,大家怎么设计
你这是structure log还是debug log?
36楼说的不错,用log saver类似的,存到HDFS
debug的话就看文件,structure的话更简单,直接起个mr查
d*******r
发帖数: 3299
6
来自主题: Programming版 - AWS cloud 内部做log,大家怎么设计
请问你可否说详细点?
我不懂 structure log 和 debug log 这种提法。
我的log是要回头编程查询的,所以 log 一条条肯定要是有一定 structure 的,不是
无结构的 text stream
比如像 JSON一样的
{'time':'01-07-2014:08:00pm', 'writer':'srv1.video.xxcom.com', 'event-type'
:'error-xx' ...}
存到 HDFS, 在起个 mr? 没太懂
抱歉 hadoop 不熟悉.
f*******t
发帖数: 7549
7
你如果只是找个地方存,用hadoop的hdfs就可以。调用起来跟单机文件系统没什么区别
r****c
发帖数: 1494
8
貌似感觉用数据库存下文件的位置,然后文件放hdfs上也是可以。
不过感觉这样很山寨啊。如果有现成的方案当然更好了。
r**********g
发帖数: 22734
9
来自主题: Programming版 - c++程序员不要把头埋在沙子里了
呃,蜥蜴你说java不用管内存是不对滴。我搞hadoop还自己搞了java实现的swap space
。java 的内存不仔细优化照样不知道怎么死的。除非你就是写写business logic。其
实真要碰到memory hog的大程序,还是得上C++。好几次都是彻底没辙上了JNI。
你看看Hadoop,HDFS的库是不是还有一陀C++在里面丫
g*****g
发帖数: 34805
10
来自主题: Programming版 - c++程序员不要把头埋在沙子里了
轮子不断出现,跟需要JNI是俩码事。Hadoop相关的轮子一堆,有几个用到JNI的?
Hadoop本身有一些JNI,那主要是为了其他语言可以访问HDFS。
z*******h
发帖数: 346
11
来自主题: Programming版 - 举几个java换成C++的例子
比如MapR的文件系统就是用C++重写的,比Apache HDFS快一个量级。
比如Cloudera的Impala是Oracle跳过去的人用C++写的,比Hive快一个量级。
c***d
发帖数: 996
12
来自主题: Programming版 - 机械硬盘的物理极限
这点有点象电池, 也是不服从摩尔定律,但是严重影响architecture design的。 从
memcached, redis, 到big table, hdfs, 都是因为硬盘的物理极限。
c*****e
发帖数: 3226
13
1) the file system will be distributed across 3 台机器
2) 文件系统将被 apache farms mount to local file system 用于 serves
static files and 文件上传
3) 任何一台机器突然 断电不要丢失数据。
4) 这个系统最好安装简单, 小巧。
hdfs? owfs? Ceph? shrift?
g*****g
发帖数: 34805
14
必须内部那你还是hdfs吧。
z****e
发帖数: 54598
15
你信不信你最终会end up到hdfs和hadoop
cassandra来做cache管理这个最最最传统的方法上
所以说,无脑上就没错,讨论这么多不累么?我看着都累啊
z****e
发帖数: 54598
16
我觉得HDFS是一种GENERAL PURPOSE的系统
如果不是有什么很特殊的要求,就无脑上
我是这么搞的
N*n
发帖数: 456
17
搜了一下
Ceph 似乎是比 GFS 更新一些的系统。。 HDFS 就是Hadoop FS.. 其它两个都
没找到。
我的经验,这些cluster FS还真是有差别的。。设置,维护的难易程度挺不一样的。
文件数量大到一定程度以后是否撑得住。。平时运行好好的,加个security patch
重启一下回不来了或者在 fsck..从这个角度,云确实对开发者看起来是好事。。省
很多这些零碎问题。。
c*****a
发帖数: 1638
18
HDFS只能作为一个分布式处理系统的支撑,作为一个独立的文件系统来说,功能太弱了
。从长远来说,如果只是作为文件存储的解决方案,我个人觉得对未来功能扩展能提供
的可能性太低。
D*******a
发帖数: 3688
19
试过glusterfs吗?
hdfs好像没有人直接用来serve static files的,而且也不是很好集成吧(至少需要写
点code)
m********l
发帖数: 791
20
来自主题: Programming版 - Graph database 业界用的多吗? (转载)
您说的本质是什么呢?
我刚开始接触NoSQL这块,不是很了解 之前在HDFS上写过mapreduce,pig,hive这些
p*****2
发帖数: 21240
21
来自主题: Programming版 - 坛子里有人搞HBase的吗?
hadoop可以用hdfs吧
z****e
发帖数: 54598
22
来自主题: Programming版 - 坛子里有人搞HBase的吗?
可以阿,但是纯文件搞起来也有些低效率
当然还是优先考虑堆轮子了
hdfs上也没有其他数据库可以用了
s*****t
发帖数: 89
23
来自主题: Programming版 - 写脚本真麻烦
类型的话可以用王垠同学的PySonar2产生出来文档随时查阅(https://github.com/
yinwang0/pysonar2),不过我分析python的标准库花了半个多小时,好在这种静态分
析做一次就够了。
安装的话倒是从来没与到过什么问题,讨厌的是2和3之间换来换去的情况,又不想给系
统里面赛太多依赖只好用virtualenv了
IDE 尝试了PyCharm Ninja,最后发现IDE的效率都不如ipython notebook。
我写的时候基本上是这个套路:
0:新开一个cell,测试下库的用法
1:基本控制流,每次写一点Shift Enter就知道结果了
2:等到写了几百行了拆几个函数、封装成类什么的,不过我又不做通用库,都是给自己
写着用的,所以不太喜欢用OO的哪些东西。
可能有人一上来就比较注意大局,考虑问题比较周全,但那样也挺浪费时间的,就像楼
主说的只要思路清楚了其实那些art的部分不太要紧了。
3:合并cell,保存成py文件,丢给python、cython
等功能正确了就开始做点profile用cython优化下,受sage的老大的文章影响不太喜欢
swi... 阅读全帖
h*****4
发帖数: 4219
24
来自主题: Programming版 - hbase的问题
在本地有三个project,A 和C 都是maven dependent on B, 在B里有关于连接HBase读
写操作的API。他们用的是同样的hbase-site.xml,hdfs-site.xml和core-site.xml,
但现在B和C都可以成功连接并读写而A不行。A里面返回NoServerForRegionException.
查了他们的config,在HBaseConfiguration.create时B是有yarn-default.xml和yarn-
site.xml而A没有,还没有测试C里面有没有...
请问版上大牛们,这个yarn跟HBase的连接有关吗?再一个怀疑点时hbase-env.sh需要
放在test/resources里面吗?在B里面放着不过A和C应该都没放。 谢谢指点
M*****R
发帖数: 650
25
I am no Daniu, but I just finished transitioning from C++/C#/Windows
Platform to Java/Open Source Platform in last couple of years. There are a
few things I think that helped me a lot
- The two books: Core Java Volume I, Java Concurrency in Practice
- Read about dependency injection, from Spring to Guice
- Re-read a few design patterns
- Learn to use Java inner class and template pattern
- Read about JVM
- Don't focus too much on performance and memory management when coding
- Don't try to use l... 阅读全帖
z****e
发帖数: 54598
26
来自主题: Programming版 - Goodbug你给个学java的roadmap吧
你一搞数据的
古德霸说的那些可能关联不是非常大
尤其是hibernate,spring,这两个跟你啥关系?
hibernate你需要写orm去crud数据么?
spring跟你也未必有很大关系
你应该优先考虑cassandra和spark
这两个跟你的关联最大
其次是hdfs这些
尤其是spark以后会有sql和ml的pkg
这两个才跟你对接得比较紧密
z****e
发帖数: 54598
27
来自主题: Programming版 - 学scala和spark需要什么pre req?
学spark不需要scala,你会python就行
关键是要明白spark在做啥事,最好之前有hadoop的基础
hdfs,cassandra这些,说到底就是数据处理
学scala会java就可以开始了
scala的console还是比较好用的
z****e
发帖数: 54598
28
来自主题: Programming版 - 试了下spark,不过如此啊
3-5年吧
现在是刚开始
hadoop和spark有啥冲突的
hdfs这些还得用啊,spark又不管这些
B*****g
发帖数: 34098
29
来自主题: Programming版 - 试了下spark,不过如此啊
大牛讲讲用卡桑取代hdfs的理由

interactive
n******t
发帖数: 4406
30
来自主题: Programming版 - 已经全上内存了,还要40多秒啊
这么搞法,和把HDFS全部跑在ram disk上比起来优势在哪里?
z****e
发帖数: 54598
31
来自主题: Programming版 - 已经全上内存了,还要40多秒啊
我就说嘛,老是做这种算术操作,迟早被人骂
猴屁股这种level就没那么容易忽悠
最好的方式干脆对比kmeans,用mllib做一次kmeans
然后对比全部跑在ram上的hdfs的kmeans
那个应该可以用scala做一定程度上的优化
就是coltzhao说的那些优化手段
z****e
发帖数: 54598
32
来自主题: Programming版 - Spark会干掉Storm吗?
嗯,storm可以接收来自其他server的stream
spark还是主要针对persistence,现在也只针对hdfs
cassandra的支持都还只是刚刚起步
p*****2
发帖数: 21240
33
来自主题: Programming版 - 以后真的是cassandra spark的天下了?
spark跟hdfs集成好恶心呀
p*****2
发帖数: 21240
34
来自主题: Programming版 - 谈谈为什么上scala

一个是算法,算法复杂了以后callback还是很难表达
另外一个是并发模式,node只有一个cluster模式,想解决的事情复杂了以后,感觉不
是太够用
我们最近做一个任务,把240G的数据从HDFS倒到cassandra,要求在10分钟之内,这样
一台机器基本不够用,必须上districuted,这样的话,无论akka还是spark都可以完成
这个任务,但是node就很难了,当然也不是不可能,不过估计要花我一些时间去做个
distributed app。
总之,Node的优势是做web service,或者startup/小项目的full stack。真正的大数
据的解决方案还是要在JVM上解决。
C********g
发帖数: 1548
35
来自主题: Programming版 - 可以建公司内部的HDFS吗?
我直觉它对硬件要求低,应该可以降低cost,并且可扩展性很强。
c****e
发帖数: 1453
36
来自主题: Programming版 - 可以建公司内部的HDFS吗?
Reports said Hadoop can reduce 30% cost on data warehouse. But don't
underestimate the operation barrier.
p*****2
发帖数: 21240
37
来自主题: Programming版 - 可以建公司内部的HDFS吗?
不如上cassandra
C********g
发帖数: 1548
38
来自主题: Programming版 - 可以建公司内部的HDFS吗?
谢谢指正。我确实是那么理解的。
g*********e
发帖数: 14401
39
来自主题: Programming版 - 可以建公司内部的HDFS吗?
还可以被spark用
但都是很intuitive的计算
z****e
发帖数: 54598
40
来自主题: Programming版 - 可以建公司内部的HDFS吗?
不过你们才40k个enrollments
这点数量,根本不需要什么erp
直接自己从php建起都能搞定
p*****2
发帖数: 21240
41
来自主题: Programming版 - coltzhao的公司还在用mongo吗?
可以把mongo数据先导到hdfs
cassandra connnector 已经算容易用得了 相对来说 spark 还是太早期
z****e
发帖数: 54598
42
来自主题: Programming版 - coltzhao的公司还在用mongo吗?
关键是yarn上弄ml很恶心
啥都要自己动手,很麻烦
而且hadoop sql不管是hive还是pig
都做得不三不四的
虽然说hdfs离真正的real time处理,还有很长一段距离
但是hive和pig也慢得可以了
mapreduce现在沦为一个batch工具
这里面显然有很大的提升空间
spark至少说rdd模型就把这个给做了
然后再谈sql, r和ml这些上层建筑
我觉得很make sense,把rdd看成一个cache就是了
分布式每层都做一个cache很正常
db,web/app server这些都有内嵌的cache
而mapreduce则没有
现在主流公司集体转向spark,都全力支持spark
固然有这样那样的问题,但是比起hadoop的mapreduce
感觉是要好很多了,spark上再搞sql这些,才是the way to go

apply
z****e
发帖数: 54598
43
来自主题: Programming版 - coltzhao的公司还在用mongo吗?
我对hadoop最大的抱怨就是hdfs跟mapreduce结合过于紧密
分开的话,其实没那么复杂
但是分开又不符合hadoop整个项目组的利益
又大又全几乎是所有项目的陷阱
往往到后面,你只用其中十分之一的东西
另外上spark真不用scala
用轮子不需要懂得怎么造轮子
你用spark,python都可以,为啥非要scala?
对scala唯一要求就是down下来,设置一下SCALA_HOME就可以了
如果觉得java没有shell的话
打开eclipse就可以当一个复杂化的shell用
python和scala都有shell
m******e
发帖数: 201
44
一般有个job scheduler,比如很多用java的公司会用oozie,每天固定时间跑一次
Hadoop jobs。可以有任意多个job,互相之间也可以有依赖关系。跑完的结果可以存
HBase,RDBMS(MySQL,Oracle...,一般aggregated data),或者直接就是HDFS里。用
Java裸写Hadoop程序的已经越来越少。都是Hive/Pig生成的。还有很多ac-hoc query一
般就是用Hive。

/
w********m
发帖数: 1137
45
来自主题: Programming版 - python真是一个很恶心的语言。
反正linux层和hdfs层上都要用python,干脆一口气都用python了。
另外,哪去找会scala的
z****e
发帖数: 54598
46
来自主题: Programming版 - python真是一个很恶心的语言。
hdfs是jvm上的东西,你用python?
那个是jython吧
你们是c++转过来的程序员
因为hadoop流行,所以不得不上java
所以瞎搞,python慢死,根本不能在生产中用
spark你要是用python,那个是cinterpreter
可以让你比用java写慢上几十倍一点问题没有
w********m
发帖数: 1137
47
来自主题: Programming版 - python真是一个很恶心的语言。
搞startup一开始就是一个连EC2的SSH
最少要搭个demo出来,骗骗投资人吧
要搞java的话,估计只有到印度新德里搬运烙印,明年十月上班,谁能撑那么久
现在大部分大学毕业生都懂点python,注意--不是CS专业的
startup顺便拉个人就可以开工
以前的storm,shark也不是不好,太复杂了,没人会用
databricks的人从Berkeley出来的,知道现状,于是把spark上面的python搞好,到处
用ipython notebook作介绍,大家一看都会,马上火爆了。
到hdfs上查个log,没人愿意用java现写个类库。所以,现在的大趋势是java做轮子,
python用轮子。
w********m
发帖数: 1137
48
来自主题: Programming版 - python真是一个很恶心的语言。
不是hadoop和spark的committer,没兴趣关心jvm。用轮子的真不觉得轮子怎么做很重
要。
测试过scala和python在spark上的表现,没觉得你说的后者比前者慢几十倍。主要瓶颈
是RDD到hdfs的IO,这跟语言有什么关系。
另外,spark上怎么用groovy。
w********m
发帖数: 1137
49
来自主题: Programming版 - python真是一个很恶心的语言。
反正linux层和hdfs层上都要用python,干脆一口气都用python了。
另外,哪去找会scala的
z****e
发帖数: 54598
50
来自主题: Programming版 - python真是一个很恶心的语言。
hdfs是jvm上的东西,你用python?
那个是jython吧
你们是c++转过来的程序员
因为hadoop流行,所以不得不上java
所以瞎搞,python慢死,根本不能在生产中用
spark你要是用python,那个是cinterpreter
可以让你比用java写慢上几十倍一点问题没有
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)