由买买提看人间百态

topics

全部话题 - 话题: hdf
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)

发帖数: 1
1
来自主题: Programming版 - 这种情况该用那种big data tool?
需要interactive的话你需要对read优化的database/system,如果数据可以load到别的
数据库上再做运算的话可以考虑bigquery,vertica,redshift,greenplum之类的解决
方案;如果数据只能放在hadoop/hdfs上面的话那就上presto,impala,sparkSQL之类
方案的;理论上基于hdfs的解决方案可能performance相对会差些,毕竟底层storage上
就决定效率不是特别高。
r****y
发帖数: 1437
2
来自主题: Unix版 - a question about cpio
I have cpio files created on a 64-bit big-endian machine. Now I
tried to unpack them on another 64-bit little-endian machine, I used
"cpio -ibv" but cannot get right results, it kept telling me
cpio: cannot swap halfwords of AIRS.2005.01.hdf: odd number of halfwords
cpio: cannot swap bytes of AIRS.2005.01.hdf: odd number of bytes
Anyone know how to fix this? Thanks a lot.
p********t
发帖数: 1219
3
http://modis-atmos.gsfc.nasa.gov/MOD35_L2/production.html
Data Volume
The MODIS Cloud Mask Product (MOD35_L2) will be produced at the MODAPS
facility at the NASA Goddard Space Flight Center. MODAPS will produce 100%
of the MOD35_L2 product. MOD_PR35 process executes 24 hours a day (on every
MODIS L1B granule).
Approximately 288 MOD35_L2 HDF files are produced per day. Each HDF file is
roughly 47.5 MB in size, so the total data volume is approximately 13.7 GB
per day.
Production Rules
The MOD35_L
m****s
发帖数: 402
4
八阕 http://www.popyard.org
日前,美国宇航局钱德拉X射线望远镜探测到“宇宙幽灵”潜伏在一个遥远超大质量黑
洞的周围,这是科学家第一次探测到如此高能量的特异景象,他们认为这是由黑洞产生
巨大喷射物质所形成的。
这项发现是天文学家观测宇宙非常年轻阶段的难得机会,这一太空特异景象之所以被称
为“宇宙幽灵”,是因为黑洞喷射的放射物质逐渐消失之后仍弥漫着X射线物质。这一
景象是钱德拉深域望远镜拍摄的,这是该望远镜迄今所拍摄最遥远的X射线图像。
“宇宙幽灵”潜伏在黑洞周围
图像所拍摄的是HDF 130星系,它距离地球100亿光年,图像正是宇宙大爆炸后30亿年后
的景象,当时正值星系和黑洞高速形成阶段。英国剑桥大学安德鲁-费比恩(Andy
Fabian)说:“几年前我们就已观测到这一模糊目标,但是直到目前我们才意识到它看
上去非常像怪异的幽灵。这一景象告诉我们一些重要的信息----数十亿年前该星系所发
生的一切。”
费比恩和同事认为,HDF 130星系所释放的X射线是该星系中心黑洞释放接近光速的高能
粒子流的显着证据。当喷射进行时将产生惊人数量的射电和X射线放射物质,但是经过
k*******n
发帖数: 190
5
就是几个T的LOG数据要aggregate成为各种报告所需要的结果,可以存到数据库里. 以前
是用PYTHON+PIG+HIVE在HADOOP里完成,需要十几个小时,还经常fail.所以忍无可忍,决
定用JAVA,我们组的同事就照着书本写了一个,其实也没错,只是HADOOP本身不是那么高
效率.我的思路是尽量把工作都变成本地的来做,可以在MAPPER,REDUCER里面象LOCAL运
行的程序.能够并行地就尽量并行.本来以为速度会快几倍,没想到快了几十倍. 不过想
想看,HDFS是把数据备份三份,这种兼顾存储的方法不是计算最优的.我基本上避开了
HDFS,这也是加快的原因之一.
我是JAVA的新手,两个月前才开始学着用,这也是我同事一开始不认同我的观点的原因.
z****e
发帖数: 54598
6
【 以下文字转载自 JobHunting 讨论区 】
发信人: xmj http://www.zenofon.com/QHJRE, 信区: JobHunting
标 题: Re: MapR Technologies continue hiring a lot of positions
发信站: BBS 未名空间站 (Sat Jul 19 13:19:40 2014, 美东)
俺做bigdata5年多,这三家公司都研究过,简单说说供参考。
Cloudera成立早,有很多yahoo的老人在,骗了很多钱,目前以做service为主,比较领
先的是它的management tool,对hadoop的manage比其他的package要强。背后主要的支
持者是oracle和teradata,前段时间intel投资了。目前来看比较牛。他们自己搞了
impala,我的感觉有点不伦不类的。
Hortonworks是yahoo spinoff的,技术上来说,看看hadoop早年的code大概也知道是个
什么样水平。HDFS真心还不错,Mapreduce一般般了就。里面有很多以前做pig的人,目
前... 阅读全帖
z****e
发帖数: 54598
7
一个在gfs工作多年的阿三出来,按照hdfs的接口,把代码重新写了一遍
说白了就是把gfs的接口换成hdfs的接口,两边抄一抄,就拿出来卖了
不能不佩服三锅的忽悠水平
S********6
发帖数: 8
8
抛下砖:
Vertica的前身是c-store(即column-oriented的RDBMS),由mike stonebraker那帮人搞
出来的。相于传统的其他RDBMS,Vertica从数据存储的机构上发现改变,大大减少了IO
,从而提高了数据读取的效率,它可以支持数据分布到cluster上。其他的优点,有兴
趣的可以去了解相关资料。
Hadoop,即HDFS+MapReduce Framework (2.0版本还有YARN),它是一个适用于大规模数
据处理的平台。现在它和Veritca有互通的接口,但它们不是一回事。
1 hadoop的数据一block的形式存在HDFS上,而Vertica有自己的数据存储结构,把
RDBMS 的数据partition存到一个或多个节点的disk。Hadoop存的一般是unstructured
data,而Vertica存的是structured data.
2 hadoop的execution engine 是MapReduce ,而vertica有自己的query engine,支持
transaction execution.
[在 SQy... 阅读全帖
o**********e
发帖数: 18403
9
来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖
w*r
发帖数: 2421
10
Yes, it is working properly.
Test case:
Step 1 : create a python script to generate random strings. (copied from
internet with little mod)
#!/usr/bin/env python
import sys
import random
import string
def id_generator(size=6, chars=string.ascii_uppercase + string.digits):
return ''.join(random.choice(chars) for _ in range(size))
line=int(sys.argv[1])
for x in range(1,line):
print(id_generator())
Step 2: generate test data and put into home folder:
./random_string.py 1000 | hdfs dfs -p... 阅读全帖
m***r
发帖数: 359
11
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-15
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-15/short.html
1) 【构建一个 ARM 集群,运行分布式 Docker 容器服务】 by @登州知府
关键词:数据库, 虚拟化, Docker, etcd, 容器
构建一个 ARM 集群,运行分布式 Docker 容器服务:第一部分,硬件 [1] 第二部分,
系统镜像 [2] 第三部分,分布式容器服务 [3]
[1] http://mkaczanowski.com/building-arm-cluster-part-1-collecting-wiring-and-powering-devices/
[2] http://mkaczanowski.com/building-arm-cluster-part-2-create-and-write-system-image-w... 阅读全帖
w*r
发帖数: 2421
12
用过AWS没有啊?不要误导人家,AWS的那个效率开了HDFS/Yarn之后基本上就没有资源
了,AWS每个node本身的处理能力很弱的,如果楼主需要deploy/configure cluster,
基本上需要4-5个node, 每个node 16GB+ memory .
给你数一下
假设你有 N1 - N5
HDFS: N1 Name node , N2 standby name node, N3 - n5 data node
Yarn: N1 active resource manager, N2 standby resource manager, N2 history
server
Hive: HIve server2 N1
Hue : Hue server N2
Zookeeper: three servers N3-N5
Spark : N1 history server
oozie : N2 oozie server
sqoop 2 : TBD
Hbase: N1 Master, N2 master backup, N3-N5 region server, N1 Hbase... 阅读全帖
b*****h
发帖数: 3386
13
http://seekingalpha.com/instablog/110813-mike-havrilla/17481-extreme-fda-calendar-trades-21-stocks-under-5
On 7/20/09, Trinity Biotech (NASDAQ:TRIB) ($4.88) announced the submission
of a CLIA application for its TRI-stat point-of-care HbA1c product to the
FDA.TRI-stat is designed to measure HbA1c, also known as glycated hemoglobin
, a measure of a patient's average blood sugar control over the trailing two
to three month period. Utilizing a patented boronate affinity and two-phase
optical system... 阅读全帖
W*****d
发帖数: 4196
14
【 以下文字转载自 JobHunting 讨论区 】
发信人: fightclub (搏击俱乐部), 信区: JobHunting
标 题: A, A, G, G, L, C, Z, U 面经 + offer
发信站: BBS 未名空间站 (Fri Dec 18 11:43:09 2015, 美东)
之前也onsite了dropbox, pintreset, 和whatsapp都挂了,后来才慢慢找到点感觉。我
把面的题基本都写下了,但我不在这里和大家讨论这些题了。
A (Airbnb)
1. 2D array, 访问顺序必须是‘回’字的方式,就是从外圈转到里圈,写出class,
Iterator, hasNext(), next().
2. 电话号码和计费的一个log, 去parse 看规定时间内哪个号码产生费用最高。
3. leetcode anagram 的一题变种
4. 有很多个sorted queue存在不同服务器上,如何有效的读取到一个 sorted 大queue
里 (google也面到了这题)
5. 设计db, 如何存取房东和房客的reviews, 如何maintain... 阅读全帖
p******e
发帖数: 3689
15
物理我懂
相对论我懂
计算机实现的
CS/EE我也懂一些
Hadoop, MapReduce,Apache Tomcat, NodeJs, MongoDB, Javascript,
SQL, HDFS
拼图有兴趣的都是自学过的啊:)
你吃素?
天天追着我咬有意思吗?
嫉妒!
D*******o
发帖数: 3229
16
来自主题: Military版 - 国内也迅速降温了
美国的一些银行都开始往HDFS上堆数据了。不宣传只是因为已经成为common sense了。
f***y
发帖数: 4447
17
https://www.enmotech.com/web/detail/1/724/2.html
导读:日前,华为公司在京面向全球发布了人工智能原生(AI-Native)数据库GaussDB和
业界性能的分布式存储FusionStorage 8.0,将多年的AI技术和能力以及数据库经验融
入到新品,实现很多创新性突破,比如人工智能技术融入分布式数据库的全生命周期、
一套存储可同时支持块、文件、对象、HDFS协议等。
其中,最为标杆性的场景应用实属招商银行,在实践中:
华为GaussDB管理数据容量提升10倍,AZ内故障恢复速度提升30倍。以故障恢复为例,
GaussDB的RTO时间小于1秒,而其他厂商则需要30秒;
FusionStorage 8.0在招行,部署渠道接入、开发测试、VDI以及大数据系统,一套存储
替代原有4种存储设备,节省40%的TCO,业务上线速度提升9倍。其次,将人工智能技术
融入存储全生命周期管理,从资源规划、业务发放、系统调优、风险预测和故障定位等
方面实现智能运维管理,实现云上云下协同。再者,分布式存储性能业界第一,单节点
性能高达16.8万每秒读写速度(IO... 阅读全帖
m****e
发帖数: 1034
18
来自主题: Olympics版 - 哪里可以看啊女排直播?
电视盒+hdf直播
T**********n
发帖数: 480
19
来自主题: Classified版 - Tango.me急招ads开发
需要懂hive,java
有hdfs和hbase经验更好,能做web加分
这是一个直接影响revenue的关键职位,所以加急
湾区的有ads经验的基本都可以跳过电面直接onsite
t************[email protected]
另外已下opening继续招人
按优先级从高到低排序
*VoIP专家,需精通QoS,jitter,error resilience
Build and release(需要懂Jenkins)
*iOS 客户端(大量需求,最好懂C++)
*Android 客户端(大量需求,最好懂C++)
*QA, 有经验的server端的,最好有过开发经验,没经验的也会考虑但比较难
Puppet/Python/Linux hacker 运维和DevOps
Growth Hacker(有growth/engagement经验的最好)
Core Java with Hibernate/Spring 服务器
打*的如果非常优秀的可以跳过phone screen直接onsite
简历请发 t************[email protected]
a****1
发帖数: 74
20
We are looking for Java dev with big data experience. The compensation will
very competitive.
Description
Big Data Cloud Staff Engineer (open from entry level to senior level)
Location: Bellevue, WA (R&D)
Responsibilities:
This position will work closely with other members of the team, he/she will
be responsible for:
· Design and implement the big data cloud service and ecosystem that are
secure and reliable at large scale.
· Understand the challenges of big data service, cloud monitoring, cloud... 阅读全帖

发帖数: 1
21
来自主题: Classified版 - 招聘: 两名PHP Developer
我们是一家 Startup. 位于洛杉矶。需要有经验的PHP Developer帮忙赶进度。你可以
在家连线工作。请email [email protected] 查询详情。
Job description:
SUMMARY OF POSITION
We are looking for a Senior Full Stack Developer who is highly collaborative
, works well with
designers, and is committed to creating solutions to meet end-user and
business needs.
The ideal candidate will have experience with healthcare staffing industry,
along with
development for mobile devices, native apps, CMS and social media
integrations. You will have a
thoro... 阅读全帖
m*********e
发帖数: 944
22
来自主题: HiFi版 - 我买音箱的一点经验。
刚才回帖看错了牌子,刚刚改过,发现版主有赏,就写几句我买音箱的一点经验。
我住在乡下,没有什么Craig List的机会,也没有什么试听的机会。要是只能去dealer
那去试,只是Dealer的东西都很贵,去一次都跟老鼠见了猫一样,心里经常感叹要是
walmart也买音箱就好乐。自己的预算不够,就拼命的搞性价比对比。
我看了很多杂志,网站,评论,中文的英文的都有。比来比去,我就觉得Polk 和
Aperion Audio Speakers 还不错。Aperion 用的是HDF(音箱要重得多), 实际上是国
产的,评价很好(audioholics.com),又没有税,可以trade-up, roundtrip shipping.
只是我看中的还是很贵,我的打算是一半的钱要用到receiver上。
Polk的Rti系列还是很不错的,用的是真正的cherry board,摸起来很舒服,评论也不
错,不过Polk 的东西大众化的多,好多杂志都不屑一顾吧, not much evaluations
from pro mags。Polk 的箱子大概也是国产的,不过他们的floor standing
i*******g
发帖数: 100
23
来自主题: JobHunting版 - 讨论一个大规模系统设计题目
use HDFS as the storage, per the report from Yahoo, 10000 PC(linux), each Terabytes so, this is a minor case :) anyway use as much as HDisk to enhance the I/O performance and push the CPU, there could be a trade-off
using mapreduce to clac the frequency, map for the integer hashing(nothing to do), reduce from intermediate results of map shaping for the frequency, simply, just accumulate
Even, need pratice on different OS, CPU arch(generally X86 is OK)
m******d
发帖数: 414
24
If interested, please send me your resume and contact info. Thanks.
Company website: http://sharethis.com/about/contact
Company profile: http://www.crunchbase.com/company/sharethis
Job description:
Individual Contributor, Infrastructure & Analytics
Company Overview
ShareThis is a service in the social media space. ShareThis enables site
publishers to provide a simple one-button option to users to share site
content with others through email, social networks, and social bookmarking.
ShareThis pro... 阅读全帖
b******y
发帖数: 660
25
来自主题: JobHunting版 - 电面被问到hadoop了
一门户网站的电面
用hadoop做wordcount,输入是一个很大的文件,#distinct term小于100,最后的结果
不写到HDFS,要print到console。
mapper就跟wordcount例子一样啦。我说用1个reducer,用LOG.info 将count print到
console,他说这个可能只print在reducer的console,而这个reducer在哪个node无法确
定。
他提示到在mapper用counter,不过没有什么头绪。希望各位指点一下。
b******y
发帖数: 660
26
来自主题: JobHunting版 - 电面被问到hadoop了
一门户网站的电面
用hadoop做wordcount,输入是一个很大的文件,#distinct term小于100,最后的结果
不写到HDFS,要print到console。
mapper就跟wordcount例子一样啦。我说用1个reducer,用LOG.info 将count print到
console,他说这个可能只print在reducer的console,而这个reducer在哪个node无法确
定。
他提示到在mapper用counter,不过没有什么头绪。希望各位指点一下。
H***e
发帖数: 476
27
来自主题: JobHunting版 - 问道题吧 L家 onsite
这个如果是hdfs上面,直接可以用pig写script啊,就是group by
D***n
发帖数: 149
28
来自主题: JobHunting版 - 问道题吧 L家 onsite
用 Hive就行了.. HDFS上的类 SQL 的 HQL..
l******o
发帖数: 144
29
来自主题: JobHunting版 - [apple面经] iOS software engineer
我了个去了,这些题还真是难啊

删除个人情感,把纯面经提供给大家,
面试职位: c++ server-side engineer
requirement: c++, python, hadoop, 数据库,large scale data process
组:GEO Team
第一轮onsite,每个人45分钟
round 1:c++ shared pointer用法和实现,python generator, yield, list
comprehension,xrange, range区别,结构题对齐,编程 FIFO队列
round 2: hadoop相关,deamon进程有那些,循环有序数组查找,递归和非递归
round 3: 电梯设计,调度算法
round 4: 拓扑排序, 矩形相交,树的结点个数,位运算
round 5: map/reduce 程序,相当与sql(select count(*) from a where c='x'), 位
运算,将16个{00,01,10,11}变成一个32位整数,并解码。 fib递归和非递归
round6:几何题,求方块和圆弧的交集,expr... 阅读全帖
d********w
发帖数: 363
30
来自主题: JobHunting版 - [apple面经] iOS software engineer
删除个人情感,把纯面经提供给大家,
面试职位: c++ server-side engineer
requirement: c++, python, hadoop, 数据库,large scale data process
组:GEO Team
第一轮onsite,每个人45分钟
round 1:c++ shared pointer用法和实现,python generator, yield, list
comprehension,xrange, range区别,结构题对齐,编程 FIFO队列
round 2: hadoop相关,deamon进程有那些,循环有序数组查找,递归和非递归
round 3: 电梯设计,调度算法
round 4: 拓扑排序, 矩形相交,树的结点个数,位运算
round 5: map/reduce 程序,相当与sql(select count(*) from a where c='x'), 位
运算,将16个{00,01,10,11}变成一个32位整数,并解码。 fib递归和非递归
round6:几何题,求方块和圆弧的交集,expression tree设计,gr... 阅读全帖
l******o
发帖数: 144
31
来自主题: JobHunting版 - [apple面经] iOS software engineer
我了个去了,这些题还真是难啊

删除个人情感,把纯面经提供给大家,
面试职位: c++ server-side engineer
requirement: c++, python, hadoop, 数据库,large scale data process
组:GEO Team
第一轮onsite,每个人45分钟
round 1:c++ shared pointer用法和实现,python generator, yield, list
comprehension,xrange, range区别,结构题对齐,编程 FIFO队列
round 2: hadoop相关,deamon进程有那些,循环有序数组查找,递归和非递归
round 3: 电梯设计,调度算法
round 4: 拓扑排序, 矩形相交,树的结点个数,位运算
round 5: map/reduce 程序,相当与sql(select count(*) from a where c='x'), 位
运算,将16个{00,01,10,11}变成一个32位整数,并解码。 fib递归和非递归
round6:几何题,求方块和圆弧的交集,expr... 阅读全帖
d********w
发帖数: 363
32
来自主题: JobHunting版 - hadoop面试和学习总结
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->... 阅读全帖
q*******h
发帖数: 82
33
来自主题: JobHunting版 - hadoop面试和学习总结
Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
特性还是很无敌的。
不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
没有关系吧。
d********w
发帖数: 363
34
来自主题: JobHunting版 - hadoop面试和学习总结
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->... 阅读全帖
q*******h
发帖数: 82
35
来自主题: JobHunting版 - hadoop面试和学习总结
Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
特性还是很无敌的。
不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
没有关系吧。
d********w
发帖数: 363
36
来自主题: JobHunting版 - [hortonworks面经] senior hadoop engineer
他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
0. hadoop大致问题
partition默认方式是什么,
1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进,变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos, mapreduce,和其他并行计算的engine,通过配置嵌入到系统中,有
扩展性,方便支持其他的引擎,而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化,什么skew join, partition join,... 阅读全帖
d********w
发帖数: 363
37
来自主题: JobHunting版 - [hortonworks面经] senior hadoop engineer
他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
0. hadoop大致问题
partition默认方式是什么,
1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进,变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos, mapreduce,和其他并行计算的engine,通过配置嵌入到系统中,有
扩展性,方便支持其他的引擎,而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化,什么skew join, partition join,... 阅读全帖
f*****2
发帖数: 10
38
来自主题: JobHunting版 - IBM 全球 长期 Referral
看板上很多Referral. 没有半年老店IBM的。
很新贵比,的确差点,但是毕竟是个大公司嘛。
IBM的不是所有的职位都可以refer的,所以列出要求
In GBS, all roles are eligible
In GTS, S&D, STG, SWG, all Band 8 & above are eligible
All Sales roles are eligible regardless of band
Select Band 6 & 7 roles are eligible
In CHQ all Band 8 and above are eligible
In Research selected roles may be eligible
Regardless of Business Unit, all requisitions open to an external agency are
eligible for ERBP
我会定期post最新的职位,但是如果你要指定的职位请看看上面的要求,如果你不确定
可以发Job ID给我。
我列出的职位可以通过job id 到I... 阅读全帖
d********w
发帖数: 363
39
为啥那这本书来准备面试呢?如果你没有hadoop的经验,也不用看这些的。
如果你的职位要求里面确实有hadoop,可以去检查或者搜索一下以下问题
1. mapreduce的几个阶段
2. pig, hive的大致设计和比较,(结合sql写法)
3. wordcount, terasort的mapreduce程序写法
4. hadoop在不同节点启动了那些服务
5. secondary sort, partition如何用
6. 什么是nosql,ACID跟BASE比较
7. hadoop的不足和最新改进(next generation)
8. HDFS的如何做到scalability和高可靠性
这些基本问题掌握后,可以找找资源,比如你提到那边书,GFS/MapReduce/BigTable
paper, hadoop summit 2012大会上的slides,youtube或者cloudera上面的hadoop视频
海量数据处理倒是经常会问到,比如如何在多台机器上找中位数,n个数找最大k个数,
搜索如何做索引,以前有个帖子专门总结过。
b*******S
发帖数: 17
40
来自主题: JobHunting版 - 有人推荐过bigdata的读物
1. 中層 map reduce
先看 google那篇 map reduce的paper
http://www.cs.toronto.edu/~demke/2227S.12/Papers/mapreduce-osdi
重點是前三頁
但是google的map reduce沒有放出來 要用open source的hadoop
2. 下層 file systems
map reduce底層須要cluster file system的support
可以看google file system http://dl.acm.org/citation.cfm?id=945450
還有 HDFS(Hadoop File System) http://www.cs.stolaf.edu/docs/hadoop/hdfs_design.pdf
3. 上層 high level data processing
那在map reduce上層 有pig, hive,還有hbase等等
pig latin http://www.dcs.bbk.ac.uk/~dell/teaching/cc/paper/sig... 阅读全帖
b*******e
发帖数: 4
41
来自主题: JobHunting版 - 老印的公司可靠吗?
本人想找一份软工,可惜没有门路.
在网上看到一个老印的公司照人,但肯定是外包.
你们看看这个公司行吗?
QA Selenium/Advanced Java/Hadoop Training & Job placement
Date: 2012-09-12, 9:38AM
New Session Starting this Week. Limited seats, First come First Serve
Our training program will have first few weeks solely focused on Core Java.
After that the class will be divided into three parts.
Java based Automation using Selenium and WebDriver.
Advanced Java using Spring and Hibernate.
Big Data using Hadoop and related technologies ( HDFS, Map Reduce, HBa... 阅读全帖
c******n
发帖数: 710
42
My friend's team has multiple openings. The job descriptions are below.
If interested, please send email to e*****[email protected] for refer or apply on
ea.com directly. Thank you.
--------------------------------------------------------------------
New Graduate: Software Engineer - Data Engineering (4284) or Sr. Data
Platform Engineer (8594)
Responsibilities:
• Help define and build a unified data platform across EA, spanning
20+ game studios as data sources
• Develop infrastructure soft... 阅读全帖
B*******1
发帖数: 2454
43
来自主题: JobHunting版 - G家 system design 和 open ended questions
话说我超过 一半的面试题都是large scale system design,可是我是完全没有这方面
背景的ee码工,就算我现在要去g的组也不需要large scale的。
我感觉准备一下差不多了:
hackie大牛的帖子
http://www.mitbbs.com/article_t/JobHunting/32134627.html
要看的paper:
1. gogole gfs
2. google map reduce
3. google bigtable
4. facebook cassandra
5.facebook hdfs
6 facebook hadoop
7 facebook hive
8 facebook hbase
9 amazon dynamo
以上paper一定要熟读,并且对比设计的不同和为什么不同,起码要理解80%里面的概念
,其实比想算法容易多了。
faceboook的tech blog
dropbox的tech blog
http://highscalability.com/
还有这个我最近发现的很有意思的,
淘宝核心系统团队博客
http://rdc... 阅读全帖
m******o
发帖数: 571
m******o
发帖数: 571
45
来自主题: JobHunting版 - HDFS碉堡了,平均薪水居然有$165,000
Hadoop Distributed File System
虽然Indeed的数据不一定准,但是还是很impressive
o***d
发帖数: 313
46
来自主题: JobHunting版 - HDFS碉堡了,平均薪水居然有$165,000
这个东西的难点在哪儿?经验么?
我大致看了看,似乎还好阿,当然,俺是小白,大牛不要笑
t****a
发帖数: 1212
47
来自主题: JobHunting版 - HDFS碉堡了,平均薪水居然有$165,000
貌似你找到了indeed的一个bug啊 :)
A***o
发帖数: 358
48
来自主题: JobHunting版 - 周四要去G家onsite求祝福!
主观题都不好答,都没用过GFS,用过十几个node的HDFS,感受跟GFS能比吗
Good luck!
A***o
发帖数: 358
49
来自主题: JobHunting版 - 周四要去G家onsite求祝福!
主观题都不好答,都没用过GFS,用过十几个node的HDFS,感受跟GFS能比吗
Good luck!
m******s
发帖数: 165
50
来自主题: JobHunting版 - 看来design题还真多!
大概知道HDFS或者GFS v2的trade off就能扯了恩
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)