topics

全部话题 - 话题: 近似
首页 6 7 8 9 10 (共10页)
l****z
发帖数: 29846
1
谷歌(Google,GOOG)计划透过强化谷歌购物(Google Shopping)服务的功能,深耕电子
商务业务,以跟亚马逊(Amazon,AMZN)正面交锋。
知情人士透露,谷歌已跟零售商商议在其线上购物网站设置"购买″(buy)按键,功能
近似亚马逊颇受欢迎的"一键下单″(one-click ordering)。
就目前而言,谷歌购物仅在用户搜寻结果显示后将其导向商家网站。如今谷歌则希望用
户能在自家网页停留更久时间,而不是立即将用户导向其他网站。
谷歌本身并不出售或寄运商品。随着网络用户逐渐转往亚马逊搜寻商品,而亚马逊也已
开始抢夺谷歌的搜寻广告业务,谷歌希望能进一步简化用户的线上购物流程。
此外,谷歌也正在考虑一个营销计划,该计划将允许商家针对透过谷歌购物服务下单的
商品推出两日送达服务。这项服务近似于ShopRunner的服务,后者对Neiman Marcus与
玩具反斗城(Toys "R" Us)等商家的线上订单提供两日送达服务,年费79美元。

发帖数: 1
2
日前,美国总统科学技术咨询委员会(President’s Council of Advisors on
Science and Technology,简称PCAST)发表了名为《确保美国半导体的领导地位》的
报告。在报告中提到,中国的半导体的崛起,对美国已经构成了“威胁”,委员会建议
政府对中国产业加以限制。
在详细介绍半导体产业的全球现状之前,委员会在报告里面写了一封给美国总统奥
巴马的信,简要翻译如下:
敬爱的奥巴马总统,
  这个报告是由工作组内的相关行业领袖、杰出研究员和曾经的政策制定者拟定
的,PSAST已经做了审核并通过。报告主要是谈及半导体产业在创新、竞争和安全方面
面临的挑战和机会。
  半导体是现代生活的重要组成部分,在半导体领域取得的进展已经将机基于其
打造的设备和服务提升到一个新的阶段。与此同时,还开拓了很多新的业务模式和产业
,为美国相关从业人员与消费者带来了巨大的收益,对促进全球经济的发展也产生了重
大的影响。我们也要明白到,尖端的半导体技术对于美国的国防系统和军队实力来说,
也是重要的保证。无处不在的半导体使得我们还同时面临了网络安全... 阅读全帖
F*V
发帖数: 3978
3
发信人: brihand (brihand), 信区: Military
标 题: 天略董事长回应与商业系统红十字会合作质疑
发信站: BBS 未名空间站 (Thu Jun 30 13:41:38 2011, 美东)
天略董事长回应与商业系统红十字会合作质疑
http://www.sina.com.cn
央视新闻频道东方时空栏目6月30日播出节目《真相调查:郭美美事件》,以下为
节目实录:
解说:这个三叉戟图案,是世界名牌跑车玛莎拉蒂的标志,每款车的价格都以数百
万计。红十字,则是国际公益组织的标志,代表着人道、中立、志愿等精神。这两个看
起来风马牛不相及的标志,最近,却因为一个名叫郭美美的女孩发生了奇特的关联。
2011年6月20日,新浪微博上一个名叫“郭美美baby”的女孩引起了众人瞩目。她
在微博上经常展示自己的生活照,从中能看到,她开玛莎拉蒂跑车、在别墅开生日会,
皮包、手机、手表都是昂贵的奢侈品。而她微博认证的身份是“红十字会商业总经理”
,正是这一点,引发了公众的强烈质疑:一个年仅二十岁的女孩就当上了总经理,并拥
有名包豪车,财产来源是否和“红十字会”有关?一时之间,网友们... 阅读全帖
m******n
发帖数: 6327
4
来自主题: Automobile版 - [合集] 四驱系统详细指标
☆─────────────────────────────────────☆
fjcruiser (FJ) 于 (Fri Jan 21 01:47:10 2011, 美东) 提到:
四驱是一个很复杂的概念,广大不明真相的群众很容易看一些无良厂商制作的
youtube录像受骗上当。一个四驱车到底怎么样,*至少*要从以下八个方面看:
公路驾驶指标(AWD)
AWD类型: 适时(on-demand) / 全时 (full-time)
中差: 无/ 开放 / 限滑
后差: 开放 / 限滑 / 其它(SH-AWD)
前差: 开放 / 限滑
越野驾驶指标(4WD, 4x4)
低速档: 无/有
中差锁(分动箱锁): 无/有
后差锁: 无/有
前差锁: 无/有
下面,我们以一些本版常讨论的车型为例,分析一下这些四驱车到底都是什么货。
(待续)
☆─────────────────────────────────────☆
honglo (honglo) 于 (Sat Feb 19 23:34:33 2011, 美东) 提到:
楼主帮忙说说Mer... 阅读全帖
i****x
发帖数: 17565
5
来自主题: Automobile版 - 科普贴——神奇的悬挂
虽然前悬都是独立的,可是大部分FF民用车的后悬挂都不是独立的,我说的“低档车都
并非四轮独立悬挂”并没有错。我没有说sway bar就是独立非独立,我是说sway bar在
直道上处于放松状态,近似于不存在,所以直道驾驶时两侧悬挂仍然可以近似认为是独
立工作的,但弯道时会提供回中力,同时造成两侧悬挂不能独立工作的副作用。正因如
此,mp4-12c已经抛弃sway bar,改用电子动态改变悬挂硬度的方式控制侧倾,但同时
左右悬挂可以真正独立工作。

悬挂
g********d
发帖数: 19244
6
来自主题: Automobile版 - [合集] RE: 今天试了f150
☆─────────────────────────────────────☆
Tavacska (Tava) 于 (Thu May 23 18:27:06 2013, 美东) 提到:
4x4 xlt,turbo 3.5L的supercrew
开着的感觉真厚实,加减速感觉很快,但是很安静,方向盘非常平滑
视野极为开阔,左右后镜非常大,并道很方便,路噪很小
曾经开过tahoe 和 suburban
f150感觉和suburban类似,但是方向盘灵活
感觉不足的是,方向盘基座的塑料有点太粗糙了,抬头的观后镜被自己屁股挡住了,基
本看不到后面的小车了
价格基本上11k-12k off msrp,下辆车肯定f150了
☆─────────────────────────────────────☆
kiz (泥偶) 于 (Thu May 23 18:28:57 2013, 美东) 提到:
没去看看RAM 1500? 现在Ford的finance rate怎么样?》

☆─────────────────────────────────────☆
dayouzi (day... 阅读全帖
f******t
发帖数: 7283
7
来自主题: Automobile版 - 德车为啥性能好?
http://www.roadandtrack.com/car-reviews/car-comparison-tests/20
我们看红色曲线代表的那个发动机。厂房标称是Torque: 258 lb-ft @ 2000 - 5200
rpm。Lag Torture Test的图里刚好就是在2000rpm的时候计时的,假如没有turbo lag
的话那么在0时刻就应该显示达到峰值扭矩。
但是图里的峰值扭矩直到7秒的时候才出现,那我们可以近似认为这个时刻代表了涡轮
的最高增压值(请注意我这里说“近似”;假如真要咬文嚼字的话有很多因素可以影响
扭矩,可以举出很多种边角情形反例)。
D******6
发帖数: 841
8
新手买车求教:本人和太太想要买一个高大上的SUV,budget只有3万刀左右,因此既然
是“高大上”的SUV,只能买其一两万迈的二手,这样既能卡在budget上,又相当于新
车,只是我们占了“新车头两年掉价最快”的便宜、钻了这个空子而已。
现在正在纠结于VOLKSWAGEN 的 TOUAREG V6 与 BMW的SUV,因为奔驰的SUV根本不可能
掉在budget之内,即使两三年的一两万迈的二手。
我的问题是:VOLKSWAGEN 的 TOUAREG V6顶配 与 BMW的SUV,两者新车的价钱差不多,
都在5万3左右,现在发现有前者2010年的仅有1万1迈数的经检查完全没问题的近似于新
车的二手货在dealer只卖2万7,这个deal怎么样?是很super吗?因为毕竟后者更高大
上、牌子更加响亮和名牌,那么后者我能等到类似条件(2010年的仅有1万1迈数的经检
查完全没问题的近似于新车的二手货)的类似的deal(2万7)吗?换句话说,两者新车
价钱一样,头两年/头两万迈的掉价速度也一样吗?谢谢指点!:-)
Anyway,也欢迎版上各路高手针对我的情况广泛给些建议,谢谢!
i****x
发帖数: 17565
9
来自主题: Automobile版 - 老色狼呕血推荐的福克斯走下神坛
嗯,来了个懂行的
decon就是个自以为是的烂校小本,知道点皮毛就来卖弄,更深层的东西我根本就懒得
给他提。而且他在论坛上一向如此,这非常可悲。不是每个人在所有方面都有知识,但
大多数人至少能意识到自己在某些方面只知皮毛,不会到处嘚瑟。
他开始说什么这个统计没有normailization,后来我明白他以为条件概率公式的分母就
是normalization,其实那个是“率”字的定义里就有的,跟normalization毫无关系。
所谓normalization指的是奔驰和丰田死亡数不可以直接比较,因为丰田车总数远多于
奔驰。而他解决所谓normalization问题的方法更可笑,搞出个什么贝叶斯公式,我都
没法解释贝叶斯跟这个问题有多么风马牛不相及。
然后他又开始纠结什么概率和统计的差异,其实我一眼就看得出他根本没理解什么是统
计。假设福克斯死亡率是个伯努利随机变量,这是概率模型,但概率不可能知道,而现
实中的福克斯死亡率是个样本统计,这个死亡率就是概念中的“真实死亡概率”的无偏
估计量,这个估计量自然不准确,但解决办法是构造置信区间而不是什么
normalization和贝叶斯都公式... 阅读全帖
i****x
发帖数: 17565
10
来自主题: Automobile版 - 老色狼呕血推荐的福克斯走下神坛
嗯,来了个懂行的
decon就是个自以为是的烂校小本,知道点皮毛就来卖弄,更深层的东西我根本就懒得
给他提。而且他在论坛上一向如此,这非常可悲。不是每个人在所有方面都有知识,但
大多数人至少能意识到自己在某些方面只知皮毛,不会到处嘚瑟。
他开始说什么这个统计没有normailization,后来我明白他以为条件概率公式的分母就
是normalization,其实那个是“率”字的定义里就有的,跟normalization毫无关系。
所谓normalization指的是奔驰和丰田死亡数不可以直接比较,因为丰田车总数远多于
奔驰。而他解决所谓normalization问题的方法更可笑,搞出个什么贝叶斯公式,我都
没法解释贝叶斯跟这个问题有多么风马牛不相及。
然后他又开始纠结什么概率和统计的差异,其实我一眼就看得出他根本没理解什么是统
计。假设福克斯死亡率是个伯努利随机变量,这是概率模型,但概率不可能知道,而现
实中的福克斯死亡率是个样本统计,这个死亡率就是概念中的“真实死亡概率”的无偏
估计量,这个估计量自然不准确,但解决办法是构造置信区间而不是什么
normalization和贝叶斯都公式... 阅读全帖
X***9
发帖数: 7385
11
概观
拥有两条先进的新引擎和新的和更新手动和无级变速,2016年的思域提供了一系列新的
动力总成的选择,结合燃油效率和富有趣味性的驱动器性能。
全新的基础引擎是2.0升16气门DOHC 我 -VTEC®这是关系到更大的雅阁提供的2.4
升发动机。凭借其大排量(更换思域的前一单顶置凸轮轴1.8升发动机),它提供了比
以往任何基地思域的发动机在美国,新的2.0升发动机的额定功率为158马力,在6500转
的马力和扭矩1和138磅-英尺 扭矩在4200转2(增加了15马力和9磅-英尺的扭矩)。该2
.0升发动机搭配全新的6速手动变速箱(LX)或无级变速器(CVT)高效自动运行。
对于司机在寻找更出色的性能加上同样高的EPA燃油经济性收视率,第一次,思域可配
合涡轮增压发动机。1.5升16气门DOHC直喷涡轮增压发动机的额定功率为174马力,在
5500转3,扭矩输出令人印象深刻的162磅英尺 扭矩之间的1800和5500转4。
这两款发动机都是LEV3-ULEV125 / LEV3-SULEV 30排放标准。5新的,更高效的发动机
和变速箱,以及改进的空气动力学和大幅减少行驶阻力,... 阅读全帖
C*****z
发帖数: 2050
12
来自主题: Automobile版 - 为啥没人讨论mazda cx-5
LTQI的数据是主要来自拍卖,这个没有异议吧?
所以那个里程排行榜近似反映了不同品牌在拍卖市场的里程分布情况,这个没毛病吧?
具体说来,有的车倾向于在较高里程进入拍卖市场,而有的车则相反,这个是事实吧?
什么样的车会进入拍卖市场?
我了解的大致有trade-in、off-lease/repossession、rental、fleet以及事故车等等
。在这些情况中,能达到高里程的应该主要是trade-in。所以我抽象一下:
HT=高里程trade-in;
LT=低里程trade-in;
OR=off-lease/repossession;
R=rental;
F=fleet;
A=事故车;
那个里程排行榜则近似表现的是HT/(HT+LT+OR+R+F+A)的比例,也就是1/(1+LT/HT+OR/
HT+R/HT+F/HT+A/HT)。对于分母,这里有五组关系,除了LT/HT与车辆耐久性有一定关
联,其他几个关系都不大。怎么能说那个排行榜反映了耐久性呢?退一步讲,其他都忽
略,只留LT/HT也不能体现报废率,难道非要报废才trade-in?
为什么有的车倾向于低里程trade-in?
我... 阅读全帖
p*****Y
发帖数: 38
13
来自主题: Faculty版 - 为了忘却的纪念 - (2)通知函
这个消息是上周四知道的。系主任Cory来尹洋办公室的时候,她正在为她的算法笔算一
个微分;虽然微分可以近似,但正确的无近似解(analytical form)可以提高运算效
率。稍后把所有的计算检查一遍,她就可以开始写程序了。她有信心把这个课题比较快
地做出来,这就是所谓的厚积薄发、渐入佳境吧,她暗暗地想。
Cory走进来,飞快地打了个招呼便不再直视尹洋的眼睛。“我收到你的职称评定结果了。”他没有停留,或许是不想让尹洋有思考的时间。“我非常抱歉,你没有评上。”
尹洋看着Cory,觉得嗓子有点涩。她想说点什么来打破沉默,但不知道说什么好。
“我想我应该让你一个人待会。任何人在这种情况下都会想哭的。”Cory的情绪开始有
点激动。
“系里同事这么支持你,我不知道究竟发生了什么事。我很难过我是这个把坏消息带给
你的人。”Cory的声音有点颤抖。
尹洋看着Cory微红的眼睛,自己的鼻子也有点酸酸的。是啊,去年系里评审自己职称的
时候Cory还不是系主任。为什么要让他在第一时间传递这个坏消息呢?
“他们以为这是哈佛还是伯克利?净提一些不切实际的要求。”Cory看上去 真的很生
气。
尹洋和Cor... 阅读全帖
M****o
发帖数: 4860
14
透明计算获得国家级奖项遭质疑 契合英特尔战略目标
2015年01月26日 13:36 《财经》杂志
“透明计算”迷雾
国家级奖项受到质疑,本应在学术界做正常的公议。然而,相关部门应对失据,一
场学术风波由此发酵
□本刊记者 王莉萍 贺涛/文
“透明计算”获得2014年国家自然科学奖一等奖的同时,也将中国工程院院士、中
南大学校长张尧学送上了舆论的火堆炙烤。
这项成果由张尧学在2004年正式提出。在官方语境中,透明计算先于云计算,又包
含云计算,从根本上突破了统治计算机领域60余年的冯·诺依曼结构,使用户得到跨操
作系统和终端的无障碍服务,推动终端向轻便、低价、安全方向发展,并找到了解决网
络安全问题的有效路径。
然而,在透明计算获奖的消息传播开时,质疑其价值的声音在各网络平台上渐涨渐
高。1月20日,学术打假人士方舟子发文声讨透明计算。一批IT业内人士也参与到了对
透明计算的批判中,几乎所有的质疑声都在细究一点——透明计算并不具有独创性和创
新性,且距离商业化甚远。
1月21日晚9时左右,中国计算机学会(CCF)将一份名为《关于政府退出国家科技奖
励评审的建议》(下称《建议》... 阅读全帖
S*******t
发帖数: 3956
15
来自主题: Faculty版 - 翻译:高妹对尹希教授的专访
(作为年仅31岁就晋升哈佛正教授的青年才俊,尹希教授最近得到了很多关注。其中一
篇关于他的专访进入了一名同是美国大学华裔教授的女科学家的视线。因为觉得这样的
采访不过瘾,她突发奇想,想亲自采访一下尹希。于是就有了这个我们今天看到的两名
科学家之间的对话。这位女教授使用了化名,这是她出版自己几部科幻小说的笔名。对
,没错,这位女教授同时也是一个女文青,已经写了几本书,还都是英文,Amazon 就
能买到。感兴趣的不妨找来看看。很可能有一天,她也会成为传奇式的人物。那今天这
篇采访就会成为另一段佳话。)
Interview with Dr. Xi Yin

--- By Fiona Rawsontile, Sept 2015
Translated by Slow Rabbit
This interview was inspired by an earlier interview of Dr. Yin I saw on the
Internet, which made me think that we can’t expect some... 阅读全帖
b*******3
发帖数: 396
16
你说的那种千分之0.001的可能性可以近似为0了,但马老三老公想带着钱抛弃马老三的可能性是千分之999.999,可以近似为百分之百,比千足纯金还足。
其实马老三就是一脑残的泼妇加贱货,Wilson要是娶马老三这种女人就太傻B了。
b*******t
发帖数: 33714
17
汪曾祺《黄油烙饼》
三级干部会就是三级干部吃饭。
大队原来有两个食堂,南食堂,北食堂,当中隔一个院子,院子里还搭了个小棚,
下雨天也可以两个食堂来回串。原来“社员”们分在两个食堂吃饭。开三级干部会,就
都挤到北食堂来。南食堂空出来给开会干部用。
三级干部会开了三天,吃了三天饭。头一天中午,羊肉口蘑饣肖子蘸莜面。第二天
炖肉大米饭。第三天,黄油烙饼。晚饭倒是马马虎虎的。
“社员”和“干部”同时开饭。社员在北食堂,干部在南食堂。北食堂还是红高粱
饼子,甜菜叶子汤。北食堂的人闻到南食堂里飘过来的香味,就说:“羊肉口蘑饣肖子
蘸莜面,好香好香!”“炖肉大米饭,好香好香!”“黄油烙饼,好香好香!”萧胜每
天去打饭,也闻到南食堂的香味。羊肉、米饭,他倒不稀罕:他见过,也吃过。黄油烙
饼他连闻都没闻过。是香,闻着这种香味,真想吃一口。
梁实秋《吃相》
我看见过两次真正痛快淋漓的吃。印象至今犹新。一次在北京的“灶温”,那时
一爿道地的北京小吃馆。棉帘启处,进来了一位赶车的,即是赶轿车的车夫,辫子盘在
额上,衣襟掀起塞在搭布底下,大摇大摆,手里托着菜... 阅读全帖
b*******t
发帖数: 33714
18
你做个近似的,让我们也好接近一下近似。。。
c***d
发帖数: 996
19
来自主题: HiFi版 - zz听音乐,选音箱
叶立
欣赏音乐,每个人都有不同的爱好,有人喜欢听歌曲,有人喜欢室内乐,还有人喜欢
大型管弦乐作品。播放音乐的音箱也有书架箱、落地箱、二单元、三单元之分。那么,播
放不同的音乐作品又与不同类型的音箱有什么内在的联系呢﹖要想了解这一问题,还是要
从音乐的声音特点与音箱重放声音的特性说起。
实际上音乐的声音都不是正弦波,有的是近似的方波,有的是近似的三角波或是锯齿
波,而最接近正弦波的声音,可能是人吹口哨的声音了。对于这些非正弦波的波型,通过
数学分析可以认为是由一个基波频率也就是声音的基音和无限多个高次谐波也就是
泛音组合而成。音乐中A音Middle A是440Hz,高八度频率要增加一
倍,而低八度则频率要减少一半。音乐中绝大多数乐器的声音与人声的频率约在90Hz
~3kHz,而泛音频率却有较大的差异。
在乐器中,小提琴的基波频率大约是200Hz~2.5kHz,而泛音却要超过1
0kHz。低音提琴的基波频率大约是40Hz~200Hz,而泛音却可到5kHz。
单簧管的音域比较宽,基音频率约在160Hz~1.4kHz,泛音却要超过15kH
z。短笛的频率比较高,基音频率在600Hz~4kHz,
F**z
发帖数: 299
20
来自主题: HiFi版 - 黑社会VS数码新时代
我的理解是:
1. 用piece-wise函数趋进连续函数,不伦如何只是近似。实际上大部分信息都丢失了。
2. 录音中的连续-〉数字转换过程由录音设备决定。播放中的数字 ->连续转换过程由
DAC决定。这一来一去不同算法中间的细微差别,也许会放大piece-wise和连续函数的
近似差。
最终1+2导致人耳可以感受到
我怀疑这些会影响瞬间的频率变化。举个金融例子,对同一条利率曲线用不同的
interpolation,会导致截然不同的forward rate。
懂的来说说。
d*****z
发帖数: 114
21
在当今的投资界,Charlie Munger不能不说是个相当有名的人。但在很多人的印象中,
这种名望是与Buffett紧密相连的,Munger作为Buffett的副手与合作者,在Berkshire
Hathaway取得了罕有的成功,仅此而已。实际上Munger在价值投资领域的个人成就非常
的了不起,自己本人完全可以跻身最伟大的投资家之列。更使Munger远超同辈的是他擅
长从哲学的角度对投资艺术进行思考和总结,其思想体系几乎可以称之为有关投资的认
识论和方法论。确定无疑的,Buffett也不断从中汲取了大量养料,并成功地运用于实
践中。然而即使在投资界真正了解Munger思想的人却也实在不多。这正印证了现实世界
的普遍现象:人们都在不断地追逐转瞬即逝的表象并被其所迷惑,而忽略了背后的真正
有意义的东西。
Munger的思想体系并不单纯的针对投资而言,而有更广泛的适用范围,本质就是从如何
认识世界开始的。在现代社会中,因为社会分工越来越深入,人们大都把精力专注于特
定的领域,而忽视了对其他领域广泛的学习,更不用谈加以融会贯通了。我们常常看到
很多非常聪明的人,在本领域做出很杰出的成绩,但... 阅读全帖
h**k
发帖数: 3368
22
不用搞这么细,你把那个DP的解法吃透就行。那篇文章是研究这个NP问题的近似解法,
并指出什么条件下这个近似解法是最优解。这个只有专门研究算法的才关心。面试没有
人会问这个。
r*******g
发帖数: 1335
23
来自主题: JobHunting版 - Amazon interview question.(3)
原问题和你的不一样。
原问题估计是NP Hard,关键问题是,原问题要求average相等,假设这个average是a,
我们需要不断的找数字他们的average近似是a,比如两个数的和近似是2a,问题关键是
,即使两个数的和不是2a,第三个数依然可能和是3a,所以这个题看不出有什么规律可
循,只能尝试所有情况。
s******n
发帖数: 3946
24
最小距离的做法:先算一个近似点。以近似点为中心找8个方向半径为r的点,如果有更
优解则替代,否则将r/2继续找。
http://www.geomidpoint.com/calculation.html
r******r
发帖数: 700
25
来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题
海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把
整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash
_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最
大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述(雪... 阅读全帖
r******r
发帖数: 700
26
来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题
海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把
整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash
_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最
大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述(雪... 阅读全帖
d**********x
发帖数: 4083
27
貌似由于这个问题的特殊性,不用union-find也是可以的,每个set直接就一段链表结
构放在那里就可以。。。
如果不惜空间的话,用union-find和hash
首先,用hashtable存每个元素
然后每次新来一个元素n,如果它已经存在于table中,忽略
如果它不存在,则插入table,并且加一个指针元素,指向新建立的一个节点,准备插
入到某个set中
查找n - 1,如果存在于table中,则做union
查找n + 1,如果存在于table中,则视前面一个查找结果而定:
如果n - 1存在,则将n + 1所在的set和n -1 所在的set union
否则将n加入n + 1所在的set
否则单纯保留这个引用,暂时成为一个单独的set
处理完所有元素之后,这是近似O(n)时间(因为hashtable和union-find都是近似O(1))
每个set中包含连续的一组整数,扫描一遍,O(n)出结果
至于为什么是链表,我现在也不知道了。

入是
r*******e
发帖数: 7583
28
来自主题: JobHunting版 - How to find median of a stream of integers ?
我上面贴的stackoverflow链接里提到了一个P^2 algorithm,有paper链接
不知道是不是你说的。不过这个P^2也是近似的
如果允许近似,reservior sampling也行
exact的话除了binning好像没有别的好办法
p*******i
发帖数: 1181
29
来自主题: JobHunting版 - 发几个面经(5) Groupon 电面+onsite
有人问我就回答在这里了
一个硬币,无论fair与否,假设它扔一次得到head的概率是p,那么扔N次得到head的次
数和x服从Binomial Distribution B(N,p),期望是E(x)=N*p, 方差是Var(x)=N*p*(1-p)
,在大样本的时候Binomial Distribution可以近似为均值N*p,方差N*p*(1-p)的Normal
Distribution。Confidence Interval等等有公式,就不贴在这里了,如果用Normal
Dist近似的话95% confidence interval就是 Np +/- 1.96 * sqrt(Np(1-p))
而相对应的就是,拿到一个样本,N次head向上有x次,检验这个硬币扔一次出head的概
率p是不是等于某个预计值p0,就是Binomial Test. 这里有个网页介绍,还可以在线计
算(其实公式也很简单):
http://www.quantitativeskills.com/sisa/distributions/binohlp.ht
楼主提到的那个1000次出了550次head,p0=0.5... 阅读全帖
f*********d
发帖数: 140
30
来自主题: JobHunting版 - 问一道题(4)
多谢大牛指点, 但是这个应该是近似解~
不过要是能给出个近似比,那面试的时候也可以免死了 哈哈~
u*****o
发帖数: 1224
31
来自主题: JobHunting版 - 杂七杂八的一些面经 (转载)
我记得lz拿到很好的offer对不?恭喜了。。
不过这些题都好灵活的说。。。怎么答啊?
Q4:怎么判断两个TB级别的文本是否雷同,是否近似。
是不是用bag of word判断近似?
或者在random place取点,看是否一样?
Q10:沙滩上有两个一模一样的冰激凌店,由两兄弟经营。为了竞争顾客,他们会把店
开到哪里?
这个是不是应该开到第一象限和第三象限的center?
Q20:有一个人口调查问题是家里有几口人,显然最后的结果会有重复,因为4口之家每
个人都会说4。怎么解决?
这个是不是应该把成员名字写出来,然后找loop,比如a-b-c-d都会说这同样的四个人?
l*n
发帖数: 529
32
来自主题: JobHunting版 - 问一道题目
我说的binning意思是做近似,就是100以内的全算50,100~200的算150,等等。如果数
据范围太大只能这么着近似了。另外还有抽样,比如每个数1%概率要或者不要。
s********f
发帖数: 510
33
来自主题: JobHunting版 - 几道FG的面试题
第一题应该问的是近似的最常见数. 因为如果是要求确定的, 需要无限的存储空间。这
里有近似解的答案:http://stackoverflow.com/questions/3260653/algorithm-to-find-top-10-search-terms?newreg=e0d277c9365f499fbf54de491a7b1d1f
我的理解是用一个slot有限的存储空间,如果新读进来的数是有的,就在那个位置+1。
如果没有,看还有没有空slot,有就放进去,记数为1。如果也没有空slot了,就把记
数最少的数扔掉,然后把新数放进去,记数为1。
上面的帖子讲了只要最常见的数出现次数高于1/(1+k), k是总的slot数,就可以保证找
到。所以实际应用中,k足够大,就基本保证了结果。
c*********t
发帖数: 171
34
来自主题: JobHunting版 - 问个看来的狗家面经题
我觉得这个可能想考近似算法。因为20块积木的可能组合有26的20次方,精确解太大了
。近似解、次优解可能现实一点。
h*******e
发帖数: 1377
35
你多做些计算几何题就知道了,计算几何差一点就差很多, 比如三点共线的标准方法
就是叉乘面积近似为0,近似斜率做就引进边的长度误差,计算几何在严格一点的oj上都
是差之毫厘,失之千里的,过了leetcode的 oj的做法很多不一定就一定无懈可击,往
往面试难得不是原题,而是是要求改一点,比如这道题之前c++ 不支持 unordered_set
的时候就看过这道题,那要高效算法就只能手动写链表hash table实现hash~~ 这道题
glowinglake 的 follow up 也不是那么简单说海量数据情况下应该怎么变我还没细想

by the way 关于sqrt 那道题 虽然可以用 epsilon但是有不用 epsilon的精确解法,
不知道你能不能想出来。
h*******e
发帖数: 1377
36
你多做些计算几何题就知道了,计算几何差一点就差很多, 比如三点共线的标准方法
就是叉乘面积近似为0,近似斜率做就引进边的长度误差,计算几何在严格一点的oj上都
是差之毫厘,失之千里的,过了leetcode的 oj的做法很多不一定就一定无懈可击,往
往面试难得不是原题,而是是要求改一点,比如这道题之前c++ 不支持 unordered_set
的时候就看过这道题,那要高效算法就只能手动写链表hash table实现hash~~ 这道题
glowinglake 的 follow up 也不是那么简单说海量数据情况下应该怎么变我还没细想

by the way 关于sqrt 那道题 虽然可以用 epsilon但是有不用 epsilon的精确解法,
不知道你能不能想出来。
a******u
发帖数: 69
37
来自主题: JobHunting版 - 讨论一道Google面试题
多背包问题近似解法及其近似比。
http://www.cnblogs.com/jiaorenyu/p/3416762.html
这应该是一道NP-Hard的问题。
a******u
发帖数: 69
38
来自主题: JobHunting版 - 讨论一道Google面试题
多背包问题近似解法及其近似比。
http://www.cnblogs.com/jiaorenyu/p/3416762.html
这应该是一道NP-Hard的问题。
w*********l
发帖数: 1337
39
来自主题: JobHunting版 - 这道G的题怎么做?
多年不说这么狂的话了,比你这样的人聪明问题还是不大的。
近似也得根据我这个公式近似啊,没公式直接写结果,谁知道你过程对不对。你跟我扯
无穷小,我面试你我觉得fail你。
m**********2
发帖数: 6568
40
哥们儿,你幸亏只是个学工程的。你要是学个医啊,微生物学什么的,以你这性格,你
还有什么是敢
吃的。
你现在住的公寓,难道人家就是按你的标准建造的?
美国那么多房子,好多住了好几代人的,都是按你的标准建的?
而且,依我之见,你的工程学的也不咋地。至少不会综合思考。比如,你追究人家的
stud订得不够四
四方方--可是,你是否想过材料的问题?假如你假设stud是绝对刚体,你的追根究底还
有那么点意
思。 可是,那些2x4的松木,与其说近似于绝对刚体,还不如说更近似于面条。他订的
是不是四四方
方,都是暂时的,局部的。根本就不matter.
a*****a
发帖数: 19262
41
来自主题: Parenting版 - 关于小孩子近视的CRT疗法
我昨天带女儿去看眼科,被告知女儿近似加闪光已经200度了,175+25,医生好像很淡定,
我就心里很不开心.但是呢,没办法
大家说说近似是不是遗传,我老公1000多度,我400度
a*****a
发帖数: 19262
42
来自主题: Parenting版 - 关于小孩子近视的CRT疗法
我昨天带女儿去看眼科,被告知女儿近似加闪光已经200度了,175+25,医生好像很淡定,
我就心里很不开心.但是呢,没办法
大家说说近似是不是遗传,我老公1000多度,我400度
t*******r
发帖数: 22634
43
来自主题: Parenting版 - 年青的家版
其实进中学以后,对普通娃而言,物理反而比数学更要素。。。
因为刁钻的数学公式毕竟不常用,对现实世界建立近似模型而
求解,基本上 STEM 任何一行天天都搞这个,区别就是近似多
少。。。
t*******r
发帖数: 22634
44
刚才想了一下,这个单摆的小角度摆动模型的建模及证明,涉及:
(1) 小角度切向角近似不变 (高中娃版近似模型及误差分析)
(2) 相似三角形 (高中几何)
(3) 力的分解合成 (高中娃版矢量代数)
(4) 线性回复力及直线下面积,计算摆动周期 (高中娃版微积分浅说)
(5) 多大角度算小角度? (高中娃版模型误差分析)
这特么比那个高中解析几何求圆的切线方程的破题,难上不止三个数量级的东东。。。
怎么可能这都理解和学会了,那个死套公式的圆的切线方程还学不会?。。。
当然,如果是死背公式的学渣,那就不说啥了。。。等着上了藤校后,在学 calculus-
based mechanics 时,要么学习上被屠成炮灰,要么把恋爱养娃的时间都拿去刷题,刷
成个绝代佳人把一生直接给废柴掉。。。
J***A
发帖数: 1511
45
来自主题: Parenting版 - 数学需要超前学吗?
我觉得V0 和V 的选择不是简化,而是只是参照系不同的两种不同定义。
如果除以V0, 比较符合物理数学里的简单的美感, 可能也是wiki用它的原因。
而除以V 其实是单位体积变化率。
其实两种定义都有道理, 都有物理根据, 具体是哪个定义以教科书为准。
实际应用中, 只要记住自己用的哪个定义即可, 求体积变化, 用V的别忘记乘当前体
积, 用V0 的别忘记乘0度的体积。 两个都该得到一样的结果。

我认为对"线性"材料做了个近似.一般对普通的液体会造成对那个体系数是千分之一以
下误差的近似.在测量上可能会有更大量级的误差.可以忽略吧?对固体的影响就更小.
w********9
发帖数: 8613
46
来自主题: Parenting版 - 数学需要超前学吗?
我换个角度来说吧可能就显然了.
如果没有那个近似或者不用求导的那个定义,体膨胀系数就不会是线膨胀系数的3倍.
你必须从求导的那个定义或者那个近似中"选择"一样(或者都选,包括一起选用).
x***1
发帖数: 999
47
来自主题: Parenting版 - 数学需要超前学吗?
数学那么好,这咋不懂咧。
热膨胀系数,不就是单位温度的膨胀率嘛,该不该除体积?你说咋定义?
对温度计,潮水的图,底面相等,高度永远和体积成正比,哪来的小量近似。
关键看体积和温度啥关系。
Alpha=dv/dt/v, 如果Alpha在t0 到t不随温度变化,从t0,vo积到t,v, 那么t是v的指数
函数:
v=v0*e(Alpha*(t-t0)).
在什么情况下线性,-1< 的范围:
-1/Alpha+t0< 哪来的非要绝对0K。
如果Alpha=10^(-4)/C, t0=0C:
-10000C< 下来就是,你要多大的误差,再来给出t 范围,不行就得换材料。

normalize
..
J***A
发帖数: 1511
48
来自主题: Parenting版 - 数学需要超前学吗?
体膨胀系数是线性的三倍是不是对线性膨胀L delta L 取立方再省略了delta L 的二
次三次项来的?

我换个角度来说吧可能就显然了.如果没有那个近似或者不用求导的那个定义,体膨胀系
数就不会是线膨胀系数的3倍.你必须从求导的那个定义或者那个近似中"选择"一样(或
者都选,包括一起选........
x***1
发帖数: 999
49
来自主题: Parenting版 - 数学需要超前学吗?
这里面的小量近似在哪儿?
我一个材料,在0C到1000C,dv/dt/v就是个常量,为啥要近似?
J***A
发帖数: 1511
50
来自主题: Parenting版 - 数学需要超前学吗?
我看了你写的, 加上谷歌一些知识,理解就是水银温度计或者玻璃管温度计的刻度均
匀, 应该都是用V取代V0 而得来的线性近似? 然后V被VO取代后就有了类似理想气体
的DeltaV / Delta T 是常量 的性质, 所以刻度均匀......。
理解普通零度没有实际意义, 只是一个用起来方便的参照或者基准值。

不完全是这样的啊!在物理上不能那样说,但是用V0近似后,单从做普通温度计来看,是那
样的.头疼了.:)
首页 6 7 8 9 10 (共10页)