由买买提看人间百态

topics

全部话题 - 话题: 查询数据库
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
o*****i
发帖数: 45
1
并为之建立table,
可以用sql进行查询,
有谁知道,
多谢了!
l***s
发帖数: 126
2
是不是用oracle的Pro*C++? 不知道你的循环是用来干什么。如果
是循环查询DB,用CURSOR操作应该可以吧。hoho
b*******k
发帖数: 26
3
来自主题: Database版 - mysql怎么绕过嵌套查询?
有个数据库很大,用join肯定不可能了,而且只有读的权限,选出来的东西怎么能传递给
下一个语句?
c*****y
发帖数: 75
4
来自主题: Database版 - 关于股票数据库
create 一个history table 插入的时候用现在的table,查询用另外一个table
d****f
发帖数: 313
5
不好意思,可能偶的知识过时了,偶上次操作ACCESS是8年前了,Partition以前在自学SQL时(数据库系统概论)从没听过,可否稍微科普一下(省去我GOOGLE的时间)?另外我之前JOIN的做法有什么问题,是否也是一个教科书上的办法?怎么GOOGLE了一下Partition and rank好像SQL SERVER 2005才加入的新内容?
http://weblogs.sqlteam.com/jeffs/archive/2007/03/28/60146.aspx
s***s
发帖数: 1301
6
来自主题: Database版 - 数据库显示的问题
如果是网页的话,如果数据结果不大的话,可以用现成的js 的Library来实现。
如果数据量比较大,实现分页话,其实sql是进行range查询,mysql 用Limit, t-sql是
用row_number 排序。plsql没用过,应该有类似的功能。 假设每页要有100个result,
下一页就在query的范围上加个100 (即从101 到200), 下2页就 加 200.... 以此类
推来实现的。
l******b
发帖数: 39
7
来自主题: Database版 - 新手学数据库一个简单题求助

如果你不想用partition by, 可以用子查询
SQL> with a1 as (
2 select department_id, count(*) as num_emp from employees group by
department_id),
3 a2 as (
4 select department_id, num_emp from a1 where num_emp in ((select max(
num_emp) from a1), (select min(num_emp) from a1) ))
5 select d.department_id, d.department_name, a2.num_emp from departments
d join a2 on d.department_id = a2.department_id ;
DEPARTMENT_ID DEPARTMENT_NAME NUM_EMP
------------- ------------------------... 阅读全帖
f*****n
发帖数: 30
8
希望能支持大容量数据,上百万条甚至更多记录的快速查询
希望硬盘容量易扩充,起步1T,能扩到2T 或者更多
对其他方面没有什么要求
价格要低一些,穷学生,没多少收入
Thanks!
n**y
发帖数: 11447
9
来自主题: Hardware版 - 密码泄漏查询
http://kami.tv/
数据库包含 人人 、 天涯 、 猫扑 、 Weibo 、 CSDN 、 178 、 7k7k 、 嘟嘟牛 、
多玩 、 17173 、 开心网。
z***s
发帖数: 3241
10
来自主题: Java版 - 大家都是怎么自学J2EE的
我也没完全搞懂到底啥是jsp。
到底什么是动态网页?我看了半天wiki也没有看明白。
比如根据用户输入id来查询数据库,jsp/asp都可以,javascript可以吗?html+
servlet也可以吗?
client-side scripting和server-side scripting有啥区别?除了跑在不同的side之外。
有种说法是servlet就是jsp,我觉得servlet就是java,只不过可以println出来html文
本而已。jsp剔除掉html的成分之外还有啥?
z***s
发帖数: 3241
11
来自主题: Java版 - 大家都是怎么自学J2EE的
我也没完全搞懂到底啥是jsp。
到底什么是动态网页?我看了半天wiki也没有看明白。
比如根据用户输入id来查询数据库,jsp/asp都可以,javascript可以吗?html+
servlet也可以吗?
client-side scripting和server-side scripting有啥区别?除了跑在不同的side之外。
有种说法是servlet就是jsp,我觉得servlet就是java,只不过可以println出来html文
本而已。jsp剔除掉html的成分之外还有啥?
g*****g
发帖数: 34805
12
要我说做个数据库,建个索引就行了。50万不是太多。
N***m
发帖数: 4460
13
来自主题: Programming版 - 数据库能用来存储文件吗?
但是查询起来也许快。所以综合起来未必慢
t*********h
发帖数: 941
14
来自主题: Programming版 - node最好的关系型数据库是什么
我知道NoSQL比较火 但都没有schema吧 很多也不支持查询 还是不太习惯 传统的SQL数
据库哪款适合node?貌似传统的设计都没有为async I/O考虑 只是为node硬加了一层API
而已 所以使用起来有些别扭 大牛们说说我的理解对不对
q*c
发帖数: 9453
15
查询给定时间站有没有余票咋整,怎么出优化座位。
q*c
发帖数: 9453
16
你这个查询和座位优化的 sql 还是相当麻烦的, 看下周要出差,可以搞一搞看看能上
多少次。

row
L*****e
发帖数: 8347
17
说下思路
考虑到查询远远多余买票,可以把卖出去的票的信息写进另外一个table,然后需要生
成的一张(或者其中一张)新票可以update而不是insert到当前table(update也比
insert快)这样可以尽量减少当前table的row数。。。
另外就是,sort如果无法避免,就尽量所需需要sort的范围,不要在全表范围内去sort
,而是在同一个车次范围内,甚至是只在同一车次中的碎片票范围内sort。。。

★ 发自iPhone App: ChineseWeb 8.2.2
c*********e
发帖数: 16335
18
来自主题: Programming版 - data visualization还是js最牛逼吧
js还是能减轻服务器负担的。很多时候,用户不需要查询数据库,就看看当前网页的东
西就bye bye了。
g*****g
发帖数: 34805
19
来自主题: Programming版 - 数据库表太大?
什么查询,建索引了没有?

EC2
l**********n
发帖数: 8443
20
来自主题: Programming版 - 数据库表太大?
文本查询还是es快吧。

EC2
C********g
发帖数: 1548
21
来自主题: Programming版 - 数据库表太大?
有chapterid和bookid作为索引。下面是一个查询例子:
BBC_Chapter是保存chapter基本信息的表
BBC_Content是保存chapter内容的表
select BBC_Chapter.chapterid, BBC_Chapter.bookid, title, chaptertype,
content from BBC_Chapter left join BBC_Content on BBC_Chapter.chapterid =
BBC_Content.chapterid where chapterstatus = 0 and BBC_Chapter.bookid = '
1004';
d****n
发帖数: 1637
22
来自主题: Programming版 - 数据库表太大?
瞎说一下啊,鄙人根本没经验。
除了content 以外的查询用rdbms,
content search 再另建一个nosql 用mapreduce 专门干这个。
这个非常适合read 多于write情况。
不好的地方就是额外的存储开销和save content 时候要建立 nosql delay
keyWords occur rdbms-indexId?
黄容 100 idx0
郭靖 85 idx17
避血剑 50 index 55
然后对 sentence 展开,我估计肯定有专门干这个的轮子,不用自己造
l******0
发帖数: 244
23
来自主题: Programming版 - 查询一个 MySql 表,OutOfMemory error
表只有两个字段,id and name,但有 5 百万记录。 使用了 Java Hibernate,代码:
CriteriaBuilder cb = em.getCriteriaBuilder();
CriteriaQuery criteria = cb.createQuery(Term.class);
Root term = criteria.from(Term.class);
criteria.select(term);
List terms = em.createQuery(criteria).getResultList();
Term 是实体类及数据库表。
8G 内存。5百万是个很大的数吗?
B****n
发帖数: 22
24
遇到一些新的基因,
如果没有被研究过,常常不知道怎么下手,值不值得下手。
要是有什么疾病相关联,可以至少有个方向。
有这样的数据库可以查么?
t*****4
发帖数: 16
25
来自主题: ChemEng版 - XPS分峰问题求教
大家好。
我最近刚开始做XPS分析,有些不懂得地方,想请教各位。现行谢过了。
我主要做的是SiC的XPS分析。先用等离子进行表面氧化,所以表面的成分比较复杂。
通过戴维林老师指点我用XPS peak软件进行了一些初步的分析,但是对于这个软件有些
不懂得地方。
首先是背景的选择,有三种选项。
其次是半幅值,这个分峰的时候所有的小峰都应该是一样的吗?
然后就是%LG,这个怎么确定呢?我问过别人,有人说这个是由设备确定的,所以所有
的峰都应该是一
样的,请问是这样的吗?值该怎么确定啊?
我通常都是分峰之后根据预想的表面可能存在的成分,查询数据库,然后对所有的峰进
行整体的平
移。这样对吗?有时候会出现一些峰对的上号,有的对不上。我应该怎么进行校正啊?
我们学校没有老师知道我们做XPS测量,数据都是我们自己直接测的。
还望各位多多指教,谢谢了!
下面是我自己做的分峰,但是我不是很确定其正确性,也请各位前辈指点。
其中,Si-O由于其氧化来源不同,键能可能不一样,这是不是合理啊?
x*****c
发帖数: 1005
26
化合物被人报导过,不知道是否有必要合成晶体
有没有什么可以输入化学结构或者分子式,就知道是否培养过晶体的数据库
另外,我没有ccdc的硬盘版本,我该如何办呢
t*****4
发帖数: 16
27
来自主题: Chemistry版 - XPS分峰
大家好。
我最近刚开始做XPS分析,有些不懂得地方,想请教各位。现行谢过了。
我主要做的是SiC的XPS分析。先用等离子进行表面氧化,所以表面的成分比较复杂。
通过戴维林老师指点我用XPS peak软件进行了一些初步的分析,但是对于这个软件有些
不懂得地方。
首先是背景的选择,有三种选项。
其次是半幅值,这个分峰的时候所有的小峰都应该是一样的吗?
然后就是%LG,这个怎么确定呢?我问过别人,有人说这个是由设备确定的,所以所有
的峰都应该是一
样的,请问是这样的吗?值该怎么确定啊?
我通常都是分峰之后根据预想的表面可能存在的成分,查询数据库,然后对所有的峰进
行整体的平
移。这样对吗?有时候会出现一些峰对的上号,有的对不上。我应该怎么进行校正啊?
我们学校没有老师知道我们做XPS测量,数据都是我们自己直接测的。
还望各位多多指教,谢谢了!
下面是我自己做的分峰,但是我不是很确定其正确性,也请各位前辈指点。
其中,Si-O由于其氧化来源不同,键能可能不一样,这是不是合理啊?
z*********e
发帖数: 10149
28
来自主题: Chongqing版 - 国内酒店开房信息可查询
那个网站挂了,我自己下了数据库查了一下,看到好多老同学
s***d
发帖数: 15421
29
来自主题: Stock版 - 说baba没技术的看看这篇知乎
12306首秀被骂的狗血喷头后铁道部找来IBM、阿里巴巴等大企业要解决方案,给出的条
件是资金管够但是问题得解决。几大企业最后都拒绝了(其中阿里巴巴最后负责了排队
系统的建设)。12306开始自己尝试解决问题。他们发现市面上可以买到的成套解决方
案都不足以应付春运购票负载,所以只能自己改进已有的数据库(注:其实是改用
VMware SQLFire/GemFire,这里我之前理解错误)。以前12306用的是小型机,发现性
能严重不足,遂改用x86系统+linux平台(原平台为HP Superdome小型机,UNIX系统,
Sybase ASE数据库)。最后他们的核心系统用了十几个节点(现在应该是17节点)的多
路Xeon E7(具体几路待考),每个节点配1TB内存,数据库全部在内存中运行。2013年
春运,12306系统峰值负载11万tps,与2012年淘宝双11活动峰值负载相当,新的系统基
本经受住了考验。
补充:以上内容是我在2013年7月得知的信息,彼时没有任何公开来源提到过12306新系
统的技术细节。甚至,当时局外人没人知道12306已经在2012年开始做了技术改造。直
到数日... 阅读全帖
W*******e
发帖数: 1268
30
学习学习国内的IT项目-12306铁道部订票网站性能分析【转载】
业务
任何技术都离不开业务需求,所以,要说明性能问题,首先还是想先说说业务问题。
一,有人可能把这个东西和QQ或是网游相比。
但我觉得这两者是不一样的,网游和QQ在线或是登录时访问的更多的是用户自己的数据
,而订票系统访问的是中心的票量数据,这是不一样的。不要觉得网游或是QQ能行你就
以为这是一样的。网游和QQ 的后端负载相对于电子商务的系统还是简单。
二,有人说春节期间订火车的这个事好像网站的秒杀活动。
的确很相似,但是如果你的思考不在表面的话,你会发现这也有些不一样。火车票这个
事,还有很多查询操作,查时间,查座位,查铺位,一个车次不 行,又查另一个车次
,其伴随着大量的查询操作,下单的时候需要对数据库操作。而秒杀,直接杀就好了。
另外,关于秒杀,完全可以做成只接受前N个用户的请求(完全不操作后端的任何数据
, 仅仅只是对用户的下单操作log),这种业务,只要把各个服务器的时间精确同步了
就可以了,无需在当时操作任何数据库。可以订单数够后,停止秒杀,然后批量写数据
库。火车票这个岂止是秒杀那么简单。能不能买到票得当时... 阅读全帖
H*******d
发帖数: 2394
31
【 以下文字转载自 WashingtonDC 讨论区 】
发信人: Westridge (不折腾), 信区: WashingtonDC
标 题: 学习学习国内的IT项目-12306铁道部订票网站性能分析【转载】
发信站: BBS 未名空间站 (Thu Jan 17 14:48:59 2013, 美东)
学习学习国内的IT项目-12306铁道部订票网站性能分析【转载】
业务
任何技术都离不开业务需求,所以,要说明性能问题,首先还是想先说说业务问题。
一,有人可能把这个东西和QQ或是网游相比。
但我觉得这两者是不一样的,网游和QQ在线或是登录时访问的更多的是用户自己的数据
,而订票系统访问的是中心的票量数据,这是不一样的。不要觉得网游或是QQ能行你就
以为这是一样的。网游和QQ 的后端负载相对于电子商务的系统还是简单。
二,有人说春节期间订火车的这个事好像网站的秒杀活动。
的确很相似,但是如果你的思考不在表面的话,你会发现这也有些不一样。火车票这个
事,还有很多查询操作,查时间,查座位,查铺位,一个车次不 行,又查另一个车次
,其伴随着大量的查询操作,下单的时候需要对数据库操作。而秒杀,... 阅读全帖
f****4
发帖数: 1359
32
来自主题: Programming版 - 春运火车票2个方案比较
讨论设计方案,必须有个背景才有意义。这个卖春运火车票的网站就是个很不错的例子。
比较方案的时候,可行性是根本,都可行的情况下考虑成本。可行性里面需要考虑到
performance,availability,scalability,工期还有系统的复杂度。这些都是讨论的
基础,你不能简单的说“你这方案比scalability比不上分布式,比响应比不上硬实时
系统”。没有方案是完美的,我们现在只是在给定的案例下面讨论两个不同的实现。如
果背离这个约定,那就又成为毫无意义的口水帖了。
因为有些人根本不仔细看别人帖子,我把2个不同方案的实现,大家提及的疑问及解答
,按照我的理解复述一下,也请魏老师和goodbug指正。当然了,我主要复述一下魏老
师的方案,毕竟分布式的大家多少都了解一点。
主机配置,4个10G/s网卡,全双工80G/s,对CPUS没特殊要求,内存没提,不过现在服
务器上到90+CPUS,36+G内存也就是5万美金,魏老师声称1万的主机还算靠谱。
魏老师在后面的帖子针对availability的问题提到了hot standby server,3zone,多
hot standby ... 阅读全帖
d********w
发帖数: 363
33
来自主题: JobHunting版 - 后Hadoop时代的大数据架构
http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖
d********w
发帖数: 363
34
来自主题: JobHunting版 - 后Hadoop时代的大数据架构
http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖
m****a
发帖数: 2593
35
来自主题: Programming版 - 从12306来看,国内IT水平不高
http://www.ccthere.com/article/3965719
我曾在淘宝写过一段时间代码,2012年在一家百强民企做电商副总,当时在极为艰苦的
条件下带队开发了一个B2C网站,走支付宝和银联支付通道,年营业额千万级(当然实
在太少了,我只是说这个网站投入了实际的运营)。
也就在那个时候,我对12306嗤之以鼻,觉得他们做得太烂了,认为自己能带队花几百
万半年时间做个好的出来。于是我狂妄地想做一个开源的订票系统给他们。我花了一个
星期时间思考建立数据模型,思考到库存这一步的时候,我才发现,12306的库存复杂
性比淘宝、京东高很多倍,运算量也大很多倍。传统的分布式数据库、缓存、负载均衡
技术并不能恰好满足12306的需求。
在平时,12306也就是个正常的电商网站。但一到黄金周,12306就是一个全站所有商品
都秒杀,所有SKU都是动态库存的变态。
即使不考虑线下既有的电话、代售点等渠道,要实现一个12306,最少最少也是千万级
别的硬件投入(这是当时的估算,没有精算,可能与实际相差较大,总之,我说得不一
定对,12306的业务也许没我说的那么复杂,但也绝不是某些人喷的那... 阅读全帖
c******3
发帖数: 296
36
来自主题: Programming版 - 淘宝内部人谈设计12306
淘宝内部人谈设计12306
一直觉得从讨论12306的设计,可以学到很多东西。本版俩大牛老魏和goodbug的设计各
有千秋,精彩绝伦。也很遗憾地看到,凭俩位这么多年的经验,居然设计中都有完全忽
视最最基本需求的地方。前者最初的设计不保证同车同座,后者的设计不保证实时。凭
这种低级硬伤,FLG面试设计一轮估计悬了。
俩大牛都搞不定,我等更没折了。坐下好好学习吧。搜到一篇淘宝内部人写的心得,在
此分享。不觉得他写的都对,例如超卖.淘宝大牛也比不上本版俩大牛,但毕竟是做过
类似系统的淘宝人,可能他的师哥师妹就曾帮12306做过,所以应该是有参考价值的。
===========http://www.cchere.com/topic/3965719==============
我曾在淘宝写过一段时间代码,2012年在一家百强民企做电商副总,当时在极为艰苦的
条件下带队开发了一个B2C网站,走支付宝和银联支付通道,年营业额千万级(当然实
在太少了,我只是说这个网站投入了实际的运营)。
也就在那个时候,我对12306嗤之以鼻,觉得他们做得太烂了,认为自己能带队花几百
万半年时间做个好的出来。于是我... 阅读全帖
o*******m
发帖数: 154
37
申请CS Master当然是must,但是自己的学习也不能放松,老马讲的挺好的。
原创 - 尚学堂科技 - 马士兵老师]
JAVA自学之路 一:学会选择
[转载请注明出处:http://www.bjsxt.com/zixue/zixuezhilu_1.html]
为了就业,不少同学参加各种各样的培训。
决心做软件的,大多数人选的是java,或是.net,也有一些选择了手机、嵌入式、游戏
、3G、测试等。
那么究竟应该选择什么方向呢?
我的意见是,不要太过相信各种培训机构或是抢手文章的说法(包括我),当你要走向
社会的时候,就不要再把自己当成学生,不要把自己的将来交给别人,学会运用自己的
眼睛去观察,去了解这个世界吧。
每个培训机构都会宣传自己的好处,并不能说明大的趋势。
一些新闻文章很有可能是枪手写的,不必太过相信。
国外背景的教师和课程,未必适合你。
那么怎么才能确定自己将来的方向?如何才能从纷繁复杂、或真或假的数据世界中挖出
一条路?
我讲一个通过招聘网站的观察方法。
可以到各种招聘的网站上查询信息(可以到google上查询招聘的网站),例如:
http://www.51job.c... 阅读全帖
m*****f
发帖数: 1243
38
来自主题: JobHunting版 - 这么热闹, 我也报Google offer
今天刚刚通知的, 特别感谢一起讨论的krone, geniusxsy, hnm, 特别是blaze教了我很
多, 还要特别感谢mitbbs59的总结帖
一起报offer, 好事成三, 大吉大利, 包子分光为止
贴下我的复习材料
题目大全:
http://www.spellscroll.com/viewquestions/?tag=algorithm
http://www.thecareerplus.com/?page=resources&cat=10
http://interviewcyclopedia.blogspot.com/
http://www.doctorinterview.com/A.html
http://toptechnotes.blogspot.com/search/label/algorithm (貌似博主已经关闭匿名浏览)
版面总结
http://www.mitbbs.com/article/JobHunting/31505215_4.html
Bitwise题目
http://graphics.stanford.edu/~seander/bithacks.htm... 阅读全帖
r******r
发帖数: 700
39
来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题
海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把
整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash
_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最
大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述(雪... 阅读全帖
r******r
发帖数: 700
40
来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题
海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把
整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash
_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最
大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述(雪... 阅读全帖
f********t
发帖数: 6999
41
来自主题: SanFrancisco版 - 这么热闹, 我也报Google offer (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: mudhoof (正在长牙的羊), 信区: JobHunting
标 题: 这么热闹, 我也报Google offer
发信站: BBS 未名空间站 (Tue Feb 23 12:32:47 2010, 美东)
今天刚刚通知的, 特别感谢一起讨论的krone, geniusxsy, hnm, 特别是blaze教了我很
多, 还要特别感谢mitbbs59的总结帖
一起报offer, 好事成三, 大吉大利, 包子分光为止
贴下我的复习材料
题目大全:
http://www.spellscroll.com/viewquestions/?tag=algorithm
http://www.thecareerplus.com/?page=resources&cat=10
http://interviewcyclopedia.blogspot.com/
http://www.doctorinterview.com/A.html
http://toptechnotes.blogspot.com/search/label/algorith... 阅读全帖
s**********o
发帖数: 14359
42
【 以下文字转载自 JobHunting 讨论区 】
发信人: rongxuer (蓉儿), 信区: JobHunting
标 题: 如何秒杀99%的海量数据处理面试题
发信站: BBS 未名空间站 (Thu Apr 5 02:08:57 2012, 美东)
海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的... 阅读全帖
T**********t
发帖数: 449
43
基本假设:
(1)班次信息用点到点方式,5000个火车站,单个信息不到100字节,
5000X5000 = 25 M X 100 = 2500 M = 2.5G,这可以全部装入内存,不用考虑硬盘表现
了。
(2)主要流量来自于对当天出来的票源的抢购。每天新增票源按照每两个连续站就算
一票,来存储
6000 班次 X 30站 /每班次= 18000区间 X 14车厢 X 5种位置 = 1.260M
(3)每小时查询峰值:5000万次
(4)每小时交易峰值:200万次, 每秒交易量: 555次
下面是基本架构:核心数据库、剩余票源发布服务器、中心城市订票端服务器
其中
1、核心数据库:完成真正的交易,更新现有座位数目。每秒预计交易量: 555次。
Capability of 1 typical Oracle Database: 30,000 TPS for credit card
transaction
Capability of 1 IBM Power Database: 50,000 TPS for credit card transaction
结论:数据库不是bottleneck,... 阅读全帖
g****t
发帖数: 31659
44
来自主题: Detective版 - 三体3:好书必须看
《三体III:死神永生》
作者:刘慈欣
申明:本书由奇书网(Www.Qisuu.Com)自网络收集整理制作,仅供预览交流学习使用,版权归原作者和出版社所有,如果喜欢,请支持订阅购买正版.
写在"基石"之前
姚海军
"基石"是个平实的词,不够"炫",却能够准确传达我们对构建中的中国科幻繁华巨厦的情感与信心,因此,我们用它来作为这套原创丛书的名字。
最近十年,是科幻创作飞速发展的十年。王晋康、刘慈欣、何宏伟、韩松等一大批科幻作家发表了大量深受读者喜爱、极具开拓与探索价值的科幻佳作。科幻文学的龙头期刊更是从一本传统的《科幻世界》,发展壮大成为涵盖各个读者层的系列刊物。与此同时,科幻文学的市场环境也有了改善,省会级城市的大型书店里终于有了属于科幻的领地。
仍然有人经常问及中国科幻与美国科幻的差距,但现在的答案已与十年前不同。
在很多作品上(它们不再是那种毫无文学技巧与色彩、想象力拘谨的幼稚故事),这种比较已经变成了人家的牛排之于我们的牛肉。差距是明显的--更准确地说,应该是"差别"--却已经无法再为它们排个名次。口味问题有了实际意义,这正是我们的科幻走向成熟的标志。
与美国科幻的差距,实际上是... 阅读全帖
n********g
发帖数: 6504
45
在说说话数据库设计题。我觉得这里的艾迪也大多没有这经验。付上我的几分钱。
首先我相信Facebook不会找码工重新发明轮子设计一个数据库管理系统。说到底还是在
现有的数据库系统上设计数据库。
第二这个稀疏表很小。我不喜欢谷歌就是谷歌的数据量很喜欢装逼。经常研究些大得没
屁眼的问题。如在一巨大的整数流中找到第k大的数。k可能是1000、10000。Facebook
用户算10万,每人有1000个朋友,这个表也不大。用不着几台server。人家问你这个问
题估计是想说你的设计有性能瓶颈,
关于吞吐量有三点。
第一是真追求吞吐量的可以用SSD阵列。和码工工资比花不了几个钱。就是硬盘阵列,
连续读带宽也惊人。
第二是查询的服务设计成内存内查询。1TB内存again和码工工资比不算什么。众多竞争
也是只读的,因此并发性很高。更极端一点可以用文件形式存放key/value,每个front
-end只管顺序读进对应文件的所有key/value就行了。多server只是启动更快而不是为
了完成查询更快。
第三点是查询结果也可以cache。
如果需要“实时”更新关系表。可以弄个message queue... 阅读全帖
G****a
发帖数: 10208
46
来自主题: Missouri版 - zz 哈兰·埃利森
拉里·埃利森
年龄:56岁
身高:6英尺
出生地:芝加哥
子女:两名
个人爱好:驾驶一架意大利喷气式战斗机和一艘78英尺长的赛艇
拉里·埃利森 - 简介
拉里·埃利森是世界上最大数据库软件公司的老板,他的产品遍布全世界。他是陌
生的人,但谁都似乎无法离开他。埃里森在32岁以前还一事无成。读了三个大学,没得
到一个学位文凭,换了十几家公司,老婆也离他而去。开始创业时只有1200美元,却使得
Oracle公司连续12年销售额每年翻一番,成为世界上第二大软件公司,他自己也成为硅谷
首富。但世人知道,这期间他经历了多么漫长的人生奋斗历程。埃里森是美国犹太人,
俄罗斯移民,出生在1944年的曼哈顿,他的未婚妈妈只有19岁。埃里森由舅舅一家抚养,
在芝加哥犹太区中下阶层长大,那时贫富的差别没有现在巨大。学生时代的埃里森并没
有显示出超人的素质和成绩,在学校他非常孤僻,独来独往,不过却十分注意打扮和享受,
在别的孩子还是由父母来理发时,他却请专业理发师打理。
拉里·埃利森 - 性格
极具魅力和侵略性的酷脸,咄咄逼人的口才,近乎疯狂的休闲方式,使得甲骨文公
司首席执行官拉里·埃利森成为美国硅谷人人皆知... 阅读全帖
r*****n
发帖数: 4844
47
前言
你是否觉得自己从学校毕业的时候只做过小玩具一样的程序?走入职场后哪怕没有什么
经验也可以把以下这些课外练习走一遍(朋友的抱怨:学校课程总是从理论出发,作业
项目都看不出有什么实际作用,不如从工作中的需求出发)
建议:
不要乱买书,不要乱追新技术新名词,基础的东西经过很长时间积累而且还会在未来至
少10年通用。
回顾一下历史,看看历史上时间线上技术的发展,你才能明白明天会是什么样。
一定要动手,例子不管多么简单,建议至少自己手敲一遍看看是否理解了里头的细枝末
节。
一定要学会思考,思考为什么要这样,而不是那样。还要举一反三地思考。
注:你也许会很奇怪为什么下面的东西很偏Unix/Linux,这是因为我觉得Windows下的
编程可能会在未来很没有前途,原因如下:
现在的用户界面几乎被两个东西主宰了,1)Web,2)移动设备iOS或Android。Windows
的图形界面不吃香了。
越来越多的企业在用成本低性能高的Linux和各种开源技术来构架其系统,Windows的成
本太高了。
微软的东西变得太快了,很不持久,他们完全是在玩弄程序员。详情参见《Windows编
程革命史》
所以... 阅读全帖
n******r
发帖数: 869
48
来自主题: JobHunting版 - 程序员技术练级攻略
贡献好文:
http://coolshell.cn/articles/4990.html
月光博客6月12日发表了《写给新手程序员的一封信》,翻译自《An open letter to
those who want to start programming》,我的朋友(他在本站的id是Mailper)告诉
我,他希望在酷壳上看到一篇更具操作性的文章。因为他也是喜欢编程和技术的家伙,
于是,我让他把他的一些学习Python和Web编程的一些点滴总结一下。于是他给我发来
了一些他的心得和经历,我在把他的心得做了不多的增改,并根据我的经历增加了“进
阶”一节。这是一篇由新手和我这个老家伙根据我们的经历完成的文章。
我的这个朋友把这篇文章取名叫Build Your Programming Technical Skills,我实在
不知道用中文怎么翻译,但我在写的过程中,我觉得这很像一个打网游做任务升级的一
个过程,所以取名叫“技术练级攻略”,题目有点大,呵呵,这个标题纯粹是为了好玩
。这里仅仅是在分享Mailper和我个人的学习经历。(注:省去了我作为一个初学者曾
经学习过的一些技术(今天明显... 阅读全帖
f***e
发帖数: 5443
49
“作为一名活佛,我感到由衷的高兴。”
中国佛教协会副会长、西藏孝登寺第七世珠康活佛珠康•土登克珠在“活佛
查询系统”上线发布仪式上致辞时说。
1月18日,佛教界“大腕”及众多高僧、活佛云集广济寺中国佛教协会参加这一上
线仪式。
这个“活佛系统”目前可查870名境内活佛的8项信息:照片、姓名、法名、法号、
出生年月、教派、活佛证号和所在寺庙。
该查询系统的目的之一,就是“为打击冒充活佛招摇撞骗的行为”。不过新浪《新
闻极客》通过该系统,并没有查到一些“知名”活佛的信息。
新上线活佛查询系统网站截图。
新上线活佛查询系统网站截图。
手机扫二维码可查活佛信息
“活佛身份查询服务”上线。
这一消息由中央统战部宣传办公室的官方微信“统战新语”最先发出。
活佛查询系统(http://hf.tibet.cn)在中国佛教协会网站、国家宗教事务局网站和中国西藏网首页都有链接,手机扫描二维码也能查询。
输入国内的手机号码,获取短信验证码之后,任何人都可以登录查询。
在查询界面中,输入活佛的姓名、法号、身份证号、活佛证号、所在寺庙五个项目
中任一项信息,即可查询境内活佛的信息。
同一手机号,一天... 阅读全帖
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)