由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 成人网站有多大 zz
相关主题
什么OPEN SOURCE的CODE对初级用户比较有用谷歌統計 (2013年四月)
现在最成熟稳定的websocket server是什么?python太慢了
有人关注antirez的disque么?一个django问题:debug=true就很好;debug=false,css就找不到
ashley madison用户数排名Re: 大家介绍一下当下比较流行的网页编程吧 (转载)
【考古】windows设计的真的比linux好?goodbug 老师,如果用ROR 加上您的架构,能做出撑的住火车订票系统么?
Pinterest五个engineer的职位推荐谁给菜鸟科普一下?client side MVC
谁知道facebook chat这类的东东是怎么做的最近GO好像很hype
现在主流web server是什么?什么叫全栈工程师
相关话题的讨论汇总
话题: youporn话题: 色情网站话题: redis话题: 数据话题: 网站
进入Programming版参与讨论
1 (共1页)
J*****n
发帖数: 4859
1
上网之人,多少都会接触过成人网站。这是一个举世公认的事实。
不过这是一个难以洞察的领域,因为相关数据少之又少。我们知道成人网站都是那些在
互联网上有着超高流量的网站。根据 Google DoubleClick 的 Ad Planner 服务(通过
cookie跟踪网民)显示,全球 Top 500 网站中,就有数十个成人网站。全球最大的色
情网站 Xvideos 每月网页浏览量(Page Views,PV)高达 44 亿,是 CNN 或 ESPN 新
闻网站的 3 倍,是 Reddit 的 2 倍。LiveJasmin 也不小。除了 Google 和 Facebook
等大站,其他网站在YouPorn、Tube8 和 PornHub 面前都是小巫见大巫。
虽然网页浏览量是一个很好的起始点,但它们仅告诉我们某些色情网站比某些非色情网
站要受欢迎。40亿的PV,听起来很多,但当我们把那些X站用户实际在做的事考虑进来
,成人网站的大小和规模就有点明朗了。
规模
色情网站和非色情网站的主页区别是访客的平均停留时间。诸如 Engadget 等新闻网站
的平均停留时间是 3 – 6 分钟,大约是是阅读 1 – 2 篇文章。然而色情网站的停留
时间,大约是在 15 – 20 分钟。
大部分网站的内容主要是文本和图像,而成人大站则是视频。ExtremeTech 首页完全加
载大约是几兆数据,打开一篇文章,大约是500kb数据。访问色情网站,假设是打开一
个 480×200 低分辨率的视频,每秒传输 100 kb 数据。15 分钟的话,那就大约是 90
MB 数据了。
Xvideos 每月有 3.5 亿访问次数,乘以 90 MB,那就每月传输大约 29 PB 数据,也就
是每秒传送数据约 50 GB。做个对比,你家网络连接可能每秒传送两兆(2 MB),
Xvideos 是你家的 25,000 倍。
简而言之,色情网站是在处理天文数字级别的数据。在原始带宽(Raw Bandwidth)方
面,能与之匹敌的网站,也就只有 YouTube 或 Hulu,而 YouPorn 却又是 Hulu 的 6
倍。
基础设施
就支持视频所需的资源,数据存储器、CPU 周期、I/O 和带宽,远超过文本和图像所需
要的资源。
当然了,虽然每个网站的情况又不一样了,但大部分成人站点都有 50 至 200 TB 的成
人资料。对一个网站来说,这是个大数目(Google、Facebook、Blogger 和 Youtube
之流存储的数据比这还要多),好在现在 2 TB 的硬盘便宜。
CPU 周期和 I/O 会影响视频流和 PV 数量。首先,色情网站要提供动态、可搜索的海
量视频数据库,然后点播视频时,从硬盘读取文件,再网络上传输。如果你有过在局域
网传送大量大文件的经历,你就会知道网络系统的压力有多大了。
硬件设备情况,实际上我们几乎无法知晓,因为色情网站也没公布过。虽然如此,但我
们讨论的大型色情网站会有四核服务器、千兆交换机、负载均衡器。在软件方面,大部
分大型色情网站都会使用超高吞吐量的数据库(比如 Redis )来存储和提供视频,还
有轻量级的 HTTP 服务器(比如 Nginx )。
最后说带宽。还是以 Xvideos 为例(基于 Ad Planner 的数据估测),大型色情网站
必须有足够的连通性(connectivity)来支撑每秒 50 GB(400Gbps )。这还只是平均
传输速率。在高峰期间,Xvideos 或许要 1,000Gbps (1Tbps) ,或更高 。在伦敦和
纽约直接的连通性也才 15Tbps。
有很多方法来处理高流量:自己搞个数据中心,或者去大数据中心租赁几排架的服务器
,或者使用诸如 Amazon AWS 和 Microsoft Azure 之类的云服务。
真实案例
YouPorn 是全球第二大的色情网站,足够提供研究数据。另外要说一下,DoubleClick
的 Ad Planner 中的估测数据比实际数据要低很多的。
YouPorn 有“超过 100 TB 的干货”,每天网页浏览量超过 1 亿。总而言,这相当于
每天传送 950 TB 数据(大部分都是视频流),每月大约传送 29 PB。Xvideos 肯定不
止 28 PB 这个估测值了,它可能是每月 35 – 40 TB。
在高峰期,YouPorn 每秒得响应 4000 个网页,相当于有每秒 100 GB 或(800 Gbps
)的突发流量。这相当月每秒传送 10+ 张双层 DVD。
在软件方面,YouPorn 的主数据库是 Redis,用 MySQL 作为管理工具,用于管理和向
Redis 簇中添加数据。后端是 Perl 和 MySQL,不过在 2011 年改成了 PHP + Redis。
HTTP 服务器是 Nginx,同时用 HAProxy 和 Varnish 做负载均衡。
Redis 服务器可以每秒处理 30 万请求,每小时记录下 8 – 15 GB数据,包括访客日
志、行为数据等。据说 Redis 可以抗住 2 亿的日 PV。
(译注:2012年2月份,YouPorn 的技术人员 Eric Pickup 在 Google 群组宣告他们网
站改用 Redis DB 后。扛住了每天1亿PV浏览量,每秒30万请求,已经坚持 2 周。Eric
还将去加拿大一个技术大会分享经验。)
令人悲伤的是,YouPorn 拒绝透露硬件设备信息。从 YouPorn 的 CDN 的 IP 地址来看
,它应该没有使用云服务,应该托管在某地的大型数据中心。
互联网每天大约处理 1/2 EB 数据,相当于每秒处理 50Tb, YouPorn 的 800Gbps 这
个数字,几乎就占了互联网中每秒流量的 2%。而全球有几十个和 YouPorn 规模相当的
色情网站。互联网流量中色情内容占据了 30%,这个说法也就不是不现实的哦。
(译注:1 EB = 1024 PB = 1024 * 1024 TB = 1024 * 1024 * 1024 GB)
p********e
发帖数: 6030
2
xvideos第一YouPorn第二?扯什么蛋呢?

Facebook

【在 J*****n 的大作中提到】
: 上网之人,多少都会接触过成人网站。这是一个举世公认的事实。
: 不过这是一个难以洞察的领域,因为相关数据少之又少。我们知道成人网站都是那些在
: 互联网上有着超高流量的网站。根据 Google DoubleClick 的 Ad Planner 服务(通过
: cookie跟踪网民)显示,全球 Top 500 网站中,就有数十个成人网站。全球最大的色
: 情网站 Xvideos 每月网页浏览量(Page Views,PV)高达 44 亿,是 CNN 或 ESPN 新
: 闻网站的 3 倍,是 Reddit 的 2 倍。LiveJasmin 也不小。除了 Google 和 Facebook
: 等大站,其他网站在YouPorn、Tube8 和 PornHub 面前都是小巫见大巫。
: 虽然网页浏览量是一个很好的起始点,但它们仅告诉我们某些色情网站比某些非色情网
: 站要受欢迎。40亿的PV,听起来很多,但当我们把那些X站用户实际在做的事考虑进来
: ,成人网站的大小和规模就有点明朗了。

g*****g
发帖数: 34805
3
Netflix 顶峰流量是 YouTube的两倍半。
a******n
发帖数: 5925
4
那应该是?
[在 pentaquine (OM) 的大作中提到:]
:xvideos第一YouPorn第二?扯什么蛋呢?

:...........
t******a
发帖数: 697
5
美剧硅谷里面不就是压缩算法为成人网站大幅降低带宽需求么。好屌。
c*********e
发帖数: 16335
6
redis是in-memory database,那就是说,youporn的服务器的内存超级大?

Facebook

【在 J*****n 的大作中提到】
: 上网之人,多少都会接触过成人网站。这是一个举世公认的事实。
: 不过这是一个难以洞察的领域,因为相关数据少之又少。我们知道成人网站都是那些在
: 互联网上有着超高流量的网站。根据 Google DoubleClick 的 Ad Planner 服务(通过
: cookie跟踪网民)显示,全球 Top 500 网站中,就有数十个成人网站。全球最大的色
: 情网站 Xvideos 每月网页浏览量(Page Views,PV)高达 44 亿,是 CNN 或 ESPN 新
: 闻网站的 3 倍,是 Reddit 的 2 倍。LiveJasmin 也不小。除了 Google 和 Facebook
: 等大站,其他网站在YouPorn、Tube8 和 PornHub 面前都是小巫见大巫。
: 虽然网页浏览量是一个很好的起始点,但它们仅告诉我们某些色情网站比某些非色情网
: 站要受欢迎。40亿的PV,听起来很多,但当我们把那些X站用户实际在做的事考虑进来
: ,成人网站的大小和规模就有点明朗了。

n******7
发帖数: 12463
7
可以distribute

【在 c*********e 的大作中提到】
: redis是in-memory database,那就是说,youporn的服务器的内存超级大?
:
: Facebook

c*********e
发帖数: 16335
8
u mean Partitioning ?

【在 n******7 的大作中提到】
: 可以distribute
w***g
发帖数: 5958
9
youporn, xvideo这些主要是视频,数据库并不会太大。
这些网站都是闷声大发财啊,而且估计可以搞到大量的模特和明星。
不过porn这一行是和互联网一路成长过来的,竞争应该不小。

【在 c*********e 的大作中提到】
: redis是in-memory database,那就是说,youporn的服务器的内存超级大?
:
: Facebook

N*****m
发帖数: 42603
10
没关系吧,t有1k多节点的redis cluster

【在 c*********e 的大作中提到】
: redis是in-memory database,那就是说,youporn的服务器的内存超级大?
:
: Facebook

相关主题
Pinterest五个engineer的职位推荐谷歌統計 (2013年四月)
谁知道facebook chat这类的东东是怎么做的python太慢了
现在主流web server是什么?一个django问题:debug=true就很好;debug=false,css就找不到
进入Programming版参与讨论
c******n
发帖数: 4965
11
内容都是 CDN 负责的吧?
Netflix YouTube 做得大了可以自己弄 CDN (另外他们有播放平顺的考虑, 自己做
streaming 的算法)
这些小的 streaming vendor, 按理说把每一个 media resource 的地址给浏览器, 剩
下就让 CDN 管就好了。
redis 里面应该只是存的 metadata

Facebook

【在 J*****n 的大作中提到】
: 上网之人,多少都会接触过成人网站。这是一个举世公认的事实。
: 不过这是一个难以洞察的领域,因为相关数据少之又少。我们知道成人网站都是那些在
: 互联网上有着超高流量的网站。根据 Google DoubleClick 的 Ad Planner 服务(通过
: cookie跟踪网民)显示,全球 Top 500 网站中,就有数十个成人网站。全球最大的色
: 情网站 Xvideos 每月网页浏览量(Page Views,PV)高达 44 亿,是 CNN 或 ESPN 新
: 闻网站的 3 倍,是 Reddit 的 2 倍。LiveJasmin 也不小。除了 Google 和 Facebook
: 等大站,其他网站在YouPorn、Tube8 和 PornHub 面前都是小巫见大巫。
: 虽然网页浏览量是一个很好的起始点,但它们仅告诉我们某些色情网站比某些非色情网
: 站要受欢迎。40亿的PV,听起来很多,但当我们把那些X站用户实际在做的事考虑进来
: ,成人网站的大小和规模就有点明朗了。

c*********e
发帖数: 16335
12
这些网站靠什么发财啊? 广告?

【在 w***g 的大作中提到】
: youporn, xvideo这些主要是视频,数据库并不会太大。
: 这些网站都是闷声大发财啊,而且估计可以搞到大量的模特和明星。
: 不过porn这一行是和互联网一路成长过来的,竞争应该不小。

g*****g
发帖数: 34805
13
付费服务,给你看个VCD quality的,要HD就交钱吧。

【在 c*********e 的大作中提到】
: 这些网站靠什么发财啊? 广告?
c*********e
发帖数: 16335
14
哪个冤大头愿意付钱看porn啊?

【在 g*****g 的大作中提到】
: 付费服务,给你看个VCD quality的,要HD就交钱吧。
D*******a
发帖数: 3688
15
where did you get this data? I don't think yt published official data after
2012 or something.

【在 g*****g 的大作中提到】
: Netflix 顶峰流量是 YouTube的两倍半。
g*****g
发帖数: 34805
16
这是最新的数据。
http://variety.com/2015/digital/news/netflix-bandwidth-usage-in

after

【在 D*******a 的大作中提到】
: where did you get this data? I don't think yt published official data after
: 2012 or something.

1 (共1页)
进入Programming版参与讨论
相关主题
什么叫全栈工程师【考古】windows设计的真的比linux好?
工作之余想捣鼓点东西Pinterest五个engineer的职位推荐
又招人了,DevOps Engineer谁知道facebook chat这类的东东是怎么做的
haskell有潜力成为最好的web framework现在主流web server是什么?
什么OPEN SOURCE的CODE对初级用户比较有用谷歌統計 (2013年四月)
现在最成熟稳定的websocket server是什么?python太慢了
有人关注antirez的disque么?一个django问题:debug=true就很好;debug=false,css就找不到
ashley madison用户数排名Re: 大家介绍一下当下比较流行的网页编程吧 (转载)
相关话题的讨论汇总
话题: youporn话题: 色情网站话题: redis话题: 数据话题: 网站