关于urls的讨论汇总 - 话题女王

m****s
发帖数: 79

来自主题: Programming版 - tinyUrl design里，好像没提及怎么从long url找到已经存在的它对应的short url？

在网上查的现有的tinyUrl design里，好像没提及怎么从long url找到已经存在的它对
应的short url？
通常的design里，给long url一个数字，然后数字 -> short url
那么如果已经给long url转换成一个short url。
接着，我想查找对于某个特定long url，什么是它对应的short url？
这个要遍历database？
还是有好的design？

b*********n
发帖数: 1258

来自主题: CS版 - 请教：如何用Java get URL content是.swe并且是utf-16 encoding (转载)

【以下文字转载自 Programming 讨论区】
发信人: babyfacenan (黑土), 信区: Programming
标题: 请教：如何用Java get URL content是.swe并且是utf-16 encoding的文件
发信站: BBS 未名空间站 (Tue Mar 4 01:46:50 2008)
url指向一个 .swe 文件，这个.swe文件是utf-16的
用less看不了，要用iconv 从 utf-18 转换成 utf-8才能用less看
我用了java URL class, url.openStream()等等来get content
complain 是什么http error 400 之类的
试了一下别的url，没问题，就是这个url报error
不过这个url本生肯定也没问题，url指向的.swe文件用firefox打得开
我用了perl的http request, userAgent, 加上
`iconv -f utf-16 -t utf-8` 就可以把content弄下来
并且存成一个less可以看得了的文件
也不知道我有没有把

s*********r
发帖数: 66

来自主题: Java版 - 请教获取URL地址的问题

我想用JAVA实现一个功能，就是已经知道一个URL，这个URL输入到网页地址栏回车后，会自动跳转到另外一个页面，这个页面的URL上有我想要的信息。有什么函数能把这
个跳转后的URL取到程序中呢？谢谢啦
eg:输入 https://***.*****.com,回车后，网页地址栏变成https://###.$%&*)&*%^)&(*)
如何在程序中取到后面的URL呢？我用HttpURLConnection和URL类，只能搞到建立实例的地址，调用connect()函数后，取当前的url，还是以前的地址，调用
getFollowRedirects() 显示为true，证明的确自动跳转了，可是如何取出跳转之后的url呢？

l*******r
发帖数: 322

来自主题: TeX版 - 请教：在文中如何加入URL超链接

假设我有一个很长的URL,i.e.
http://this.is.a.very.long.URL/and it also contains spaces/and_underlines/and~even~tildes/
我希望在文中引用它，使得
1. 读者能够在最后的PDF文件中通过单击访问该链接
2. 在tex文件中我可以直接copy+paste这些链接，而不需要加上很多"\"
(e.g. avoid converting "and_underlines" to "and\_underlines")
3. 链接很长，希望能够自动分行
4. URL中的空格能够被显示出来
我试了 \url{URL}，满足要求1/2，但是PDF文件里面的URL空格都被吃掉，而且不能自
动分行
我又试了 \href{URL}{URL}，满足要求3/4，但是我要加上"\"，而且跳转访问的连接都
自动带上了这些"\"，导致不能访问
各位各位，有什么好建议吗？谢谢谢谢

I********T
发帖数: 22

来自主题: JobHunting版 - 面试题，大规模url求重复讨论

看到一道面试题
给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出
共同的URL。
这个题目在网上看到有两种解法：
解法一：（1），读取文件，计算HASH，按HASH值分段放入不同的文件，文件数可以比
较多，两个
文件的URL，分开不同的文件放（a1，a2,...，b1，b2，...），保存时可以把HASH值也
保存进
去，避免再次计算HASH值
（2），对每一个HASH段，读出两个文件中的一个，比如a1，对HASH值有冲突的放一个
连表里，然
后读b1文件，取HASH值和URL，如果HASH值在a1中有，则进一步判断URL是否相同。
解法二：Bloom Filter（广泛应用于URL过滤、查重。参考
http://en.wikipedia.org/wiki/Bloom_filter、
http://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx）
可是我算了下内存4G，换成bit位是4 * 2^30 * 8 =32 *2^30 个位，数据有5*2^30,
这样把全部
内存用来做h

b*********n
发帖数: 1258

来自主题: Programming版 - 请教：如何用Java get URL content是.swe并且是utf-16 encoding的文件

url指向一个 .swe 文件，这个.swe文件是utf-16的
用less看不了，要用iconv 从 utf-18 转换成 utf-8才能用less看
我用了java URL class, url.openStream()等等来get content
complain 是什么http error 400 之类的
试了一下别的url，没问题，就是这个url报error
不过这个url本生肯定也没问题，url指向的.swe文件用firefox打得开
我用了perl的http request, userAgent, 加上
`iconv -f utf-16 -t utf-8` 就可以把content弄下来
并且存成一个less可以看得了的文件
也不知道我有没有把问题描述清楚
哪位高手给帮帮忙吧，谢谢

n*****t
发帖数: 22014

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

The TinyURL homepage includes a form that is used to submit a long URL for
shortening. For each URL entered, the server adds a new alias in its hashed
database and returns a short URL such as http://tinyurl.com/2unsh in the following page. If the URL has already been requested, TinyURL will return the existing alias rather than create a duplicate entry. The short URL forwards users to the long URL.
接着现下限，煞笔

r****s
发帖数: 1025

来自主题: JobHunting版 - most clicked urls in the last 5 mins, 1hr, 24 hrs?

这个是经典的stream processing问题。
Server把url扔到后端，后端有数个server或者process,最简单的方法就是hash url然
后决定按hashcode把url扔到那个server或者process （modulo就可以了）,这个
process就把url累计count一下，然后把url:count这个pair 扔到后一级的process或者
server，后一级的server把url:count存到一个concurrent hashmap里。一个thread 大
概每10秒钟把这个map扫一遍，给出前10名。
这是很粗略的方法，讲究一些的可以加各种花里胡哨的东西上去。
知道twitter storm吗？就是干这个的。http://storm-project.net/ 阿里巴巴和淘宝都在用，估计那个主要开发者Xu Mingming也是淘宝的。竞争对手是Apache S4,但是S4明显不是对手。

s*****n
发帖数: 3

来自主题: TeX版 - natbib - URL question.

Hi, Dear all
I am using natbib, which is much better than the defualt.
I use plainnat, and everything works great except that
the refernce in the end of the paper list the URL if a URL entry is
available.
for examle:
Auther A and Author B. Paper title here. In Proceeding.... 2006 URL http://...
But I really do not like that URL, which makes the reference look bad. I do
not want to delete those URL from my bib file becuase that is my boss's file
, and very big.
How should I get rid of the URL. BT

w********j
发帖数: 87

来自主题: Programming版 - 这个网站是怎么在源码中隐藏url地址的？

网站是http://www.flvxz.com。这是一个解析土豆和优酷视频地址的网站。有一个输入url的text框。输入youku视频url后可以解析出视频文件地址。解析之后可以在网页中看到视频url，可以点击，但是在网页的源码中却看不到。请问这是怎么实现的？
大家可以用下面的url测试。
http://www.flvxz.com/?url=http://v.youku.com/v_show/id_XNDkyNDA

r*******y
发帖数: 1081

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

里面是有一个 integer id 到short url 的一个一一对应。但是 long url到这个
integer id的对应怎么搞，不然怎么做到相同的 long url得到相同的 short url.
thanks.

g*****g
发帖数: 34805

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

傻逼你又不懂了吧，DB是要存url, 但是url长度可以几千，有的网站可以来一堆url前
面都一样，最后一个参数不一样。
数据库用VARCHAR都存不了，长度不够。用CLOB比慢死你。
所以上个hash, 位数弄长一点，就算你是google search, 也有个几个collide到头了，
然后一比实际url就知道。
你丫整一外行，没经验的东西，就别误导了。

g*****g
发帖数: 34805

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

尼玛这傻逼连我说的话，也能纂改，都什么人呀。就为了自己一点破脸，一点人格都不
要了。
信人: goodbug (好虫), 信区: Programming
标题: Re: tinyurl 是怎么做到同一个long url两次得到相同的short ur
发信站: BBS 未名空间站 (Wed Feb 12 00:50:16 2014, 美东)
傻逼你又不懂了吧，DB是要存url, 但是url长度可以几千，有的网站可以来一堆url前
面都一样，最后一个参数不一样。
数据库用VARCHAR都存不了，长度不够。用CLOB比慢死你。

e********3
发帖数: 18578

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

IE里面不支持超过2K的url，不说明别的browser不行，你设计一个tinyurl不能只针对
IE的用户吧？你这个url length兼容是向下兼容的，能处理2 mil的url难道处理不了
200的url?

your

d*****o
发帖数: 2868

来自主题: PhotoForum版 - flickr上面没办法找到上传照片的url了？

我记得去年的时候吧，应该是10月份，好像还可以上传以后，找到不同照片尺寸的url,
这个功能被取消了？
在网上查了一下，还能找到照片的URL,不过仅仅原尺寸的url。如果这样的话，谁能给
推荐个类似flickr的网站？试了一下photobucket,但没有不同尺寸的url.
先谢了

c***c
发帖数: 21374

来自主题: BuildingWeb版 - 怎么从adsense的iframe里面知道网站的url？

adsense iframe的url是固定的，那些参数都是涉及adsense的格式而已。但是同样一个
url，每次生成的内容不同
比如这段在theglobeandmail上面的：
http://www.theglobeandmail.com/servlet/story/RTGAM.20090110.wobama0110/BNStory/International/home 的 adsense的代码其实调用如下地址
http://pagead2.googlesyndication.com/pagead/ads?client=ca-pub-4377513809082079&dt=1231642047958&lmt=1231642044&prev_fmts=728x90_as%2C300x250_as&format=160x600_as&output=html&url=http%3A%2F%2Fwww.theglobeandmail.com%2Fservlet%2Fstory%2FRTGAM.20090110.wobam 每次刷新都不同
我现在要的就是知道如上这个url里面都包括有哪些广告商

m****r
发帖数: 6639

来自主题: Java版 - 请教获取URL地址的问题

the second url should be in the response to the first one, no?

，会自动跳转到另外一个页面，这个页面的URL上有我想要的信息。有什么函数能把这
&(*)
例的地址，调用connect()函数后，取当前的url，还是以前的地址，调用
的url呢？

m******t
发帖数: 2416

来自主题: Java版 - 请教获取URL地址的问题

You need to parse the response. The redirect url is in the Location header.

，会自动跳转到另外一个页面，这
个页面的URL上有我想要的信息。有什么函数能把这
&(*)
例的地址，调用connect()函数
后，取当前的url，还是以前的地址，调用
的url呢？

s*********e
发帖数: 17

来自主题: Programming版 - URL questions

Since pages can have multiple URLs pointing to them, how can you make sure you
've never seen the same CONTENT before?
我想到的做法是: 建立一个URL buffer, 然后新的 URL 与 buffer 里的 URL 进行比较
，如果有相同的，then have seen the same CONTENT; otherwise never seen.

c***c
发帖数: 21374

来自主题: Programming版 - 怎么从adsense的iframe里面知道网站的url？ (转载)

【以下文字转载自 BuildingWeb 讨论区】
发信人: cynic (闷声发大财), 信区: BuildingWeb
标题: 怎么从adsense的iframe里面知道网站的url？
发信站: BBS 未名空间站 (Sat Jan 10 02:07:15 2009)
adsense的javascript其实调用了一个iframe。这个iframe里面的网页url包含一个随机
字符串，因此重复访问这个url不保证一定能得到同样内容。
比如这次页面包括了3个网站，a.com,b.com,c.com，怎么才可以正确得到这三个url呢？
换句话说，仅仅google和访问者知道这次页面调用了如上3个网站

c***c
发帖数: 21374

来自主题: Programming版 - 怎么从adsense的iframe里面知道网站的url？ (转载)

s*******e
发帖数: 664

来自主题: Programming版 - [合集] 请教如何储存和查找1万个url

☆─────────────────────────────────────☆
webobserver (Hi) 于 (Mon Jun 22 14:20:48 2009, 美东) 提到:
在做一个小的project，需要存储大约1万个url。然后当新的url进来的时候，需要查找
是否已经存在。
如果已经存在，则不操作；
如果不存在，则插入。
请问用什么数据结构好？我现在用的是个array，总觉得效率很低，尤其是很长的url的
时候。感觉上hashtable可能会好一些？能不能有人给我指点一下？
谢谢。
☆─────────────────────────────────────☆
goodbug (好虫) 于 (Mon Jun 22 14:34:29 2009, 美东) 提到:
hashtable. 10K is nothing.

☆─────────────────────────────────────☆
cogt (苦荆茶) 于 (Mon Jun 22 16:25:57 2009, 美东) 提到:
if urls stores in db, set

N***m
发帖数: 4460

来自主题: Programming版 - url header问题

String urlName = "http://127.0.0.1:8080/docs/changelog.html";
URL url = new URL(urlName);
URLConnection connection = url.openConnection();
connection.connect();
Map> headers = connection.
getHeaderFields();
for(Map.Entry> entry: headers.entrySet(
)) {
System.out.print(entry.getKey()+": ");
for(String s:entry.getValue())
... 阅读全帖

n*****t
发帖数: 22014

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

就你这篇文章里
Extremely long URLs are usually a mistake. URLs over 2,000 characters will
not work in the most popular web browser. Don't use them if you intend your
site to work for the majority of Internet users.
谁会设计一个超过 2k 的 url？当然，tinyurl 知道有古德八这种脑残，不过还没傻到
给丫准备 2g 的空间

s*****w
发帖数: 1527

来自主题: Programming版 - 点击button有个url下载文件，直接用python抓这个url却没用

如果打开browser的debug, 可以看到点击“下载”这个button时，url如下
http://www.mydata.com/data/filedownload.aspx?e=MyArgu1&k=kfhk22wykq
但当我把这个url放在urllib.urlretrieve（url, myDownloadFile）时，文件却是空的
，为何？

c*********n
发帖数: 1057

来自主题: JobHunting版 - 问个amazon的题，关于url的提取

这个题目应该是考linux和regex的
有一个文件，里面全是url，这些url要么以http://开头，要么直接www开头
我不太理解为什么面试官一定要强调这个区别呢？
然后他要求返回所有属于amazon.com的，或者google.com的url
这个怎么答呢？

s*********e
发帖数: 36

来自主题: JobHunting版 - 求教关于URL的hash function

求教各位牛人：
如果一个search engine系统从网上crawling很多的URL，为了保存不重复的URL，我们
用hash
table解决。这是个distributed hash table，分别保存在一个network里的各个节点上
。请问，
有什么比较好的hash function把一个URL map到一个节点上？
多谢！

C*******n
发帖数: 193

来自主题: JobHunting版 - url shorten有一点不明白

用户把生成后的短url打到浏览器里，
用户链接的是bit.ly (或者其他短url服务商) 的服务器吧?
然后bit.ly 查询数据库，拿到原始url。
然后跳转，这个跳转为什么是自动做的？不需要用户点就可以跳转到目的服务器？
谢谢指导！

l******2
发帖数: 41

来自主题: JobHunting版 - 设计Tiny URL

如何设计Tiny URL呢？
HashMap map
key是tiny url, value 是full URL ? 那 collision怎么处理呢？

l******2
发帖数: 41

来自主题: JobHunting版 - 设计Tiny URL

如何设计Tiny URL呢？
HashMap map
key是tiny url, value 是full URL ? 那 collision怎么处理呢？

H******7
发帖数: 1728

来自主题: JobHunting版 - shorten url 单机解法抛砖引玉

Theoretical background
You need a Bijective Function f. This is necessary so that you can find a
inverse function g('abc') = 123 for your f(123) = 'abc' function. This means:
There must be no x1, x2 (with x1 ≠ x2) that will make f(x1) = f(x2),
and for every y you must be able to find an x so that f(x) = y.
How to convert the ID to a shortened URL
Think of an alphabet we want to use. In your case that's [a-zA-Z0-9]. It
contains 62 letters.
Take an auto-generated, unique numerical ... 阅读全帖

i******i
发帖数: 54

来自主题: BuildingWeb版 - [转载] javascript function 如何用将参数传送到URL

var url;
url="http://xxxxxx?xx="+con;
window.open(url,.......);

window.open("http://www.abc.com/profile.asp?major=con","my_new_window","toolba
r=yes,location=yes,directories=no,status=no,menubar=yes,scrollbars=yes,resizab

c***c
发帖数: 21374

来自主题: BuildingWeb版 - who can explain how the following URL is created?

url rewrite对于维护网站的确是提供一些方便，也的确很灵活
不过这个纯粹是给用户和搜索引擎做的工作，对于服务器没什么帮助
url rewrite还一个好处就是维护那些过渡性质的URL，避免死连接的出现
优化搜索引擎是一门非常大的学问。一来我也没资格在这里就这个头头是道来讲，
二来这个也的确范围太大。自己搜索去吧。

c***c
发帖数: 21374

来自主题: BuildingWeb版 - 怎么从adsense的iframe里面知道网站的url？

adsense的javascript其实调用了一个iframe。这个iframe里面的网页url包含一个随机
字符串，因此重复访问这个url不保证一定能得到同样内容。
比如这次页面包括了3个网站，a.com,b.com,c.com，怎么才可以正确得到这三个url呢？
换句话说，仅仅google和访问者知道这次页面调用了如上3个网站

P****y
发帖数: 707

来自主题: DotNet版 - Session ID in URL

我的asp.net application被Google index以后，很多indexed url里面出现session id
.
比如 http://example.com/(S(jhmsdkj2323tkta30ocr3a0))/default.aspx
我点击这个URL发现内容是和 http://example.com/default.aspx 一样的。现在的问题
是我怎么能够让 http://example.com/(S(jhmsdkj2323tkta30ocr3a0))/default.aspx
变成404 page not found呢？
因为我不想让Google继续保留这个URL...
谢谢

h*****a
发帖数: 1718

来自主题: Java版 - 怎样得到redirect的destination url

比如写一个RSS reader，读到一个url是 http://bensbargains.net/link.php?threadid=116324&linkid=14。这个url实际上redirect到bestbuy的onsale的item，我怎样才能得到后面的这个url呢？
多谢。

n*****t
发帖数: 22014

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

Int id 就是这个 long url 在 DB 里的 rec id，short url 就是这个 int 转成
ascii
，我瞎猜的

r*******y
发帖数: 1081

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

你猜测对了。
不过我的问题不是这个，我的问题是比如我在那里为 www.sina.com.cn产生了一个
short
url: www.tinyurl.com/1a2b3c
我让它再生成一次，还是得到同样的 1a2b3c
我的问题是系统怎么知道 www.sina.com.cn已经产生过short url.

g*****g
发帖数: 34805

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

A hash of url is generated as key. Use the hashkey you can quickly find out
if the url has been generated.
Note hash can collide, but it's fairly evenly distributed so there won't be
many results under a key.

n*****t
发帖数: 22014

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

二逼又来了：
Extremely long URLs are usually a mistake. URLs over 2,000 characters will
not work in the most popular web browser. Don't use them if you intend your
site to work for the majority of Internet users.
你悲愤 spec 有屁用，全堆就是全堆

.
based
URI

g*****g
发帖数: 34805

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

傻逼你不会自己弄一个超过IE limit的URL到tinyurl实测？技术论坛，错了就错了，死
撑到底有用吗？IE limit 2083, VARCHAR2 4000, 这个4269的照样产生。
TinyURL was created!
The following URL:
http://www.longurlmaker.com/view/?id=CRA
ILRRPLXKCHERGTSCQOTCFTODFUEGXVGGGYXWJVGL
CKDJEWMUKGXQALTGGXMESSKZRIWADDMGNPQSMCNW
....
has a length of 4269 characters and resulted in the following TinyURL which
has a length of 26 characters:
http://tinyurl.com/mmoqgwu

hashed

g*****g
发帖数: 34805

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

LOL，傻逼你真够极品。什么URL最多应该2087的link拿出来丢人，转眼就当没这回事了。
url弄个hashkey再比也是我跟你说的。

n*****t
发帖数: 22014

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

你丫写的网站有 2000 多字节的 url 吧？反正肯定不是正常人写的。稍微看过点 DB
书的人都知道 unique 是怎么实现的，你个 SQL 都不会的煞笔还是别丢人了。
接着说说 tinyurl 用什么存储 url 的，是不是还有一个字段叫 hashkey 啊，你当设
计的人跟你丫一样煞笔啊

了。

g*****g
发帖数: 34805

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

LOL, tinyurl自然有个字段存hash, 4000都不够长存URL，你丫还来？傻逼你打脸要
打几次呀。
有本事你让tinyurl不支持4000以上的url输入呀。人做好的实现你都要争。
太长的字段比hash本来就是个常识。你丫嘴硬到底有用吗？

n*****t
发帖数: 22014

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

哪个煞笔说 url 不能用 varchar 存的？哪个煞笔说 hash 要用一个字段存的？url 长
度超过 2k 的只有你这种煞笔写得出来，没有唯一

g*****g
发帖数: 34805

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

有的网站URL很长，又只相差最后一个参数，结果就是性能很差。所以用md5 hashkey查
找是
一个通用的做法。hash的特点，就是URL差一个字母，结果都完全不同。

q*c
发帖数: 9453

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

我觉得是的存 hash~ 你想想我网站比如是个翻译网站，input 就在 get url 里面，便
于交流保持，随便上几千字节，而且就最后几个字节不同。这样的 url 来上几万个
，你要是 db unique, 那比较起来不得慢死人？
hash 就用个 64 位的字符串冲突基本就是零。快了无数吧？
除非数据库里面就是 hash 比较？可是我记得用的是 b tree 吧，是顺序比较。

e********3
发帖数: 18578

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

你把long url存在数据库里面，然后生成一个SHA hash或者自己定义的GUID,每次通过
这个GUID来找对应的long url。

n*****t
发帖数: 22014

来自主题: Programming版 - tinyurl 是怎么做到同一个long url两次得到相同的short url

傻逼 2G 不够存 url，你当 tinyurl 是移动硬盘啊？
你存一个 2G url 给我看看，傻逼

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天