由买买提看人间百态

topics

全部话题 - 话题: url
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
i********w
发帖数: 2223
1
来自主题: TeX版 - bdsk-url-1 and url
谁给解释一下 bdsk-url-1 是干什么用的?
谢谢
t***y
发帖数: 10
2
【 以下文字转载自 Internet 讨论区,原文如下 】
发信人: toddy (大喇叭), 信区: Internet
标 题: How to use telnet to access a URL
发信站: Unknown Space - 未名空间 (Tue Nov 30 16:42:08 2004) WWW-POST
Want to access below URL to start a service from telnet in UNIX:
http://server.domain.com:8080/SITE/service?command=start
Would below command work or what should be changed??
telnet server.domain.com 8080 < helo 123
get /SITE/service?action=start
exit
input
w***a
发帖数: 313
3
在办公室上网,URL都是有记录的。url里用的都是英文单词。老板一看就知道看闲白儿
呢。
比如
http://www.mitbbs.com/bbsdoc/PhotoGear.html
http://www.mitbbs.com/bbsdoc/Stock.html
甚至
http://www.mitbbs.com/bbsdoc/JobHunting.html
要是改成
http://www.mitbbs.com/bbsdoc/gupiao.html
或者
http://www.mitbbs.com/bbsdoc/518.html
似乎好些。
I******y
发帖数: 176
4
来自主题: DataSciences版 - [Data Science Project Case] Parsing URLS
不知道理解对不对,胡说两句:
感觉可以根据url的pattern来分类然后extract things you want
按你那个例子,比如同属amazon domain的url pattern都是domain/brand/item%size/
... 那么已知这个pattern就可以把你需要的提出来。
l*******s
发帖数: 1258
5
来自主题: DataSciences版 - [Data Science Project Case] Parsing URLS
this is a sequence labeling task:
a url is a sequence, your task is to find out terms within the url.
It's similar with named entity recognition task.
You can read some paper about it.
Model: CRF, MEMM, HMM
training data: manually label them
l*******s
发帖数: 1258
6
来自主题: DataSciences版 - [Data Science Project Case] Parsing URLS
cont:
Use tag B I O to indicate beginning, inside, and outside of a word.
Each character in URL will be assigned a tag, B, or I, or O.
Then this becomes a classification task, just with 3 class labels: BIO.
Grab any classifier you want, mine is MaxEnt
Feature engineering:
convert each character to a feature vector. The most helpful features will
be: n gram character before or after current charactor, length of url,
whether there is a digit or letter in neighboring characters, and of course
curre... 阅读全帖
l*******s
发帖数: 1258
7
来自主题: DataSciences版 - [Data Science Project Case] Parsing URLS
cont:
Use tag B I O to indicate beginning, inside, and outside of a word.
Each character in URL will be assigned a tag, B, or I, or O.
Then this becomes a classification task, just with 3 class labels: BIO.
Grab any classifier you want, mine is MaxEnt
Feature engineering:
convert each character to a feature vector. The most helpful features will
be: n gram character before or after current charactor, length of url,
whether there is a digit or letter in neighboring characters, and of course
curre... 阅读全帖
l*******s
发帖数: 1258
8
来自主题: DataSciences版 - [Data Science Project Case] Parsing URLS
cont:
Use tag B I O to indicate beginning, inside, and outside of a word.
Each character in URL will be assigned a tag, B, or I, or O.
Then this becomes a classification task, just with 3 class labels: BIO.
Grab any classifier you want, mine is MaxEnt
Feature engineering:
convert each character to a feature vector. The most helpful features will
be: n gram character before or after current charactor, length of url,
whether there is a digit or letter in neighboring characters, and of course
curre... 阅读全帖
w********s
发帖数: 1570
9
直接用ip访问可以。
URL中包含"www.nytimes.com"则连接重置。
比如:
http://www.usa.gov/?src=www.nytimes.com
也会被重置,重置时间大概约2分钟。
g*****a
发帖数: 1457
10
来自主题: JobHunting版 - 求教关于URL的hash function
是不是可以用两个hash function, 第一个map到node上,第二个map到entry.
第一个input是domain, 第二个input 是sub url
b*******8
发帖数: 33
11
来自主题: JobHunting版 - 如何从URL中取出有意义的words
Given you a URL, thenewyorkinns.com, ask to take the substring before "."
and separate it into several meaningful words. In this case it is "the","new
","york","inns".
K*****k
发帖数: 430
12
来自主题: JobHunting版 - 如何找出top10的url?
一个大文件包含了上亿条url的记录,不能全部装入内存,如何找到top popular的10条
? 如果不需要exact的top 10, 什么方法可以最快找到近似的top 10?
k*********6
发帖数: 738
13
来自主题: JobHunting版 - What is shorten URL?
Heard people on this board talk about it. No idea what it is... What does
the shorten URL use for? Appreciate any background.
Thanks a lot in advance!
J***2
发帖数: 135
14
来自主题: JobHunting版 - What is shorten URL?
那如何实现呢?用url rewrite么?
g*****g
发帖数: 34805
15
put the url and the counter in memcache or Cassandra, done.
Those 2 did the hashing and linear scaling for you. this is called real
world solution.
A*H
发帖数: 127
16
你这些counter都是ignore time的
如果查询是dynamic time range的呢(top K urls in recent N mins)
storm也不是完美的,它本身design是允许有误差的,twiiter要发布的hummingbird就
是结合online (storm) &offline (hadoop),for accuracy
r****s
发帖数: 1025
17
omfg, 少侠,你就不能想想办法?
比如那个每10秒钟的thread,读完数据之后你就不能扔到Kafka里面按时间查询?或者随
便一个数据库Mongo之类的都可以。对不对?
sorting on-the-fly是一个very bad idea,注意为什么那个10秒的thread要把数据结构
抄一遍下来,就是因为如果你有几千个url,每秒有几千个点击进来(比如Amazon),你
不可以做logN的insertion,只能做constant time的hash.
l*******0
发帖数: 63
18
基本思路应该就是use hash to count and min heap with size k to get top k? 如
果想要考虑时间区间的话的话,可否使得value复杂一些(key 还是url本身),比如说
是一个结构,结构内有多个单元,例如可以每小时一个单元,一天24个单元,记录整点
时候的点击数。 感觉实际中,这种东西不可能做到很精确吧?不大可能说你任意选一
个时间,然后往前数1个小时,就能得到一个点击数。。。那样的话,需要log的东西太
多了。。。还有什么更好的办法?
h*d
发帖数: 19309
c*******y
发帖数: 98
20
来自主题: JobHunting版 - 最popular url的算法问题
我猜n是unique URL num,m是unique USER num?要是有m*n条log那跑不了是O(m*n)了
,但一般不会吧。map啥的不就做了。内存不够就distributed map
e****9
发帖数: 316
21
来自主题: JobHunting版 - 最popular url的算法问题
n是unique URL num,m是unique USER num。
map怎么搞?不work.
感觉就是需要一个m * n的遍历。
c*******y
发帖数: 98
22
来自主题: JobHunting版 - 最popular url的算法问题
你这问题到底是动态还是静态提取最热点?静态感觉没意义啊。动态就得想怎么存log
的信息,怎么拿热点最快。估计就是个heap吧。map用来找url在heap里的位置。什么不
够了就分散到多个机器上。
e****9
发帖数: 316
23
来自主题: JobHunting版 - 最popular url的算法问题
静态的。
静态的也有意义啊 。大概可以分析出那些url比较受欢迎。
就是这个静态分析当数据量大的时候计算都很困难。

log
s********i
发帖数: 74
24
来自主题: JobHunting版 - 设计Tiny URL
Tiny URL设计要求就是没有collision,否则你想想一个hashmap就解决了,还需要设计
么?
z******f
发帖数: 277
25
来自主题: JobHunting版 - 设计Tiny URL
Tiny url不是直接入库然后拿insertID转成a-zA-z0-9么?
c******1
发帖数: 37
26
来自主题: JobHunting版 - 设计Tiny URL
我面yahoo的时候有个follow up比较奇葩,问要不要保留url后面的.html, .php之类的
s********i
发帖数: 74
27
来自主题: JobHunting版 - 设计Tiny URL
Tiny URL设计要求就是没有collision,否则你想想一个hashmap就解决了,还需要设计
么?
z******f
发帖数: 277
28
来自主题: JobHunting版 - 设计Tiny URL
Tiny url不是直接入库然后拿insertID转成a-zA-z0-9么?
c******1
发帖数: 37
29
来自主题: JobHunting版 - 设计Tiny URL
我面yahoo的时候有个follow up比较奇葩,问要不要保留url后面的.html, .php之类的
a*******e
发帖数: 455
30
Linkin onsite 被问这一题, 当问什么算法生成short url, 当时没想出来, 说一时
没想到比较好的算法,就过了。 最后也有offer, 所以觉得整个系统的设计才是重点
。关键是就是问清楚要求再设。
o****g
发帖数: 174
31
网页爬虫的时候,用requests, get 爬url 时,能有什么参数设定time frame 吗?
例如爬微信搜狗,微信文章好的一点是有timestamp, 能知道文章是哪一天发的,这个
timestamp 放在网页的html里。
现在用requests.get 爬weixin.sogou.com ,能否设定一个参数,只爬某天发的对应某
个搜索关键字的文章。但是不可以crawl 所有html, 现在的结果只能有前100篇文章的
html.
代码:
pages = requests.get(sogou_search_url, headers = headers1, proxies=urllib.
request.getproxies())
w*****o
发帖数: 1806
I******T
发帖数: 671
33
来自主题: StartUp版 - URL 该用underscore还是dash
我把网站大改了一遍,
很多URL加了underscore, 比如h1b_visa.aspx. 前两天看网上关于SEO的文章,
却说应该用dash, 不能用underscore. 我有必要再改成dash吗?
我看facebook上的名字都是underscore.
谢谢!
v****e
发帖数: 895
34
来自主题: StartUp版 - URL 该用underscore还是dash
应该用 dash
不过你不该把url 改变,
因为你会失去很多积分
b****u
发帖数: 1027
35
来自主题: StartUp版 - URL 该用underscore还是dash
最好还是能支持原来的 url. 太麻烦也就算了.
别忘了提交新的 sitemap
不太肯定dash 和 underscore 有没有区别,按说不应该有不同的对待.
w*********m
发帖数: 120
36
哪些blog和forums,Google PR高,又允许回复的时候留url的?
还有,在blogger上注册100个帐号,发表300篇同样的文章,对提高我的网站的PR有用
吗?
t******1
发帖数: 61
37
来自主题: StartUp版 - Web URL
如果换了web hosting company, URL 还能保有原来吗?谁知道请说说。
★ 发自iPhone App: ChineseWeb 7.8
d*******3
发帖数: 6550
38
来自主题: StartUp版 - Web URL
可以, url只和域名有关, 和hosting没关系
m**n
发帖数: 384
39
ctrl+p,自动生成的pdf,
日期在左上角,url在左下角,
会不会有问题?
多谢!
d********y
发帖数: 2114
40
用richfaces写jsf。
backingbean的navigation case里面没法加参数。
请高手指点下怎么在url加参数。
比如要这样的效果
richfaces.jsf?id=3
谢谢!
a******n
发帖数: 100
41
http://sayhai.com/url?
q=http%3A%2F%2Fgo.flyingfolder.com%2Fgoclient%2F%23url%3Ahttp%3A%2F%2Fweiq
i.sports.tom.com%2Fqipu%2F201106%2F8cl-f3-xhlss.sgf
s********f
发帖数: 1
42
這個tiny url 的網站是怎麼賺錢的? 他們為什麼有這麼多域名?
For example, 這麼長的域名 -
http://www.mitbbs.com/news_wenzhang/BusinessNews/31178927.html
是怎麼變成這麼短的呢 -
http://tinyurl.com/4xjyzgg
誰給解釋解釋?
y******i
发帖数: 2584
43
昔日88年奥运18人今何在 高丰文揭秘昔日弟子去向
热度:

Cannot use database
The URL is:
http://news.titan24.com/updown.php?method=showhits&tid=94002&time=1353465980386
MySQL server error:
( )
You can get help in:
http://www.titan24.com

2008-07-31 18:52 来自:王宏 体坛网
关键字: 贾秀全 马林 高丰文 88国奥
摘 要:在这18名球员中,绝大多数都在足球圈内工作,其中贾秀全、马林、王宝山、
唐尧东、李辉、朱波、麦超、郭亿军、王军、谢育新十人,都曾经先后担任过中超(甲
A)和中甲(甲B)球队主教练。而其中目前仍然担任中超主帅的有马林(辽宁宏运)和
朱波(长沙金德)两人,王宝山在近期极有可能接替张增群成为深圳队主帅,唐尧东在
河南四五队担任助理教练,王军现任中甲球队烟台毅腾队主帅。
TITAN... 阅读全帖
a******n
发帖数: 100
B****s
发帖数: 796
45
右边那三个小圈,more actions

url,
i****4
发帖数: 79
46
可以阿。用360安全浏览器

url,
d******o
发帖数: 10
47
今天看2011版hunter X hunter第三季第三集开头,我突然发现日本人是怎么念URL这三
个字
母的了。
netflix上有这个片子,大家也去看看,看看我说的对不对。。。
“呜噜噜”!!!
s****e
发帖数: 5429
48
那到底是URL还是earl?
g*********5
发帖数: 1145
49
明明就是安普
URL都是按字母念
i*******r
发帖数: 377
50
http://rapidshare.com/files/66159012/book-psp-001.rar.html
上到rapidshare去,等会放url
我自己psp上的书,都是txt的,没什么新的
哈里波特.ZIP
外国畅销书选.rar
《读者》2005年精华版.txt
凡尔纳科幻小说全集.rar
明朝那些事.rar
200科幻小说.rar
====================================
200科幻小说
01《天渊》作者:[美] 弗诺·文奇.txt
02《深渊上的火》作者:[美] 弗诺·文奇.txt
03《真名实姓》作者:[美] 弗诺·文奇.txt
04《循环》作者:[美] 弗诺·文奇.txt
05《狼毒》作者:[美] 弗雷德里克·波尔.txt
06《冰柱之谜》作者:[美] 金·斯坦利·鲁宾逊.txt
07《活跳尸(弗兰肯斯坦)》作者:[英] 玛丽·雪莱.txt
08《丛林温室》作者:[美] 布赖恩·奥尔迪斯.txt
09《大西洋底来的人》作者:[美] 不详.txt
100《赫伯特·乔治·威尔斯短篇科幻小说集》.txt
101《时间机器》[美]
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)