i********w 发帖数: 2223 | 1 谁给解释一下 bdsk-url-1 是干什么用的?
谢谢 |
|
|
|
I******y 发帖数: 176 | 4 不知道理解对不对,胡说两句:
感觉可以根据url的pattern来分类然后extract things you want
按你那个例子,比如同属amazon domain的url pattern都是domain/brand/item%size/
... 那么已知这个pattern就可以把你需要的提出来。 |
|
l*******s 发帖数: 1258 | 5 this is a sequence labeling task:
a url is a sequence, your task is to find out terms within the url.
It's similar with named entity recognition task.
You can read some paper about it.
Model: CRF, MEMM, HMM
training data: manually label them |
|
l*******s 发帖数: 1258 | 6 cont:
Use tag B I O to indicate beginning, inside, and outside of a word.
Each character in URL will be assigned a tag, B, or I, or O.
Then this becomes a classification task, just with 3 class labels: BIO.
Grab any classifier you want, mine is MaxEnt
Feature engineering:
convert each character to a feature vector. The most helpful features will
be: n gram character before or after current charactor, length of url,
whether there is a digit or letter in neighboring characters, and of course
curre... 阅读全帖 |
|
l*******s 发帖数: 1258 | 7 cont:
Use tag B I O to indicate beginning, inside, and outside of a word.
Each character in URL will be assigned a tag, B, or I, or O.
Then this becomes a classification task, just with 3 class labels: BIO.
Grab any classifier you want, mine is MaxEnt
Feature engineering:
convert each character to a feature vector. The most helpful features will
be: n gram character before or after current charactor, length of url,
whether there is a digit or letter in neighboring characters, and of course
curre... 阅读全帖 |
|
l*******s 发帖数: 1258 | 8 cont:
Use tag B I O to indicate beginning, inside, and outside of a word.
Each character in URL will be assigned a tag, B, or I, or O.
Then this becomes a classification task, just with 3 class labels: BIO.
Grab any classifier you want, mine is MaxEnt
Feature engineering:
convert each character to a feature vector. The most helpful features will
be: n gram character before or after current charactor, length of url,
whether there is a digit or letter in neighboring characters, and of course
curre... 阅读全帖 |
|
|
g*****a 发帖数: 1457 | 10 是不是可以用两个hash function, 第一个map到node上,第二个map到entry.
第一个input是domain, 第二个input 是sub url |
|
b*******8 发帖数: 33 | 11 Given you a URL, thenewyorkinns.com, ask to take the substring before "."
and separate it into several meaningful words. In this case it is "the","new
","york","inns". |
|
K*****k 发帖数: 430 | 12 一个大文件包含了上亿条url的记录,不能全部装入内存,如何找到top popular的10条
? 如果不需要exact的top 10, 什么方法可以最快找到近似的top 10? |
|
k*********6 发帖数: 738 | 13 Heard people on this board talk about it. No idea what it is... What does
the shorten URL use for? Appreciate any background.
Thanks a lot in advance! |
|
|
g*****g 发帖数: 34805 | 15 put the url and the counter in memcache or Cassandra, done.
Those 2 did the hashing and linear scaling for you. this is called real
world solution. |
|
A*H 发帖数: 127 | 16 你这些counter都是ignore time的
如果查询是dynamic time range的呢(top K urls in recent N mins)
storm也不是完美的,它本身design是允许有误差的,twiiter要发布的hummingbird就
是结合online (storm) &offline (hadoop),for accuracy |
|
r****s 发帖数: 1025 | 17 omfg, 少侠,你就不能想想办法?
比如那个每10秒钟的thread,读完数据之后你就不能扔到Kafka里面按时间查询?或者随
便一个数据库Mongo之类的都可以。对不对?
sorting on-the-fly是一个very bad idea,注意为什么那个10秒的thread要把数据结构
抄一遍下来,就是因为如果你有几千个url,每秒有几千个点击进来(比如Amazon),你
不可以做logN的insertion,只能做constant time的hash. |
|
l*******0 发帖数: 63 | 18 基本思路应该就是use hash to count and min heap with size k to get top k? 如
果想要考虑时间区间的话的话,可否使得value复杂一些(key 还是url本身),比如说
是一个结构,结构内有多个单元,例如可以每小时一个单元,一天24个单元,记录整点
时候的点击数。 感觉实际中,这种东西不可能做到很精确吧?不大可能说你任意选一
个时间,然后往前数1个小时,就能得到一个点击数。。。那样的话,需要log的东西太
多了。。。还有什么更好的办法? |
|
|
c*******y 发帖数: 98 | 20 我猜n是unique URL num,m是unique USER num?要是有m*n条log那跑不了是O(m*n)了
,但一般不会吧。map啥的不就做了。内存不够就distributed map |
|
e****9 发帖数: 316 | 21 n是unique URL num,m是unique USER num。
map怎么搞?不work.
感觉就是需要一个m * n的遍历。 |
|
c*******y 发帖数: 98 | 22 你这问题到底是动态还是静态提取最热点?静态感觉没意义啊。动态就得想怎么存log
的信息,怎么拿热点最快。估计就是个heap吧。map用来找url在heap里的位置。什么不
够了就分散到多个机器上。 |
|
e****9 发帖数: 316 | 23 静态的。
静态的也有意义啊 。大概可以分析出那些url比较受欢迎。
就是这个静态分析当数据量大的时候计算都很困难。
log |
|
s********i 发帖数: 74 | 24 Tiny URL设计要求就是没有collision,否则你想想一个hashmap就解决了,还需要设计
么? |
|
z******f 发帖数: 277 | 25 Tiny url不是直接入库然后拿insertID转成a-zA-z0-9么? |
|
c******1 发帖数: 37 | 26 我面yahoo的时候有个follow up比较奇葩,问要不要保留url后面的.html, .php之类的 |
|
s********i 发帖数: 74 | 27 Tiny URL设计要求就是没有collision,否则你想想一个hashmap就解决了,还需要设计
么? |
|
z******f 发帖数: 277 | 28 Tiny url不是直接入库然后拿insertID转成a-zA-z0-9么? |
|
c******1 发帖数: 37 | 29 我面yahoo的时候有个follow up比较奇葩,问要不要保留url后面的.html, .php之类的 |
|
a*******e 发帖数: 455 | 30 Linkin onsite 被问这一题, 当问什么算法生成short url, 当时没想出来, 说一时
没想到比较好的算法,就过了。 最后也有offer, 所以觉得整个系统的设计才是重点
。关键是就是问清楚要求再设。 |
|
o****g 发帖数: 174 | 31 网页爬虫的时候,用requests, get 爬url 时,能有什么参数设定time frame 吗?
例如爬微信搜狗,微信文章好的一点是有timestamp, 能知道文章是哪一天发的,这个
timestamp 放在网页的html里。
现在用requests.get 爬weixin.sogou.com ,能否设定一个参数,只爬某天发的对应某
个搜索关键字的文章。但是不可以crawl 所有html, 现在的结果只能有前100篇文章的
html.
代码:
pages = requests.get(sogou_search_url, headers = headers1, proxies=urllib.
request.getproxies()) |
|
|
I******T 发帖数: 671 | 33 我把网站大改了一遍,
很多URL加了underscore, 比如h1b_visa.aspx. 前两天看网上关于SEO的文章,
却说应该用dash, 不能用underscore. 我有必要再改成dash吗?
我看facebook上的名字都是underscore.
谢谢! |
|
v****e 发帖数: 895 | 34 应该用 dash
不过你不该把url 改变,
因为你会失去很多积分 |
|
b****u 发帖数: 1027 | 35 最好还是能支持原来的 url. 太麻烦也就算了.
别忘了提交新的 sitemap
不太肯定dash 和 underscore 有没有区别,按说不应该有不同的对待. |
|
w*********m 发帖数: 120 | 36 哪些blog和forums,Google PR高,又允许回复的时候留url的?
还有,在blogger上注册100个帐号,发表300篇同样的文章,对提高我的网站的PR有用
吗? |
|
t******1 发帖数: 61 | 37 如果换了web hosting company, URL 还能保有原来吗?谁知道请说说。
★ 发自iPhone App: ChineseWeb 7.8 |
|
d*******3 发帖数: 6550 | 38 可以, url只和域名有关, 和hosting没关系 |
|
m**n 发帖数: 384 | 39 ctrl+p,自动生成的pdf,
日期在左上角,url在左下角,
会不会有问题?
多谢! |
|
d********y 发帖数: 2114 | 40 用richfaces写jsf。
backingbean的navigation case里面没法加参数。
请高手指点下怎么在url加参数。
比如要这样的效果
richfaces.jsf?id=3
谢谢! |
|
a******n 发帖数: 100 | 41 http://sayhai.com/url?
q=http%3A%2F%2Fgo.flyingfolder.com%2Fgoclient%2F%23url%3Ahttp%3A%2F%2Fweiq
i.sports.tom.com%2Fqipu%2F201106%2F8cl-f3-xhlss.sgf |
|
|
|
|
B****s 发帖数: 796 | 45 右边那三个小圈,more actions
url, |
|
|
d******o 发帖数: 10 | 47 今天看2011版hunter X hunter第三季第三集开头,我突然发现日本人是怎么念URL这三
个字
母的了。
netflix上有这个片子,大家也去看看,看看我说的对不对。。。
“呜噜噜”!!! |
|
|
|
i*******r 发帖数: 377 | 50 http://rapidshare.com/files/66159012/book-psp-001.rar.html
上到rapidshare去,等会放url
我自己psp上的书,都是txt的,没什么新的
哈里波特.ZIP
外国畅销书选.rar
《读者》2005年精华版.txt
凡尔纳科幻小说全集.rar
明朝那些事.rar
200科幻小说.rar
====================================
200科幻小说
01《天渊》作者:[美] 弗诺·文奇.txt
02《深渊上的火》作者:[美] 弗诺·文奇.txt
03《真名实姓》作者:[美] 弗诺·文奇.txt
04《循环》作者:[美] 弗诺·文奇.txt
05《狼毒》作者:[美] 弗雷德里克·波尔.txt
06《冰柱之谜》作者:[美] 金·斯坦利·鲁宾逊.txt
07《活跳尸(弗兰肯斯坦)》作者:[英] 玛丽·雪莱.txt
08《丛林温室》作者:[美] 布赖恩·奥尔迪斯.txt
09《大西洋底来的人》作者:[美] 不详.txt
100《赫伯特·乔治·威尔斯短篇科幻小说集》.txt
101《时间机器》[美] |
|