e******e 发帖数: 10121 | |
l****u 发帖数: 8729 | 2 直接refresh
【在 e******e 的大作中提到】 : 好眼力,没PS
|
c*******7 发帖数: 17225 | 3 每次我都纳闷,想出来这个码的人,是不是自己长了八只眼睛。
能看出来这个是啥不? |
s********r 发帖数: 923 | 4 圡人,
这是一个CMU的计算机教授发明出来的东西,这些图片其实是图书馆扫描出来的珍稀书
籍里面的不能被机器识别的字符。一般有两个,一个是已经被识别出来的,一个是未被
识别出来的。当提交者试图认出这两个单词时,程序通过那个已经识别出来的单词来验
证那个未被识别的单词是否真的被提交者认出来了。整个这个程序都得到了基金的资助
。如果提交者选择“看不清”,那就证明这两个单词真的不能被人工认出来。 |
c*******7 发帖数: 17225 | 5 好学术啊。
众圡人快随我一同膜拜。
【在 s********r 的大作中提到】 : 圡人, : 这是一个CMU的计算机教授发明出来的东西,这些图片其实是图书馆扫描出来的珍稀书 : 籍里面的不能被机器识别的字符。一般有两个,一个是已经被识别出来的,一个是未被 : 识别出来的。当提交者试图认出这两个单词时,程序通过那个已经识别出来的单词来验 : 证那个未被识别的单词是否真的被提交者认出来了。整个这个程序都得到了基金的资助 : 。如果提交者选择“看不清”,那就证明这两个单词真的不能被人工认出来。
|
e*******s 发帖数: 1067 | 6 I don't buy it.
http://en.wikipedia.org/wiki/CAPTCHA
NO pp NO truth.
【在 s********r 的大作中提到】 : 圡人, : 这是一个CMU的计算机教授发明出来的东西,这些图片其实是图书馆扫描出来的珍稀书 : 籍里面的不能被机器识别的字符。一般有两个,一个是已经被识别出来的,一个是未被 : 识别出来的。当提交者试图认出这两个单词时,程序通过那个已经识别出来的单词来验 : 证那个未被识别的单词是否真的被提交者认出来了。整个这个程序都得到了基金的资助 : 。如果提交者选择“看不清”,那就证明这两个单词真的不能被人工认出来。
|
j*****z 发帖数: 5306 | 7 你搜错了,他说的那个CMU的:
http://en.wikipedia.org/wiki/ReCAPTCHA
google基本都是用这个,还有很多网盘都是,基本上想破解的人都是直接放弃的。
【在 e*******s 的大作中提到】 : I don't buy it. : http://en.wikipedia.org/wiki/CAPTCHA : NO pp NO truth.
|
e*******s 发帖数: 1067 | 8 thanks!
it is REALLY cool!
【在 j*****z 的大作中提到】 : 你搜错了,他说的那个CMU的: : http://en.wikipedia.org/wiki/ReCAPTCHA : google基本都是用这个,还有很多网盘都是,基本上想破解的人都是直接放弃的。
|
h*******u 发帖数: 15326 | 9 机器怎么知道某个单词不能识别
【在 s********r 的大作中提到】 : 圡人, : 这是一个CMU的计算机教授发明出来的东西,这些图片其实是图书馆扫描出来的珍稀书 : 籍里面的不能被机器识别的字符。一般有两个,一个是已经被识别出来的,一个是未被 : 识别出来的。当提交者试图认出这两个单词时,程序通过那个已经识别出来的单词来验 : 证那个未被识别的单词是否真的被提交者认出来了。整个这个程序都得到了基金的资助 : 。如果提交者选择“看不清”,那就证明这两个单词真的不能被人工认出来。
|
C********g 发帖数: 9656 | 10 既然他识别不出来,又怎么知道你是否识别对了呢?
你摸着石头过河,咋预先知道自己的路线是正确的呢?
【在 h*******u 的大作中提到】 : 机器怎么知道某个单词不能识别
|
|
|
P*****k 发帖数: 1567 | |
s********r 发帖数: 923 | 12 楼上的请再看一遍我的帖子。
有两个单词,有一个是机器已经认出来的。提交者输入两个单词时,机器只检验那个已
经被识别出来的单词是否正确,如果是,那么机器假定那个不认识的单词也被正确的认
出来了,机器把它保存下来。下一个提交者再认一遍那个不认识的单词。如果很多提交
者认出来的结果都一样,就可以认定那个机器不认识的单词被人认出来了。 |
T*********e 发帖数: 363 | |
s*******a 发帖数: 8827 | 14 不是拿了天才奖么
我还看过他发的science paper
一作是undergrad
【在 s********r 的大作中提到】 : 圡人, : 这是一个CMU的计算机教授发明出来的东西,这些图片其实是图书馆扫描出来的珍稀书 : 籍里面的不能被机器识别的字符。一般有两个,一个是已经被识别出来的,一个是未被 : 识别出来的。当提交者试图认出这两个单词时,程序通过那个已经识别出来的单词来验 : 证那个未被识别的单词是否真的被提交者认出来了。整个这个程序都得到了基金的资助 : 。如果提交者选择“看不清”,那就证明这两个单词真的不能被人工认出来。
|
h*******u 发帖数: 15326 | 15 我问的是在提供这种服务的最初始阶段,机器是怎么发现有些单词无法识别,从而提供
给用户人工识别的。也就是说在OCR过程中怎样发现有些单词识别错误的。
【在 s********r 的大作中提到】 : 楼上的请再看一遍我的帖子。 : 有两个单词,有一个是机器已经认出来的。提交者输入两个单词时,机器只检验那个已 : 经被识别出来的单词是否正确,如果是,那么机器假定那个不认识的单词也被正确的认 : 出来了,机器把它保存下来。下一个提交者再认一遍那个不认识的单词。如果很多提交 : 者认出来的结果都一样,就可以认定那个机器不认识的单词被人认出来了。
|
h*******u 发帖数: 15326 | 16 再有,这组校验码包含一个不可OCR单词和一个可OCR单词,由于服务器本身不能对前一
个自校验,爬网的机器人只要对这组词ocr就很容易攻破识别码,是不是这样?
【在 s********r 的大作中提到】 : 楼上的请再看一遍我的帖子。 : 有两个单词,有一个是机器已经认出来的。提交者输入两个单词时,机器只检验那个已 : 经被识别出来的单词是否正确,如果是,那么机器假定那个不认识的单词也被正确的认 : 出来了,机器把它保存下来。下一个提交者再认一遍那个不认识的单词。如果很多提交 : 者认出来的结果都一样,就可以认定那个机器不认识的单词被人认出来了。
|