由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 与其无意义的争论,不如干点实事
相关主题
请大牛来谈谈对Solr的看法算法求教
如何智能化合并数据库中属于相关objects的各种属性到一个object下?请教一个跟search中用到的auto suggestion问题
请教下本地搜索一个网站里的search功能,是在search这个网站的database,还是象IDE里面的search workspace?
怎么做个文件的 index, 比如archive 这样的架构设计问题,请各位大神指点
StackOverflow的架构如何将相似字符串更加准确地找出来?
搜索 lucene 之类是不是不流行了?mongobd中的text search速度问题
请问有什么好的开源中英文搜索引擎?solr shared index file solution (转载)
想更新一下有点过时的知识体系,大家给开个单子吧你们能scale out的都是有福的
相关话题的讨论汇总
话题: 搜索引擎话题: google话题: lol话题: 实事话题: 同学
进入Programming版参与讨论
1 (共1页)
t*****n
发帖数: 4908
1
无意义的争论都是白费力气。大家有这个精力,不如干点实事。这样吧,我提议写个开
源搜索引擎。
近期目标: mitbbs.com的搜索引擎。
原因: 大家都是知道mitbbs的搜索功能非常差。即使google,也不能完全让人满意。
比如我要找goodbug过去30天内容含有LOL的帖子,google也力不从心。
远期目标:中文论坛通用搜索引擎。涵盖mitbbs,华人,文学城,留园等等。bbs的专
用搜索引擎可以做的比google好。
未来盈利模式:依靠广告
开发和测试:
1) Board: 水平高的、可以指点江山
2) Programmer: a) 需要找工作的同学;b)平时有空的
3) Test/QA: 自告奋勇吧
编程语言:
1) 前端无所谓
2) 后端Java/C++各一组吧
项目管理:
1) 版本控制:git
2) Bug tracking: bugzilla
3) Code review: reviewboard
4) 进度管理:甘特图
有能力的同学多出力。有钱的同学捐点钱。30刀就可以租个服务器。找工作的同学多写
点代码,练练手。喜欢挑刺的同学多提宝贵意见。少LOL,多干活。
h***s
发帖数: 1716
2
"2) 后端Java/C++各一组吧"
那完了,这后端成天就掐架了

【在 t*****n 的大作中提到】
: 无意义的争论都是白费力气。大家有这个精力,不如干点实事。这样吧,我提议写个开
: 源搜索引擎。
: 近期目标: mitbbs.com的搜索引擎。
: 原因: 大家都是知道mitbbs的搜索功能非常差。即使google,也不能完全让人满意。
: 比如我要找goodbug过去30天内容含有LOL的帖子,google也力不从心。
: 远期目标:中文论坛通用搜索引擎。涵盖mitbbs,华人,文学城,留园等等。bbs的专
: 用搜索引擎可以做的比google好。
: 未来盈利模式:依靠广告
: 开发和测试:
: 1) Board: 水平高的、可以指点江山

t*****n
发帖数: 4908
3
两组实现。就是两个引擎。

【在 h***s 的大作中提到】
: "2) 后端Java/C++各一组吧"
: 那完了,这后端成天就掐架了

k**********g
发帖数: 989
4

前端都是 nginx ,後端朝秦暮楚也可以。 (不想讲山披之类的字眼。)

【在 h***s 的大作中提到】
: "2) 后端Java/C++各一组吧"
: 那完了,这后端成天就掐架了

k**********g
发帖数: 989
5

欸,不对,这不就是「指点江山」的成因吗?没看过《The Chicken and the Pig》吗?
http://en.wikipedia.org/wiki/The_Chicken_and_the_Pig
祝~项目早日失败。

【在 t*****n 的大作中提到】
: 两组实现。就是两个引擎。
h***s
发帖数: 1716
6
为什么需要化时间去写这么个“论坛通用搜索引擎”呢?以后你写成了,为什么就能比
google做的好呢?如果你是说加一大堆的规则去搜,肯定没人喜欢用,如果一般化、通
用型的,你没有任何理由说能做的比google好。所以,这个想法,感觉有点属于爽自己
的类。。。

【在 t*****n 的大作中提到】
: 无意义的争论都是白费力气。大家有这个精力,不如干点实事。这样吧,我提议写个开
: 源搜索引擎。
: 近期目标: mitbbs.com的搜索引擎。
: 原因: 大家都是知道mitbbs的搜索功能非常差。即使google,也不能完全让人满意。
: 比如我要找goodbug过去30天内容含有LOL的帖子,google也力不从心。
: 远期目标:中文论坛通用搜索引擎。涵盖mitbbs,华人,文学城,留园等等。bbs的专
: 用搜索引擎可以做的比google好。
: 未来盈利模式:依靠广告
: 开发和测试:
: 1) Board: 水平高的、可以指点江山

s***o
发帖数: 6934
7
你说的第二类肯定做不过goog,不过因为涉及的sites少,parse和index的时候可以做
很多customization,做出来会比goog好用。但customization太多太深的后果是维护费
用高,比如老邢什么时候改个版,关于mit的部分估计要重写了。

【在 h***s 的大作中提到】
: 为什么需要化时间去写这么个“论坛通用搜索引擎”呢?以后你写成了,为什么就能比
: google做的好呢?如果你是说加一大堆的规则去搜,肯定没人喜欢用,如果一般化、通
: 用型的,你没有任何理由说能做的比google好。所以,这个想法,感觉有点属于爽自己
: 的类。。。

h**6
发帖数: 4160
8
这不就是人肉利器吗。
h***s
发帖数: 1716
9
啊,那样就不叫通用了。还不如直接和老型商量需不需要人肉利器,如果需要,一手交
钱,一手交货。估计结果很可能老型给封全站了。

【在 s***o 的大作中提到】
: 你说的第二类肯定做不过goog,不过因为涉及的sites少,parse和index的时候可以做
: 很多customization,做出来会比goog好用。但customization太多太深的后果是维护费
: 用高,比如老邢什么时候改个版,关于mit的部分估计要重写了。

b******y
发帖数: 9224
10

很有意思。我做了一个论坛搜索引擎,目前只是搜索mitbbs的jobhunting, 创业和海外
理财版面,因为资源有限。你可以看一下,有啥建议?
http://www.jiansnet.com/cnsearch
另外,鼓励一把你的热情。但楼上有人说的对。做项目,你还要考虑一些其他的事情。
比如说,我做的这个搜索引擎,目前知道的和用的人不多,原因是大家觉得google 就
good enough了。这个你怎么看?

【在 t*****n 的大作中提到】
: 无意义的争论都是白费力气。大家有这个精力,不如干点实事。这样吧,我提议写个开
: 源搜索引擎。
: 近期目标: mitbbs.com的搜索引擎。
: 原因: 大家都是知道mitbbs的搜索功能非常差。即使google,也不能完全让人满意。
: 比如我要找goodbug过去30天内容含有LOL的帖子,google也力不从心。
: 远期目标:中文论坛通用搜索引擎。涵盖mitbbs,华人,文学城,留园等等。bbs的专
: 用搜索引擎可以做的比google好。
: 未来盈利模式:依靠广告
: 开发和测试:
: 1) Board: 水平高的、可以指点江山

相关主题
搜索 lucene 之类是不是不流行了?算法求教
请问有什么好的开源中英文搜索引擎?请教一个跟search中用到的auto suggestion问题
想更新一下有点过时的知识体系,大家给开个单子吧一个网站里的search功能,是在search这个网站的database,还是象IDE里面的search workspace?
进入Programming版参与讨论
h*******u
发帖数: 15326
11
支持。提供一点思路,现在买买提搜索最大问题是不能搜精华和备份里的内容,各种关
键子都搜不了,股沟也没办法

【在 t*****n 的大作中提到】
: 无意义的争论都是白费力气。大家有这个精力,不如干点实事。这样吧,我提议写个开
: 源搜索引擎。
: 近期目标: mitbbs.com的搜索引擎。
: 原因: 大家都是知道mitbbs的搜索功能非常差。即使google,也不能完全让人满意。
: 比如我要找goodbug过去30天内容含有LOL的帖子,google也力不从心。
: 远期目标:中文论坛通用搜索引擎。涵盖mitbbs,华人,文学城,留园等等。bbs的专
: 用搜索引擎可以做的比google好。
: 未来盈利模式:依靠广告
: 开发和测试:
: 1) Board: 水平高的、可以指点江山

m**********j
发帖数: 8645
12
实事?
在这个版说话的都去努力当上自己所在组的lead和division的chief再说。

【在 t*****n 的大作中提到】
: 无意义的争论都是白费力气。大家有这个精力,不如干点实事。这样吧,我提议写个开
: 源搜索引擎。
: 近期目标: mitbbs.com的搜索引擎。
: 原因: 大家都是知道mitbbs的搜索功能非常差。即使google,也不能完全让人满意。
: 比如我要找goodbug过去30天内容含有LOL的帖子,google也力不从心。
: 远期目标:中文论坛通用搜索引擎。涵盖mitbbs,华人,文学城,留园等等。bbs的专
: 用搜索引擎可以做的比google好。
: 未来盈利模式:依靠广告
: 开发和测试:
: 1) Board: 水平高的、可以指点江山

s***o
发帖数: 6934
13
同意。老中要把心思放公司,在政治上跟烙印死磕,才是首要

【在 m**********j 的大作中提到】
: 实事?
: 在这个版说话的都去努力当上自己所在组的lead和division的chief再说。

h**o
发帖数: 1879
14
不错的想法。
从用户的角度讲,海外华人在华人中是个少数,而在除亚洲外的海外各族群中,华人也
是个少数。任何用户群中的少数,除非能够证明为他们提供特别的服务有比较高的服务
价值,大概是不会被重视的。所以,针对海外华人的特殊需要来做一点事情,真的是有
必要。
在技术方面,如果把 Google 的搜索技术,限制在只搜特定的一组网站,是完全有可能
满足要求的。Google 允许用类似这样的搜索:
lol site:mitbbs.com OR site:creaders.net OR site:wenxuecity.com OR site:
6park.com OR site:huaren.us OR site:backchina.com
这样可以搜到在所有这几个网站上的 lol。
再点 search tool 还可以加上时间条件。
就是不知道能加多少个网站在上面。
这样的话,自己再开发这样的东西,有没必要呢?

【在 t*****n 的大作中提到】
: 无意义的争论都是白费力气。大家有这个精力,不如干点实事。这样吧,我提议写个开
: 源搜索引擎。
: 近期目标: mitbbs.com的搜索引擎。
: 原因: 大家都是知道mitbbs的搜索功能非常差。即使google,也不能完全让人满意。
: 比如我要找goodbug过去30天内容含有LOL的帖子,google也力不从心。
: 远期目标:中文论坛通用搜索引擎。涵盖mitbbs,华人,文学城,留园等等。bbs的专
: 用搜索引擎可以做的比google好。
: 未来盈利模式:依靠广告
: 开发和测试:
: 1) Board: 水平高的、可以指点江山

l*******s
发帖数: 1258
15
先精神支持一下lz
想搞个项目,兴趣也好,为了以后找工作也好,赚点钱也好,都无所谓,关键是:你想
做,那就去做吧。别在乎别人,尤其是这个bbs的人对你的冷水。很多人都是这样,自
己整天光会在网上灌水,实际生活中缺少实干精神;结果看到别人要下手干了,自己又
去冷嘲热讽。我承认,我有时候也这样。
只是一点意见,供你参考:
1.刚开始团队越小越好,实在不行自己单干。
2.没必要从头搞搜索引擎。这个东西要是从头弄,实在太麻烦了,crawler、index、
query都要自己写,后面还有scale、speed、permission等各方面因素需要考虑。非常
耗精力。不如考虑用现成的比如Solr\Lucene,Elastic Search等,你不必重复造轮子。
3.既然定位华人类论坛,那就做出自己的特色来,比如在中文分词上、中文情感识别、
中文topic modelling、文章classification、发帖ID的coreference resolution等方
面下功夫,就其中几个方面超过google是有希望的,因为你针对这几个网站具体优化,
而google不可能搞得这么specific。这些内容都可以嵌入到搜索引擎框架里。举个例子
,你要是用lucene,上面几个内容都可以放到analyzer那个class\interface里,另外
对token那个class再编辑一下就好。至于scale问题,Elastic Search已经帮你搞定了
。你要是想自己搞scale,就参考他们的代码,自己实现一个。
4.刚开始先别考虑赚钱,而且还得准备好长期投资准备。搞搜索引擎对服务器要求挺高
的,不光是cpu和内存要求高,你算算要存储这么多网页,需要多少硬盘?另外,在
indexing的时候,非常耗cpu跟内存;带宽也得考虑,网络爬虫24x7的爬,很占用带宽
。比较通用的做法是:一台做爬虫、一台做index、一台做query,估计三台对付这几个
华人论坛够了。
其实最难的是开始,真正动手干了,按部就班来,一步步走下去,也就那么回事了。从
心里有idea到动手干,到完全实现,这个是很考验人的过程,你会收获不光是技术上的
,同时也是信心上的、意志上的。
顺便给我的app做下广告:
--Dishes Map,基于餐馆Review的美食发现引擎
https://play.google.com/store/apps/details?id=dishesmap.mobile
l*******s
发帖数: 1258
16
的确,我也面临这个问题。比如我的app,给人家用的时候,第一反应就是:你这个跟
Yelp相比,有什么优势?Yelp做的good enough了,占压倒性优势。
--Dishes Map,基于餐馆Review的美食发现引擎
https://play.google.com/store/apps/details?id=dishesmap.mobile

【在 b******y 的大作中提到】
:
: 很有意思。我做了一个论坛搜索引擎,目前只是搜索mitbbs的jobhunting, 创业和海外
: 理财版面,因为资源有限。你可以看一下,有啥建议?
: http://www.jiansnet.com/cnsearch
: 另外,鼓励一把你的热情。但楼上有人说的对。做项目,你还要考虑一些其他的事情。
: 比如说,我做的这个搜索引擎,目前知道的和用的人不多,原因是大家觉得google 就
: good enough了。这个你怎么看?

x*******1
发帖数: 28835
17
这个idea非常好,小中见大。 就分2组做。我赞助10刀
G*******s
发帖数: 10605
18
干实事的想法很好,但是貌似你做这个引擎技术上并不容易而且市场小,可以换几个想
法,目前情况可以主攻mobile app, 例如做一个智力开发的益智题库啥的

【在 t*****n 的大作中提到】
: 无意义的争论都是白费力气。大家有这个精力,不如干点实事。这样吧,我提议写个开
: 源搜索引擎。
: 近期目标: mitbbs.com的搜索引擎。
: 原因: 大家都是知道mitbbs的搜索功能非常差。即使google,也不能完全让人满意。
: 比如我要找goodbug过去30天内容含有LOL的帖子,google也力不从心。
: 远期目标:中文论坛通用搜索引擎。涵盖mitbbs,华人,文学城,留园等等。bbs的专
: 用搜索引擎可以做的比google好。
: 未来盈利模式:依靠广告
: 开发和测试:
: 1) Board: 水平高的、可以指点江山

t*****n
发帖数: 4908
19
你怎么查论文的?google/bing/yahoo帮了不你吧。专用引擎要比通用的效率高。

【在 h***s 的大作中提到】
: 为什么需要化时间去写这么个“论坛通用搜索引擎”呢?以后你写成了,为什么就能比
: google做的好呢?如果你是说加一大堆的规则去搜,肯定没人喜欢用,如果一般化、通
: 用型的,你没有任何理由说能做的比google好。所以,这个想法,感觉有点属于爽自己
: 的类。。。

t*****n
发帖数: 4908
20
这就是很好的原型。要是能开源的话,更好了。

【在 b******y 的大作中提到】
:
: 很有意思。我做了一个论坛搜索引擎,目前只是搜索mitbbs的jobhunting, 创业和海外
: 理财版面,因为资源有限。你可以看一下,有啥建议?
: http://www.jiansnet.com/cnsearch
: 另外,鼓励一把你的热情。但楼上有人说的对。做项目,你还要考虑一些其他的事情。
: 比如说,我做的这个搜索引擎,目前知道的和用的人不多,原因是大家觉得google 就
: good enough了。这个你怎么看?

相关主题
架构设计问题,请各位大神指点solr shared index file solution (转载)
如何将相似字符串更加准确地找出来?你们能scale out的都是有福的
mongobd中的text search速度问题Index PDF和doc 是elasticsearch还是solr
进入Programming版参与讨论
t*****n
发帖数: 4908
21
说的太中肯了。我是愿意捐钱,捐时间的。可惜本版了。

【在 l*******s 的大作中提到】
: 先精神支持一下lz
: 想搞个项目,兴趣也好,为了以后找工作也好,赚点钱也好,都无所谓,关键是:你想
: 做,那就去做吧。别在乎别人,尤其是这个bbs的人对你的冷水。很多人都是这样,自
: 己整天光会在网上灌水,实际生活中缺少实干精神;结果看到别人要下手干了,自己又
: 去冷嘲热讽。我承认,我有时候也这样。
: 只是一点意见,供你参考:
: 1.刚开始团队越小越好,实在不行自己单干。
: 2.没必要从头搞搜索引擎。这个东西要是从头弄,实在太麻烦了,crawler、index、
: query都要自己写,后面还有scale、speed、permission等各方面因素需要考虑。非常
: 耗精力。不如考虑用现成的比如Solr\Lucene,Elastic Search等,你不必重复造轮子。

t*****n
发帖数: 4908
22
briteguy兄:
麻烦你把我的俱乐部加进去吧。我把你的搜索加到置顶贴和wiki里面。功德无量啊。
http://www.mitbbs.com/club_bbsdoc/Prepaid.html

【在 b******y 的大作中提到】
:
: 很有意思。我做了一个论坛搜索引擎,目前只是搜索mitbbs的jobhunting, 创业和海外
: 理财版面,因为资源有限。你可以看一下,有啥建议?
: http://www.jiansnet.com/cnsearch
: 另外,鼓励一把你的热情。但楼上有人说的对。做项目,你还要考虑一些其他的事情。
: 比如说,我做的这个搜索引擎,目前知道的和用的人不多,原因是大家觉得google 就
: good enough了。这个你怎么看?

b******y
发帖数: 9224
23

多谢,刚刚整合了搜索,这样,下拉菜单可以搜索本站,或者搜索bbs的版面, 比如搜
索google面经:
http://www.jiansnet.com/search?q=google&type=mitbbsjobhunting
是用了一些开源技术,但因为不是卖技术的,而是提供服务,所以没有必要开源。而且
,程序也没有形成那种shrink wrap的软件形式。等将来再说吧,呵呵。
另外,我想可能还要做一个中英文翻译的搜索功能。类似网络词典,但不同的是,注重
英文或者中文的疑难词的翻译。。。这个看是否有时间和精力吧。

【在 t*****n 的大作中提到】
: 这就是很好的原型。要是能开源的话,更好了。
b******y
发帖数: 9224
24

抱歉,刚刚看到您的这个帖子,呵呵,没问题,我这两天就上线,然后回来汇报下...

【在 t*****n 的大作中提到】
: briteguy兄:
: 麻烦你把我的俱乐部加进去吧。我把你的搜索加到置顶贴和wiki里面。功德无量啊。
: http://www.mitbbs.com/club_bbsdoc/Prepaid.html

1 (共1页)
进入Programming版参与讨论
相关主题
你们能scale out的都是有福的StackOverflow的架构
Index PDF和doc 是elasticsearch还是solr搜索 lucene 之类是不是不流行了?
有没有直接对pdf或者doc简历进行分析的开源软件?请问有什么好的开源中英文搜索引擎?
如何评价google的Cloud AutoML想更新一下有点过时的知识体系,大家给开个单子吧
请大牛来谈谈对Solr的看法算法求教
如何智能化合并数据库中属于相关objects的各种属性到一个object下?请教一个跟search中用到的auto suggestion问题
请教下本地搜索一个网站里的search功能,是在search这个网站的database,还是象IDE里面的search workspace?
怎么做个文件的 index, 比如archive 这样的架构设计问题,请各位大神指点
相关话题的讨论汇总
话题: 搜索引擎话题: google话题: lol话题: 实事话题: 同学