h****n 发帖数: 101 | 1 没啥时间了,买买提的诸位能帮着一起看看吗?谢了先orz
上题了我----------------------------
假设要开发一个web application,用户能够用它来比较不同供应商的货品(比方
Amazon, Ebay)。在用户搜货品名称或者选择了一个分类以后,所有相关的货品以货品
为单位(组)列出所有的供货商,以及报价。
问题:
1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法
2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书)
3.怎么保证在不同数据源中同样货品的辨识问题,你准备用怎样的辨识过程
4.怎么量化辨识过程的质量,你用的辨识过程大概能提供怎样的质量,这个过程有哪些
问题
5.运行辨识过程所需的用时估计
6.供货商往往对所提供的货品,进行分类,这个往往分类并不完全相同。怎么能够自动
的从这些分类树中导出一个(你的)混合的分类树
7.说下你计划的结构,哪些是要实时运行,哪些不是,你的结构有何优缺点
问题较多,希望得到有经验的朋友帮助!!谢谢先 | o*****8 发帖数: 192 | | K****n 发帖数: 5970 | 3 我实在是没有经验哈,只在这种网站做过小卒几个月,看过波士的老code。你批判地看:
问题:
1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法
这个很多,最一般的方法就是把供应商的query html破解一下,找若干代理服务器,
send
query, download html,parse html。如果你和供应商有contract,可能访问一些底
层的
layer,如果得到xml,自然是更方便。
2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书)
wokao,怎么可能保证呢。你必须了解对方的数据结构,否则的话就要仔细分析对方网
页的各种可能
的情况,比如如何在query中specify每页列出的物品数量啊,然后怎么翻页啊,之类的。
3.怎么保证在不同数据源中同样货品的辨识问题,你准备用怎样的辨识过程
真tmd难,关键字matching吧,然后可以把同义关键字放在一起。。。至于哪些是同义
关键字,倒
是可以去amazon, google shopping, bing shopping, yahoo shopping去scrape好多
商
【在 h****n 的大作中提到】 : 没啥时间了,买买提的诸位能帮着一起看看吗?谢了先orz : 上题了我---------------------------- : 假设要开发一个web application,用户能够用它来比较不同供应商的货品(比方 : Amazon, Ebay)。在用户搜货品名称或者选择了一个分类以后,所有相关的货品以货品 : 为单位(组)列出所有的供货商,以及报价。 : 问题: : 1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法 : 2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书) : 3.怎么保证在不同数据源中同样货品的辨识问题,你准备用怎样的辨识过程 : 4.怎么量化辨识过程的质量,你用的辨识过程大概能提供怎样的质量,这个过程有哪些
| h****n 发帖数: 101 | 4
我想http大概是默认的了……
【在 o*****8 的大作中提到】 : 1 除了 http 还有其他方式吗?
| h****n 发帖数: 101 | 5 多谢你码这么多字!!
我就是现在也没什么时间看code了,tmd有点急火攻心,呵呵
你说的那些,我好好研究下子
看:
【在 K****n 的大作中提到】 : 我实在是没有经验哈,只在这种网站做过小卒几个月,看过波士的老code。你批判地看: : 问题: : 1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法 : 这个很多,最一般的方法就是把供应商的query html破解一下,找若干代理服务器, : send : query, download html,parse html。如果你和供应商有contract,可能访问一些底 : 层的 : layer,如果得到xml,自然是更方便。 : 2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书) : wokao,怎么可能保证呢。你必须了解对方的数据结构,否则的话就要仔细分析对方网
| h****n 发帖数: 101 | | y****n 发帖数: 579 | 7 你这些问题太实际了,实际得不好解决。
category matching很难用算法完成,
我参与过一个学科分类的项目,碰到这个问题,
头说,找一个上午,我们坐下来,花上3个小时,就分完了。
纯仿真AI。 | a****l 发帖数: 8211 | 8 照我说,出这种问题的人自己就根本不懂电脑.电脑又不是跳大神,你一个过程自己不先
定义清楚,就指望电脑能神奇的帮你搞定,这怎么可能?
比如说,"怎么保证在不同数据源中同样货品的辨识问题",你怎么定义什么是相同的货品
?名字相同?货号相同?万一名字相同产地不同算不算相同(比如德国和老墨造的BMW,你觉
得相同吗)?万一名字产地相同,生产日期不同,算不算相同(今天产的牛奶和去年的今天
产的牛奶你觉得相同吗)?不可能有一个神奇的程序能解决所有的问题.等有这么一个神
奇的程序的时候,skynet就出来了,大家也别混了.
【在 h****n 的大作中提到】 : 没啥时间了,买买提的诸位能帮着一起看看吗?谢了先orz : 上题了我---------------------------- : 假设要开发一个web application,用户能够用它来比较不同供应商的货品(比方 : Amazon, Ebay)。在用户搜货品名称或者选择了一个分类以后,所有相关的货品以货品 : 为单位(组)列出所有的供货商,以及报价。 : 问题: : 1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法 : 2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书) : 3.怎么保证在不同数据源中同样货品的辨识问题,你准备用怎样的辨识过程 : 4.怎么量化辨识过程的质量,你用的辨识过程大概能提供怎样的质量,这个过程有哪些
| h****n 发帖数: 101 | 9 出题的是个有点名气的叫兽,不能算啥都不懂:)
你讲的有点道理,不过这就是辨识过程的难度
怎么定义的灵活性掌握在答题人这里,比如书的话肯定是isbn,其他东西的话大多都有
统一标识的吧。难搞的还不是这个,关键schema mapping难度很高。同义词啊同样拼法
意思不一样啊~~
对那类数据源的访问我之前也没碰过,昨天google一下发现基本你都有api,提供web
service,不知道有没有朋友实际用过,大量查询的话是否可行(好像有收费的说)
【在 a****l 的大作中提到】 : 照我说,出这种问题的人自己就根本不懂电脑.电脑又不是跳大神,你一个过程自己不先 : 定义清楚,就指望电脑能神奇的帮你搞定,这怎么可能? : 比如说,"怎么保证在不同数据源中同样货品的辨识问题",你怎么定义什么是相同的货品 : ?名字相同?货号相同?万一名字相同产地不同算不算相同(比如德国和老墨造的BMW,你觉 : 得相同吗)?万一名字产地相同,生产日期不同,算不算相同(今天产的牛奶和去年的今天 : 产的牛奶你觉得相同吗)?不可能有一个神奇的程序能解决所有的问题.等有这么一个神 : 奇的程序的时候,skynet就出来了,大家也别混了.
| h****n 发帖数: 101 | 10 这是个好办法来着。Machine learning里面不是都要先让机器拿点人工完成的成品来学
习学习,一样的道理吧,不过海量的只能靠机子来做了
【在 y****n 的大作中提到】 : 你这些问题太实际了,实际得不好解决。 : category matching很难用算法完成, : 我参与过一个学科分类的项目,碰到这个问题, : 头说,找一个上午,我们坐下来,花上3个小时,就分完了。 : 纯仿真AI。
| | | K****n 发帖数: 5970 | 11 教授阿,我还以为是哪个 PriceScraper.com 啥的要雇你去当manager
【在 h****n 的大作中提到】 : 出题的是个有点名气的叫兽,不能算啥都不懂:) : 你讲的有点道理,不过这就是辨识过程的难度 : 怎么定义的灵活性掌握在答题人这里,比如书的话肯定是isbn,其他东西的话大多都有 : 统一标识的吧。难搞的还不是这个,关键schema mapping难度很高。同义词啊同样拼法 : 意思不一样啊~~ : 对那类数据源的访问我之前也没碰过,昨天google一下发现基本你都有api,提供web : service,不知道有没有朋友实际用过,大量查询的话是否可行(好像有收费的说)
| M*****a 发帖数: 2054 | 12 1. soap, restful
看:
的。
货品
哪些
【在 K****n 的大作中提到】 : 我实在是没有经验哈,只在这种网站做过小卒几个月,看过波士的老code。你批判地看: : 问题: : 1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法 : 这个很多,最一般的方法就是把供应商的query html破解一下,找若干代理服务器, : send : query, download html,parse html。如果你和供应商有contract,可能访问一些底 : 层的 : layer,如果得到xml,自然是更方便。 : 2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书) : wokao,怎么可能保证呢。你必须了解对方的数据结构,否则的话就要仔细分析对方网
| v****s 发帖数: 1112 | 13 对头!
问的就是你对web services,比如yahoo api, google api, amazone api 的理解程度
和熟练程度吧
【在 M*****a 的大作中提到】 : 1. soap, restful : : 看: : 的。 : 货品 : 哪些
| g*****g 发帖数: 34805 | 14 产品不都是有个UPC吗。
【在 a****l 的大作中提到】 : 照我说,出这种问题的人自己就根本不懂电脑.电脑又不是跳大神,你一个过程自己不先 : 定义清楚,就指望电脑能神奇的帮你搞定,这怎么可能? : 比如说,"怎么保证在不同数据源中同样货品的辨识问题",你怎么定义什么是相同的货品 : ?名字相同?货号相同?万一名字相同产地不同算不算相同(比如德国和老墨造的BMW,你觉 : 得相同吗)?万一名字产地相同,生产日期不同,算不算相同(今天产的牛奶和去年的今天 : 产的牛奶你觉得相同吗)?不可能有一个神奇的程序能解决所有的问题.等有这么一个神 : 奇的程序的时候,skynet就出来了,大家也别混了.
| x**y 发帖数: 10012 | 15 现在招聘招的都不是人 是超人。。。
【在 h****n 的大作中提到】 : 没啥时间了,买买提的诸位能帮着一起看看吗?谢了先orz : 上题了我---------------------------- : 假设要开发一个web application,用户能够用它来比较不同供应商的货品(比方 : Amazon, Ebay)。在用户搜货品名称或者选择了一个分类以后,所有相关的货品以货品 : 为单位(组)列出所有的供货商,以及报价。 : 问题: : 1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法 : 2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书) : 3.怎么保证在不同数据源中同样货品的辨识问题,你准备用怎样的辨识过程 : 4.怎么量化辨识过程的质量,你用的辨识过程大概能提供怎样的质量,这个过程有哪些
| O*******d 发帖数: 20343 | 16 They are trying to squeeze solution ideas from you. You may not be hired
even if you provide good solutions to them. BS the hiring manager. | h****n 发帖数: 101 | 17 上来吱一下,offer到手了……
多谢各位回帖的喷油 |
|