j*********7 发帖数: 19 | 1 刚面完,投的data mining组,面我的是个小白哥,人很好。
首先深入问了我现在的一个NLP项目,我都怕是不是说多了现在公司找我麻烦。无所了
,继续。
扯完还有25分钟,然后开始技术。题目是当用户搜索的时候,第一次如果不成功的话,
都会改进自己的关键词,比如纠正自己的拼写错误,或者让关键词更加详细。给了两个
例子
restarant => restaurant, 纠错
restaurant => best restaurant, 改进关键词
现在有一个log文件,里面存了所有用户的搜索关键词,那么怎样将属于一个用户关键
词优化的那些词条找出来。
题一出来我就在想,这是咋考coding呢。。。所以一上来我就是可以比较两个关键词的
距离先(这里我觉得一上来应该从high level来讲,比如说看timestamp等等),于是
让我写editing distance,心里暗爽,故意想了想,中间还推了推转换方程,完了举了
个例子把整个矩阵走了一遍。白哥说很好,那再继续说怎么解决那个问题。这我才把怎
么找feature,怎么用clustering或者classification通通说了一遍。
完了还有5分钟问了几个问题。整个过程轻松愉快,挂不挂至少心情不错(不像L)。
希望能下一轮吧。 |
b******g 发帖数: 3616 | 2 厉害,瞬间就把一个大题目扭转成了leetcode原题!
【在 j*********7 的大作中提到】 : 刚面完,投的data mining组,面我的是个小白哥,人很好。 : 首先深入问了我现在的一个NLP项目,我都怕是不是说多了现在公司找我麻烦。无所了 : ,继续。 : 扯完还有25分钟,然后开始技术。题目是当用户搜索的时候,第一次如果不成功的话, : 都会改进自己的关键词,比如纠正自己的拼写错误,或者让关键词更加详细。给了两个 : 例子 : restarant => restaurant, 纠错 : restaurant => best restaurant, 改进关键词 : 现在有一个log文件,里面存了所有用户的搜索关键词,那么怎样将属于一个用户关键 : 词优化的那些词条找出来。
|
j*********7 发帖数: 19 | 3 哈哈 我也觉得自己当时挺搞笑,因为总是再琢磨面试官会在哪里让我开始写代码,所
以一开始谨小慎微,生怕高谈阔论搞得自己不会写了
【在 b******g 的大作中提到】 : 厉害,瞬间就把一个大题目扭转成了leetcode原题!
|
c*****o 发帖数: 1702 | |
h***s 发帖数: 45 | 5 谢谢分享,祝lz成功过关。
能具体说说怎么吗: "把怎么找feature,怎么用clustering或者classification通通说
了一遍。" |
w****r 发帖数: 15252 | 6 怎么用classification, 你要有两组样本才可以把吧
【在 j*********7 的大作中提到】 : 刚面完,投的data mining组,面我的是个小白哥,人很好。 : 首先深入问了我现在的一个NLP项目,我都怕是不是说多了现在公司找我麻烦。无所了 : ,继续。 : 扯完还有25分钟,然后开始技术。题目是当用户搜索的时候,第一次如果不成功的话, : 都会改进自己的关键词,比如纠正自己的拼写错误,或者让关键词更加详细。给了两个 : 例子 : restarant => restaurant, 纠错 : restaurant => best restaurant, 改进关键词 : 现在有一个log文件,里面存了所有用户的搜索关键词,那么怎样将属于一个用户关键 : 词优化的那些词条找出来。
|
s******t 发帖数: 229 | 7 把用户输入的词跟所有关键字都比一下??还是先事先分好cluster,再比较某一个
cluster里面的关键词? |
u*****o 发帖数: 1224 | 8 约翰逊同学好牛,拿到这么多大牌面试。。。
你有几年工作经验呢?面的是ds还是sde? |
|
j*********7 发帖数: 19 | 9 恩,现在想来确实是说的不对。当时我好像是在想对于任何两个词条,可以标记“是”
或者“不是”,然后做分类。结果马上被面试官制止了,委婉的说我们不会去标记数据
,太费神。于是我想到了那可以用clustering,对于每个词条产生多个feature,比如
说timestamp,长度,单词个数等等。
【在 w****r 的大作中提到】 : 怎么用classification, 你要有两组样本才可以把吧
|
j*********7 发帖数: 19 | 10 面试官说是从日志里分析,不需要实时判断,可能只是后台分析用。
【在 s******t 的大作中提到】 : 把用户输入的词跟所有关键字都比一下??还是先事先分好cluster,再比较某一个 : cluster里面的关键词?
|
j*********7 发帖数: 19 | 11 说出背景怕大家笑话。。。工作经历只有半年,而且本人还是半路出家的半碗水。。。
我面的基本都是sde,除了trulia一家是ds
【在 u*****o 的大作中提到】 : 约翰逊同学好牛,拿到这么多大牌面试。。。 : 你有几年工作经验呢?面的是ds还是sde?
|