pig能做iterative的问题吗? - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - pig能做iterative的问题吗?

相关主题
● 有没有大牛来classifiy一下 PCA用法吗？	● Big data是下一个大坑吗
● 请问大家有没有直接用java全程写mapreduce的程序的？	● 凑热闹转发一篇自己写的博文，轻拍
● Pig UDF written in Python	● 求教! how to run python programs on a hadoop cluster
● 求Hadoop项目练手	● 说说浅学ML的感受
● Hadoop Spark 学习小结[2014版] (转载)	● data scientist position
● Hadoop Spark 学习小结[2014版] (转载)	● hive 里面的UDF会被几个node同时运行么？
● 大数据这个东西，如果用hive，岂不是跟SQL差不多了	● HIVE load CSV 问题请教
● 讨论，（Big）Data Engineer到底是个什么职位	● [Data Science Project Case] Bias Correction

相关话题的讨论汇总
话题: pig话题: iterative话题: spark话题: matrix话题: nmf

进入DataSciences版参与讨论

(共1页)

c***u
发帖数: 4107

最近在自学, 请问, pig能做iterative的问题吗, 比如一些matrix update的问题的.
比如nonnegative matrix factorization, 有一个nonnegative matrix N, 要分解成2
个matrix A和B, 使得|N-A*B|尽可能的小
标准算法是: 先随机生成2个矩阵A和B. 然后先固定A, 按照一个规则用A和N去更新B;
再固定B, 用B和N去更新A; 一直如此循环更新, 直到|N-A*B|足够小
不知道用pig或者hive, 能解决如此问题吗?
(不是research问题, 5/6年就有人用mapreduce+java发了N片文章)
当然, 我是说不另外写UDFs的情形下

g*********n
发帖数: 119

我看是不能的。Pig Latin是一种 data flow language，定义的是数据处理流，而不包
括如何控制数据的处理。后者需要编程语言，比如python或者java。这两种语言都可以
很好的和Pig接口。

g*********n
发帖数: 119

另外一个感受是，不要试图 beat up一个工具。每个工具都有它设计的目的和限制范围
。Pig基本上是一个ETL的工具。比如传统意义上的SQL，你基本上不会用SQL写一个
logistic regression model，或者做任何matrix intensive的处理，而只是用它来取
数据。

w*****a
发帖数: 218

好象 SPARK 可以
如果没记错的话
但自己没玩过

【在 g*********n 的大作中提到】

: 另外一个感受是，不要试图 beat up一个工具。每个工具都有它设计的目的和限制范围
: 。Pig基本上是一个ETL的工具。比如传统意义上的SQL，你基本上不会用SQL写一个
: logistic regression model，或者做任何matrix intensive的处理，而只是用它来取
: 数据。

c******n
发帖数: 4965

that's why people invented spark , mahout is now being migrated to spark
exactly for this reason: a lot of ml algorithms are Interactive by nature

成2

【在 c***u 的大作中提到】

: 最近在自学, 请问, pig能做iterative的问题吗, 比如一些matrix update的问题的.
: 比如nonnegative matrix factorization, 有一个nonnegative matrix N, 要分解成2
: 个matrix A和B, 使得|N-A*B|尽可能的小
: 标准算法是: 先随机生成2个矩阵A和B. 然后先固定A, 按照一个规则用A和N去更新B;
: 再固定B, 用B和N去更新A; 一直如此循环更新, 直到|N-A*B|足够小
: 不知道用pig或者hive, 能解决如此问题吗?
: (不是research问题, 5/6年就有人用mapreduce+java发了N片文章)
: 当然, 我是说不另外写UDFs的情形下

D**u
发帖数: 288

Pig itself has no support for iteration, but if you really want to use Pig,
you can embed the pig script into a python (jython) program to do it
iteratively.
Check this for example:
http://thedatachef.blogspot.com/2013/11/linear-regression-with-
After all, this is not best practice since for every iteration a M/R job is
spanned, and that is 2 sec wasted, and usually your algorithm runs with
hundreds of iteration. So, just use Spark. Spark now support both Scala and
Python pretty much equally well, so it should not be more difficult if your
original intention was to write Pig UDF.

d****i
发帖数: 4809

这种东西和pig还是fish没有任何关系，这个就是矩阵理论里面经典的正定矩阵的
Cholesky decomposition问题。Python和matlab里面都有相应的包来解决这个老的不能
再老的问题。
http://en.wikipedia.org/wiki/Cholesky_decomposition

成2

【在 c***u 的大作中提到】

d****i
发帖数: 4809

Spark就是一个为了hype而hype的阴谋，为了伯克利那帮nerd学院派想成名而搞出来的
不是问题的问题。现实中那些所谓的ml算法早都就有很多成熟的算法而且非常稳定非常
快，完全不需要什么一种欧洲学院派创造的复杂新语言来搞。

,
is
and
your

【在 D**u 的大作中提到】

: Pig itself has no support for iteration, but if you really want to use Pig,
: you can embed the pig script into a python (jython) program to do it
: iteratively.
: Check this for example:
: http://thedatachef.blogspot.com/2013/11/linear-regression-with-
: After all, this is not best practice since for every iteration a M/R job is
: spanned, and that is 2 sec wasted, and usually your algorithm runs with
: hundreds of iteration. So, just use Spark. Spark now support both Scala and
: Python pretty much equally well, so it should not be more difficult if your
: original intention was to write Pig UDF.

D**u
发帖数: 288

不完全同意，spark是一个framework，它有一个最大的优势是可以架在HDFS上。python
和matlab单机当然好用，可是现在不是data太大一个机子装不了么。

【在 d****i 的大作中提到】

: Spark就是一个为了hype而hype的阴谋，为了伯克利那帮nerd学院派想成名而搞出来的
: 不是问题的问题。现实中那些所谓的ml算法早都就有很多成熟的算法而且非常稳定非常
: 快，完全不需要什么一种欧洲学院派创造的复杂新语言来搞。
:
: ,
: is
: and
: your

d****i
发帖数: 4809

从这个意义说是的，但是从那些所谓的ml的算法来说，不仅不是什么新的，甚至就是重
复造轮子，搞spark的那些人做分布式可能不错，但是数学基础都很差的，根本不懂数
学理论，远不如写numpy和matlab的人来的专业。用scala这种复杂难懂难调试难维护的
语言根本就是错误的。再说现实生活中除了web公司有大量的垃圾数据来挖，哪有那么
多需要HDFS的？

python

【在 D**u 的大作中提到】

: 不完全同意，spark是一个framework，它有一个最大的优势是可以架在HDFS上。python
: 和matlab单机当然好用，可是现在不是data太大一个机子装不了么。

相关主题
● Hadoop Spark 学习小结[2014版] (转载)	● Big data是下一个大坑吗
● 大数据这个东西，如果用hive，岂不是跟SQL差不多了	● 凑热闹转发一篇自己写的博文，轻拍
● 讨论，（Big）Data Engineer到底是个什么职位	● 求教! how to run python programs on a hadoop cluster
进入DataSciences版参与讨论

d******e
发帖数: 7844

NMF和Cholesky Decomposition有毛关系啊。
NMF就是
min ||X-AB||_F^2+各种Regularizations
s.t. 各种Nonnegative Constraints
Cholesky是正定对称矩阵X分解为UU'，U是个三角阵。

【在 d****i 的大作中提到】

: 这种东西和pig还是fish没有任何关系，这个就是矩阵理论里面经典的正定矩阵的
: Cholesky decomposition问题。Python和matlab里面都有相应的包来解决这个老的不能
: 再老的问题。
: http://en.wikipedia.org/wiki/Cholesky_decomposition
:
: 成2

d******e
发帖数: 7844

说得好像你懂似的... ...

【在 d****i 的大作中提到】

: 从这个意义说是的，但是从那些所谓的ml的算法来说，不仅不是什么新的，甚至就是重
: 复造轮子，搞spark的那些人做分布式可能不错，但是数学基础都很差的，根本不懂数
: 学理论，远不如写numpy和matlab的人来的专业。用scala这种复杂难懂难调试难维护的
: 语言根本就是错误的。再说现实生活中除了web公司有大量的垃圾数据来挖，哪有那么
: 多需要HDFS的？
:
: python

g*********n
发帖数: 119

大家就事论事，还是不要伤和气的好。
再想想草鱼最初提的问题，其实他更关注的是iterative processing，而不是他举的
matrix manipulation的例子。如果要考虑iterative processing的不是数组这么low
level的operation，而是数据流的iterative processing，Pig还是可以胜任的，不过
是重复性的insert，update, delete，这些基本操作。数组并不是最好的例子。

D**u
发帖数: 288

NMF 最近很火，image processing, text mining 都用上了。NMF可以用来跟PCA比较，
多了一个non-negative的限制, 结果有了很多很好的性质。caoyu的想法很intuitive，
因为NMF跟PCA解法上的一个很大的不同就是，NMF 可以靠iterative的update去解决，
而PCA是一次性的对covariance matrix做decomposition.

d******e
发帖数: 7844

PCA里的SVD分解也是iterative来解的。
要么高斯消元解线性方程组，要么用Power Iteration。只不过已经是很成熟的技术，
所以已经有现成的函数了。

【在 D**u 的大作中提到】

: NMF 最近很火，image processing, text mining 都用上了。NMF可以用来跟PCA比较，
: 多了一个non-negative的限制, 结果有了很多很好的性质。caoyu的想法很intuitive，
: 因为NMF跟PCA解法上的一个很大的不同就是，NMF 可以靠iterative的update去解决，
: 而PCA是一次性的对covariance matrix做decomposition.

D**u
发帖数: 288

印象中如果需要PCA的所有的orthogonal basis 还是需要calculate eigen vectors的,不
过大多数情况都是只需要top dominant component，这样是有iterative的method的
，背后的idea类似于 Lanczos process，不过凡是iterative的method都是
approximation not 100% accurate.

【在 d******e 的大作中提到】

: PCA里的SVD分解也是iterative来解的。
: 要么高斯消元解线性方程组，要么用Power Iteration。只不过已经是很成熟的技术，
: 所以已经有现成的函数了。

d******e
发帖数: 7844

需要所有loading vectors的时候就是高斯消元解方程组。

的,不
术，

【在 D**u 的大作中提到】

: 印象中如果需要PCA的所有的orthogonal basis 还是需要calculate eigen vectors的,不
: 过大多数情况都是只需要top dominant component，这样是有iterative的method的
: ，背后的idea类似于 Lanczos process，不过凡是iterative的method都是
: approximation not 100% accurate.

o**a
发帖数: 1315

感叹屌丝不易啊

B********r
发帖数: 397

给你两个table, 每个10 TB, 你用matlab做个join,group by来试试.

【在 d****i 的大作中提到】

l******n
发帖数: 9344

一个机子装不下，这是啥数据这么大？
现在超级机上做气象预测，也就million变量级别的方程，大部分还是线性，只是计算
时间的问题，也从来没有存储的问题

python

【在 D**u 的大作中提到】

: 不完全同意，spark是一个framework，它有一个最大的优势是可以架在HDFS上。python
: 和matlab单机当然好用，可是现在不是data太大一个机子装不了么。

(共1页)

进入DataSciences版参与讨论

相关主题
● [Data Science Project Case] Bias Correction	● Hadoop Spark 学习小结[2014版] (转载)
● [Data Science Project Case] Bias Correction - second try	● Hadoop Spark 学习小结[2014版] (转载)
● 三星samsung创新部门招大数据工程师 (转载)	● 大数据这个东西，如果用hive，岂不是跟SQL差不多了
● 如何学习Hadoop?	● 讨论，（Big）Data Engineer到底是个什么职位
● 有没有大牛来classifiy一下 PCA用法吗？	● Big data是下一个大坑吗
● 请问大家有没有直接用java全程写mapreduce的程序的？	● 凑热闹转发一篇自己写的博文，轻拍
● Pig UDF written in Python	● 求教! how to run python programs on a hadoop cluster
● 求Hadoop项目练手	● 说说浅学ML的感受

相关话题的讨论汇总
话题: pig话题: iterative话题: spark话题: matrix话题: nmf

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天