由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Computation版 - 面试问题求救:关于 Quartz, text-ming, Pdf
相关主题
how to remove a singularity in an integr求助sentiment analysis
How to read data written my MPI_WRITE?Matlab 读取文件的问题
请问Matlab的输出SHIPPING CONNECT APP
ft! Strange problem in Matlab!How to refresh Excel file daily
如何识别binary文件?招聘SQA Instructor。 Great Pay!!!
问个matlab矩阵的问题Several Open Ph.D., and Post-Doc. Positions (转载)
[合集] 举个例子:每天一题PHP Web Developer Co-op Opportunity
对很大的数据库做data ming,用什么软件比较好呢?Hamiltonian System有什么好的方法吗?
相关话题的讨论汇总
话题: quartz话题: pdf话题: text话题: 文本话题: apple
进入Computation版参与讨论
1 (共1页)
r*****9
发帖数: 75
1
我今天被面了一个start up的 intern,一个烙印面的我,英语一句也没听懂,整个过
程基本就是鸡同丫讲。 3分钟匆匆结束。
这个家伙随后给我发过来了一个问题(在电话里问过了,我实在听不懂),叫我给他回个
自己的想法.不过看了email后,我也是没懂,实在是惭愧。
他的问题原话:As discussed, please share your thoughts on integrating Quartz
from Apple (for PDFs) into the solution. I am interesting in getting your
view how this might help/affect the solution of automating the process.
大体背景介绍: 公司是一个做类似与text mining的工作,用lucene, 需要把pdf里面
的文本取出来。
我google了一下这个Quartz 是apple的 一个图形处理的引擎。
我想问得是,我这个东西怎么自动的提取pdf的文本呢 ?
我要有什么想法呢
谢谢前辈指导啊
r*****9
发帖数: 75
2
自己顶一下
k**********g
发帖数: 989
3

我不知道我的理解是否正确,好像提取文本用 iText ,提取影像(image rendering
of PDF)才用 Quartz。但也有一些是文档是缺少了 text layer (only contains an
image rendering of text, but without ASCII info),这些文档得用 OCR 才能复原
文本
http://itextpdf.com/

【在 r*****9 的大作中提到】
: 自己顶一下
1 (共1页)
进入Computation版参与讨论
相关主题
Hamiltonian System有什么好的方法吗?如何识别binary文件?
integration question问个matlab矩阵的问题
如何高速计算这个积分[合集] 举个例子:每天一题
感觉这儿有很多大牛对很大的数据库做data ming,用什么软件比较好呢?
how to remove a singularity in an integr求助sentiment analysis
How to read data written my MPI_WRITE?Matlab 读取文件的问题
请问Matlab的输出SHIPPING CONNECT APP
ft! Strange problem in Matlab!How to refresh Excel file daily
相关话题的讨论汇总
话题: quartz话题: pdf话题: text话题: 文本话题: apple