由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 从文件中提取文字和框图联系的方法
相关主题
C++怎样从文件读入分数?C++ faq lite PDF version
一切jvm语言都是纸老虎,我同事说的C/C++生成PDF
请教,网页抓取、内容整理提取用什么做比较简单请问一本C++的中文书
如何提取大批html文件中规则的信息?[合集] 如何实现类似LabVIEW中系统框图绘制和元件连接与表示?
如何提取一个executable的所有dependency?大家看看这样的web app是怎么做的
纠结死了fetching PDF articles on journals websites
Web Framework BenchmarksPython矩阵一问
越底层越穷逼有个问题,听听大家的建议
相关话题的讨论汇总
话题: pdf话题: 框图话题: ppt话题: image话题: ifilter
进入Programming版参与讨论
1 (共1页)
s******a
发帖数: 184
1
有一些输入文件是PDF, 或者JPEG, 或者 PPT格式的。这些文件中都包含一些框图。
框图中可能包含一些机构人名之间的联系。有没有软件,或者 open source library
能够把这些机构人名提取出来,同时还能把联系 (主要是框图中的联线) 给提取出来
p**2
发帖数: 613
2
有现成的软件可以把数据读出来,
但是数据的后期处理还是要自己写。
我之前做过的基本思路是找轮子读数据+自己写regular expression提炼。
k**********g
发帖数: 989
3


library
PDF iText, iTextSharp. If PDF-embedded image see Image below. PDF is a
composition-based (rendering-based) format.
However: there are some PDF that cannot be parsed unless one renders it
graphically. for this type of PDF, you must use a PDF renderer. The PDF
renderers I know of are all commercial.
If the PDF contains text (you can test that by try selecting the text from
the document using any PDF reader), it can be extracted with IFilter plugin.
See below (under PPT)
JPEG or any Image format: you have to use an OCR library. Commercial or Free
(e.g. Tesseract)
PPT, Office documents, and PDF containing text: use Windows IFilter plugin.
May require both C++ and C# programming.

【在 s******a 的大作中提到】
: 有一些输入文件是PDF, 或者JPEG, 或者 PPT格式的。这些文件中都包含一些框图。
: 框图中可能包含一些机构人名之间的联系。有没有软件,或者 open source library
: 能够把这些机构人名提取出来,同时还能把联系 (主要是框图中的联线) 给提取出来
: 。

l**********n
发帖数: 8443
l**********n
发帖数: 8443
1 (共1页)
进入Programming版参与讨论
相关主题
有个问题,听听大家的建议如何提取一个executable的所有dependency?
5千至1万个左右的小网页采用什么结构存储呢?纠结死了
Any good OCR engine?Web Framework Benchmarks
请教提取HTML语言的DIV属性越底层越穷逼
C++怎样从文件读入分数?C++ faq lite PDF version
一切jvm语言都是纸老虎,我同事说的C/C++生成PDF
请教,网页抓取、内容整理提取用什么做比较简单请问一本C++的中文书
如何提取大批html文件中规则的信息?[合集] 如何实现类似LabVIEW中系统框图绘制和元件连接与表示?
相关话题的讨论汇总
话题: pdf话题: 框图话题: ppt话题: image话题: ifilter