从文件中提取文字和框图联系的方法 - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 从文件中提取文字和框图联系的方法

相关主题
● C++怎样从文件读入分数？	● C++ faq lite PDF version
● 一切jvm语言都是纸老虎，我同事说的	● C/C++生成PDF
● 请教，网页抓取、内容整理提取用什么做比较简单	● 请问一本C++的中文书
● 如何提取大批html文件中规则的信息？	● [合集] 如何实现类似LabVIEW中系统框图绘制和元件连接与表示？
● 如何提取一个executable的所有dependency?	● 大家看看这样的web app是怎么做的
● 纠结死了	● fetching PDF articles on journals websites
● Web Framework Benchmarks	● Python矩阵一问
● 越底层越穷逼	● 有个问题，听听大家的建议

相关话题的讨论汇总
话题: pdf话题: 框图话题: ppt话题: image话题: ifilter

进入Programming版参与讨论

1

(共1页)

s******a 发帖数: 184	1 有一些输入文件是PDF，或者JPEG，或者 PPT格式的。这些文件中都包含一些框图。框图中可能包含一些机构人名之间的联系。有没有软件，或者 open source library 能够把这些机构人名提取出来，同时还能把联系（主要是框图中的联线）给提取出来。
p**2 发帖数: 613	2 有现成的软件可以把数据读出来，但是数据的后期处理还是要自己写。我之前做过的基本思路是找轮子读数据+自己写regular expression提炼。
k**********g 发帖数: 989	3 。 library PDF iText, iTextSharp. If PDF-embedded image see Image below. PDF is a composition-based (rendering-based) format. However: there are some PDF that cannot be parsed unless one renders it graphically. for this type of PDF, you must use a PDF renderer. The PDF renderers I know of are all commercial. If the PDF contains text (you can test that by try selecting the text from the document using any PDF reader), it can be extracted with IFilter plugin. See below (under PPT) JPEG or any Image format: you have to use an OCR library. Commercial or Free (e.g. Tesseract) PPT, Office documents, and PDF containing text: use Windows IFilter plugin. May require both C++ and C# programming. 【在 s******a 的大作中提到】 : 有一些输入文件是PDF，或者JPEG，或者 PPT格式的。这些文件中都包含一些框图。 : 框图中可能包含一些机构人名之间的联系。有没有软件，或者 open source library : 能够把这些机构人名提取出来，同时还能把联系（主要是框图中的联线）给提取出来 : 。
l**********n 发帖数: 8443	4 http://cssbox.sourceforge.net/pdf2dom/
l**********n 发帖数: 8443	5 https://github.com/coolwanglu/pdf2htmlEX

1

(共1页)

进入Programming版参与讨论

相关主题
● 有个问题，听听大家的建议	● 如何提取一个executable的所有dependency?
● 5千至1万个左右的小网页采用什么结构存储呢？	● 纠结死了
● Any good OCR engine?	● Web Framework Benchmarks
● 请教提取HTML语言的DIV属性	● 越底层越穷逼
● C++怎样从文件读入分数？	● C++ faq lite PDF version
● 一切jvm语言都是纸老虎，我同事说的	● C/C++生成PDF
● 请教，网页抓取、内容整理提取用什么做比较简单	● 请问一本C++的中文书
● 如何提取大批html文件中规则的信息？	● [合集] 如何实现类似LabVIEW中系统框图绘制和元件连接与表示？

相关话题的讨论汇总
话题: pdf话题: 框图话题: ppt话题: image话题: ifilter

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)