Linux 下 将PDF文件中的文本,图片导出的方法。
PDF格式文件中的文本是可以导出来再修改的。
同样,PDF里面的插图也是可以提取出来的。
PDF转纯文本:
pdftotext -enc GBK godson2e-data.Sheet.pdf text.GBK.txt
-enc (encoding)
要参照/etc/xpdf/xpdfrc 里面提到的编码格式。对于中文,用GBK
就可以了。
提取插图:
pdfimages godson2e-data.Sheet.pdf img
该命令就生成N个PPM文件,(一种BMP格式)
文件名为img-00?.ppm
? = (1 ~ N)
可以用ImageMagick里面的convert工具将其转换成相要的格式:
convert img-001.ppm img-001.jpg
或
convert img-001.ppm img-001.eps
上述方法在ubuntu下测试通过。
其中,pdfimages, pdftotext来自xpdf-utils包,xpdf的中文编码
支持来自xpdf-chinese-simplified包。换句话说,要实现上述功能
得安装:
xpdf-utils
xpdf-chinese-simplified
安装方法:
aptitude install xpdf-utils xpdf-chinese-simplified
如果没有aptitude,可以用apt-get
apt-get install xpdf-utils xpdf-chinese-simplified
相关文档:
1. 网卡配置文件所在的目录为;
/etc/sysconfig/network/
a. ifcfg-eth-id-00:0c:29:94:c8:86(这个为网卡的配置表,主要有ip地址,子网掩码,广播地址)(也可通过命令实现: ifconfig eth0 192.168.100.1 netmask 255.255.255.0)
b. & ......
<!--
@page { margin: 2cm }
P { margin-bottom: 0.21cm }
-->
走进
Linux
大观园,人们就像刘姥姥进城,啥都感到很新鲜。今年元旦,
Linux
国际社区给人们献上一份元旦大礼包:
Zorin
OS 2.0
。这有什么好说的?
& ......
大家好:
现在linux系统也算是比较流行的了
但是某些朋友忘记了密码ROOT的不知道怎么办现在我就发帖支持下
呵呵 有的牛人已经知道了 就不看帖了 呵呵 大家支持下
现在弄个如下两种
一. grub
1. 在出现grub画面时,用上下键选中你平时启动linux的那一项((注意),然后按e键!
2. 再次用上下键选中你平时启 ......
引自:http://server.it168.com/a2009/0309/267/000000267918.shtml
4.1.7 Linux的第一个进程:init(1)
init是Linux系统执行的第一个进程,进程ID为1,是系统所有进程的起点,主要用来执行一些开机初始化脚本和监视进程。Linux系统在完成内核引导以后就开始运行init程序,init程序需要读取配置文件/etc/inittab。init ......
Windows系统其实和Linux系统有相似的地方,Windows系统文件、目录的属性有只读、隐藏,而Linux也一样。 Linux中,每一个文件都具有特定的属性。主要包括文件类型和文件权限两个方面。可以分为5种不同的类型:普通文件、目录文件、链接文件、设备文件和管道文件。 所谓的文件权限,是指对文件的访问权限,包括对 ......