Linux 下 将PDF文件中的文本,图片导出的方法。
PDF格式文件中的文本是可以导出来再修改的。
同样,PDF里面的插图也是可以提取出来的。
PDF转纯文本:
pdftotext -enc GBK godson2e-data.Sheet.pdf text.GBK.txt
-enc (encoding)
要参照/etc/xpdf/xpdfrc 里面提到的编码格式。对于中文,用GBK
就可以了。
提取插图:
pdfimages godson2e-data.Sheet.pdf img
该命令就生成N个PPM文件,(一种BMP格式)
文件名为img-00?.ppm
? = (1 ~ N)
可以用ImageMagick里面的convert工具将其转换成相要的格式:
convert img-001.ppm img-001.jpg
或
convert img-001.ppm img-001.eps
上述方法在ubuntu下测试通过。
其中,pdfimages, pdftotext来自xpdf-utils包,xpdf的中文编码
支持来自xpdf-chinese-simplified包。换句话说,要实现上述功能
得安装:
xpdf-utils
xpdf-chinese-simplified
安装方法:
aptitude install xpdf-utils xpdf-chinese-simplified
如果没有aptitude,可以用apt-get
apt-get install xpdf-utils xpdf-chinese-simplified
相关文档:
本文也即《Learning the bash Shell》3rd Edition的第六章Command-Line Options and Typed varilables之读书笔记之一,但我们将不限于此。
在Linux命令中经常带有参数例如[-option]等等。在命令行中可能有0个或者多个这些选项。我们在之前学习了位置参数,包括$1,$2,$3…,$*,$#,参见Linux Bash Shell ......
国外优秀linux内核和android专家团队寻求国内企业合作,我们提供一流的技术支持你们的linux/android产品,提供顶级专家级别的支持。
联系邮箱:chinaandroidproject@gmail.com qq:1124992772
团队主页:
http://panicking.kicks-ass.org/ ......
1. 网卡配置文件所在的目录为;
/etc/sysconfig/network/
a. ifcfg-eth-id-00:0c:29:94:c8:86(这个为网卡的配置表,主要有ip地址,子网掩码,广播地址)(也可通过命令实现: ifconfig eth0 192.168.100.1 netmask 255.255.255.0)
b. & ......
引自:http://server.it168.com/a2009/0309/267/000000267918.shtml
4.1.7 Linux的第一个进程:init(1)
init是Linux系统执行的第一个进程,进程ID为1,是系统所有进程的起点,主要用来执行一些开机初始化脚本和监视进程。Linux系统在完成内核引导以后就开始运行init程序,init程序需要读取配置文件/etc/inittab。init ......
会员下载:
http://vipdown.3800hk.com/jiaocheng/linux/linux/@LinkGate@12403487266409x1196776239x12403488007143-5740071909166dc778c8b9deb5c6b4cc@LK@/01.rar
http://vipdown.3800hk.com/jiaocheng/linux/linux/@LinkGate@12403487266409x1196776239x12403488007143-177072d80fd416c4134c7 ......