python 安装pdf2docx 时一直不成功？

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>Python >>python 安装pdf2docx 时一直不成功？

python 安装pdf2docx 时一直不成功？

来源：蜘蛛抓取(WebSpider) 时间：2022-06-07 05:18 标签：笨办法学python3 pdf

常见的Python代码段都是直接提取PDF文本然后写入Word，这样必然丢失了文本样式、表格、页面版式等。推荐一个自己写的PDF转docx的Python库（支持文本/图片/表格样式、批量转换、多线程转换）：

目前还在断断续续的开发和改进中，更多介绍及文档转换效果参考文章：

从视觉呈现上来看，PDF文档和Word文档表征相同的内容（文本、图片等）和格式（字体、段落、表格等）；但实际上完全是不同的格式和规范：

PDF精确定位内容及其在页面上的位置，便于保证不同平台、设备上文档格式的一致性，不会像Word那样因为渲染引擎的不同而出现格式错乱、多页少页等问题。
Word则是一种流式布局，元素之间的相对距离决定了其呈现在页面上的最终位置。因此适合编辑内容，前文内容的修改自动触发后续文档布局的更新。

读取PDF内容（常用Python库如、、、、）仅仅是PDF转Word的第一步，猜想这也是题主问题（转换后格式有问题，图片丢失）的根源。

真正难点在于建立从PDF基于元素位置的格式到Word基于内容的格式的映射。PDF中实际并不存在段落、表格的概念，这个转换就是要将PDF中“横、竖直线围绕着文本”解析为Word的“表格”，将“文本及下方的一条横线”解析为“文本下划线”，等等。

基于这样的思路，我尝试写了一个Python库。支持Windows和Linux平台，要求Python版本>=3.6。目前还在断断续续的开发和改进中，不过已经能够处理一些常见的、规范的PDF到Word格式转换。

其中，start和end参数指定页码范围（下标从0开始），默认转换所有页（start=0, end=None，可省略）；也可以通过pages指定不连续的页面，例如pages=[1,3,5]。

最后，上传两个样例展示转换效果（左边为PDF文档，右侧为转换后的Word文档）。

综合样例，涉及段落、文本样式、表格样式及图片

复杂一些的表格（椭圆章上旋转角度的字都丢掉了，目前仅支持水平、竖直的文字；密码区第三行字符“49”后面需要手动加一个软回车）

我试图编写一个示例代码，将 pdf 的内容转换为 word 这是代码：

虽然我已经安装了模块 pdf2docx ，但它仍然不存在

该模块似乎被称为 pdf2docx，而您添加了一个“s”来制作 pdf2docsx

关注本站官方公众号:程序员总部，领取三大福利！福利一:python和前端辅导福利二:进程序员交流微信群，专属于程序员的圈子福利三:领取全套零基础视频教程(python,java,前端,php)
关注公众号回复python,免费领取,回复充值+你的账号,免费为您充值1000积分

所属网站分类: 技术文章 >

python 安装pdf2docx 时一直不成功？

我要回帖

更多关于笨办法学python3 pdf 的文章

随机推荐

python 安装pdf2docx 时一直不成功？

我要回帖

更多关于 笨办法学python3 pdf 的文章

随机推荐

更多关于笨办法学python3 pdf 的文章