复杂文档格式说明
# 复杂文档格式说明
注意 下面的内容仅针对文档中包含数学公式、表格、图片等复杂内容的情况。只包含文字的时候,不用参考下面的内容。
对输入的整体图片/文档(pdf),有如下支持和不支持的点,不支持的地方会导致解析失败,或者解析结果不是很好,这是用户需要注意的地方。
此外,对某一具体功能(比如数学公式的检测与识别),其支持点和不支持点应该查看该具体功能的文档。
由于pdf格式输入文档会被自动转化为图片格式的文件,所以下面的说明同时适用于图片和PDF格式的输入。
# 文档内容
# 支持
注意 允许只输入单一的内容,比如文档中只有单一的文字、单一的公式、单一的表格、 单一的印章等等。
文字
图片
表格。表格可以检测到,但只有固定格式的表格才可以正确识别。如果无法识别,会以图片的形式返回。
行内公式
行间公式
文本
印章
二维码
条形码
街景图片
手写文字可检测到,但识别不一定正确。
手写公式有较大局限性
# 不支持
水印
emoji
乐谱
流程图
UML图
# 文字
# 支持
复杂字体,艺术字体
中文和英文混合
支持复杂背景
支持街景
支持噪声、旋转、模糊、缺失等复杂情况
如果图片/pdf中仅有文字,没有公式和表格等,则支持图片/pdf倒置180°、90°、270°的情况
支持手写字体检测,但识别准确率较低
# 不支持
特殊字体
其他语种
手写识别率低
# 文档形状和方向
# 支持
- 支持 [-4,4] 的角度旋转
# 不支持
方向不支持。方向区别于角度。方向指90度,180度,270度的旋转。该功能虽然已经完成,但只完成了部分,不能对大图片整体识别方向。
这部分将放在客户端进行
不能有仿射变换。
这部分将放在客户端进行
不能有透视变换。
这部分将放在客户端进行
不能3D扭曲。
这部分将放在客户端进行
皱褶也不可以。
这部分将放在客户端进行
# 文档颜色和背景
# 支持
支持街景图片。
支持简单的背景颜色,比如黄色,红色等,可行。
支持复杂背景,比如图片背景,渐变颜色背景等。
支持被污染的,比如油渍等等。
如果不是白色文档,则不无法有效处理表格。
# 文档大小
# 支持
普通的文档一页的大小,可以
普通的截图大小,也可以
图片大小最好不要超过屏幕一页的大小
# 不支持
不能是长图,长图会导致无法处理。
这部分将放在客户端进行
不能是宽图。
这部分将放在客户端进行
不支持
多页
,如果是 pdf 文件,只可以处理第一页
。这部分将放在客户端进行
# 其他
# 不支持
马赛克。
这部分将放在客户端进行
模糊。
这部分将放在客户端进行
多栏/多列,图片中不能有多列,比如论文中的两列(双页面),这个是不可以的。
这部分将放在客户端进行