"PDF-" 不在文件开头，但为什么会这样？

Question

我正在尝试通过Python代码读取几个PDF文件的开头，以确认文件是否为PDF格式/头部信息。虽然这个问题并非完全与Python相关。

在不同文件的开头部分，我看到了以下内容：

示例一（前34个字节的十六进制表示，无法以其他方式看出规律）：

b'u\xabZj\x9ae\x89\xc6\xad\x8a\x89\xff\xc7\xe7h\xc2yhi\xd6\xda\xb1\xee\xb8%PDF-1.2
%'

示例二（ASCII表示）：

2 J
%PDF-1.7

示例三等：


%PDF-1.2

或：





%PDF-1.4

这些包含换行符/回车符的文件我可以处理（即使在头部规范中并未明确允许这些字符）。

我在Linux系统中的/usr/share/file/magic/pdf路径下看到\xef\xbb\xbf%PDF-，这是符合规范的Unicode编码和字节序标记。处理起来相对简单。

但对于上述第1种和第2种格式，我需要帮助理解它们开头的字节含义。为什么在文件开始会出现这些字节？它们代表什么意义？是否有相关的参考资源可以解释这些值，或者它们只是错误的存在？（请注意，尽管如此，这些文件在MacOS上仍能正常打开并阅读）。

非常感谢你的提前解答，马丁。

leppie · Answer

一个有效的PDF文件必须以%PDF-行开头。在这行之前出现任何内容都会使您的文件成为一个非PDF文件，该文件可能仅仅是包含了一个PDF文件。

然而，在很久以前，Adobe决定在其Acrobat和Reader软件中直接支持这种带有任意起始字节（我认为最多1KB）的文件，并且许多其他PDF处理软件产品也效仿了这一做法。

但是，根据规范，这类文件本身并不是PDF文件，无论是您给出的四个示例还是以BOM开头的文件都不符合PDF规范。

考虑到这一点，

引用:

我需要帮助了解上述#1和#2格式。为什么我在文件开头看到这些字节？它们是什么意思？有没有关于这些值的好参考资料，或者它们仅仅是一个错误？

就所包含的PDF文件而言，这些额外的字节是无关紧要、可以忽略的垃圾数据。

通常情况下，它们并没有特定的含义。有时由于PDF创建程序的bug而添加了这些额外字节，有时则是因为传输错误导致的。还有些人试图利用Adobe软件对此类非标准文件的宽松处理，将自定义的元数据添加到PDF文件中。

nonopolarity · Answer

基于收到的答案，我编写了如下Python代码：

def ispdf(s):
    idx = 0
    # 跳过开头的换行符或回车符
    while s[idx] in [b'
', b'
']:
        idx += 1

    # 检查简单的 %PDF- 开头
    if s[idx:idx+5] == b'%PDF-':
        return True
    # 处理可能存在的 U+FEFF 字节顺序标记（BOM）：\xef\xbb\xbf%PDF-
    if s[idx:idx+8] == b'\xef\xbb\xbf%PDF-':
        return True
    # 对文件前1024字节进行进一步检查，尽管这种方法比较混乱
    # 参考链接：https://stackoverflow.com/questions/77753113/pdf-not-at-start-of-file-but-why
    if b'%PDF-' in s[0:1024]:
        return True
    # 如果以上条件均不满足，则认为不是PDF文件
    return False

非常正确