我正在尝试通过Python代码读取几个PDF文件的开头,以确认文件是否为PDF格式/头部信息。虽然这个问题并非完全与Python相关。
在不同文件的开头部分,我看到了以下内容:
示例一(前34个字节的十六进制表示,无法以其他方式看出规律):
b'u\xabZj\x9ae\x89\xc6\xad\x8a\x89\xff\xc7\xe7h\xc2yhi\xd6\xda\xb1\xee\xb8%PDF-1.2\r%'
示例二(ASCII表示):
2 J
%PDF-1.7
示例三等:
\r\n%PDF-1.2
或:
\r\n\r\n\r\n\r\n%PDF-1.4
这些包含换行符/回车符的文件我可以处理(即使在头部规范中并未明确允许这些字符)。
我在Linux系统中的/usr/share/file/magic/pdf
路径下看到\xef\xbb\xbf%PDF-
,这是符合规范的Unicode编码和字节序标记。处理起来相对简单。
但对于上述第1种和第2种格式,我需要帮助理解它们开头的字节含义。为什么在文件开始会出现这些字节?它们代表什么意义?是否有相关的参考资源可以解释这些值,或者它们只是错误的存在?(请注意,尽管如此,这些文件在MacOS上仍能正常打开并阅读)。
非常感谢你的提前解答,马丁。