2021-11-15

WARNING: This article may be obsolete
This post was published in 2021-11-15. Obviously, expired content is less useful to users if it has already pasted its expiration date.
This article is categorized as "Garbage" . It should NEVER be appeared in your search engine's results.


关于pdf的exif信息擦除

笔记1

一个PDF文件,先使用 exiftool -all= 这样的方法清理exif数据,然后用 exiftool 或者 pdfinfo 命令进行检查,看起来所有的元数据都被清理了(至少【它不主动表现元数据,除非有工具深挖PDF本身进行元数据恢复】)。

但事实上,chrome这样的软件会深挖你的PDF并显示出隐藏的标题(如果你的exif信息里有 Title ,chrome还是会显示显示它;否则chrome就会显示隐藏的标题)。由于chrome的市场占有率实在太高,表面清理一下exif基本等于形同虚设。

下面这张图已经使用exiftool清理过数据了,但我们还是很容易在里面搜索到Microsoft Word这样的字样。

“要么干脆别清理,要么就要做到底”。目前来看,要让元数据清理到chrome认不出来,还需要 qpdf --linearize ,或者用 Adobe Acrobat->Redact->Sanitize 进行处理。

但需要特别注意exiftool和qpdf的顺序问题:如果一个pdf文档先被qpdf --linearize处理,然后被exiftool擦除了exif信息,那么最终产生的pdf文件没有fast web view(至少pdf.js和adobe acrobat认不出来,估计这是exiftool的锅)。正确的顺序应该是:先用exiftool擦除元数据,然后使用qpdf --linearize .

但这样又带来一个新的问题:无论是使用qpdf还是adobe acrobat,彻底擦除exif信息后得到的pdf文件都会明显有损。

一种新的但有很大缺陷的解决方法

* 2023年4月补充:用下面这个方法做出来的pdf是无法正确复制任何文字的,复制出来的东西全部是一堆怪异的unicode . 只能说这个方法缺陷多多,要用在合适的场合(要考虑好一个pdf无法正确复制任何文字带来的后果).

备注:最近暂时没有擦pdf文件的需求,所以这个命令的实战效果未知...等待后续补充。尤其是web optimized这一项还是要留心一下。

(其实这个stackoverflow问题并不是讨论如何擦除pdf metadata的)https://stackoverflow.com/a/9864308

使用ghostscript提供的2个转换命令pdf2ps和ps2pdf:

$  pdf2ps  original.pdf  temp.ps

$  ps2pdf  temp.ps  clean.pdf

Support Vector Machine / SVM

🔗 [Support-vector machine - Wikipedia] https://en.wikipedia.org/wiki/Support-vector_machine

🔗 https://www.cs.princeton.edu/~smattw/Teaching/Fa19Lectures/lec6/lec6.pdf

🔗 https://www3.nd.edu/~dgalvin1/30210/30210_F07/presentations/dual_opt.pdf

🔗 https://www.cs.cmu.edu/~epxing/Class/10701-08s/recitation/svm.pdf

🔗 https://stats.stackexchange.com/questions/19181/why-bother-with-the-dual-problem-when-fitting-svm

🔗 [11.0 支持向量机 - 钱爽的博客 | 钱爽's Blog] https://qianshuang.github.io/2018/08/14/SVM/

🔗 [What is the loss function of hard margin SVM? - Cross Validated] https://stats.stackexchange.com/questions/74499/what-is-the-loss-function-of-hard-margin-svm

KKT,SVM的稀疏性:🔗 [《机器学习(周志华)》笔记--支持向量机(2)--对偶问题:优化问题的类型、对偶问题、解的稀疏性、硬间隔与软间隔 - 泰初 - 博客园] https://www.cnblogs.com/lsm-boke/p/12316147.html


神经网络

🔗 [如何直观地解释 backpropagation 算法? - 知乎] https://www.zhihu.com/question/27239198/answer/154510111


golang regex engine

第一次尝试学习并写一些Golang代码,把大量精力浪费在不兼容pcre的regex引擎身上,体验可太差了。



 Last Modified in 2023-04-04 

Leave a Comment Anonymous comment is allowed / 允许匿名评论