前因
从招聘网站下载的简历,在mac中乱码(我的office 2016),转到windows电脑中又一切正常。
原因
经过分析word的源码,发现招聘网站下载的简历使用的是base64编码,自身使用gb18030进行编码,导致一开始就存在了乱码,其次在base64解码后,应使用gbk编码或者说gb2312编码进行解码,不然又会再一次乱码。
解决
由于招聘网站下载的word其使用base64编码,解码后其实使用的是html格式,故可以使用程序进行解码还原。
固编写了一个小工具,进行了mac跟linux的编译。
工程地址:
https://github.com/ww1516123/word2html
mac 程序下载地址:
https://github.com/ww1516123/word2html/raw/master/word2html
linux 程序下载地址:
https://github.com/ww1516123/word2html/raw/master/linux/word2html
使用说明:
./word2html -f [filepath]
生成的html与word同名同路径.