Apache TikaでOfficeファイルのテキスト差分を見る
gitでWord, Excel, PowerPointなどのOfficeファイルを管理していると、
変更があっても、どこが変更されたのかわからず、確認が面倒。
Apache Tikaを使うと、Word, Excel, PowerPointなどからテキストを抽出し、
その差分を表示することができます。
WinMergeでワード、エクセル、パワーポイントの差分を見る - forget for get
インストール手順(Windows)
http://archive.apache.org/dist/tika/
からtika-app-1.17.jarをダウンロード。
任意の場所に配置(C:\Program Files\Git\bin)
インストール手順(Mac)
brew install tika
gitの設定
プロジェクト直下のgitの設定ファイルを追加・編集
.git/info/attributes
*.pptx diff=tika *.docx diff=tika *.xlsx diff=tika
.git/config
[diff "tika"] binary = true textconv = java -Dfile.encoding=UTF-8 -jar 'C:\\Program Files\\Git\\bin\\tika-app-1.17.jar' -t
これで、Git ExtensionsやSourceTreeでもワード、エクセル、パワーポイントのテキスト差分を確認できるようになります。
Apache Tika便利!