Git repos†
Google Drive†
日本語ファイル(e-learning 用に翻訳したもの)†
ソースファイル†
行数確認†
英語ファイル†
処理プロトコル案1・・・失敗(detex の精度が低くテキストの再現性が低い)†
- tex to txt conversion (drop tex control sequences) ---> OpenDetex or pandoc
- eliminate blank lines (done)
- add index to each line(done)
- reflect index to tex file (aborted)
- compare & match JP_index to EN_index
- replace EN text to JP text
- delete index
- try compling tex files
処理プロトコル案2・・・pdf からテキストをインデックス化し tex ファイルに反映†
- pdftotest でテキスト化
- ファイル名(拡張子抜き):インデックス:テキスト の作成
- 比較用アプリの作成と インデックスマッチング
- オリジナル tex ファイルにインデックスの挿入(または、インデックスに置き換え) → 自動変換のベース
plagiarism detection python (盗用・剽窃チェック) アルゴリズムの検討†
- tex ファイル中の該当箇所を検出するアルゴリズムを検討
- 単純に pdf からテキスト化された文章(当然複数の単語からなる)と Texコマンドを含む Tex ソースファイルを比較した場合、適切にマッチできないことが判明。全くマッチしないわけではなく、複数行の最後の部分でマッチするケースもあった。

- 使えるかもしれない(が、目的が違うので微妙かもしれない)類似プログラム --- pysimilar
単純な文章の類似度判定†
pdftotext と detex で特殊文字が違ったエンコードになった(些細だが、ハマる)†
'What is "Cloud Native" and how it works?' <----- detex (from Tex)
'What is ”Cloud Native” and how it works?\n' <---- pdftotext (from PDF)