Git repos

日本語ファイル(e-learning 用に翻訳したもの)

ソースファイル

行数確認

英語ファイル

処理プロトコル案1・・・失敗(detex の精度が低くテキストの再現性が低い)

処理プロトコル案2・・・pdf からテキストをインデックス化し tex ファイルに反映

plagiarism detection python (盗用・剽窃チェック) アルゴリズムの検討

単純な文章の類似度判定

pdftotext と detex で特殊文字が違ったエンコードになった(些細だが、ハマる)

'What is "Cloud Native" and how it works?' <----- detex (from Tex)
'What is ”Cloud Native” and how it works?\n'  <---- pdftotext (from PDF)

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS