プロジェクト

全般

プロフィール

バグ #494

未完了

PDFテキスト抽出機能実装

Redmine Admin さんが7日前に追加.

ステータス:
新規
優先度:
高め
担当者:
-
開始日:
2025-06-11
期日:
進捗率:

0%

予定工数:

説明

概要

レジュメ変換システムのPDFテキスト抽出機能を実装します。PDF.jsを使用して、アップロードされたPDFファイルからテキストを抽出し、解析可能な形式に変換します。

作業内容

  1. PDF.js導入と設定

    • PDF.jsのインストール
    • ワーカーの設定
    • スタイルシートの設定
    • 基本設定
  2. PDFパース処理実装

    • PDFファイル読み込み
    • ページ単位の処理
    • テキストレイヤー抽出
    • メタデータ抽出
  3. テキスト抽出処理実装

    • テキストコンテンツ抽出
    • フォント情報抽出
    • レイアウト情報抽出
    • 文書構造推定
  4. テキスト前処理実装

    • 不要な空白・改行の正規化
    • エンコーディング処理
    • 特殊文字処理
    • セクション分割
  5. エラーハンドリング実装

    • パスワード保護PDF対応
    • 破損ファイル対応
    • スキャン画像PDFへの対応
    • 再試行ロジック

成果物

  • PDF.js設定モジュール
  • PDFパース処理モジュール
  • テキスト抽出モジュール
  • テキスト前処理モジュール
  • エラーハンドリングモジュール

技術スタック

  • PDF.js
  • Node.js
  • TypeScript
  • Express.js

参照

  • 親チケット: #472(ファイルアップロード・テキスト抽出機能)
  • 関連チケット: #493(ファイルアップロード機能実装)

表示するデータがありません

他の形式にエクスポート: Atom PDF