バグ #494: PDFテキスト抽出機能実装 - コーディング自動化基盤 - Call to Arm

操作

リンクをコピー

バグ #494

未完了

PDFテキスト抽出機能実装

Redmine Admin さんが7日前に追加.

ステータス:

新規

優先度:

高め

担当者:

-

開始日:

2025-06-11

期日:

進捗率:

0%

予定工数:

説明

概要¶

レジュメ変換システムのPDFテキスト抽出機能を実装します。PDF.jsを使用して、アップロードされたPDFファイルからテキストを抽出し、解析可能な形式に変換します。

作業内容¶

PDF.js導入と設定
- PDF.jsのインストール
- ワーカーの設定
- スタイルシートの設定
- 基本設定
PDFパース処理実装
- PDFファイル読み込み
- ページ単位の処理
- テキストレイヤー抽出
- メタデータ抽出
テキスト抽出処理実装
- テキストコンテンツ抽出
- フォント情報抽出
- レイアウト情報抽出
- 文書構造推定
テキスト前処理実装
- 不要な空白・改行の正規化
- エンコーディング処理
- 特殊文字処理
- セクション分割
エラーハンドリング実装
- パスワード保護PDF対応
- 破損ファイル対応
- スキャン画像PDFへの対応
- 再試行ロジック

成果物¶

PDF.js設定モジュール
PDFパース処理モジュール
テキスト抽出モジュール
テキスト前処理モジュール
エラーハンドリングモジュール

技術スタック¶

PDF.js
Node.js
TypeScript
Express.js

参照¶

親チケット: #472（ファイルアップロード・テキスト抽出機能）
関連チケット: #493（ファイルアップロード機能実装）

表示するデータがありません

操作

リンクをコピー

他の形式にエクスポート: Atom PDF