バグ #495: DOCXテキスト抽出機能実装 - コーディング自動化基盤 - Call to Arm

操作

リンクをコピー

バグ #495

未完了

DOCXテキスト抽出機能実装

Redmine Admin さんが8日前に追加.

ステータス:

新規

優先度:

高め

担当者:

-

開始日:

2025-06-11

期日:

進捗率:

0%

予定工数:

説明

概要¶

レジュメ変換システムのDOCXテキスト抽出機能を実装します。Mammoth.jsを使用して、アップロードされたDOCX（Word）ファイルからテキストを抽出し、解析可能な形式に変換します。

作業内容¶

Mammoth.js導入と設定
- Mammoth.jsのインストール
- 基本設定
- 変換オプション設定
- スタイル設定
DOCXパース処理実装
- DOCXファイル読み込み
- ドキュメント構造解析
- スタイル情報抽出
- メタデータ抽出
テキスト抽出処理実装
- テキストコンテンツ抽出
- フォーマット情報保持
- 表・リスト構造の処理
- 画像・図形の処理
テキスト前処理実装
- HTML形式からのテキスト抽出
- 不要なタグ・属性の除去
- セクション分割
- レイアウト情報の正規化
エラーハンドリング実装
- パスワード保護DOCX対応
- 破損ファイル対応
- 複雑なフォーマット対応
- 非標準要素対応

成果物¶

Mammoth.js設定モジュール
DOCXパース処理モジュール
テキスト抽出モジュール
テキスト前処理モジュール
エラーハンドリングモジュール

技術スタック¶

Mammoth.js
Node.js
TypeScript
Express.js

参照¶

親チケット: #472（ファイルアップロード・テキスト抽出機能）
関連チケット: #493（ファイルアップロード機能実装）
関連チケット: #494（PDFテキスト抽出機能実装）

表示するデータがありません

操作

リンクをコピー

他の形式にエクスポート: Atom PDF