用意するのは底本一冊のみ!デジタル×アナログで書籍のテキストデータを作成
「スキャン専科」が高精度「OCRテキスト化サービス」を開始
雲紙舎合同会社(所在地:東京都葛飾区、代表:長屋好則)は、当社が運営する法人向けスキャニングサービス「スキャン専科」において、テキストデータがない場合でも、底本一冊から高精度なテキストデータを作成できるOCRテキスト化サービスを2013年12月20日より開始しました。
スキャン専科: http://scanspecial.jp/
OCRテキスト化サービス: http://scanspecial.jp/option/ocr
【サービス提供の背景】
<電子書籍化にあたっての問題“テキストデータがない”>
現在、様々な書籍が紙から電子書籍へと形を変えて出版されています。電子書籍化にあたって必要なのは書籍のテキストを抜き出したテキストデータ。しかし、出版されたのが古い書籍を扱う出版社や、翻訳書を扱う翻訳会社ではテキストデータが残っていないということが多くあります。
大手出版社では、社内にデジタル事業部を設けてテキストデータ作成に対応していますが、中小零細の出版社では人員、コストの面から対応に遅れが生じています。
<スキャンでテキストを抜き出す『OCR』が抱える誤変換問題>
テキストデータがない書籍からテキストを抜き出す時に用いられる処理に『OCR』があります。『OCR』では、スキャンした書籍のページを文字認識ソフトの持つデータと照合し、自動でテキストデータに置き換えることが可能です。
しかし、一見便利な『OCR』にも、精度の面で難点があります。OCRソフト開発メーカーの発表によると、テキストデータ置き換えの精度は95%。100文字のテキストを置き換えると、5文字ほどが誤変換されてしまいます。文庫本の総文字数は数万~十数万文字あり、その5%を修正していく作業はとてつもない労力を必要とします。
【OCRテキスト化サービスの特徴】
<デジタル×アナログで高精度のテキストデータを作成>
スキャン専科が提供するOCRテキスト化サービスは、『OCR』と人の手作業を組み合わせて誤変換の防止を可能にしました。『OCR』で抜き出したテキストデータをスタッフが1ページずつ確認し、誤変換を修正。これにより、高精度のテキストデータを、作成することができます。さらに、オプションとして図をスキャンし、画像データとして抜き出すことも可能です。
OCRテキスト化サービスに必要なのは、底本一冊のみ。これまで、テキストデータを抜き出すために費やしていたコストを解決し、電子書籍化の敷居をより低く、身近なものにしました。
<サービスプラン>
1.レイアウト設定OCR処理
レイアウト設定OCR処理では、段組みや横書き縦書きの読み込み部分を手動で設定することで、OCRソフトが機械的に処理する際に、横書きの文章を間違えて縦書きで読み取ったり、段落を認識しなかったりという誤認識を回避しようとするコースです。ノンブルやページ上部などにある章タイトルを除くことも出来ます。
料金例:700文字400ページ文庫本 40円×400ページ=16,000円
1500文字2段組み余白なし400ページ辞書タイプ 50円×400ページ=20,000円
2.スタッフによる誤変換チェックサービス付き
OCR処理後に、スタッフによる全ページ目視確認を最低1回は行います。誤変換があれば、手修正を施しますので、高精度のテキストデータ化が可能になります。
料金例:1ページの文字数が600文字 120円/ページ
1ページの文字数が1200文字 240円/ページ
3.スタッフによる誤変換2重チェックサービス付き
2のプランで手修正された高精度のテキスト文章を、チェック担当者を代え、再度全ページ目視でチェックするプランです。更に高精度のテキストデータの作成に活用いただけます。
料金例:500文字300ページ文庫本 120円×300ページ×1.4倍=50,400円
1500文字2段組み余白なし600ページ辞書タイプ 300円×1.3×600ページ×1.4倍=32,7600円
※上記3つのプランはOCR処理の料金であり、併せてスキャン料金も必要となります。
■サービス共通項目
納品形式 :pdf、txt、docファイル
対応言語 :日本語、英語のみ
オプション:底本内の図をイメージデータ化(jpgやpngなどのファイル形式) 1箇所/100円(税抜)
【会社概要】
商号: 雲紙舎合同会社
代表者: 長屋好則
所在地: 〒125-0061 東京都葛飾区亀有3-3-5
設立: 2013年8月
URL: http://scanspecial.jp/about_us/company
【報道関係者からのお問い合わせ先】
雲紙舎合同会社
担当:佐藤
TEL:03-6662-5218
MAIL:inquiry@scanspecial.jp
「スキャン専科」が高精度「OCRテキスト化サービス」を開始
雲紙舎合同会社(所在地:東京都葛飾区、代表:長屋好則)は、当社が運営する法人向けスキャニングサービス「スキャン専科」において、テキストデータがない場合でも、底本一冊から高精度なテキストデータを作成できるOCRテキスト化サービスを2013年12月20日より開始しました。
スキャン専科: http://scanspecial.jp/
OCRテキスト化サービス: http://scanspecial.jp/option/ocr
【サービス提供の背景】
<電子書籍化にあたっての問題“テキストデータがない”>
現在、様々な書籍が紙から電子書籍へと形を変えて出版されています。電子書籍化にあたって必要なのは書籍のテキストを抜き出したテキストデータ。しかし、出版されたのが古い書籍を扱う出版社や、翻訳書を扱う翻訳会社ではテキストデータが残っていないということが多くあります。
大手出版社では、社内にデジタル事業部を設けてテキストデータ作成に対応していますが、中小零細の出版社では人員、コストの面から対応に遅れが生じています。
<スキャンでテキストを抜き出す『OCR』が抱える誤変換問題>
テキストデータがない書籍からテキストを抜き出す時に用いられる処理に『OCR』があります。『OCR』では、スキャンした書籍のページを文字認識ソフトの持つデータと照合し、自動でテキストデータに置き換えることが可能です。
しかし、一見便利な『OCR』にも、精度の面で難点があります。OCRソフト開発メーカーの発表によると、テキストデータ置き換えの精度は95%。100文字のテキストを置き換えると、5文字ほどが誤変換されてしまいます。文庫本の総文字数は数万~十数万文字あり、その5%を修正していく作業はとてつもない労力を必要とします。
【OCRテキスト化サービスの特徴】
<デジタル×アナログで高精度のテキストデータを作成>
スキャン専科が提供するOCRテキスト化サービスは、『OCR』と人の手作業を組み合わせて誤変換の防止を可能にしました。『OCR』で抜き出したテキストデータをスタッフが1ページずつ確認し、誤変換を修正。これにより、高精度のテキストデータを、作成することができます。さらに、オプションとして図をスキャンし、画像データとして抜き出すことも可能です。
OCRテキスト化サービスに必要なのは、底本一冊のみ。これまで、テキストデータを抜き出すために費やしていたコストを解決し、電子書籍化の敷居をより低く、身近なものにしました。
<サービスプラン>
1.レイアウト設定OCR処理
レイアウト設定OCR処理では、段組みや横書き縦書きの読み込み部分を手動で設定することで、OCRソフトが機械的に処理する際に、横書きの文章を間違えて縦書きで読み取ったり、段落を認識しなかったりという誤認識を回避しようとするコースです。ノンブルやページ上部などにある章タイトルを除くことも出来ます。
料金例:700文字400ページ文庫本 40円×400ページ=16,000円
1500文字2段組み余白なし400ページ辞書タイプ 50円×400ページ=20,000円
2.スタッフによる誤変換チェックサービス付き
OCR処理後に、スタッフによる全ページ目視確認を最低1回は行います。誤変換があれば、手修正を施しますので、高精度のテキストデータ化が可能になります。
料金例:1ページの文字数が600文字 120円/ページ
1ページの文字数が1200文字 240円/ページ
3.スタッフによる誤変換2重チェックサービス付き
2のプランで手修正された高精度のテキスト文章を、チェック担当者を代え、再度全ページ目視でチェックするプランです。更に高精度のテキストデータの作成に活用いただけます。
料金例:500文字300ページ文庫本 120円×300ページ×1.4倍=50,400円
1500文字2段組み余白なし600ページ辞書タイプ 300円×1.3×600ページ×1.4倍=32,7600円
※上記3つのプランはOCR処理の料金であり、併せてスキャン料金も必要となります。
■サービス共通項目
納品形式 :pdf、txt、docファイル
対応言語 :日本語、英語のみ
オプション:底本内の図をイメージデータ化(jpgやpngなどのファイル形式) 1箇所/100円(税抜)
【会社概要】
商号: 雲紙舎合同会社
代表者: 長屋好則
所在地: 〒125-0061 東京都葛飾区亀有3-3-5
設立: 2013年8月
URL: http://scanspecial.jp/about_us/company
【報道関係者からのお問い合わせ先】
雲紙舎合同会社
担当:佐藤
TEL:03-6662-5218
MAIL:inquiry@scanspecial.jp