outline_iptalk9t66.html

170430


IPtalk9t66の変更点の概要

戻る


2017年4月22日版

sfx_iptalk9t66VR (10,583KB)
(VR: Voice Recognition、音声認識)
(音声認識関係ほかのDLLやマニュアル同梱版)
(ViaSkypeや、httpサーバーなど、全てのDLLを同梱)

・パソコン要約筆記用
sfx_iptalk9t66 (2,098kB)
(IPtalk本体のみ)
(DLLなし)

上の2つは、IPtalk本体は両方とも共通です。
同梱されているファィルのみの差です。

170422
2016年4月29日のIPtalk9t65から、約1年ぶりの公開バージョンアップです。

・Googleの無料の音声認識をIPtalkから使うことができます。
・また、IPtalkと連係するスマホ・タブレット用音声認識アプリ「IP音声」(日種さん作成)も同時に公開されました。

・認識文の訂正機能として、音声認識文を「テンプレート前ロール」ウィンドの「ロール1」に転送し、前ロールとして訂正・追記する「ロール1修正機能」を作りました。
・他に「テンプレート前ロール」ウィンド「ロール3」で「訂正送信」ウィンドの機能と「ルビ送信」ウィンドの機能を使う機能を追加しました。

音声認識に関しては、2013年11月のIPtalk9t64にドラゴンスピーチから認識文を受け取る機能を追加して以来、約3年半ぶりとなります。



入力関係 (音声認識)

「IPtalk_s2t_Chrome」ウィンド

【概要】
・連続認識(注1)が可能なGoogle Chromeブラウザーの音声認識(Google Web Speech API)の認識文をIPtalkに取り込むことができます。
・Google Chromeブラウザーをインストールする必要がありますが、実用的な音声認識を無料で利用することができます。

Google Chromeブラウザー(無料)は以下からダウンロードできます。
https://www.google.co.jp/chrome/browser/desktop/

【注意】
パソコンをインターネットに接続する必要があります。

説明書があります。(同梱されています。)
170422IPtalk_s2t_Chromeウィンドの説明

(注1) 
1発話ごとにボタンを押す必要は無いのですが、5分〜6分で一度終わってしまうので、またボタンを押す必要があります。(回数の制限は無さそうです。)



入力関係 (音声認識)

アンドロイドのスマホ・タブレット用のアプリ「IP音声」
(日種さん作成)


【概要】
・「IP音声」は、日種さん作成のIPtalk用の音声認識アプリです。
・Androidのスマホやタブレットで簡単に使うことができます。
Google Android Speech API を使っていて、無料で利用できます。

【注意】
スマホ・タブレットはインターネットに接続する必要があります。

「IP音声」は、以下のURLからダウンロードできます。
http://earch.net/ipon/

説明書があります。(同梱されています。)
170422IP音声の説明

【注意】
暫定版をインストールしている場合は暫定版をアンインストールしてからインストールしてください。
上書きインストールするとエラーになります。



入力関係 (音声認識)

「音声認識」ウィンド

【概要】
・IPtalkの「音声認識」ウィンドで「Google Speech API ver.2」の音声認識を無料で試すことができます。
・毎回、ボタンを押す必要があったり、ダイアログが出たり、1日50回までの制限とか、実際の入力に使用することは難しいのですが、Google Chromeブラウザーをインストールしなくても試せます。
・音声認識のイメージ(自分の声の認識率や、表示の流れ方など)をIPtalkのみで手軽に試すことができます。

【注意】
パソコンをインターネットに接続する必要があります。

説明書があります。(同梱されています。)
170422音声認識ウィンドの説明



訂正関係 (音声認識)

「テンプレート前ロール」ウィンドの「ロール1修正機能」

【概要】
・音声認識ソフトの認識文を「テンプレート前ロール」の「ロール1」に取り込んで、追記、修正してF1で表示に流すことができます。
・この機能を簡単に体験・練習できるように「原稿前ロール」を使った練習機能を作りました。ドラゴンスピーチで認識させた例題「○テンプ前ロール修正の練習用音声入力ログ.txt」も同梱します。

【注意】
通常の連係入力時の確認修正にも使えます。

説明書と例題があります。(同梱されています。)
170422ロール1修正機能と練習機能の簡単な説明
○テンプ前ロール修正の練習用音声入力ログ



訂正関係

「テンプレート前ロール」ウインド「ロール3」のF6表示修正とF5ルビ送信

【概要】
1)F6表示修正機能
・「表示部」に表示された文を「前ロール3」に取り込んで、「訂正送信」ウィンドの機能やF7キー、F11キー、F9キーなどの訂正Fキーで利用できます。
・表示に流してしまった音声認識文を修正する時などに使うことができると思います。
2)F5ルビ送信機能
・「ロール3」に取り込んだ文を使ってF5キーで「ルビ送信」ができます。F5「ルビ送信」機能は、F6「表示訂正」機能と混在して使えます。
(この機能は、F6修正機能のついでに作りました。)

説明書があります。(同梱されています。)
170422「ロール3」のF6 表示修正とF5 ルビ送信の説明

表示関係 (不具合対策)

・「表示3」の「スマートフォン・iPhoneやPSPやIEなどのブラウザーで表示を見る」が最新のIPhoneのブラウザーで文字バケする対策

これはベータ版のIPtalk9t66_160924で公開していた対策です。
1)「表示3」ページの「スマートフォン・iPhoneやPSPやIEなどのブラウザーで表示を見る」枠に「httpサーバーで送信(文字バケする時)」チェックを追加した。
2016年モデルのiPhoneのブラウザーの文字バケ対策。
チェックを入れると「httpサーバー」ウィンドが開く。
指定は、従来と同様に「表示3」ページで行い、「httpサーバー」ウィンドは、それをUTF8(ユニコード)に変換して送信する。
(従来の「表示3」ページの「送信する」チェックを入れた場合は、S-JISで送信する。)
「送信開始」「待たせる」「名前とパスワード」は、「httpサーバー」ウィンドのチェックで指定する。
「画像にして送信」は対応していない。
「httpサーバー」ウィンドは、位置、大きさなどは表示設定で保存されない。(今のところ)

【使い方】
・「表示3」ページで「Script使用」チェックを入れて「httpサーバーで送信(文字バケする時)」チェックを入れる。
・「httpサーバー」ウィンドが開く
・「送信開始」チェック、「待たせる」チェックを入れる。
・「入力部」で何か入力する。
・iPhoneなどのブラウザーで、赤く表示された「http://192.168.1.2」などのアドレスを入力する。
・表示されない時は、ブラウザーで「再読み込み」の操作をする。

【ヒント】
・表示部の文字色、背景色、行数や1行の桁数などが、自動的に反映されます。
・ルビはカッコ付きに変換して送信します。

 

表示関係
「テンプレート前ロール」ウィンドの漢字変換時の背景色指定

「入力1」ページの「漢字変換色」枠の「文字色」「背景色」ボタンの色指定で「テンプレート前ロール」ウィンドの「前ロール1」枠から「前ロール3」枠の背景色も変更するようにした。


入力関係
「テンプレート前ロール」ウィンドのショートカットキー

「テンプレート前ロール」ウィンドの「確認」ページの「ロール1で入力確認修正」枠に「Ctrl+abefkショートカット」チェックを追加した。
チェックを入れると以下のショートカットが「ロール1」で使えるようになる
C-b: 1 文字後に移動
C-a: 行の先頭に移動
C-e: 行の末尾に移動
C-f: 1 文字前に移動
C-k:カーソルの位置から行末まで削除
(ただし、Ctrl+Kで削除した部分はコピーバッファに保存。C-vで貼り付け可能)

(このショートカットキーは、Emacsに慣れている人用です。)


入力関係
「原稿前ロール」


「原稿前ロール」ウィンドの「前ロールA自動流し」枠に「確認修正パレットへ1行づつ流す」チェックと「表示部へ1行づつ流す」チェックを追加した。
これは、「テンプレート前ロール」ウィンドの「ロール1修正機能」の練習機能として作った。

説明書と例題があります。(同梱されています。)
170422ロール1修正機能と練習機能の簡単な説明
○テンプ前ロール修正の練習用音声入力ログ


メンバーを探す(不具合対策)
「クラス標準のサブネットマスクではない時」チェック


「クラス標準のサブネットマクスではない時」チェックを一度入れて、チェックを外すと「メンバーを探す」ボタンで、メンバーを探せなくなる不具合の対策。

機能追加の背景など
IPtalk試行錯誤的開発への協力のお願い(その1)
「音声認識文を前ロールとして使う入力方法」
「ロール1修正機能」を作った背景


【背景】
 2016年7月にGoogleから「ディープラーニングニューラルネットワーク技術」を使った最新の音声認識(Google Cloud Speech API)が破格の料金で一般公開されました。月1時間まで無料、その後は1時間使うと170円くらいの従量制の料金です。(注1)
今後は、このGoogle音声認識を使ったいろいろなソフトが作られ、IPtalkに音声認識結果を流し込めるソフトが出ることも予想されます。
 音声認識をパソコン要約筆記に応用しようとした歴史は古く、IPtalkでも2000年ごろに、音声認識文を入力者が訂正する「確認修正パレット」を作りましたが、熟練者が入力する連係入力の方が優れていたことはみなさんご存知の通りです。
 近年、音声認識は格段に進歩して、条件さえ整えば認識率は実用的なレベルと言えるようになりました。しかし、情報保障の観点からは、「認識率100%の音声認識文」というのは「逐語文入力」に当たり、それらの是非については、正確性と「要約」「整文」の必要性の議論として長年続けているわけですが、未だに定説は出ていません。ただ、利用者が「逐語文入力」だけでなく「要約文入力」「整文入力(全文入力)」も望んでいるということは、今さら言うまでもありません。1)
 そこで、音声認識を「要約文入力」「整文入力(全文入力)」に活用する方法のトライとして、音声認識文を前ロールとして使い修正入力する「ロール1確認修正機能」を作りました。
(音声認識は、即時性が高いという利点があります。その利点である即時性は前ロールに使い、入力者の負担が軽減した分を可読性や正確性に振り向けようという考えです。つまり、入力者が主で、音声認識を補助とする入力方法です。)
 将来、音声認識が手軽に利用できるようになった時の入力方法の1つのアイデアとして、検討のために、この機能を作りました。みなさんに試していただいて、感想やアイデアを教えてもらえると助かります。
(注1) https://cloud.google.com/speech/

IPtalk試行錯誤的開発への協力のお願い(その2)
「音声認識を活用した情報保障のトライ」
Googleの無料の音声認識をIPtalkに組み込んだ背景


【背景】
 IPtalkのユーザーからパソコン要約筆記、PCテイクの代わりに音声認識ソフトが導入されるケースが増えていると聞いています。しかし、現状の認識率(安定性も含めて)では、訂正係りが必須だということは、IPtalkのユーザーには今さら言うまでも無いことだと思います。ところが、音声認識ソフトを導入する場合は、「ほとんど認識率100%だ」「初心者の訂正係り1人で情報保障できる」と言われて半信半疑でいるということのようです。それは「デモで見た」という話だと思うのですが、「デモとは、そういうもの」で、すべての現場がそう行くほど甘くはありません。
 問題と聞いているのは、話者や先生が認識文をチェックする訳ではなく、認識文に責任を持つ人がはっきりしないとか、利用者が不確かな音声認識の文を見て分かつたつもりになってしまうことが放置されがち、などです。もちろん、それは音声認識ソフトに責任があるわけではなく、使い方の問題です。
 つまり、せっかくの最先端の技術・ソフトを導入しても、情報保障という観点での配慮、要約筆記の歴史の中でさんざん言われて来たいろいろな配慮が不足しているのだろうと思います。音声認識ソフトを導入する時に、長年、IPtalkで情報保障して来たみなさんのアドバイスが活かされれば、このような話にはならないだろうと思うわけです。
 話を聞いてみるとIPtalkのユーザーは、問題だと思う時もあるし、アドバイスしたい気持ちはあるが、自分が音声認識の経験が無いから強く言えないということが一番の理由のように感じました。
 ちょっと試すには、音声認識ソフトは高過ぎると思います。それで無料の実用的な音声認識を組み込みました。
 (他には、「ちんたら訂正するより、私が入力した方が速くて正確!」という意見も多いと思います、もちろん。)
 みなさんに音声認識を使った入力を試してもらい、情報保障としての方法を考えていただき、上のようなケースに積極的に関与して、アドバイスできるようになっていただき、「音声認識ソフトを入れたから、これからはパソコン要約筆記や手話通訳は頼まないよ」などというような話を聞かないようになれば良いと思っています。


参考文献のリンク

1)音声認識技術を利用した字幕呈示システムの活用に関する研究
―聴覚障害者のニーズに即した呈示方法―
中野 聡子、金澤 貴之、牧原 功、黒木 速人、上田 一貴、井野 秀一、伊福部 達
メディア教育研究 第5巻 第2号
Journal of Multimedia Aided Education Research 2008, Vol.5, No.2, 63−72




【古いバージョンの概要】
IPtalk9t65の概要
IPtalk9t64の概要
IPtalk9t63の概要