【供養】未踏事業への提案が採択されませんでした

TL;DR

「未踏」とは、国が支援するIT人材の発掘・育成事業
友達と一緒に応募した
落ちた

f:id:splas_boomerang:20190604002539j:plain — 提案に当たり購入した書籍

初めに

未踏事業というものがあります。

「未踏」は、経済産業省所管である独立行政法人情報処理推進機構が主催し実施している、”突出したIT人材の発掘と育成”を目的として、ITを活用して世の中を変えていくような、日本の天才的なクリエータを発掘し育てるための事業です。

提出年の4月1日に25歳未満であることが条件で、今年が最後のチャンスでした。そこで名古屋に住んでいた時からの友人である @tomori_hikage を誘い、一緒に提案書を出しました。

未踏に採択されると業界で活躍する方がプロジェクトマネージャー(PM)となり、プロジェクトに対してアドバイスを貰える点が魅力的に感じました。また、作業時間に応じて時給1,600円が付与されます。今回はOSS開発の提案書を出したのですが、本来であれば自分たちだけで進めなければならないプロジェクトを国が支援してくれる点が非常に魅力だと感じました。

結果としては一次審査で不採択となってしまったのですが、多くの時間と労力を割いて議論をし社会的に意義があると思える提案を考えられたので、ここで公開したいと思います。

参考: delihiros.hatenablog.jp

提案内容

テーマ名

手話を使ったなめらかなVR アバターコミュニケーションシステム

なにをつくるか

VRChatをはじめとするソーシャルVRと呼ばれる仕組みがある。これはVR空間上で複数の人間がアバターを用いてコミュニケーションを行うためのものである。実際には離れた場所にいる人同士が、VR アバターを用いて音声、表情、ジェスチャーなど多くの情報をやり取りすることで、現実空間で対面している時と同質のコミュニケーションが実現可能である。

このように優れた仕組みであるソーシャルVRであるが、反面、意思疎通をする際の情報の多くは音声に依存している現状がある。そのため耳が聞こえない聴覚障害者や、発声に障害がある音声障害者の方は、現状のソーシャルVR上でのコミュニケーションが困難である。そこで本プロジェクトでは従来のソーシャルVRに手話のインターフェースを追加したシステムを提案する。

このシステムでは、手話の動きを認識して音声に変換する機能と、相手の音声をテキストもしくは手話アニメーションに変換する機能の大きく2つが存在する。

手話話者と音声話者が対話をする場合、まず手話話者が現実で行う手話を認識し、テキスト情報に変換する。変換されたテキストは音声合成されて音声話者に対して提示される。また、音声話者の声は音声認識によってテキスト情報に変換され、手話話者に対してテキストもしくは手話アニメーションとして表示される。つまり、お互いがお互いの意思疎通手段を意識することなくコミュニケーションが可能となる。

どんな出し方を考えているか

広く多くの人に使ってもらえるよう、フリーソフトかつオープンソースソフトウェアでの頒布を考えている。

構成としては、手話話者が用いるスタンドアロンのアプリケーションとして開発をする。手話話者が本プロジェクトのアプリを用いて手話を行うと、ソーシャルVR上で相手からは合成音声としてメッセージが伝えられる。また、音声話者からの声は本アプリが音声認識を行い、テキストもしくは手話アニメーションとして変換する。変換後、OpenVRという規格を用いてソーシャルVR上にオーバーレイ表示をする。OpenVRは現在多くのユーザーがいるVRChatにも使われている規格であるため、広い利用が見込める。

本プロジェクトのコアとなる手話認識部分にはManus VR(https://manus-vr.com)を用いることを検討している。これはグローブ型のデバイスで細かい指の動きなどを取得することができる。価格が高価であるため多くの人が使いやすいとは言えないが、まずは高い認識精度が見込めるもので開発を進め、今後画像認識ベースなどより使いやすいものへの代替などを考えている。

斬新さの主張、期待される効果など

本プロジェクトの本質は、VR技術によって様々な性質を持つ人達がなめらかにコミュニケーションできる世界を目指すものである。聴覚障害、音声障害があることとコミュニケーションに難があることは現実に依存した問題であるため、これを解決することは非常に意義があることだと考える。

また、今回はソーシャルVRと手話というキーワードに着目したが、例えばMagic Leap, HoloLensのようなMRデバイスを用いて、現実でも手話話者が音声話者のように振る舞える応用も考えられる。また、本システムでは音声、手話のいずれもテキスト情報に変換しているので、翻訳機能を追加することで多言語コミュニケーションの促進にも活用できる。

開発ロードマップ

例: hogehoge(作業項目) vX.X.X(リリースバージョン) fuga(作業者) [xx h](作業時間)

アプリケーションの基盤機能 v0.1.0 nkjzm
- Unityプロジェクトの作成 v0.1.0 [16h]
  - Final IKとVive Trackerのセットアップ v0.1.0
- プレビュー機能の作成 v0.1.0 [16h]
手話をテキストに変換(モーション推定) tomori (nkjzm)
- Manus VRのセットアップ v0.2.0 [16h]
- 手法の選定 (パターンマッチングなど) v0.2.0 [32h]
- 単純な手の動き(Vive)を推定をするモックの実装 v0.3.0 [64h]
- 指の細かい動きを推定する機能の実装 v0.4.0 [64h]
- 指と手の動きを推定する機能の実装 v0.5.0 [64h]
- ジェスチャー認識のインターフェース化 v1.x.x [16h]
- 精度向上 v1.x.x [64h]
- 画像認識を使って実装 v1.x.x nkjzm [128h]
- HoloLens2/MagicLeap上で取得できる手からの対応 v1.x.x[128h]
テキストを音声に変換(音声合成) v0.2.0 nkjzm
- VOICEROID v0.2.0 [16h]
- 標準出力以外に対応 v0.2.0 [32h]
音声認識(音声をテキストに変換) nkjzm
- ライブラリ選定 v0.3.0 [16h]
- 音声認識でテキストを表示する機能の実装 v0.4.0 [32h]
- 標準入力以外からの音声を取得 v0.4.0 [32h]
OpenVRオーバーレイ nkjzm
- ref: https://sabowl.sakura.ne.jp/gpsnmeajp/unity/vaniimenu/
- テキスト表示 v0.5.0 [64h]
- テキストを手話に変換 v1.x.x [256h]
  - 手話モーション生成
  - 各形状の生成
  - アニメーションの仕組み

v0.5.0時点でミニマムの完成予定 (計464h) v1.x.x以降は残り期間など状況に応じて進める(+608h)

開発にかかわる時間帯と時間数

時間帯: 平日20時以降もしくは土日時間数: 8h*2人/1週 = 16h/1週 = 64h/1月 = 576h/全期間

予算

プロジェクトに必要な作業時間×時間単価

上記の計算式に則り計算した

ミニマム: 464h * 1,600円 * 1.08(消費税) = 801,792円 最大: (464h+608h) * 1,600円 * 1.08(消費税) = 1,852,416円

所感

大学在学中に未踏事業の説明会がありました。その時は雲の上の存在だと感じて聞き流してしまいましたが、今思うと未熟でも提案してみればよかったと思いました。

過去の採択された事業が以下から見られます。落ちた立場でこういうことを言うのはアレですが、必ずしも手が届かないほど突出したプロジェクトばかりではないので誰しもにチャンスがあると思います。

www.ipa.go.jp

これを見て少しでもやってみようと思えた人はぜひ提案してみて欲しいです。大変だと思いますが未踏事業に採択されることは今後の人生に必ず良い影響を与えると思います。

最後に

今回の提案内容については、採択されなかったためペンディングとなりました(事前に同意形成をしていました)。もし共感していただきやってみたいと思った方がいれば、ぜひ実現してください。また、もしかしたら僕たちがそのうち再開するかもしれないです。

余談ですが、多くの時間と労力を割いた提案が棄却されるのは思った以上にダメージがありました。広告営業職など、日常的にこうしたコンペ形式の提案をしている方は大変だなぁと思いました。

未踏事業に割くはずだった時間の余裕が出来たので、他のことで頑張りたいと思います。

※2019.06.04 23:30追記

PMからのFB

IPAからの届いた不採択の書類に記されていた内容を転機しました。

評価欄にはまず、一般的な不採択理由が説明されていました。未踏に不向きな提案である場合(ハッカソンや未踏アドバンストなど)、説明が不十分な場合、アイデアが十分に尖っていなかった場合などが、丁寧に説明されていました。その後個別の評価が記されています。

下記コメントは全PMの意見をマージしたものなので、肯定的な意見と否定的な意見が混ざっているという但し書きがありました。

手話と音声の相互翻訳の提案でした. VRChatがレッドオーシャンという中で手話というUIに着目したのはうまいニッチです. しかし, 提案書の内容がまだ掘り下げられていない感があります. 現状での手話認識がどこまで技術が進んでいるか, 何ができていないかなどの調査が足りないように思います. ただこういった多様な人たちが滑らかなコミュニケーションがとれるようになるための支援システムというアイデアは良い方向性だと思います. そのほかのちょっと厳し目のコメントをいくつか列挙します. 「Manus VRのセンスだけで手話の意味が伝わるのだろうか？」, 「キーボード, ソフトウェアキーボード, フリック入力などではだめか？」, 「手話に対するこだわり, 理解度が提案書に感じされない」など.