①の要件で合成音声作成処理に高負荷がかかるようなソフト(VoiceVOX)は使用することは不可能。②の要件でPythonなどのスクリプト言語で開発することも不可能。③は特にネックGoogle Text to Speechの選択も不可能となった。 ※公開されている非公式のライブラリはMIT(商用利用可能)ライセンスだがプログラム自体がスクレイピングして作られているものが多いため、Googleの規約違反をしている可能性が高い。
使えるか分からない研究 ・Music structure determines heart rate variability of singers(音楽構造が歌手の心拍変動を決定する) 合唱はウェルビーイングを高め、心拍変動(HRV)と呼吸の連動を促進する。特に、ゆったりとした呼吸時の呼吸性洞性不整脈(RSA)は心血管系に良い影響を与える。研究では、歌唱がHRVとRSAに及ぼす効果を健康な成人で検証し、歌唱が心臓と呼吸の調和をもたらすことを示した研究。 ・The Pocket Guide to the Polyvagal Theory: The Transformative Power of Feeling Safe ポリヴェーガル理論のポケットガイド: 安全を感じることの変容力 同様の内容。声が身体に与える影響について説明しています。具体的には、歌うことが社会的関与システム全体を活性化する機会を提供し、吸気と呼気のサイクルを通じて迷走神経の影響を調整する方法を示しています。この調整は心拍数を増減させ、自律神経系の状態を安定させることができます。また、声を使うことが顔、頭、咽頭、喉頭の筋肉の神経調節を含むことが強調されています ・The effects of different voice qualities on the perceived personality of a speaker(異なる声質が話し手のパーソナリティ知覚に及ぼす影響) 話し手の声質が聞き手のパーソナリティ評価に与える影響を調査し、特に微笑み声が肯定的な評価を受け、きしむ声が否定的に受け取られることを発見しました。また、男性と女性の話し手では声質による評価に違いがあることも明らかにしました。
Face Mesh MediaPipe FaceMeshは、顔の高精度な3Dメッシュを生成することを目的に作成されたニューラルネットであり、顔のランドマーク検出や顔の表情分析などの機能をもっており、ARフィルターの作成やリアルタイムビデオ通話の顔の追跡などの用途で用いられる。Webカメラの映像をもとに、約450ポイントの顔ランドマークを推定できる。高橋啓治郎氏のリポジトリFaceMeshBarracudaでは、FaceMeshのに加え、目の動きを検出するAIが統合されており、目部分を抽出して瞼の動きを検出ことで、より正確な瞬目行動が可能となることが確認された。一方で、FaceMeshは安価なウェブカメラを使って顔のランドマークを推定できる利点はあるものの、顔が横を向いた際に精度が低くなる傾向が認められた。