音声認識システムについて

AI音声認識システムおすすめ10選!認識精度に違いがある?

記事更新日: 2022/12/08

執筆: 木下千恵

AI技術の発展とともに、ここ数年で音声認識システムがどんどん進化しています。

ビジネスシーンでも効率化や生産性の向上が期待できますが、システムによって精度や価格に違いがあるため、製品選びが重要です。

音声認識システムとは

システム選びに入る前に、まずは音声認識システムの基本について理解しておきましょう。

音声認識システムとは、人間の発した言葉や声をテキストデータに変換して出力する仕組みを指します。

身近な例でいえば、スマートフォンやホームスピーカーに搭載されているSiri、Alexaなども音声認識技術を活用しています。

技術自体は古くからありますが、ここ10年ほどでAI技術の発展とともに認識精度が高まり、ビジネスや日常生活でも十分実用に耐えるレベルにまで進化しました。

すでにコールセンターや議事録作成などで活用されていますが、これからさらに用途が広がって、私たちの生活を変える可能性を秘めています。

音声認識システムが役立つシーン

続いて、音声認識システムがビジネスで役立つシーンをさらに具体的に見てみましょう。

1. 会議の議事録作成

音声認識と聞いて真っ先に思い浮かぶ用途が議事録の作成ではないでしょうか。

従来の会議では書記の役割にひとり必要でしたが、音声認識システムを使えば記録に気を使わず会議に集中できて、生産性の向上につながります。

システムによっては、話者を識別して書き分けたりテキスト化する際に口語を整型してくれたりと便利な機能が備わっており、より効果的です。

2. コールセンターでの顧客対応・モニタリング

コールセンターでは顧客対応がどのようにおこなわれたかを記録して改善に活かす必要がありますが、その際にも音声認識システムが役立ちます。

まず、オペレーターが自身で履歴を作成する手間が省けるため、顧客対応に集中でき、業務効率化につながるのが最大のメリットです。

テキストデータなら音声よりも圧倒的に効率良くモニタリングや共有がおこなえるため、オペレーターの教育やサービス改善の高速化も期待できます。

3. AI接客、自動対応

音声認識をボットと組み合わせれば、顧客に自動対応する仕組みも作り上げられます

たとえばヘルプデスクなら、まず音声認識で顧客の質問を聞いて回答のリンクを自動で送り、それでも解決しなければオペレーターにつなぐという対応が可能です。

窓口対応なら音声システムやタブレットなどと連携して顧客と対話して案内する仕組みも作れるでしょう。

コロナ禍で特に需要が大きくなりつつある分野です。

音声認識システムの比較ポイント

実際にシステムを選ぶ際は、いくつかの重要なポイントを基準に各システムを比較すると良いでしょう。

1. 認識精度

音声認識システムを選ぶうえで最も重要な基準です。

搭載されている語彙の数が多く、繰り返し使うことで自動学習する仕組みが備わったシステムを選ぶと失敗が少ないでしょう。

2. 拡張機能

音声認識と文字出力のほかに、拡張機能としてリアルタイム認識、語彙の追加、音声によるアプリ操作やチャットボットなどを備えているシステムもあります。

導入する目的を明確にしたうえで、必要十分なシステムを選びましょう

3. 価格、導入形態

システムごとに価格体系が異なり、海外大手企業のサービスは従量課金、国内のものは月額制が多くなっています。

また、拡張機能の多いシステムは料金が高い傾向にあり、さらにオンプレミス、クラウドと導入形態によっても価格が異なるため、その点も比較しましょう。

とくにおすすめのAI音声認識システム4選

1. Google Cloud Speech-to-Text

画像出典元:「Google Cloud Speech-to-Text」公式HP

特徴

Google Cloud Speech-to-Textは、Google独自のAI技術を活用した音声認識システムです。

対応言語は125以上と業界最多クラスで、かつ認識精度やカスタマイズ性にも優れています。

全体として、他のポピュラーな音声認識システムと比べても性能面では第一の選択肢になるシステムと言えるでしょう。

無料で利用できる量がIBMやMicrosoftの製品と比べてやや少ないことだけは注意すべきポイントですが、コスパが悪いというほどではありません。

機能

  • 125以上の言語に対応
  • 音声適応(認識のカスタマイズ)
  • 音声分野固有の認識モデル

料金プラン

▶初期費用:なし

▶月額利用料:
・標準モデル:60分/月まで無料、60分超~100万分まで0.004ドル/15秒〜
・拡張モデル:60分/月まで無料、60分超~100万分まで0.006ドル/15秒〜

2. Watson Speech to Text

画像出典元:「Watson Speech to Text」公式HP

特徴

業界最高クラスの性能を誇るAI「Watson」を活用した音声認識システム。

繰り返し使って分野独自の言語や声の特性に適応するトレーニング機能や話者を識別する機能などが特徴です。

また、カスタマーケア(カスタマーサービス)向けに最適化されたモデルを利用できるため、コールセンターでの活用には最適なシステムと言えます。

導入形態も幅広く、またIBMの万全なセキュリティ体制によって運用されるため、安心して利用できるシステムです。

機能

  • 音声認識モデルのトレーニング
  • 話者識別
  • カスタマーケアに特化したモデル

料金プラン

▶初期費用:なし

▶月額利用料:
・Lite:無料(500分/月まで)
・Plus:0.02ドル/分〜
・Premium:要問い合わせ
・Deploy Anywhere:要問い合わせ

3. Microsoft Speech Services

画像出典元:「Microsoft Speech Services」公式HP

特徴

Microsoftの提供する音声認識ソリューション。

受賞歴のある認識品質の高さに加えて、リアルタイム認識や話者認識などの機能もしっかりカバーしています。

また、音声→文章だけでなく文章→音声の技術も兼ね備えており、会話型アプリや音声制御システムの作成もできます。

価格設定の柔軟性、セキュリティの高さ、豊富な導入実績なども魅力で、バランスが良く使いやすいシステムと言えるでしょう。

機能

  • 話者の識別
  • 発話アプリの作成
  • 音声制御システムの作成

料金プラン

▶初期費用:なし

▶月額利用料:
・Free:5時間(300分)/月まで無料
・従量課金:1ドル/1時間〜
・コミットメント:1,600ドル/2,000時間〜

4. Amazon Transcribe

画像出典元:「Amazon Transcribe」公式HP

特徴

AWSソリューションのひとつとしてAmazonが提供するクラウド型の音声認識システム。

他ツールと同様に充実した機能を備えており、さらに他にはない医療業界に特化した音声認識モデルを提供している点にも注目です。

医療業界での活用を考えている企業にとってはうってつけのシステムと言えます。

また、ユースケースや改善実績の豊富さ、すでにAWSを導入している企業であればすぐに利用できる手軽さなども魅力的です。

機能

  • 医療業界特化の認識モデル
  • 機密情報のマスキング

料金プラン

▶初期費用:なし

▶月額利用料:
・60分/月まで無料(12ヶ月間)
・スタンダード:0.0108ドル/分〜
・拡張機能(PIIリダクション/CLM)の追加料金:0.00108ドル/分〜

コールセンターにおすすめのAI音声認識システム

1. Nuance

画像出典元:「Nuance」公式HP

特徴

AIをコアにした包括的なソリューションで、アメリカのフォーチュン100企業でも数多く導入されています。

音声認識を活用したソリューションとしても、会話型AIシステム、生体認証、コールセンターのオペレーターへの自動サポートなど幅広い内容を提供しています。

単純な音声認識というよりは、その先の課題解決や業務変革までワンストップで済ませたいという企業が利用するべきサービスと言えるでしょう。

機能

  • 会話型AI(電話、メッセージ、テレビ)
  • 生体認証/詐欺防止システム
  • オペレーターへの自動サポート

料金プラン

詳細についてはお問い合わせが必要です。

2. AI Dig

画像出典元:「AI Dig」公式HP

特徴

AI Digは、音声認識技術を活かしてコールセンターのオペレーター業務を支援するサービスです。

応対中のやりとりをテキストに起こすだけでなく、回答の候補をAIが推測してオペレーターに表示することも可能で、応対品質の向上や教育に役立ちます。

また、管理者向けのモニタリングや分析機能も充実しています。

コールセンター業界に特化した国産システムのため、ニーズと合致していれば大手企業のシステム以上に有力な選択肢になるでしょう。

機能

  • 回答候補の検索、表示
  • 通話内容のリアルタイムモニタリング
  • 統計分析画面
  • 学習による認識精度向上

料金プラン

▶初期費用:
・2ヶ月検証パッケージ:150万円〜(利用料含む)
・本番導入:30万円

▶月額利用料:
・本番導入:40万円〜

 

3. AI Log

画像出典元:「AI Log」公式HP

特徴

AI Logは、コールセンターの応対品質管理を効率化するサービスです。

通話内容をリアルタイムでテキスト化するとともに、チャット形式で整理して表示してくれるのが大きな特徴

また、特定のワードを指定することで、禁止ワードを使っていないか、伝えるべき内容を話しているかを確認して抽出できます。

AI Digと同様、コールセンター業務への活用を考えている企業にはうってつけのシステムと言えます。

機能

  • リアルタイム認識とチャット形式表示
  • 特定ワードによる検索

料金プラン

▶初期費用:
・2週間トライアル検証パッケージ:無料
・2ヶ月検証パッケージ:200万円〜(利用料込み)
・共有環境プラン:25万円
・占有環境プラン:60万円

▶月額利用料:
・2週間トライアル検証パッケージ:無料
・共有環境プラン:30万円
・占有環境プラン:50万円

 

4. Hmcomm

画像出典元:「Hmcomm」公式HP

特徴

Hmcommは公的研究機関である産総研発のベンチャーとして、音とAIを活用したさまざまな音声解析ソリューションを提供する企業です。

AIの自動学習を活かした高精度の音声認識が特徴で、コールセンター業務の見える化、自動応対などを実現できます。

そのほかAI議事録の「ZMEETING」や、製造業や医療機器のメンテナンスに役立つAI異音検知ソリューションなども提供。

国産システムらしく細かい機能も豊富で、かつ国内大手企業への導入実績も豊富なため、使い勝手を重視するのであればぜひ検討したいサービスです。

機能

  • コールセンターでの応対テキスト化/モニタリング
  • AIによる自動応対
  • 議事録自動作成
  • 報告書自動作成

料金プラン

詳細についてはお問い合わせが必要です。

議事録作成におすすめのAI音声認識システム

以下はいづれも、議事録に限らずコールセンターなど多用途に対応した音声認識システムです。

一語一句の全文書き起こしや口語の整形など、議事録作成にとくに便利な機能をもつため、こちらで紹介しています。

1. NTT SpeechRec

画像出典元:「NTT SpeechRec」公式HP

特徴

SpeechRecは、 NTT研究所が持つ最新メディア処理技術を活かして作られた音声認識システムです。

議事録やコールセンター、CRM自動入力など、業界や利用用途に合わせてシステムをチューニングして提供してくれるため、認識精度が高いのが特徴。

また、認識した内容をテキスト化する際に読みやすいように整型する処理も可能で、修正の手間が少なくて済みます。

オンプレミスにプライベートクラウドと導入形態も豊富で、NTTが提供していることもあわせて、全体的に安心して利用できるサービスと言えるでしょう。

機能

  • NTT研究所の技術を活用した高精度認識
  • 認識した内容を整型してテキスト化
  • 利用用途に合わせたチューニング
  • 雑音の抑制

料金プラン

詳細についてはお問い合わせが必要です。

2. AmiVoice

画像出典元:「AmiVoice」公式HP

特徴

Amivoiceは、7年連続で国内シェアナンバーワンを誇り、大企業への導入実績を豊富に持つ音声認識システムです。

コールセンター業務や議事録作成に限らず、医療、製造、建設などさまざまな業界、業務向けにソリューションを提供しています。

さらに、AI対話ソリューションや音声認識に適したデバイスの制作など拡張製品も豊富で、国内の音声認識システムではトップの技術力とノウハウを持っています。

機能

  • 議事録作成
  • 商談記録、報告作成
  • 各業界特化の音声認識ソリューション(コンタクトセンター、医療、製造・物流、建設・不動産)
  • AI対話ソリューション

料金プラン

詳細についてはお問い合わせが必要です。

まとめ

音声認識システムは、ビジネスから「会話を記録する」業務の無駄をなくし、効率アップや生産性向上を実現する仕組みです。

特にコールセンターや対話での顧客対応が多い企業にとっては大きな効果が期待できるでしょう。

技術の発展とともにシステムの選択肢も増えているため、認識精度や拡張機能、価格などさまざまな点で比較して最適なシステムを見極めるのが大切です。

今回紹介した比較ポイントや国内外のツールを参考に、自社にぴったりな製品を選んでみてください。

画像出典元:O-dan

その他の音声認識システム

起業LOG運営のプロトスター社では一緒に働く仲間を募集しております

ページトップへ