インバウンド対策への吉報! AI“Watson”が無料開放へ
人工知能(AI)と言えば“Google Home”やiPhone“Siri”などの知名度が高いようですが、IBMが開発した“Watson(ワトソン)”は2011年にアメリカのクイズ番組に出場し、従来AIが苦手としてきた言葉のニュアンスの理解を克服して見事に優勝した優れものです。その“Watson”がこのたび11月1日から無料提供されます。様々な企業にとっては勿論のこと、インバウンド対策には欠かせない重要な機能が揃っており、今までインバウンド対策の費用面でお悩みだった方々には吉報です。
目次
人工知能“Watson”とは
“Watson”はIBMが開発した「質問応答システム・意思決定支援システム」で厳密に言えば一般的に言われる「人工知能」とは区別されていますがニアイコールと言えるでしょう。「ワトソン」の名前は、IBMの事実上の創立者である「トーマス・J・ワトソン」から取られたもので、“Watson”の基本機能には、会話、翻訳、文章を基にした性格分析、対話を通じた意思決定支援、さらには文章を基に感情や社交性を判断といったものがあります。現在のサポート言語はブラジルポルトガル語、フランス語、日本語、中国語(標準)、アラビア語、スペイン語、イギリス英語、アメリカ英語からなり、利用用途としては以下のようなものです。
◆ 音声による入出力やコミュニケーションが必要な場面での使用。
◆ コール・センターのオペレーターの音声をリアルタイムでテキスト化し、FQAなどのガイドをオペレーターの画面に表示。
◆ 会議における発言をテキスト化してリアルタイムにモニタリングし、議事録として保管するスマホアプリや、IoT家電などの音声操作など。
◆ 電話の自動応答システムで,お客様の声を認識。
◆ メディア・ファイル等に含まれる音声を書き起こす。
など、多彩な用途が見込まれます。
“Watson”の概要
IBMは、AIを「Artificial Intelligence(人工知能)」ではなく、「Augmented Intelligence(拡張知能)」として人間の知識を拡張し増強するものと定義して“Watson”を提供しています。
Conversation 会話系API
アプリケーションに自然言語インターフェースを追加して、エンド・ユーザーとの会話フローを自動化します。共通アプリケーションには、任意のチャネルやデバイスとの統合や通信を行える仮想エージェントとチャットボットが含まれます。“Watson”ではさまざまなコグニティブ技術(※)を組み合わせて、ボットの作成とトレーニングを行います。インテント(アプリケーションソフト間やソフト内の機能間を繋ぎ合わせる仕組み)とエンティティ(データの対象物)を定義し、対話を作成して会話をシミュレーションします。システムは、補足テクノロジーによりさらに洗練することが可能です。システムをより人間らしくしたり、的確な応答を返す確率を上げたりできます。Watson Conversationを使用すると、さまざまなボットを多くのチャネルに導入できます。対象を限定した単純なボットから、より洗練された高性能の仮想エージェントまでを、モバイル・デバイス、Slack(チームコミュニケーションツール)などのメッセージング・プラットフォーム、さらには物理ロボットまでに渡って利用できます。
※:コグニティブ(cognitive)という単語には「経験的知識に基づく」という意味があり、コグニティブ・コンピューティングは人間がより良い判断ができるようアドバイスをしたり、人間の能力を補強したりするなど、人間をサポートすることを目的として設計されています。
Language 言語系API
<Language Translator>(言語変換)
コンテンツのテキストを、ある言語から別の言語にリアルタイムで翻訳します。Watson Language Translatorサービスは、過去数十年にわたるIBMの研究の成果である統計的機械翻訳技術を利用して、ドメインに特化した翻訳を提供します。特定のドメインに特化した複数の翻訳モデルと、特定言語のテキストに対する3つのセルフサービス・カスタマイズ・レベルがサービスで提供されます。
<Natural Language Classifier>(自然言語分類)
自然言語テキストの背後にある意図を解釈し、関連度合いを信頼度レベル付けして分類して戻します。機械学習や統計アルゴリズムに関する予備知識がなくても、アプリケーションに自然言語インターフェースを作成できます。このサービスは、テキストの背後にある意図を解釈し、関連度合いを信頼度レベル付けして分類して戻します。戻り値を使って、要求を転送したり、質問に回答するなどのアクションを取ることができます。
<Personality Insights>(性格分析)
テキストから筆者のパーソナリティ(ビッグ・ファイブ、価値、ニーズ)の3つの特徴を推測できます(ビッグ・ファイブとは、開放性、誠実性、外向性、協調性、情緒安定性です)。Personality Insightsは、パーソナリティの特性を抽出して分析することで、人やエンティティに関するアクション可能な洞察を引き出し、その結果エンド・ユーザーに高度にパーソナライズされた対話を可能にします。 このサービスは、パーソナリティの特性を、ビッグ・ファイブ、価値、ニーズの3つの次元に分割して出力します。 確度の高い分析結果を得るためには、最低1,200単語以上のテキストを入力とすることを推奨します。
<Tone Analyzer>(感情分析) [日本語未対応]
テキストに表れるトーンや感情を分析します。Tone Analyzerサービスは言語分析を使用して、テキストから感情、性格的傾向、文体の3種類のトーンを検出します。感情としては、怒り、不安、喜び、悲しみ、嫌悪などを検出します。性格的傾向については、一部の心理学者が提唱するビッグ・ファイブ性格特性を検出します。文体については、確信的、分析的、あいまいなどのスタイルを検出します。
<Retrieve and Rank>(検索およびランク付け)
機械学習で情報検索を強化し、質問や照会に応じてランキング付けしてエンド・ユーザーに提供します。検索と機械学習アルゴリズムの組み合わせからデータ内のシグナルを検出し、問合せに対する最も関連性の高い情報を検索します。Apache Solr上に構築されていて、開発者はデータをサービスにロードして、既知の結果に基いて機械学習モデルを訓練し、このモデルを活用して改善された結果を、質問や照会に応じてエンド・ユーザーに提供します。
Vision 画像系API
<Visual Recognition>(画像認識)
ディープ・ラーニング(深層学習)を使用して、画像に写った物体・情景・顔など様々なものを分析・認識します。Visual Recognitionは“Watson”の画像認識機能です。すぐに使えるように“Watson”が既に学習をしており、画像・映像フレームに写った複数のものや、情景を分析・認識することができます。また、機械学習により“Watson”に独自の学習をさせることもできます。さらに、日本語・英語を含む多数の言語で認識結果を返すことができます。
Discovery 知識探索系API
<Discovery>(探索)
大量のデータを検索するとともに、データからパターンや傾向を読み取り、適切な意思決定を支援します。主な機能として、クローラ(文書取込)機能、エンリッチ(強化・強調)機能、クエリ(照会・問合せ)機能の3つがあります。また、Watson Knowledge Studioとの連携により特定の業界や企業特有の言葉や言い回しについても教え込み、より賢くお客様の業務を支援することが可能となります。
<Natural Language Understanding>(テキスト分析)
自然言語によるテキスト分析により、概念、エンティティ、キーワードなどのメタ情報を抽出できます。
<Discovery News>(ニュース) [日本語未対応]
世界各地のニュース記事を保持している事前作成済み参照専用コレクションです。著者、出版日、関連キーワードなどの重要なメタ情報も識別し、概念、感情、関係、カテゴリを含むニュースやブログが探せます。
<IBM Watson Knowledge Studio>
機械学習モデルやルール定義の作成により、業界や分野ごとの知識だけでなく、各分野の言葉の使われ方の微妙な違いまで“Watson”に教えることが可能になります。IBM Watson Knowledge Studio はクラウド・ベースのアプリケーションで、開発者と各分野の専門家が協力して、特定の業界向けのカスタム・アノテーター・コンポーネントを作成できるようにします。
<Document Conversion>(文書変換)
Document Conversionサービスは、Retrieve and Rank(検索およびランク付け)サービス用に文書を準備したり、PDF変換、HTML文書のHTML変換、テキスト変換、JSON Answerユニットへの変換を行います。アプリケーション・プログラミング・インターフェース(API)によって文書を新しい形式に変換します。入力はPDF、Word、HTML文書、出力は他のWatsonサービスでも使用可能なHTML文書、テキスト文書、Answerユニットです。
Speech 音声系API
<Speech to Text>(音声認識)
Speech to Textは“Watson”の音声認識機能です。ディープ・ラーニング(深層学習)を活用し、音響的な特徴と言語知識から正確にテキストを書き起こします。クラウド上でAPIとして提供する音声認識システムであり、長い時間のストリーム音声や幅広い入力フォーマットをサポートしています。日本語のほかにもアメリカ英語やイギリス英語、フランス語、中国語など複数の言語に対応し、帯域制限された電話音声専用のモデルも提供します。“Watson”は基本的な語彙(ボキャブラリー)をあらかじめ学習していますが、さらにカスタマイズ機能により特有の単語や言い回しを追加学習できます。そのため、クリアな音声が取得できればさまざまな使用環境で認識精度を高めることができます。
<Text to Speech>(音声合成)
Text to Speechは“Watson”の音声合成機能です。深い言語知識と信号処理技術から自然な音声を合成します。クラウド上でAPIとして提供する音声合成システムであり、幅広い出力フォーマットをサポートしています。日本語のほかにもアメリカ英語やイギリス英語、フランス語、ドイツ語など複数の言語に対応し、各言語は少なくとも男性または女性、あるいは両方の音声を提供します。“Watson”は基本的な語彙をあらかじめ学習していますが、さらにカスタマイズ機能により特有の発音を制御できます。また、SSML(音声合成マークアップ言語)によるアノテーション機能を用いると、話速・声の高さ・ポーズの位置などを自由に設定することができます。
無料提供されるWatsonの6種類のAPI
11月1日から無料提供される「IBM Cloud」の“Watson”はAPI(アプリケーション・プログラミング・インターフェース)の利用回数などに上限を設けるものの、上限内であれば利用目的を問わず無期限で利用できます。その対象となるAPIは以下の6つです。
・Natural Language Classifier(自然言語分類)
・Dialog(対話)
・Retrieve and Rank(検索およびランク付け)
・Document Conversion(文書変換)
・Speech to Text(音声認識)
・Text to Speech(音声合成)
APIの利用回数については、たとえばDialog(対話)で1カ月1万回までといった程度なので、それに見合った規模のシステム構築には非常にありがたいサービスです。
“Watson”の利用には最低で数百万円程度かかっていたため導入をためらう企業も多かったのですが、この無償化で中小企業や個人で活動するソフト開発者、そして学生にも利用できますし、インバウンド対策のシステム構築に携わる方には「強い見方」になるのではないでしょうか。
[newspicks url=”https://newspicks.com/news/2622310″]