| 会社の種類 | プライベート |
|---|---|
| 業界 | 音声合成 |
| 設立 | 2001年にCSELT内の研究グループとして (独立した会社として) 70年代 |
| 本部 | トリノ、イタリア |
主要人物 | 会長兼CEO:ダビデ・フランコ |
| 製品 | 音声合成、音声認識、話者照合、コンサルティング |
| 収益 | 1500万ユーロ(2010年) |
| 150万ユーロ(2010年) | |
従業員数 | 103(2011) |
| Webサイト | loquendo.com(現在はNuanceのウェブサイトにリダイレクトされます) |
ロクエンドはイタリアのトリノに本社を置く、音声認識、音声合成、話者検証、識別アプリケーションを提供するイタリアの多国籍コンピュータソフトウェア技術企業です。 [1]ロクエンドは2001年にテレコム・イタリア・ラボ(旧CSELT )傘下で設立され、イギリス、スペイン、ドイツ、フランス、アメリカにもオフィスを構えています。[2]
現在のビジネス製品としては、携帯型および車載型のナビゲーションデバイス、障害者向け支援機器、スマートフォン、電子書籍リーダー、音声ATM、コンピューターゲーム、音声制御家電などが挙げられます。音声合成および音声認識システムは、スペインのアンダルシア州政府保健サービスのバーチャルアシスタントの一部として、新しいeヘルスアプリケーションに使用されています。[3]
ロクエンドの製品は、2007年、2008年、2009年にスピーチテクノロジーズスピーチエンジンリーダーに選ばれるなど、数々の賞を受賞しています。[4] 2009年と2010年にはスピーチテクノロジーズから「マーケットリーダー」と評価されました。[5]
2011年9月30日、NuanceはLoquendoを買収したと発表した。[6]
歴史
Loquendo は元々、1970 年代半ばにトリノのCSELT研究所のIRI - STETの管理者によって設立された研究グループであり、2001 年に独立した企業になりました。
音声合成

パドヴァ大学の勧告に基づき、いわゆるダイフォン(子音と母音の結合で、イタリア語では全部で150種類)の技術を応用して、ジュリオ・モデナ率いる音声技術グループは、1975年にイタリア語を話す(そして歌う)ことができる高明瞭度の最初の音声合成装置を作成した。[7]これはMUSA(MUltichannel Speaking Automaton)と呼ばれ、当時の技術で何が可能かを示したものだった。その頃に達成された成果は、1978年に出版された45rpmのオーディオディスクに凝縮され、マスコミを通じて何千枚も配布された。システムの短い自己紹介の後の自動トラックには、より多くの歌声を交えてポリフォニー(アカペラ)で歌ったFrère Jacquesの面白いイタリア語バージョンが収録されていた(MUSAは最大8つの合成チャネルを並行して処理できた)。
このプロトタイプの進化、すなわちダイフォン数の増加(約1000)、言語分析ツールの改良、そして波形管理の改善は、合成音声にも大きな改善をもたらしました。これにより、CSELT社内で開発された最初の「音声合成装置」集積回路が誕生し、SGS社(カタログではZilog社製Z80マイクロプロセッサの周辺機器(コードM8950)として製造)で製造されました。
1990年代後半には、MS-DOS、Windows、System 7、Unix、OS/2、および多数のチャンネルを持つ電話ボード用のソフトウェア音声合成装置であるELOQUENSが開発されました。 [8] [9]
1990年代末にかけて、音声合成は新たなアプローチを採用しました。双音素を渡す代わりに、可変長の音響単位の選択と連結を用いるようになったのです。これは、コンピュータの処理能力の向上、特に大容量記憶装置の容量増加によって可能になったアプローチです。その結果生まれたのが「ACTOR」(人間の声)です。Loquendo関連企業が開発した多数の電話サービスやアプリケーションのおかげで、この音声は多くのユーザーに利用されるようになりました。
2000 年に、感情豊かな合成オーディオを作成するためのいくつかの編集ツールを含むシンセサイザーが研究室から商用製品としてリリースされました。また、携帯電話、ナビゲータ、パーム コンピュータなどの小型ポータブル デバイスから、(半)自動コール センター用のマルチチャネル/多言語電話サーバーまで、さまざまな製品で使用するためのソフトウェア ライブラリとしてもリリースされました。
ロケンド音声合成はYouTubeでインターネットミームとなっていますが、スペイン語の動画でより多く見られます。クリープパスタやパロディ吹き替え(下品な言葉遣いが多い)でよく使用されています。
音声認識
音声合成の研究が始まってすぐに、彼らは音声認識の研究を開始し、80年代初頭に10桁の数字といくつかの簡単なコマンドを認識できる最初のプロトタイプを作成しました。
1984年に隠れマルコフモデル[10]を応用し、 IRI - STETグループの別の企業であるELSAGとの共同開発により、連続した単語や文を認識できる音声認識装置が開発されました。ELSAGとの共同開発により、1986年には連続音声認識を目的とした初期のマイクロプロセッサであるRIPAC (RIconoscimento PArlato Connesso)が発表されました。このプロセッサはVLSIレベルの集積度を持ち、7万個のトランジスタで構成されていました。
独立した音声認識電話アプリケーションを作成する必要性から、何百人もの人々の録音された音声を含む音声データベースの作成に至り、1987 年には、イタリア全土から自動手順で電話をかけてきた 1,000 人以上の人々の声を録音して得られた最初の大規模データベースが、CSELT ラボで特別に作成された電話サーバーの作成に使用されました。
この保存された資料によりマルコフモデルのトレーニングが可能になり、洗練されたアルゴリズムを使用することで、デジタル信号プロセッサ(DSP)を備えたさまざまなデバイスを「回転」できる初の商用認識装置である「AURIS」の開発につながりました。
1990年代には、ヨーロッパをまたいだ大規模な協力が始まり、ヨーロッパ各地の12の企業や大学と協力して、ヨーロッパ全土で65000人以上の人々の音声を収録した大規模な音声データベースが収集されました。[11]
この素材と隠れマルコフモデルとニューラルネットワークを組み合わせた新しいアプローチを組み合わせることで、「FLEXUS」[12]が誕生しました。これは、柔軟な語彙を持つ最初の音声認識装置であり、さまざまな電話サービスが人間のインターフェースで自動音声認識を使用できるようになりました。
「FLEXUS」と「ACTOR」を1つのシステムに統合して「Dialogos」が誕生し、最先端の電話サービスを実現しました。
企業としての Loquendo の誕生により、多くの言語が開発され、さまざまなテレフォニー アプリケーションを作成するためのライブラリ ソフトウェアの形で認識機能がリリースされました。
彼らはまた、状態有限文法と自然言語モデルシステムを記述するためのいくつかのシステムを導入しました。
音声データベース録音キャンペーンは、ヨーロッパから地中海諸国、南米、中央アメリカ、北アメリカ、そして極東諸国へと広がり続けています。記載されている地域で数十万人の人々と接触し、計り知れない時間数の音声が録音されました。録音は、固定電話網だけでなく、移動中の車両内での携帯電話、そして家庭用ゲーム機、家電製品、ホームオートメーションといった消費者向けアプリケーション向けに、家庭環境における高品質マイクを使用して収集されました。
話者認識

話者認識に関する研究活動は1980年代初頭に開始されました。[13]その後、2000年代半ばには、このタスクに特化した音声データベースが利用可能になりました。彼らはトリノ工科大学と共同で、話者の「識別」と「検証」という2つの異なる分野で実験を開始しました。
この研究の成功により、同社は、以下に説明する実現プラットフォームを通じて、これらのタスクに特化した製品の開発へと移行しました。
音声符号化
音声符号化の研究は、音声認識や合成の研究よりも前から始まっており、音声明瞭度を損なわずに単一のケーブル(または衛星接続)でやり取りできる電話の会話の数を可能な限り増やすために、 CODECやエコーキャンセラなどの機器を構築することを目指していました。
1970年代後半、研究と実験の結果、電話音声信号を符号化するアルゴリズムが開発され、欧州CCITT規格「A-law」(8kHz帯域限定の音声信号用8ビット対数符号化法則「A」)が策定されました。この規格は、 64kbit/s ISDN電話回線 用CODECに採用されました。
その後数年間、彼らはより強力なコーデック(電話交換機を使用)を構築し、PAN-Europe コンソーシアムGSM内で第 2 世代の携帯電話で使用するコーデックを開発しました。
同時に、電話ケーブルの 8 kHz 帯域制限にもかかわらず高品質の信号を送信する CODEC も構築され、これはオーディオおよびビデオ会議アプリケーションに役立ちました。
プラットフォームの有効化
1990 年代後半、今日知られている形式 (地球上のさまざまなサーバーにハイパーテキストが常駐し、1 つの大きなネットワークを形成する) でのインターネットの発展により、これらのテキストを電話の音声で利用できるようにする必要性が生じました。
同時に、IVR(自動音声応答システム)の普及が進み、ハードウェアとソフトウェアのツールを用いて新しい電話アプリケーションを迅速に開発できるようになりました。電話番号案内サービスの自動化や自動案内サービスステーションといった複雑なシステムの開発につながった従来の開発モデルは、あまりにも硬直的で、新しいアプリケーションの開発を容易には実現できないことが明らかになりました。
そのため、スケーラブルで容易にプログラミング可能な自動音声電話システム用プラットフォームの必要性が認識されました。この目的のため、音声ブラウザのプロトタイプを開発するための特別なワーキンググループが設立され、SMAU 2000 [14]で「VoxNauta」という名称で一般公開されました。このプロトタイプは大成功を収め、テレコム・イタリアは2001年2月1日に元の研究室を閉鎖し、Loquendoを設立することを決定しました。
「VoxNauta」は長年にわたり、小規模サーバーから数千回線規模の大規模エンタープライズシステムまで、さまざまなスケーラブルな形式で開発が進められ、世界中の数百の企業に導入されています。
音声技術をホストするサーバーを電話ボードをホストするサーバーに接続するための電話サービスを記述する標準の誕生により、ソロ SW の開発が促進されました。
電話サービス ( VoiceXML ) と、音声技術をホストするサーバーを電話ボードをホストするサーバーに接続するためのプロトコル ( MRCP )の記述における標準の出現により、Loquendo のテキスト読み上げおよび音声認識エンジンをホストする Speech Server ソフトウェアが作成されました。
この継続的な研究開発により、Loquendo は合成と音声認識の分野で最も広く知られるブランドの 1 つになりました。
ブランド
Loquendoという名称は、創業CEOのシルヴァーノ・ジョルチェッリ氏の妻が考案し、ロゴはテレコム・イタリアのグラフィック部門が制作しました。アニメーションGIFで表示されると、「O」の上の3つの波紋が順番に点灯し、まるで音が鳴っているかのような印象を与えます。
このブランドは同社によって保護されておらず、Loquendo から直接名前を派生したイタリアの企業が他にも存在し、これが競合ブランドを犠牲にしてでも Loquendo の広範な使用に貢献しています。
会社の売却
長年にわたり、ロケンドが他の企業に売却されるという噂がありました。[15]
最も最近のケースは2011年の夏で、米国を拠点とする2つの多国籍企業、NuanceとAvayaが買収の可能性を検討していることが発表されました。
ニュアンスはイタリア企業の直接の競合企業であったため、ロケンドの従業員は研究開発部門の分断と40年の経験を持つ優れたブランドがイタリアから消えてしまうのではないかと懸念していた。[16]
アバイアによる買収は、ロクエンドの活動を補完するものとして、より望ましいと思われた。アバイアは実際には音声技術を一切所有していなかったため、外部企業から購入するよりも自社開発の可能性に非常に興味を持っていた可能性がある。[17]
これらの報告は、労働者、トリノとピエモンテの地方当局、そして国際的な科学界全体から大きな関心を集めました。[18] [19] [20]
2011年8月13日、テレコム・イタリアはロケンドの全株式をニュアンスに5300万ユーロで売却することを公表した。[21] [22] [23]
受賞歴
- CSELTは、四肢麻痺者や視覚障害者などの障害者にとってCSELT技術の有用性を、様々な音声技術(その高品質が注目される)と組み合わせた実験的デモンストレーションにより、1998年のヨーロッパテレワーク週間で最優秀賞である「テレワーク賞」を受賞しました。[24] [25]
製品
参照
参考文献
- ^ “Loquendo at a glance”. Loquendo . 2001年. 2011年2月22日時点のオリジナルよりアーカイブ。2011年3月3日閲覧。
- ^ “Locations”. Loquendo . 2001年. 2011年2月23日時点のオリジナルよりアーカイブ。 2011年3月3日閲覧。
- ^ Klie, Leonard (2010年5月18日). 「Loquendo、政府の保健サービス向けバーチャルアシスタントに音声機能を提供」Speech Technology Media . Information Today, Inc. 2016年3月26日時点のオリジナルよりアーカイブ。 2018年8月23日閲覧。
- ^ Felipe-Barkin, Eric (2000年7月1日). 「Market Leaders: Speech Engine」. Speech Technology . Information Today, Inc. 2014年1月3日時点のオリジナルよりアーカイブ。 2018年8月23日閲覧。
- ^ 「音声技術業界バイヤーズガイド」音声技術. Information Today, Inc. 2007年. 2014年1月3日時点のオリジナルよりアーカイブ。 2018年8月23日閲覧。
- ^ 「Nuance、Loquendoの買収を完了」Nuance Communications, Inc.バーリントン、マサチューセッツ州:Business Wire 2011年9月30日. 2018年8月23日閲覧。
- ^ Roberto Billi (編集者)、CSELT の以下の著者: Agostino Appendino、Giancario Babini、Paolo Baggia、Roberto Billi、Alfredo Biocca、Pier Giorgio Bosco、Franco Canavesio、Giuseppe Castagneri、Alberto Ciaramella、Morena Danieli、Fulvio Faraci、Luciano Fissore、Roberto Gemello、Elisabettaジェルビーノ、エジディオ・ジャチン、ジョルジョ・ミッカ、ロベルト・モンターニャ、ルチアーノ・ネッビア、シルヴィア・クアッツァ、ダニエレ・ロフィネッラ、ルチアーノ・ロズボッホ、クラウディオ・ルーレント、ピエール・ルイジ・サルザ、ステファノ・サンドリ、「技術的な音声技術。新しいヴォーチェの仕事」、エド。テレコムラボ 1995年. ISBN
- ^ “データシートアーカイブ: ELOQUENS”. 2017年2月27日時点のオリジナルよりアーカイブ。2017年2月27日閲覧。
- ^ Billi, R.; Canavesio, F.; Ciaramella, A.; Nebbia, L. (1995). 「インタラクティブ音声技術の活用:CSELTでの経験」.音声コミュニケーション. 17 ( 3–4 ): 263– 271. doi :10.1016/0167-6393(95)00030-R.
- ^ ピラニ、ジャンカルロ編『音声理解のための高度なアルゴリズムとアーキテクチャ』第1巻、Springer Science & Business Media、2013年。
- ^ SpeechDatファミリープロジェクト(創始者の名前から)
- ^ データシートアーカイブ: FLEXUS
- ^ Cavazza, Michele, Alberto Ciaramella. 「話者認証装置」 米国特許第4,752,958号 1988年6月21日 (IT特許は1983年に出願されており、Espacenetで参照可能)
- ^ (it) Corriere della Sera、Pagine web da ascoltare al telefono、2000 年 9 月 4 日
- ^ (it) il Giornale、テレコム、«ピッコラ» ロケンドの輝きの販売、2009 年 11 月
- ^ (it) la Repubblica、ロケンド、大臣会議アンケ ベルナベ、2 年前、2010
- ^ (it)ラ・レプッブリカ、ロケンド、セカンダ・オファータ。 I dipendenti: 「Dà più garanzie」、2010 年 6 月
- ^ “Salviamo Loquendo!”. 2012年3月30日時点のオリジナルよりアーカイブ。2011年8月10日閲覧。
- ^ 「Un neo da estirpare」、l'Informatica、キャップ。 1 In: Luciano Gallino、「La scomparsa dell'Italia Industriale」、Ed。エイナウディ 2003 – ISBN 978-88-06-16628-1
- ^ Marina Cassi、La comunità della scienza difende Loquendo、2012 年 3 月 30 日、Wayback Machineでアーカイブ、「La Stampa」、2011 年 10 日前
- ^ プレスリリース、テレコム・イタリアがLoquendoを企業価値5,300万ユーロでNuanceに売却、「テレコム・イタリア」、2011年8月13日
- ^ (プレスリリース、 Nuance が Loquendo を買収 、Wayback Machineで 2015 年 5 月 21 日にアーカイブ、「 Nuance 」、 2011 年 8 月 15 日
- ^ (it) Luca Davi、Telecom Italia cede Loquendo al gruppo Nuance、「Il Sole 24 ORE」、2011 年 14 月
- ^ 「欧州テレワークの現状報告 - 新しい働き方 1999」(PDF) 1999年8月. 2023年6月9日閲覧。
- ^ ボンゾ、マリアルイサ (1998 年 12 月 23 日)。 「Premiato lo CSELT - 障害ごとの技術」。Tutto Science (La Stampa) (イタリア語)。 p. 2.
参考文献
- (it) ルイージ・ボナヴォリア、「CSELT trent'anni」、編。 CSELT、1994年 [1]
- (it) Roberto Billi (キュレーター)、以下の CSELT の著者: Agostino Appendino、Giancario Babini、Paolo Baggia、Roberto Billi、Alfredo Biocca、Pier Giorgio Bosco、Franco Canavesio、Giuseppe Castagneri、Alberto Ciaramella、Morena Danieli、Fulvio Faraci、Luciano Fissore、Roberto Gemello、 Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, "Tecnologievocali per l'interazione uomo-macchina. Nuovi servizi a portata di voce" ,エド。テレコムラボ 1995年、ISBN 88-85404-09-X、ISBN 978-88-85404-09-0
- (en) ピラニ、ジャンカルロ編『音声理解のための高度なアルゴリズムとアーキテクチャ』第1巻、Springer Science & Business Media、2013年、ISBN 978-3-540-53402-0
- (it) Quarant'anni d'innovazione、編。ミレニアム srl、(メディア ドゥエミラの補足番号 224、2005)
- (it) torinowireless.it
- (it) smau.it
- (it) corriere.it
- (it) isticom.it
- (it) deputatids.it
- (it)h-care.eu
- (it) フォーラム PA 17–20 maggio 2010 – Cartella Stampa AVAYA
外部リンク
- ロケンド Web サイト (アーカイブ インデックス)