2025/09/30 更新

写真a

シノダ コウイチ
篠田 浩一
SHINODA KOICHI
所属
情報理工学院 教授
職名
教授
ホームページ
外部リンク

News & Topics
  • データ駆動型アプローチに基づく映像検索のための意味インデクシング開発

    2014/02/14

    掲載言語: 日本語

      詳細を見る

    東京工業大学大学院情報理工学研究科計算工学専攻の井上中順(なかまさ)大学院生と篠田浩一教授らはキヤノンの協力で、インターネット上の映像データからタグやメタデータなどのテキスト概要情報を用いずに、必要な映像を検索する新手法「映像意味インデクシングシステム」を開発した。これは自動車・椅子などの「物体」、夕焼け・家族団らんなどの「シーン」、結婚式・花火などの「イベント」など、人間にとって意味のある「概念」を検出することができる。研究の背景インターネット上の映像データが急激に増加している。それらの大部分はユーザーが作成したもので、極めて多様であり、品質も良くなく、また、十分なテキストタグがついていない。このため、映像の画像特徴や音響特徴を利用した映像検索手法の開発が強く求められていた。

  • Semantic indexing system for video search using a data-driven ap

    2014/02/14

    掲載言語: 英語

      詳細を見る

    The volume of video data on the Internet increases rapidly each year, with the majority of the data being various kinds of low quality, consumer videos, without text tags. So there is strong demand for video search techniques based on the use of image and video features-so called “content-based video retrieval” (CBVR).Video semantic indexing systems extract videos with “concepts” that are meaningful for users without using any text information such as tags or meta-data from internet video data. The concepts include: objects such as cars and chairs, scenes such as sunsets and families having an enjoyable time, or events such as wedding ceremonies and fireworks.


News & Media

学位

  • 博士(工学) ( 東京工業大学 )

研究キーワード

  • スマート農業

  • 天体画像処理

  • 医療情報処理

  • 感情認識

  • 動作認識

  • 歩容認識

  • 画像認識

  • 音声認識

  • 映像認識

  • 深層学習

  • パターン認識

  • 画像処理

  • 音声処理

  • 機械学習

  • 話者認識

  • マルチモーダル認識

研究分野

  • 情報通信 / 知覚情報処理

学歴

  • 東京大学   理学系研究科   物理学専攻

    - 1989年

      詳細を見る

    国名: 日本国

    researchmap

  • 東京大学

    - 1989年

      詳細を見る

  • 東京大学   理学部   物理学科

    - 1987年

      詳細を見る

    国名: 日本国

    researchmap

経歴

  • 東京科学大学   情報理工学院   教授

    2024年10月 - 現在

      詳細を見る

    国名:日本国

    researchmap

  • 東京工業大学   情報理工学院   教授

    2016年4月 - 2024年9月

      詳細を見る

    国名:日本国

    researchmap

  • 東京工業大学   大学院情報理工学研究科   教授

    2013年4月 - 2016年3月

      詳細を見る

    国名:日本国

    researchmap

  • 東京工業大学   大学院情報理工学研究科   准教授

    2007年4月 - 2013年3月

      詳細を見る

    国名:日本国

    researchmap

  • 東京工業大学   大学院情報理工学研究科   助教授

    2003年4月 - 2007年3月

      詳細を見る

    国名:日本国

    researchmap

  • 統計数理研究所   予測制御研究系   客員助教授

    2003年4月 - 2005年3月

      詳細を見る

  • 東京大学   大学院情報理工学系研究科   助教授

    2001年10月 - 2003年3月

      詳細を見る

    国名:日本国

    researchmap

  • ルーセント・テクノロジー社   ベル研究所   客員研究員

    1997年1月 - 1998年2月

      詳細を見る

    国名:アメリカ合衆国

    researchmap

  • 日本電気株式会社   中央研究所

    1989年4月 - 2001年9月

      詳細を見る

    国名:日本国

    researchmap

▼全件表示

所属学協会

▼全件表示

委員歴

  • Institute of Electronics, Information, and Communication Engineers   Editor of Transactions on Information and Systems  

    2006年 - 2009年   

      詳細を見る

    団体区分:学協会

    Institute of Electronics, Information, and Communication Engineers

    researchmap

  • 電子情報通信学会   小中高科学教室委員、東京支部評議員、英文論文誌ED編集幹事(企画)、音声研究会幹事 、英文論文誌ED編集委員  

    2006年 - 2009年   

      詳細を見る

    団体区分:学協会

    電子情報通信学会

    researchmap

  • 情報処理学会   論文誌査読委員  

    2006年 - 2009年   

      詳細を見る

    団体区分:学協会

    情報処理学会

    researchmap

  • 日本音響学会   編集委員会査読委員、音声専門委員会幹事  

    2005年 - 2007年   

      詳細を見る

    団体区分:学協会

    日本音響学会

    researchmap

論文

▼全件表示

MISC

  • MITSuME望遠鏡画像に対する深層学習を用いた突発天体検知システムの構築

    伊藤, 尚泰, Ito, Naohiro, 村田, 勝寛, Murata, Katsuhiro, 細川, 稜平, Hosokawa, Ryohei, 笹田, 真人, Sasada, Mahito, 庭野, 聖史, Niwano, Masafumi, 谷津, 陽一, Yatsu, Yoichi, 河合, 誠之, Kawai, Nobuyuki, 篠田, 浩一, Shinoda, Koichi, 井上, 中順, Inoue, Nakamasa, 伊藤, 亮介, Itoh, Ryosuke, 下川辺, 隆史, Shimokawabe, Takashi

    日本天文学会2022年秋季年会講演予稿集   2022年9月

     詳細を見る

    記述言語:日本語   出版者・発行元:公益社団法人 日本天文学会  

    identifier:oai:t2r2.star.titech.ac.jp:50636760

    CiNii Research

    researchmap

  • MITSuME望遠鏡画像に対する深層学習を用いた突発天体検知システムの構築

    伊藤尚泰, 村田勝寛, 細川稜平, 笹田真人, 庭野聖史, 谷津陽一, 河合誠之, 篠田浩一, 井上中順, 伊藤亮介, 下川辺隆史

    日本天文学会年会講演予稿集   2022   2022年

     詳細を見る

  • 深層学習を用いたMITSuME望遠鏡画像からの突発天体検知(2)

    飯田康太, 谷津陽一, 村田勝寛, 橘優太朗, 河合誠之, LONG Yan, 篠田浩一, 井上中順, 下川辺隆史

    日本天文学会年会講演予稿集   2020   2020年

     詳細を見る

  • 映像のセマンティックインデクシングのためのq‐混合ガウス分布

    井上 中順, 篠田 浩一

    研究報告コンピュータビジョンとイメージメディア(CVIM)   2012 ( 5 )   1 - 6   2012年8月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    近年,Bag-of-visual-words(BoW)法を確率的枠組みに発展させた混合ガウス分布(Gaussian mixture models; GMMs)が,映像のセマンティックインデクシングにおいて,映像から抽出された局所特徴の分布の表現に効果的であることが報告されていろ.ガウス分布はBoltzmann-Shannonエントロピーを最大化する確率分布として導出されるが,物理学における複雑系の分野では,Boltzmann-Shannonエントロピーを一般化したTsallisエントロピー[9]から導出されるq-ガウス分布が,マルチフラクタルなどのモデルの表現に効果的であることが示されている.q-ガウス分布は,q値により分布の裾の長さを変化させることができ,2次よりも高次なモーメントを調節できるため,外れ値に対する頑健性の向上が期待される.そこで,本研究では,q-ガウス分布の混合モデルであるq-混合ガウス分布を提案し,映像と画像のセマンティックインデクシングにおけるその有用性を示す.評価実験は,TRECVID 2010 Semantic IndexingデータセットとPASCAL VOC 2010 データセットで行い,評価尺度のMean Average Precision はそれぞれのデータセットで,10.9%,49.4%となり,通常のGMMを用いた場合よりも高い精度を示したGaussian mixture models (GMMs) which extend the bag-of-visual-words (BoW) to a probabilistic frame work have been proved to be effective for image and video semantic indexing. Recently, the ^-Gaussian distribution, which is derived in the non-extensive statistics, has been shown to be useful for representing patterns in many complex systems in physics such as fractals and cosmology. We propose q-Gaussian mixture models (q-GMMs),which are mixture models of ^-Gaussian distributions, for image and video semantic indexing. It has a parameter q to control its tail-heaviness. The long-tailed distributions obtained for q > 1 are expected to effectively represent complexly correlated data, and hence, to improve robustness against outliers. In our experiments, our proposed method outperformed the BoW method and achieved 49.4% and 10.9% in Mean Average Precision on the PASCALVOC 2010 dataset and the TRECVID 2010 Semantic Indexing dataset, respectively.

    CiNii Books

    researchmap

  • コミッティに基づく能動学習・半教師付き学習を用いた音声モデル

    蔦岡 拓也, 篠田 浩一

    研究報告音声言語情報処理(SLP)   2012 ( 22 )   1 - 6   2012年1月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    大語彙連続音声認識器の学習データ書き起こしコスト削減のため,複数の認識器から構成されるコミッティの出力を利用した学習法を提案する.この手法では複数の認識器から得られた出力の不一致度に基づき,人手で書き起こすための発話と認識結果を書き起こし文として用いる発話を選択する.提案手法を日本語話し言葉コーパスの摸擬講演音声を用いて評価し,ランダムに発話選択するよりも少ない書き起こしコストで高精度な認識器を学習することができた.また,半教師付き学習における発話選択の改良も検討した.We propose a combination of active learning and semi-supervised learning using committee-based approach for large vocabulary continuous speech recognition. In this method, utterances for manual/automatic transcription are selected by disagreements among the recognition results obtained from recognizers. Our method was evaluated by using simulated speech data in the Corpus of Spontaneous Japanese. It was shown that proposed method can achieve higher recognition accuracy with lower transcribing costs than random sampling. We also investigate the data selection criterion in semi-supervised learning.

    CiNii Books

    researchmap

  • 雑音下音声におけるスペクトル縮小の分析とその耐雑音音声認識への利用

    別府 真由美, 篠田 浩一, 古井 貞煕

    聴覚研究会資料   41 ( 2 )   117 - 122   2011年3月

     詳細を見る

    記述言語:日本語   出版者・発行元:日本音響学会聴覚研究委員会  

    CiNii Books

    researchmap

  • 音声認識のための複数の認識器を利用した能動学習 (言語理解とコミュニケーション)

    濱中 悠三, 江森 正, 越仲 孝文, 篠田 浩一, 古井 貞熙

    電子情報通信学会技術研究報告   109 ( 355 )   19 - 23   2009年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    researchmap

  • 音声認識のための複数の認識器を利用した能動学習

    濱中 悠三, 江森 正, 越仲 孝文, 篠田 浩一, 古井 貞熙

    音声言語情報処理(SLP)   2009 ( 4 )   1 - 5   2009年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:情報処理学会  

    大語彙連続音声認識器の学習データに対する書き起こしコスト削減のための複数の認識器を利用した能動学習手法を提案する.この手法では複数の認識器から得られた複数の異なる認識結果文を用いて発話の選択を行う.認識結果文をアラインメントするためのプログレッシブ法と Voting Entropy を発話選択に用いている.提案手法を日本語話し言葉コーパスの 190 時間の音声データを使い評価し,能動学習を行わないランダムな発話選択より顕著に良い結果を得た.74% の単語正解精度を得るために必要な書き起こし付きデータ量はランダム選択では 97 時間,単語事後確率を用いた従来手法では 72 時間であるが,提案手法では 60 時間で済むという結果になった.We propose an active learning method with multiple recognizers for large vocabulary continuous speech recognition. In this approach, the recognition results obtained from recognizers are used for selecting utterances. Here, a progressive search method is used for aligning sentences, and voting entropy is used as a measure for selecting utterances. Our method was evaluated by using 190-hour speech data in the Corpus of Spontaneous Japanese. It proved to be significantly better than random selection. It only required 60 h of data to achieve a word accuracy of 74%, while standard training (i.e., random selection) required 97 h of data. The recognition accuracy of our proposed method was also better than that of the conventional uncertainty sampling method using word posterior probabilities as the confidence measures for selecting sentences.

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00067046/

  • Automatic recognition of Indonesian declarative questions and statements using polynomial coefficients of the pitch contours

    Nazrul Effendy, Koichi Shinoda, Sadaoki Furui, Somchai Jitapunkul

    Acoustical Science and Technology   30 ( 4 )   249 - 256   2009年

     詳細を見る

    記述言語:英語  

    DOI: 10.1250/ast.30.249

    Scopus

    researchmap

  • 確率モデルによる音声認識のための話者適応化技術(サーベイ論文)

    篠田 浩一

    電子情報通信学会論文誌   J87-D-Ⅱ ( 2 )   371 - 386   2009年

     詳細を見る

  • 十分統計量を用いた教師なし話者適応における話者選択法

    谷 真宏, 江森 正, 大西祥史, 越仲 孝文, 篠田 浩一

    情報処理学会研究報告音声言語情報処理(SLP)   2007 ( 129 )   85 - 89   2007年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    十分統計量を用いた教師なし話者適応において,選択する話者の数を決定する手法を提案する.音声認識における高速な教師なし話者適応の一つとして,話者毎の十分統計量を用いた手法が提案されている.これは,予め用意した複数の話者の中から,評価話者に音響的な特徴が近い話者を選択し,選択された話者の十分統計量を用いて,評価話者に適応した音響モデルを構築する手法である.従来手法では,評価話者に音響的な特徴が近い話者を選択する際,複数の話者の中から,予め定められた数だけ選択する.提案手法では,評価話者と予め用意した話者との音響特徴量空間における話者間距離を基準に,選択する話者の数を決定する.電話による対話音声を用いた認識実験において,従来手法に比較し,単語正解精度が 0.74 ポイント向上した.特に,音響的な特徴が近い話者が少ない評価話者に対して有効であることを確認した.We propose a new speaker selection method for the unsupervised speaker adaptation based on HMM sufficient statistics. The adaptation technique of using HMM sufficient statistics has been proposed as one of the rapid unsupervised speaker adaptation techniques in speech recognition. The procedure is as follows: First the training speakers acoustically close to the test speaker are selected. Then, the acoustic model is trained using the HMM sufficient statistics of these selected training speakers. In this technique, the number of selected training speakers is always constant. In our proposed speaker selection method, the number of speakers is determined by the distances between the test speaker and each training speaker. In our recognition experiments using spoken dialogue data, the proposed method improved word accuracy by 0.74 points. It was confirmed that the proposed method particularly effective when there are not many training speakers around the test speaker in acoustic space.

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00056768/

  • 音声認識における確率モデルの重み係数の自動推定

    江森 正, 大西祥史, 篠田 浩一

    情報処理学会研究報告音声言語情報処理(SLP)   2007 ( 129 )   49 - 53   2007年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    音声認識における確率モデルのスケーリング係数を効率的に推定する新しい手法を提案する。音声認識システムの多くは、音響モデルと言語モデルで構成されており、それらの値のバランスを取るためにスケーリング係数が導入されている。従来、スケーリング係数の値は事前にテストデータを用い、認識実験を行うことによるグリッドサーチで調整されていた。提案法では、スケーリング係数を対数線形モデルの重みパラメータとし、最適値を事後確率最大化基準(maximum a posteriori probability)を基に勾配法を用いて推定を行う。事後確率はワードラティスを用いて計算を行った。ワードラティスを用いることによる推定値の初期値依存を避けるため繰り返し過程を導入する。繰り返し過程では、ワードラティスの生成と勾配法によるスケーリング係数値の推定が交互に繰り返される。実験の結果、提案手法により推定されたスケーリング係数の値が初期値に依存せずほぼ同じ値に推定されることを確認した。また、提案手法により推定された値を用いた場合の単語正解精度と、グリッドサーチで最適化された値を用いた単語正解精度の差は 0.1%であることを確認した。We propose a new efficient method for estimating scaling factors among probabilistic models in speech recognition. Most speech recognition systems consist of more than one model, include an acoustic and a language model, and require scaling factors to balance probabilities among them. The scaling factors are conventionally optimized in preliminary recognition tests using data for development. In our proposed method, the scaling factors are regarded as parameters of a log-linear model, and they are estimated using a gradient-ascent method based on the maximum a posteriori probability criterion. Posterior probability is computed using word-lattices generated by a speech recognizer. We employ an iteration technique which repeats a word-lattice-generation/scaling-factor-estimation process, and the resulting scaling factor estimation is robust with respect to the changes in initial values. In an experimental evaluation of our method by LVCSR using Japanese dialogue speech data, estimated scaling factors were nearly identical to optimal values obtained in a greedy grid search. We have also confirmed that estimated scaling factors changed little with variations in initial values.

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00056762/

  • Robust speech recognition using factorial HMMs for home environments

    Agnieszka Betkowska, Koichi Shinoda, Sadaoki Furui

    Eurasip Journal on Advances in Signal Processing   2007 ( 20593 )   2007年

     詳細を見る

    記述言語:英語  

    DOI: 10.1155/2007/20593

    Scopus

    researchmap

  • Robust speech recognition using factorial HMMs for home environments

    Agnieszka Betkowska, Koichi Shinoda, Sadaoki Furui

    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING   2007 ( 20593 )   2007年

     詳細を見る

  • 講義音声認識における講義スライド情報の利用

    山崎 裕紀, 岩野 公司, 篠田 浩一, 古井 貞煕, 横田 治夫

    情報処理学会研究報告音声言語情報処理(SLP)   2006 ( 136 )   221 - 226   2006年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    大学などで行われる講義に対する音声認識において、講義中に使用されたスライド資料を用い、言語モデルを動的に適応する手法を提案する。認識音声に対応するスライドから抽出した言語情報を適応データとして用いることで適応言語モデルを作成し、認識に用いる。大学で開講された講義を対象として認識性能の評価を行ない、手法の効果を確認した。講義1コース分のスライド全てをグローバルに適応に用いることで、単語誤り率が3.1%削減された。また、キーワード抽出においても性能の改善が見られ、recall にして21.5%の誤りが削減され、precision にして13.8%の誤りが削減された。さらに各講義スライドをローカルに適応に用いることで、グローバルな適応のみの結果に対し改善が見られた。特にキーワード抽出に対して効果が見られ、recall にして3.1%の誤りが削減され、precision にして1.4%の誤りが削減された。We propose a dynamic language model adaptation method for lecture speech recognition in which the information of text on slides for lectures is used. The speech data corresponding to each slide are recognized with a language model adapted to them by using the slide texts as adaptation data. We evaluated the proposed method by using the speech data of three classroom courses in Japanese, and confirmed its effectiveness. The average speech recognition error was reduced by 3.1% by the global adaptation using all slides used in a course. The error rates of recall and precision for keywords were also reduced by 21.5% and 13.8% respectively. Furthermore, we achieved the improvement of keyword detection performance by the adaptation using each slide locally. The error rates of recall and precision for keywords were reduced by 3.1% and 1.4% respectively from global adaptation.

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00056867/

  • Robust scene extraction using multi-stream HMMs for baseball broadcast

    Nguyen Hun Bach, Koichi Shinoda, Sadaoki Furui

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E89D ( 9 )   2553 - 2561   2006年9月

     詳細を見る

  • Robust Scene Extraction Using Multi-Stream HMMs for Baseball Broadcast

    Nguyen Huu Bach, Koichi Shinoda, Sadaoki Furui

    IEICE Transactions on Information and Systems   E89-D ( 9 )   2553 - 2561   2006年

  • 音声情報処理技術の最先端: 2.統計的手法を用いた音声モデリングの高度化とその音声認識への応用

    篠田 浩一, 篠崎 隆宏

    情報処理学会学会誌   45 ( 10 )   1012 - 1019   2004年10月

     詳細を見る

    記述言語:日本語   出版者・発行元:情報処理学会  

    researchmap

  • 音声情報処理技術の最先端: 2.統計的手法を用いた音声モデリングの高度化とその音声認識への応用

    篠田浩一, 篠崎隆宏

    情報処理   45 ( 10 )   1012 - 1019   2004年

     詳細を見る

  • 確立モデルによる多声音楽演奏のMIDI信号のリズム認識

    武田晴登, 篠田浩一, 嵯峨山茂樹

    情報処理学会論文誌   45 ( 3 )   670 - 679   2004年

     詳細を見る

  • 確率モデルによる音声認識のための話者適応化技術

    篠田浩一

    電子情報通信学会論文誌D-II   J87 ( 2 )   371 - 386   2004年

     詳細を見る

  • 形態素情報と単語内位置情報を用いた 話し言葉音声認識のための音響モデル

    五十川 賢造, 篠田 浩一, 嵯峨山 茂樹

    情報処理学会研究報告音声言語情報処理(SLP)   2002 ( 121 )   111 - 116   2002年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    話し言葉における発声変形をモデル化するため、文脈決定木を用いた状態クラスタリングにおいて、音素コンテキストの情報以外に品詞情報を利用する方法と音素の単語内位置情報を利用する方法とを提案する。品詞情報を利用する方法では、話し言葉の音声データから推定した単語継続時間長をもとに、品詞を2つのクラスタに分類する。各音素についてクラスタ別に初期モデルを構築し、音素コンテキストに関する質問に加えて所属クラスタに関する質問を用いた決定木による状態クラスタリングを行う。単語内位置情報を利用する方法では、各音素について語頭か語末かそれ以外かを考慮した初期モデルを構築し、音素コンテキストに関する質問に加えて語頭語末に関する質問を用いた決定木による状態クラスタリングを行う。CSJ(Corpus of Spontaneous Japanese)コーパスを用いた連続音声認識実験を行った結果、品詞情報を利用した方法では単語正解精度がテスト話者7名の平均で最大で2.4ポイント向上し、単語内位置情報を用いたモデルでは単語正解精度が最大で6.1ポイント向上した。In this paper, we study state clustering using word contexts for speech recognition. In spontaneous speech, poorly articulated words often cause recognition error. To improve the recognition performance, we add two questions used in the phonetical decision tree based state clustering. One is a question about parts of speech, and the other is a question about the position of phones within a word. To apply the question about parts of speech, we classify parts of speech into two classes based on the word's duration estimated by using the corpus of spontaneous speech. After making HMMs for each class, we carry out state clustering using a context desicion tree with the questions about the classes. To apply questions about the position of phones within a word, we make HMMs for phones at the beginning of the word, those for phones at the ending of the word, and those for phones at the other positions, separately. Then we carry out state clustering using a context desicion tree with questions about phone case, the word accuracy improved by 2.4 points with the use of the former method, and it improved by 6.1 points with the use of the latter method.

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00057285/

  • 形態素情報と単語内位置情報を用いた話し言葉音声認識のための音響モデル

    五十川 賢造, 篠田 浩一, 嵯峨山 茂樹

    電子情報通信学会技術研究報告. SP, 音声   102 ( 529 )   111 - 116   2002年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    話し言葉における発声変形をモデル化するため、文脈決定木を用いた状態クラスタリングにおいて、音素コンテキストの情報以外に品詞情報を利用する方法と音素の単語内位置情報を利用する方法とを提案する。品詞情報を利用する方法では、話し言葉の音声データから推定した単語継続時間長をもとに、品詞を2つのクラスタに分類する。各音素についてクラスタ別に初期モデルを構築し、音素コンテキストに関する質問に加えて所属クラスタに関する質問を用いた決定木による状態クラスタリングを行う。単語内位置情報を利用する方法では、各音素について語頭か語末かそれ以外かを考慮した初期モデルを構築し、音素コンテキストに関する質問に加えて語頭語末に関する質問を用いた決定木による状態クラスタリングを行う。CSJ(Corpus of Spontaneous Japanese)コーパスを用いた連続音声認識実験を行った結果、品詞情報を利用した方法では単語正解精度がテスト話者7名の平均で最大で2.4ポイント向上し、単語内位置情報を用いたモデルでは単語正解精度が最大で6.1ポイント向上した。

    CiNii Books

    researchmap

  • リズムベクトルを用いたリズム認識

    武田 晴登, 篠田 浩一, 嵯峨山 茂樹

    情報処理学会研究報告. [音楽情報科学]   2002 ( 63 )   23 - 28   2002年7月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    本稿では、MIDIキーボードによる人間の演奏から自動採譜を行うシステムについて述べる。鍵盤楽器からMIDI信号を入力するため、ピッチについての情報は正確に得られるのに対し、リズムについては音の長さが得られるだけなので、音の長さを音符に変換する処理が必要である。市販ソフトではメトロノームなどによりテンポを強制された演奏に対する自動採譜が実現されているが、テンポの指定を行わず自由に弾かれた演奏に対するリズム認識についは有効な手法は確立されていない。我々はテンポの指定のない演奏に対するリズム認識を行うために、音楽の時間構造をテンポとリズムパターンに分けて考え、リズムパターンを表す特徴量である、3つの連続する音の長さの比を用いて表す特徴量である「リズムベクトル」に注目する。リズムベクトルとテンポ変動は、隠れマルコフモデルを用いてモデリングを行い、リズム認識の問題を推定の問題として扱う。本稿では、リズムベクトルに基づくリズム認識のための確率モデルを提案する。さらに、提案されるモデルを用いた実験として、3人の被験者のMIDIキーボードによる単旋律の曲の演奏について認識実験を行い、有効性を示唆する実験結果として認識率93.2%が得られたことを報告する。

    J-GLOBAL

    researchmap

  • A structural Bayes approach to speaker adaptation

    K Shinoda, CH Lee

    IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING   9 ( 3 )   276 - 287   2001年3月

     詳細を見る

  • 音声認識のための高速最ゆう推定を用いた声道長正規化

    江森 正, 篠田浩一

    電子情報通信学会論文誌   Vol. J83-D-II ( No. 11 )   2108 - 2117   2000年11月

     詳細を見る

    記述言語:日本語  

    researchmap

  • MDL-based context-dependent subword modeling for speech recognition

    K. Shinoda, T, Watanabe

    Journal of Acoustic Society of Japan (E)   21 ( 2 )   79 - 86   2000年

     詳細を見る

  • MDL-based context-dependent subword modeling for speech recognition

    K. Shinoda, T, Watanabe

    Journal of Acoustic Society of Japan (E)   21 ( 2 )   79 - 86   2000年

     詳細を見る

  • 音声認識における自律的なモデル複雑度制御を用いた話者適応化

    篠田浩一, 渡辺隆夫

    電子情報通信学会和文論文誌D-II   Vol. J79-D-II ( No. 12 )   2054   1996年12月

     詳細を見る

    記述言語:日本語  

    researchmap

  • 音声認識のためのスペクトル内挿を用いた話者適応化

    篠田浩一, 磯健一, 渡辺隆夫

    電子情報通信学会論文誌A   Vol. J77-A ( No. 2 )   120 - 127   1994年2月

     詳細を見る

    記述言語:日本語  

    researchmap

▼全件表示

講演・口頭発表等

  • Speech recognition using tree-structured probability density function

    ICSLP-94  1994年 

     詳細を見る

  • Unsupervised and incremental speaker adaptation under adverse environmental conditions

    ICSLP-96  1996年 

     詳細を見る

  • Acoustic modeling based on the MDL criterion for speech recognition

    EuroSpeech-97  1997年 

     詳細を見る

  • Structural MAP speaker adaptation using hierarchical priors

    IEEE Workshop on Speech Recognition and Understanding  1997年 

     詳細を見る

  • Unsupervised adaptation using structural Bayes approach

    ICASSP-98  1998年 

     詳細を見る

  • Unsupervised adaptation using structural Bayes approach

    ICASSP-98  1998年 

     詳細を見る

  • Rapid Vocal Tract Length Normalization using Maximum Likelihood Estimation

    EuroSpeech2001  2001年 

     詳細を見る

  • Analytic Methods for Acoustic Model Adapation: A Review

    Isca ITR-Workshop2001  2001年 

     詳細を見る

  • Rapid Vocal Tract Length Normalization using Maximum Likelihood Estimation

    EuroSpeech2001  2001年 

     詳細を見る

  • Analytic Methods for Acoustic Model Adapation: A Review

    Isca ITR-Workshop2001  2001年 

     詳細を見る

  • Acoustic modeling based on the MDL criterion for speech recognition

    EuroSpeech-97  1997年 

     詳細を見る

  • Structural MAP speaker adaptation using hierarchical priors

    IEEE Workshop on Speech Recognition and Understanding  1997年 

     詳細を見る

  • Robust Acoustic Modeling for Speech Recognition

    電子情報通信学会 音声研究会  2004年 

     詳細を見る

  • 隠れマルコフモデルを用いた野球放送の自動的インデクシング

    電子情報通信学会 技術研究報告  2004年 

     詳細を見る

  • 隠れマルコフモデルを用いた野球放送の自動インデキシング

    電子情報通信学会 パターン認識・メディア理解研究会  2004年 

     詳細を見る

  • A study of noise discrimination for personal robots

    日本音響学会 2004年秋季講演  2004年 

     詳細を見る

  • A study of noise discrimination for personal robots

    2004年 

     詳細を見る

  • 手書き文字の準同期入力を併用した音声認識手法の予備検討

    電子情報通信学会 2004年総合大会  2004年 

     詳細を見る

  • 動的特徴量を用いたHMMによる連続動作認識

    電子情報通信学会 2004年総合大会  2004年 

     詳細を見る

  • パーソナルロボット向けの家庭内雑音に頑健な音声認識の検討

    日本音響学会 2003年秋季講演  2003年 

     詳細を見る

  • パーソナルロボット向けの家庭内雑音に頑健な音声認識の検討

    日本音響学会 2003年秋季研究発表会  2003年 

     詳細を見る

  • Robust Acoustic Modeling for Speech Recognition

    2004年 

     詳細を見る

  • Robust Highlight Extraction Using Multi--Stream Hidden Markov Models for Baseball Video

    International Conference on Image Processing 2005(ICIP 2005)  2005年 

     詳細を見る

  • Recognition of speech in non-stationary noise using Factorial HMMs

    日本音響学会 2005年秋季講演  2005年 

     詳細を見る

  • 音声と手書き文字の同時入力によるインタフェースの検討

    日本音響学会 2005年秋季講演  2005年 

     詳細を見る

  • Robust highlight extraction using multi-stream Hidden Markov Models for baseball video

    International Conference on Image Processing 2005 (ICIP2005),  2005年 

     詳細を見る

  • Recognition of speech in non-stationary noise using factorial HMMs

    2005年 

     詳細を見る

  • 音声と手書き文字の同時入力によるインターフェースの検討

    日本音響学会2005年秋季研究発表会  2005年 

     詳細を見る

  • Robust Acoustic Modeling for Speech Recognition

    2004年 

     詳細を見る

  • Robust Acoustic Modeling for Speech Recognition

    電子情報通信学会 音声研究会  2004年 

     詳細を見る

  • A study of noise discrimination for personal robots

    日本音響学会 2004年秋季講演  2004年 

     詳細を見る

  • A study of noise discrimination for personal robots

    2004年 

     詳細を見る

  • 音声と手書き文字の同時入力インターフェース

    情報処理学会 音声言語情報処理研究会  2005年 

     詳細を見る

  • Noise discrimination using models with different structures

    日本音響学会 2005年春季講演  2005年 

     詳細を見る

  • 弁別素性のグラフィカルモデリングによる音声認識

    日本音響学会 2005年春季講演  2005年 

     詳細を見る

  • Model optimization for noise discrimination in home environment

    Symposium on Large-Scale Knowledge Resources(LKR2005)  2005年 

     詳細を見る

  • Scene recognition using Hidden Markov Models for video database

    Symposium on Large-Scale Knowledge Resources(LKR2005)  2005年 

     詳細を見る

  • 隠れマルコフモデルを用いた野球放送の自動的インデクシング

    画像の認識・理解シンポジウム(MIRU2005)  2005年 

     詳細を見る

  • 隠れマルコフモデルを用いた野球放送の自動的インデクシング

    画像の認識・理解シンポジウム(MIRU2005)  2005年 

     詳細を見る

  • 隠れマルコフモデルとMLLRによるゲーム適応を用いた野球放送の自動的インデクシング

    第11回画像センシングシンポジウム 講演論文集  2005年 

     詳細を見る

  • 隠れマルコフモデルとMLLRによるゲーム適応を用いた野球放送の自動インデクシング

    第11回 画像センシングシンポジウム  2005年 

     詳細を見る

  • 音声と手書き文字の同時入力インターフェース

    情報処理学会 研究報告  2005年 

     詳細を見る

  • Speaker adaptation with autonomous model complexity control by MDL principle

    ICASSP-96  1996年 

     詳細を見る

  • Automatically Estimating Number of Scenes for Rushes Summarization

    TRECVID BBC Rushes Summarization Workshop (TVS 2008) at ACM Multimedia  2008年 

     詳細を見る

  • Improvement of eigenvoice-based speaker adaptation by parameter space clustering

    INTERSPEECH2008  2008年 

     詳細を見る

  • Robust spoken term detection using combination of phone-based and word-based recognition

    INTERSPEECH2008  2008年 

     詳細を見る

  • Time-lag Adaptation for Semi-synchronous Speech and Pen Input

    INTERSPEECH2008  2008年 

     詳細を見る

  • Noise robust speech recognition using spectral subtraction and Fo information extracted by Hough transformation

    2008年 

     詳細を見る

  • Automatic score Scene Detection for Baseball Video

    Symposium on Large-Scale Knowledge Resources(LKR2008)  2008年 

     詳細を見る

  • Initial Evaluation of the Drivers' Japanese Speech Corpus in a Car Environment

    2008年 

     詳細を見る

  • 音声認識のための複数の認識器を利用した能動学習

    情報処理学会研究報告  2009年 

     詳細を見る

  • SIFT混合ガウス分布と音響特徴を用いた映像からの高次特徴検出

    電子情報通信学会 技術研究報告  2009年 

     詳細を見る

  • TITGT at TRECVID 2009 Workshop

    TRECVID Workshop (TRECVID 2009)  2009年 

     詳細を見る

  • Robust Speech Recognition In The Car Environment

    the 4th Language and Technology Conference (LTC'09)  2009年 

     詳細を見る

  • Noise robust speech recognition using spectral subtraction and F0 information extracted by Hough transform

    Asia-Pacific Signal and Information Processing Association 2009 Annual Summit and Conference  2009年 

     詳細を見る

  • 音声認識のためのコミッティを用いた能動学習

    日本音響学会秋季研究発表会  2009年 

     詳細を見る

  • Speaker Adaptation Based on Two-Step Active Learning

    INTERSPEECH 2009 BRIGHTON  2009年 

     詳細を見る

  • Online speaker clustering using incremental learning of an ergodic hidden markov model

    IEEE ICASSP 2009  2009年 

     詳細を見る

  • Independent component analysis for noisy speech recognition

    ICASSP 2009  2009年 

     詳細を見る

    会議種別:ポスター発表  

    researchmap

  • 能動的な適応文選択に基づく話者適応化

    日本音響学会 2009年 春季研究発表会  2009年 

     詳細を見る

  • ハフ変換による基本周波数情報を用いた耐雑音音声認識の高性能化の検討

    日本音響学会 2009年 春季研究発表会  2009年 

     詳細を見る

  • 統計的モデル選択によるシーン数の自動推定を用いた動画要約

    電子情報通信学会 技術研究報告  2009年 

     詳細を見る

  • CHLAC特徴と隠れマルコフモデルを用いたGait認識

    電子情報通信学会 技術研究報告  2009年 

     詳細を見る

  • 耐雑音音声認識のためのハフ変換による基本周波数情報抽出の高速化

    電子情報通信学会 技術研究報告  2009年 

     詳細を見る

  • TITGT at TRECVID 2009 Workshop

    TRECVID Workshop (TRECVID 2009)  2009年 

     詳細を見る

  • Robust Speech Recognition In The Car Environment

    the 4th Language and Technology Conference (LTC'09)  2009年 

     詳細を見る

  • Noise robust speech recognition using spectral subtraction and F0 information extracted by Hough transform

    Asia-Pacific Signal and Information Processing Association 2009 Annual Summit and Conference  2009年 

     詳細を見る

  • Speaker Adaptation Based on Two-Step Active Learning

    INTERSPEECH 2009 BRIGHTON  2009年 

     詳細を見る

  • Online speaker clustering using incremental learning of an ergodic hidden markov model

    IEEE ICASSP 2009  2009年 

     詳細を見る

  • Independent component analysis for noisy speech recognition

    ICASSP 2009  2009年 

     詳細を見る

    会議種別:ポスター発表  

    researchmap

  • ToFカメラによる3D手話認識

    画像の認識・理解シンポジウム  2010年 

     詳細を見る

  • NIST SRE 2010:Tokyo Tech Speaker Recognition

    NIST 2010 Speaker recognition evaluation workshop  2010年 

     詳細を見る

  • NIST SRE 2010:Tokyo Tech Speaker Recognition

    NIST 2010 Speaker recognition evaluation workshop  2010年 

     詳細を見る

  • Gait Recognition Using CHLAC Features and Hidden Markov Model

    IEICT Tachnical Report  2009年 

     詳細を見る

  • Family Adaptation of Factorial HMMs for Personal Robots

    2006年 

     詳細を見る

  • Home-Environment Adaptation of Phoneme Factorial Hidden Markov Models

    Poznan, Poland  2007年 

     詳細を見る

  • Family adaptaion of Factorial HMMs for personal robots

    日本音響学会 2006年春季講演  2006年 

     詳細を見る

  • Robust scene recognition for baseball broadcast

    International Symposium on Large-Scale Knowledge Resources(LKR2006)  2006年 

     詳細を見る

    会議種別:ポスター発表  

    researchmap

  • FHMM for Robust Speech Recognition in Home Environment

    International Symposium on Large-Scale Knowledge Resources(LKR2006)  2006年 

     詳細を見る

    会議種別:ポスター発表  

    researchmap

  • 十分統計量を用いた教師なし話者適応における話者選択法

    電子情報通信学会 技術研究報告  2007年 

     詳細を見る

  • 音声認識における確率モデルの重み係数の自動推定

    電子情報通信学会 技術研究報告  2007年 

     詳細を見る

  • 数値列化したイベントシーンの学習と試合進行状況情報による制約条件を用いた野球映像イベント識別

    電子情報通信学会 技術研究報告  2007年 

     詳細を見る

  • An Interface Using Semi-synchronous Speech and Pen Input

    IJARC(Microsoft)-Tokyo Institute of Technology Joint Symposium on "The forefront of the Speech Recognition Research"  2007年 

     詳細を見る

  • TokyoTech's TRECVIC2007 Notebook

    TRECVID 2007 Workshop  2007年 

     詳細を見る

  • ハイブリッドモデルに基づく単視点ビデオデータにおける人間の歩行動作のトラッキング

    電子情報通信学会 技術研究報告  2007年 

     詳細を見る

  • Dynamic Language Model Adaptation Using Presentation Slides for Lecture Speech Recognition

    INTERSPEECH 2007  2007年 

     詳細を見る

  • Automatic Estimation of Scaling Factors Among Probabilistic Models in Speech Recognition

    INTERSPEECH2007  2007年 

     詳細を見る

  • Predictive Minimum Bayes Risk Classification for Robust Speech Recognition

    INTERSPEECH2007  2007年 

     詳細を見る

  • 投球の次ショットに重きを置いたシーンのパターン化と離散隠れマルコフモデルを用いた野球放送映像の自動イベント分類

    映像情報メディア学会誌  2007年 

     詳細を見る

  • 多段SVMを用いた頑健な動画ショット境界検出

    画像の認識・理解シンポジウム(MIRU 2007)IS-2-19  2007年 

     詳細を見る

  • A Robust Scene Recognition System for Baseball Broadcast Using Date-Driven Approach

    CIVR2007, Amsterdam, The Netherlands  2007年 

     詳細を見る

  • 時系列データに対するデータ駆動型アプローチに基づく野球放送の頑健なシーン認識

    画像の認識・理解シンポジウム(MIRU 2007)IS-1-17  2007年 

     詳細を見る

  • 「野球放送のためのデータ駆動型アプローチを用いた得点シーン検出」

    第13回 画像センシングシンポジウム 予稿集  2007年 

     詳細を見る

  • Speech Recognition Using FHMMs Robust against Nonstationary Noise

    ICASSP 2007  2007年 

     詳細を見る

  • Speech Recognition Using FHMMs Robust against Nonstationary Noise

    IEEE ICASSP 2007  2007年 

     詳細を見る

  • Semi-Synchronous Speech and Pen Input

    ICASSP 2007  2007年 

     詳細を見る

  • スライド資料を用いた講義音声認識のための言語モデル適応

    2007年春季講演論文集  2007年 

     詳細を見る

  • Recognition of speech in non-stationary noise using factorial HMMs

    2005年 

     詳細を見る

  • Noise discrimination using models with different structures

    日本音響学会 2005年春季講演  2005年 

     詳細を見る

  • Model optimization for noise discrimination in home environment

    Symposium on Large-Scale Knowledge Resources(LKR2005)  2005年 

     詳細を見る

  • Scene recognition using Hidden Markov Models for video database

    Symposium on Large-Scale Knowledge Resources(LKR2005)  2005年 

     詳細を見る

  • Noise discrimination using models with different structures

    2005年 

     詳細を見る

  • 弁別素性のグラフィカルモデリングによる音声認識

    音声音響学会2005年春季研究発表会  2005年 

     詳細を見る

  • Model optimization for noise discrimination in home environment

    Symposium on Large-Scale Knowledge Resources (LKR2005)  2005年 

     詳細を見る

  • Robust Highlight Extraction Using Multi--Stream Hidden Markov Models for Baseball Video

    International Conference on Image Processing 2005(ICIP 2005)  2005年 

     詳細を見る

  • Recognition of speech in non-stationary noise using Factorial HMMs

    日本音響学会 2005年秋季講演  2005年 

     詳細を見る

  • Robust highlight extraction using multi-stream Hidden Markov Models for baseball video

    International Conference on Image Processing 2005 (ICIP2005),  2005年 

     詳細を見る

  • 動画像インデクシングのためのシーン時系列の確率的言語モデル

    第12回 画像センシングシンポジウ  2006年 

     詳細を見る

    会議種別:ポスター発表  

    researchmap

  • ビデオ画像における人間の歩行動作の3次元トラッキング

    電子情報通信学会 パターン認識・メディア理解研究会  2006年 

     詳細を見る

  • Towards optimal bayes decision for speech recognition

    ICASSP2006  2006年 

     詳細を見る

  • Noise discrimination using models with different structures

    2005年 

     詳細を見る

  • Model optimization for noise discrimination in home environment

    Symposium on Large-Scale Knowledge Resources (LKR2005)  2005年 

     詳細を見る

  • 講義音声認識における講義スライド情報の利用

    電子情報通信学会  2006年 

     詳細を見る

  • Multimedia Information Retrieval Using Pattern Recognition Techniques

    IJARC 2nd Symposium  2006年 

     詳細を見る

  • Robust Scene Recognition Using Language Models

    MIR 2006, ACM Workshop 2006  2006年 

     詳細を見る

  • 音声とペンの準同期入力に対するマルチモーダル認識

    日本音響学会 2006年秋季講演  2006年 

     詳細を見る

  • 音声とペン入力の同時入力に対する認識方式の検討

    電子情報通信学会 音声研究会  2006年 

     詳細を見る

  • Robust Scene Recognition Using Language Models

    MIR 2006, ACM Workshop 2006  2006年 

     詳細を見る

  • Towards optimal bayes decision for speech recognition

    ICASSP2006  2006年 

     詳細を見る

  • Family Adaptation of Factorial HMMs for Personal Robots

    2006年 

     詳細を見る

  • Family adaptaion of Factorial HMMs for personal robots

    日本音響学会 2006年春季講演  2006年 

     詳細を見る

  • 基本周波数情報を用いたダイナミックベイジアンネットワークによる音声認識

    電子情報通信学会 音声研究会  2006年 

     詳細を見る

  • 基本周波数情報のグラフィカルモデリングによる音声認識

    日本音響学会 2006年春季講演  2006年 

     詳細を見る

  • Robust scene recognition for baseball broadcast

    International Symposium on Large-Scale Knowledge Resources(LKR2006)  2006年 

     詳細を見る

    会議種別:ポスター発表  

    researchmap

  • FHMM for Robust Speech Recognition in Home Environment

    International Symposium on Large-Scale Knowledge Resources(LKR2006)  2006年 

     詳細を見る

    会議種別:ポスター発表  

    researchmap

  • 野球中継番組を対象とした音響情報を用いたシーン認識

    日本音響学会2006年春季講演論文集  2006年 

     詳細を見る

  • Multimedia Information Retrieval Using Pattern Recognition Techniques

    IJARC 2nd Symposium  2006年 

     詳細を見る

  • Speaker adaptation for demi-syllable based speech recognition using continuous HMM,

    ICSLP-90  1990年 

     詳細を見る

  • Speaker adaptation for demi-syllable based speech recognition using continuous HMM,

    ICSLP-90  1990年 

     詳細を見る

  • Speaker Adaptation for Demi-Syllable-Based Continuous-Density HMM

    ICASSP-91  1991年 

     詳細を見る

  • Speaker Adaptation for Demi-Syllable-Based Continuous-Density HMM

    ICASSP-91  1991年 

     詳細を見る

  • Speech recognition using tree-structured probability density function

    ICSLP-94  1994年 

     詳細を見る

  • Unsupervised speaker adaptation for speech recognition using demi-syllable HMM

    ICSLP-94  1994年 

     詳細を見る

  • Unsupervised speaker adaptation for speech recognition using demi-syllable HMM

    ICSLP-94  1994年 

     詳細を見る

  • High speed speech recognition using tree-structured probability density function

    ICASSP-95  1995年 

     詳細を見る

  • Speaker adaptation with autonomous control using tree structure

    EuroSpeech-95  1995年 

     詳細を見る

  • High speed speech recognition using tree-structured probability density function

    ICASSP-95  1995年 

     詳細を見る

  • Speaker adaptation with autonomous control using tree structure

    EuroSpeech-95  1995年 

     詳細を見る

  • Speaker adaptation with autonomous model complexity control by MDL principle

    ICASSP-96  1996年 

     詳細を見る

  • Unsupervised and incremental speaker adaptation under adverse environmental conditions

    ICSLP-96  1996年 

     詳細を見る

  • Home-Environment Adaptation of Phoneme Factorial Hidden Markov Models

    Poznan, Poland  2007年 

     詳細を見る

  • Dynamic Language Model Adaptation Using Presentation Slides for Lecture Speech Recognition

    INTERSPEECH 2007  2007年 

     詳細を見る

  • Automatic Estimation of Scaling Factors Among Probabilistic Models in Speech Recognition

    INTERSPEECH2007  2007年 

     詳細を見る

  • Predictive Minimum Bayes Risk Classification for Robust Speech Recognition

    INTERSPEECH2007  2007年 

     詳細を見る

  • A Robust Scene Recognition System for Baseball Broadcast Using Date-Driven Approach

    CIVR2007, Amsterdam, The Netherlands  2007年 

     詳細を見る

  • Speech Recognition Using FHMMs Robust against Nonstationary Noise

    ICASSP 2007  2007年 

     詳細を見る

  • Speech Recognition Using FHMMs Robust against Nonstationary Noise

    IEEE ICASSP 2007  2007年 

     詳細を見る

  • Semi-Synchronous Speech and Pen Input

    ICASSP 2007  2007年 

     詳細を見る

  • Robust Scene Recognition Using Scene Context Information for Video Contents

    International Symposium on Large-Scale Knowledge Resources(LKR2007)  2007年 

     詳細を見る

  • Comparative Study on Robust Speech Recognition against Nonstationary Noise in the Home Environment

    Symposium on Large-Scale Knowledge Resources(LKR2007)  2007年 

     詳細を見る

  • Presentation Scene Retrieval Exploiting Features in Videos Including Pointing and Speech Information

    Symposium on Large-Scale Knowledge Resources(LKR2007).  2007年 

     詳細を見る

  • Tokyo Tech at TRECVID 2008

    TRECVID Workshop (TRECVID 2008)  2008年 

     詳細を見る

  • Automatically Estimating Number of Scenes for Rushes Summarization

    TRECVID BBC Rushes Summarization Workshop (TVS 2008) at ACM Multimedia  2008年 

     詳細を見る

  • Improvement of eigenvoice-based speaker adaptation by parameter space clustering

    INTERSPEECH2008  2008年 

     詳細を見る

  • Robust spoken term detection using combination of phone-based and word-based recognition

    INTERSPEECH2008  2008年 

     詳細を見る

  • Time-lag Adaptation for Semi-synchronous Speech and Pen Input

    INTERSPEECH2008  2008年 

     詳細を見る

  • スペクトルサブトラクションとハフ変換による基本周波数情報を用いた耐雑音音声認識

    日本音響学会秋季研究発表会  2008年 

     詳細を見る

  • Automatic score Scene Detection for Baseball Video

    Symposium on Large-Scale Knowledge Resources(LKR2008)  2008年 

     詳細を見る

  • 連続音素認識を用いた単語認識誤りに頑健な講演音声検索

    日本音響学会春季研究発表会  2008年 

     詳細を見る

  • パラメータ空間のクラスタ化による固有声話者適応化の改良

    日本音響学会春季研究発表会  2008年 

     詳細を見る

  • 音声とペンの同時入力における個人差への適応化

    日本音響学会春季研究発表会  2008年 

     詳細を見る

  • 木構造クラスタリングを用いた動画像からの高次特徴抽出

    電子情報通信学会 技術研究報告no.491  2008年 

     詳細を見る

  • 木構造クラスタリングを用いた動画像からの高次特徴抽出

    電子情報通信学会 技術研究報告  2008年 

     詳細を見る

  • Initial Evaluation of the Drivers' Japanese Speech Corpus in a Car Environment

    2008年 

     詳細を見る

  • Tokyo Tech at TRECVID 2008

    TRECVID Workshop (TRECVID 2008)  2008年 

     詳細を見る

  • Robust Scene Recognition Using Scene Context Information for Video Contents

    International Symposium on Large-Scale Knowledge Resources(LKR2007)  2007年 

     詳細を見る

  • Comparative Study on Robust Speech Recognition against Nonstationary Noise in the Home Environment

    Symposium on Large-Scale Knowledge Resources(LKR2007)  2007年 

     詳細を見る

  • Presentation Scene Retrieval Exploiting Features in Videos Including Pointing and Speech Information

    Symposium on Large-Scale Knowledge Resources(LKR2007).  2007年 

     詳細を見る

  • An Interface Using Semi-synchronous Speech and Pen Input

    IJARC(Microsoft)-Tokyo Institute of Technology Joint Symposium on "The forefront of the Speech Recognition Research"  2007年 

     詳細を見る

  • TokyoTech's TRECVIC2007 Notebook

    TRECVID 2007 Workshop  2007年 

     詳細を見る

▼全件表示

Works(作品等)

  • Study of speech recognition

    2002年

     詳細を見る

    作品分類:芸術活動  

    researchmap

  • 音声認識の研究

    2002年

     詳細を見る

    作品分類:芸術活動  

    researchmap

受賞

  • 電子情報通信学会論文賞

    1998年  

     詳細を見る

    受賞国:日本国

    researchmap

  • Excellent Paper Award from the Institute of Electronics, Information, and Communication Engineers

    1998年  

     詳細を見る

  • 日本音響学会粟谷学術奨励賞

    1997年  

     詳細を見る

    受賞国:日本国

    researchmap

  • the Awaya Prize from the Acoustic Society of Japan

    1997年  

     詳細を見る

  • 日本音響学会技術開発賞

    1995年  

     詳細を見る

    受賞国:日本国

    researchmap

共同研究・競争的資金等の研究課題

  • 深層生成モデルを活用した構成的なパターン認識・理解

    研究課題/領域番号:23H00490  2023年4月 - 2026年3月

    日本学術振興会  科学研究費助成事業  基盤研究(A)

    篠田 浩一, 井上 中順, 横田 理央, 川上 玲, 佐藤 育郎

      詳細を見る

    配分額:47190000円 ( 直接経費:36300000円 、 間接経費:10890000円 )

    本研究課題では,識別の対象(インスタンス)を属性の集合(束)とみなし,特徴量空間においてその特徴を属性ごとに分解する.そして,これらの属性特徴からインスタンスを再合成する過程で属性特徴を最適化することで,各属性を高精度で識別し,かつ,外れ値に対し頑健な識別手法を実現することを目的としている。このために深層生成モデルと高密度な属性アノテーションに基づく学習手法を開発する.従来研究の多くが対象とその属性が一対一に対応する平坦な意味構造を仮定していたのに対し,本研究は多くの属性が複雑に絡み合う対象における複数の属性を同時に識別することを可能にする.新しい属性やクラスの創発も視野に入れる.より具体的には、深層学習を用いた「合成による識別」のアプローチにより,構成的なパターン認識・理解を行う方法論を確立する.人の動作認識,話者・感情認識,マルチモーダル認識の3つのタスクで横断的に評価し,従来に比べ高い識別性能を目指す.初年度である本年度は、人の動作認識、話者・感情認識、マルチモーダル認識の各々の課題において、評価データベースの構築と、ベースライン方式の開発を行った。これらと並行して、比較的小規模なタスクで、拡散モデルなどの生成モデルを用いて識別を行う方式の開発を行った。また、ニューラル構造探索などを用いて生成モデルの効率的な学習を行う方式も開発した。特に、センサーと映像のマルチモーダル認識における基本方式の構築、およびデータベース構築、人間の歩容認識の基本方式の開発、マルチモーダル感情認識の基本方式の開発を行った。

    researchmap

  • 低侵襲脳波からの想像音声のデコードによる意思伝達型BMIの実現

    研究課題/領域番号:23H00548  2023年4月 - 2026年3月

    日本学術振興会  科学研究費助成事業  基盤研究(A)

    田中 聡久, 篠田 浩一, 田中 雄一, 矢田部 浩平, 菅野 秀宣

      詳細を見る

    配分額:46930000円 ( 直接経費:36100000円 、 間接経費:10830000円 )

    researchmap

  • 知識限界を明確化する機能分化された深層学習

    研究課題/領域番号:22H03642  2022年4月 - 2025年3月

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    佐藤 育郎, 川上 玲, 井上 中順, 篠田 浩一

      詳細を見る

    配分額:17420000円 ( 直接経費:13400000円 、 間接経費:4020000円 )

    researchmap

  • 知識限界を明確化する機能分化された深層学習

    研究課題/領域番号:23K24898  2022年4月 - 2025年3月

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    佐藤 育郎, 篠田 浩一, 井上 中順, 川上 玲

      詳細を見る

    配分額:17420000円 ( 直接経費:13400000円 、 間接経費:4020000円 )

    シナプティック記憶テーマについて,従来法の課題を解決できる理論的枠組みを構築した.巡回型のモダンホップフィールドネットワークは,入力クエリに対し,モデルの内部に持つ記憶データの関連付けが行えるが,クエリが分布外データに相当するときに誤った関連付けを行ってしまう.この課題に対し,我々は分布の内外判定機能を持たせることによって原理的に課題を解決できる方法を定式化した.現在論文を執筆中である.
    人物行動の生成的予測テーマについて,異なる人体モデルに基づくデータを統括的に学習に用いることのできるアルゴリズムを開発し,国際会議ECCVに論文を投稿した(査読中).この手法により,人体モデルの定義が異なるデータセットを学習でき,より自然な行動生成が行えることを確認した.
    視点変化の下での三次元理解テーマについて,生成器と回帰器の協調的推論という新規な提案を行い,回帰器のみを用いる従来法に対する性能改善効果を確認した.国際会議ICIPに論文を投稿した(査読中).機能分化されたモデル群(異なる目的関数によって最適化された複数のネットワーク)が協調的に働くことで下流タスクの性能が改善できることを示すことが出来た.
    時系列整合判定テーマについて,既存の自動運転用の認識器の特徴に整合を壊す成分が含まれる課題を確認した.
    目標値伝播法テーマについては,従来法の性能改善として,順・逆ネットワークのヤコビアンの整合性を取る方法を提案した(Y. Baoら,AAAI 2024).

    researchmap

  • 機械学習を用いた突発天体検知サーベイロボットの構築

    研究課題/領域番号:20K04011  2020年4月 - 2023年3月

    日本学術振興会  科学研究費助成事業  基盤研究(C)

    村田 勝寛, 谷津 陽一, 篠田 浩一, 井上 中順, 下川辺 隆史

      詳細を見る

    配分額:4290000円 ( 直接経費:3300000円 、 間接経費:990000円 )

    本年度の成果は大きく分けて以下の二点である。
    (a) 広視野望遠鏡の設置
    本年度前半は広視野望遠鏡用に検討していた2台のアマチュア天文向けCMOSカメラの性能評価を進めた。実験室での試験と大学屋上での試験観測により、このうち1台で天文研究向けの観測に必要な性能を備えていることを確認できた。それを踏まえて10月に岡山県浅口市のMITSuME望遠鏡天体ドーム内に口径20cm広視野望遠鏡を設置して観測を開始した。はじめに重力波追観測用のSDSS gバンドフィルターでの試験観測をおこない、合計1000秒積分で17.5等の限界等級を達成していることを確認した。また、望遠鏡の赤道儀制御、CMOSカメラ撮像制御のソフトウェアを開発して、事前に準備した天体リストにもとづき自動観測を実施できる機能を導入した。本年度は重力波望遠鏡の観測は停止しているため、銀河系内の天体を中心に観測を進めた。
    (b) 突発天体検知システム開発
    突発天体検知システムは、観測画像の一次処理、深層学習を用いた突発天体の識別システムからなる。我々が運用するMITSuME可視光望遠鏡のパイプラインを移植することで、本年度岡山に設置した広視野望遠鏡の画像処理と測光の自動化を実現した。突発天体識別システムについては、識別精度の向上のため、これまで開発してきた深層学習を用いた識別手法の改善を試みた。また、実運用に向けてサーバーの立ち上げとスクリプト群の開発を進めた。

    researchmap

  • 大規模脳波データとキャリブレーションレスモデルの構築による意思伝達BMIの実現

    研究課題/領域番号:20H00235  2020年4月 - 2023年3月

    日本学術振興会  科学研究費助成事業  基盤研究(A)

    田中 聡久, 篠田 浩一, 田中 雄一, 菅野 秀宣

      詳細を見る

    配分額:46020000円 ( 直接経費:35400000円 、 間接経費:10620000円 )

    近年の信号処理・機械学習技術の進展によって,発声時や傾聴時の音声を頭蓋内脳波から推定したり再構成することが可能になりつつある.一方で,想像している発話の推定は,脳波と正解ラベルの同期を取るのが困難であることもあり,めぼしい成果が出ていないのが現状である.本年度は,想像音声と脳波が適切に同期していれば,発声や傾聴時脳波の場合と同様に,脳波から音声をデコーディングできるという仮説を立て、研究を実施した.
    実験参加者は聴覚および視覚に問題なく,てんかん治療のため頭蓋内に電極を留置した男性4名(s1, s5, s6, s8),女性4名(s2, s3, s4, s7)であった.実験前には実験前には共同研究機関である順天堂大学医学部附属順天堂医院の承認に基づいて,実験参加者からインフォームドコンセントを得た.ECoG測定の電極には,てんかん治療のため頭蓋内に留置した頭蓋内電極を使用した.ECoGを測定する時のGNDは硬膜外電極とした.まず,短い文が映し出された画面を実験参加者に呈示し,文字の色を1文字ずつハイライトすることで,想像時のタイミングや想像速度を制御できる実験を設計した.その上で,音声想像,音声傾聴,発声の3種類タスクを課し,そのときの頭蓋内脳波を記録した.さらに,傾聴タスクでは呈示した音声,発声タスクでは実験参加者の発話を記録した.計測した頭蓋内脳波に対して,発声または傾聴時の音声のメルケプストラム係数をもちいたエンコーダ・デコーダモデルによって,想像音声を学習・推論した.想像時の頭蓋内脳波からデコーディングした文の文字誤り率は,最良で約17%を達成した.

    researchmap

  • 声真似による成りすまし攻撃に対する話者照合の耐性向上に関する研究

    研究課題/領域番号:19K12051  2019年4月 - 2023年3月

    日本学術振興会  科学研究費助成事業  基盤研究(C)

    岩野 公司, 篠田 浩一

      詳細を見る

    配分額:4030000円 ( 直接経費:3100000円 、 間接経費:930000円 )

    本研究では,声による個人認証(話者照合)の実用化に向けた,「声真似による成りすまし攻撃」の対策についての検討を進める.過去の研究において,物真似のスキルの違いによって声真似の特徴や成りすましが成功する理由に違いがあることが示唆されていることから,そのメカニズムの解明を図り,その知見に基づいて声真似攻撃に対する効果的な対策手法の提案を目指す.
    2021年度は,新規に深層学習に基づく話者照合システムの構築と導入を行い,このシステムが「物真似のスキルが高い人」の声真似の攻撃をどの程度防御できるかについて,調査・分析を行った.その結果,「物真似のスキルが高い人」の声真似は,今回の深層学習ベースの話者照合システムにおいても「物真似のスキルが低い人」の声真似に比べて成りすましの成功率の大きな上昇が見られ,高い攻撃力を有することが確認された.したがって,深層学習の単純な導入のみでは声真似による詐称攻撃の対策としては不十分であることが示された.
    そこで,対策手法の一つとして,「声真似のスキルが高い人」の声真似を収集し,そのデータを(声真似をされた)本人の発声ではないものとして学習に利用し,話者照合システムの識別性能を高める方法が考えられる.しかし,実際に「声真似のスキルが高い人」(プロの物真似タレントなど)に依頼して大量の声真似音声を収集することは現実的ではないため,近年,高性能化が進んでいる「声質変換技術」を用いて声真似に相当する音声を人工的に生成し,それを学習に利用することを考える.2021年度は,2種類の「声質変換技術」を用いて詐称用音声の作成を行い,システムに対する攻撃力の調査を行うことで,「声真似のスキルが高い人」の声真似音声と特徴が類似しているかを調査した.その結果,1種類の声質変換器が,「声真似のスキルが高い人」の声真似攻撃と同様の特徴を有する音声を生成できることが確認された.

    researchmap

  • マルチエージェント深層学習による音声因子分解

    研究課題/領域番号:19H04133  2019年4月 - 2022年3月

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    篠田 浩一, 井上 中順, 岩野 公司, 宇都 有昭

      詳細を見る

    配分額:17420000円 ( 直接経費:13400000円 、 間接経費:4020000円 )

    前年度に「(A)音韻性と雑音の分離」と「(B)音韻性と話者性の分離」について、ある程度の性能向上が達成されたため、今年度はこれらを活用して、「(D)音源分離」の応用に着手した。より具体的には、これまで開発してきた波形ベースの音声信号処理システムをベースに、複数の話者の音声を分離する音源分離のフレームワークをまず構築した。そして、「(A)音韻性と雑音の分離」の成果をもとに、音源から雑音を除去する仕組みをこのシステムに追加し、雑音の影響に対して頑健な音声分離システムを構築した。既存のデータベースに雑音を重畳したデータを構築し、それを用いて評価を行った。従来法に比べ有意に高い性能を得た。この成果は、信号処理関連の国際会議IEEE APSIPA 2021に採択され、発表した。さらに「(E)言語認識、感情認識」において、まず感情認識に着手した。ここでは、まず、「(B)音韻性と話者性の分離」の成果に基づき、音声から音韻性と話者性を分離する、disentanglement(もつれをほどく)のフレームワークを構築し、残された成分を入力として感情の認識を行うシステムを開発する。今年度は、既存のデータベースを用いたベースラインを構築した。disentanglementには、オートエンコーダー(自己符号化器)を利用した声質変換を用いる方法を採用し、実装を行った。最終年度に評価を行う予定である。評価には、感情認識の分野で広く用いられているIEMOCAPデータベースを用いる予定である。

    researchmap

  • GPUと深層学習を用いた広視野サーベイのための高精度・高速天体認識技術の開発

    研究課題/領域番号:16K13783  2016年4月 - 2019年3月

    日本学術振興会  科学研究費助成事業  挑戦的萌芽研究

    谷津 陽一, 篠田 浩一, 井上 中順, 下川辺 隆史, 河合 誠之

      詳細を見る

    配分額:3770000円 ( 直接経費:2900000円 、 間接経費:870000円 )

    重力波天文学に代表される時間領域天文学に必須となる天体観測装置のソフトウェア的な基盤技術の開発を行った。現在のロボット観測においてどうしても人間が介在せざるを得ない、観測スケジュールのアレンジと取得画像からの突発天体抽出の完全自動化のために、深層学習やGPUを用いた気象識別と全く新しい突発天体検出アルゴリズムを開発した。これらは、既存のハードウェアをそのまま応用して、多くの観測所で使用することが可能である。また、これらの処理に用いたGPUを従来のデータリダクションに用いることで、30倍の解析時間短縮を実現した。

    researchmap

  • 深層学習によるマルチモーダル時系列データ認識基盤の構築

    研究課題/領域番号:16H02845  2016年4月 - 2019年3月

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    篠田 浩一, 井上 中順, 岩野 公司

      詳細を見る

    配分額:15990000円 ( 直接経費:12300000円 、 間接経費:3690000円 )

    本研究では深層学習を用いてマルチモーダル時系列信号を高精度に認識することを目的とした。深層学習におけるEnd-to-End学習方式、少ないデータ量でも動作する深層モデル、マルチタスク学習、耐ノイズ認識などの手法を開発した。特に、音源分離と音声認識の同時学習、音声からの認知症診断、口唇画像を用いたマルチモーダル認識、耐雑音音声認識、の4つのテーマについてこれらの技術を適用し、各々の応用において、識別性能、検出性能を改善することができた。

    researchmap

  • 大規模時系列データに対するパターン認識のためのグラフ信号処理基盤

    研究課題/領域番号:15K12061  2015年4月 - 2018年3月

    日本学術振興会  科学研究費助成事業  挑戦的萌芽研究

    篠田 浩一, 井上 中順

      詳細を見る

    配分額:3510000円 ( 直接経費:2700000円 、 間接経費:810000円 )

    RGB-Dカメラ映像を入力として「投げる」「蹴る」などの人間の動作(ジェスチャー)を認識する動作認識において、グラフ信号処理を用いた手法を開発した。この方法では、人体の骨格をグラフとみなし、その時系列を入力とする。各フレームにおいてスペクトルグラフウェーブレット変換を用いて特徴量を抽出し、それらに対し、時系列方向に階層的なプーリングを行う。様々な角度で撮影された動作の認識において従来方法を上回る性能を得た。

    researchmap

  • 模倣音声による詐称攻撃に対して頑健な話者照合の研究

    研究課題/領域番号:25330206  2013年4月 - 2017年3月

    日本学術振興会  科学研究費助成事業  基盤研究(C)

    岩野 公司, 篠田 浩一

      詳細を見る

    配分額:4420000円 ( 直接経費:3400000円 、 間接経費:1020000円 )

    本研究では,話者照合システムに対する声真似(模倣音声)による成りすまし(詐称)攻撃の影響の分析と,模倣音声の音響特徴の分析を行った.本研究で独自に収録した一般人とプロの物真似タレントの模倣音声データを用いて分析を行った結果,一般人の模倣でも成りすましの成功確率が有意に上昇し,その影響が無視できないこと,プロのタレントの模倣は一般人よりも攻撃力が大きいことがわかった.また,「模倣のうまさ」を定量的に評価する手法を提案し,それによってプロの声真似が効率的に対象者の声質に近づいていることを明らかにした。

    researchmap

  • 非同期録音機器を利用可能にするマイクロフォンアレイ信号処理の研究

    研究課題/領域番号:25280069  2013年4月 - 2016年3月

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    小野 順貴, 牧野 昭二, 宮部 滋樹, 篠田 浩一

      詳細を見る

    配分額:17030000円 ( 直接経費:13100000円 、 間接経費:3930000円 )

    マイクロフォンアレイ信号処理は、複数のマイクで録音した信号を処理し、音の到来方向を推定したり、雑音の中から目的音を強調したりすることを可能にする重要な技術です。マイクロフォンアレイ信号処理では、チャンネル間の微小な時間差が重要な情報となっているため、従来は複数のマイクロフォンが同期して録音される必要がありました。これに対し本研究では、スマートフォン、ノートPC、ICレコーダーなど、同期していない複数の録音機器をアレイ信号処理に用いるために、録音信号を事前情報なしに同期させたり、録音信号からマイクロフォンの位置を推定したりする技術を開発しました。

    researchmap

  • Deep Generative Model とその因子分解による音声情報処理基盤

    研究課題/領域番号:25280058  2013年4月 - 2016年3月

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    篠田 浩一, 岩野 公司, 篠崎 隆宏

      詳細を見る

    配分額:16900000円 ( 直接経費:13000000円 、 間接経費:3900000円 )

    多数話者の発声した大量の音声データから、Deep Neural Network (DNN)を構築し、それを音韻と話者の要因毎に分解することで高性能な音声認識モデルを獲得する枠組みの研究開発を行った。2つのDNNの一部を共有させた構造をもつDeep Siamese Networkを用いた話者認識、音韻構造を階層的な出力層で表現したDNNを用いた話者適応化、Soft Targetを教師としたStudent-Teacher学習の枠組みを用いた話者正規化学習、の3つの手法を提案し、それぞれで話者認識性能、音声認識性能の顕著な向上を得た。それ以外にもDNNの実装、ネットワーク構造設計の研究を行った。

    researchmap

  • 非示量性情報理論に基づく音声言語処理

    研究課題/領域番号:24650079  2012年4月 - 2015年3月

    日本学術振興会  科学研究費助成事業  挑戦的萌芽研究

    篠田 浩一

      詳細を見る

    配分額:3900000円 ( 直接経費:3000000円 、 間接経費:900000円 )

    音声言語処理に対し、従来の示量性統計理論を拡張した非示量性統計理論を適用する方法論を開発した。まず、音声認識のための特徴抽出について、周囲雑音・回線の違いから生じる変動に対し頑健な、q-log spectral mean subtraction (q-LMSN)手法を提案し、従来のCMNを用いた手法に比べ優位に性能が高いことを示した。また、音声認識・映像意味インデクシングにおいて、HMMやGMMの出力分布として、周囲雑音の変動に頑健なq-Gauss混合分布を用いる方式を提案し、その効果を確認した。

    researchmap

  • グラフィカルモデルを用いた高分子ポテンシャルデコーダの開発

    研究課題/領域番号:23650068  2011年 - 2013年

    日本学術振興会  科学研究費助成事業  挑戦的萌芽研究

    篠崎 隆宏, 篠田 浩一, 関嶋 政和, 関嶋 政和

      詳細を見る

    配分額:3250000円 ( 直接経費:2500000円 、 間接経費:750000円 )

    タンパク質の立体構造はその機能と深く関わるため、アミノ酸配列から立体構造を予測することは重要である。本プロジェクトでは効率的な立体構造予測の実現のため、分子のポテンシャルエネルギーにより定まるギブス分布の表現に因子グラフと呼ばれるグラフ構造を導入した上で、マルコフ連鎖モンテカルロ(MCMC) 法による局所的な探索とグローバルなグラフ探索手法であるmax-sumアルゴリズムを組み合わせたSCMS手法の提案と改良を行った。計算機実験により提案法が従来のMCMC 法や、MCMCに準ニュートン法を組み合わせた方法と比較して、少ない計算量でより低いエネルギーの分子形状を探索できることを示した。

    researchmap

  • WFSTによる音声認識の高度化

    研究課題/領域番号:21300062  2009年 - 2011年

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    古井 貞煕, 篠田 浩一, 篠崎 隆宏

      詳細を見る

    配分額:18070000円 ( 直接経費:13900000円 、 間接経費:4170000円 )

    重みつき有限状態トランスデューサ(WFST)による音声認識の高度化と、WFSTデコーダの新たな応用展開を目指して研究を行い、以下の種々の成果を上げることができた。WFSTデコーダのon-the-fly合成アルゴリズムの改良を行い、世界最高性能の音声認識デコーダ(T^3デコーダ)を開発した。これにさらに音声・非音声情報を組み込み、雑音下での認識性能を向上させた。開発したデコーダを、大規模コーパスを持たない音声や、複数言語が混在して用いられる音声の認識、transliterationなどに適用し、効果的なアルゴリズムを提案した。さらに、デコーダ技術の新たな展開となるアイディアを創出した。開発したT^3デコーダを、国内外に公開した。

    researchmap

  • ヒューマンコミュニケーション検索・要約のためのマルチモーダル認識の研究

    研究課題/領域番号:20300063  2008年 - 2010年

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    篠田 浩一, 古井 貞熙

      詳細を見る

    配分額:17940000円 ( 直接経費:13800000円 、 間接経費:4140000円 )

    ヒューマンコミュニケーション理解のために、音声・動画から構成されるマルチメディアデータに対するマルチモーダルパターン認識技術を開発した。まず映像におけるイベントの抽出では混合ガウス分布とサポートベクターマシンを用いた統計的手法を提案し、世界40機関が参加して開催されたTRECVID2010ワークショップで世界4位(日本からの参加者中では1位)の成果を得た。また、音声モデルの能動学習・能動適応、耐雑音音声認識、ミーティング音声認識のための信号処理、マルチモーダル認識アルゴリズム、話者認識・ジェスチャー認識、発話スタイル解析、映像要約の手法をそれぞれ開発した。

    researchmap

  • グラフィカルモデリングを用いた音・映像知識資源の構造化の研究

    研究課題/領域番号:17300059  2005年 - 2007年

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    篠田 浩一, 古井 貞煕

      詳細を見る

    配分額:14780000円 ( 直接経費:13700000円 、 間接経費:1080000円 )

    現在、大量の音・映像知識資源が存在するが、多くの場合これらにはインデックス情報(ラベル)が付与されておらず、そのままの形では活用できない。このような大規模な音・映像知識資源を体系化し、利用する技術が強く求められている。このためには統計的パターン認識技術が不可欠であるが、十分な性能をもつ技術はない。また、ある程度の性能を得るためには、教師あり学習のためのラベルの付与が必要であるが、そもそもどのようなラベルを付与すべきなのかが必ずしも明確でなく、また、ラベル付けには多くの労力が必要である。そこで、本研究では、大量データに対する教師なしのラベル付けを様々な形態で行い、ラベル間の確率・統計的依存関係を抽出する、というアプローチをとった。まず、NHK技研との協力で昨年度に完成した野球放送43試合のメタデータ付きデータベースを評価データとして用い、野球放送のシーン認識を行った。シーンコンテキストなどラベル間の相関を積極的に用い、また、音情報・映像情報の統合を行うことで、60%の認識性能を得た。また、応用として、得点シーンの検出の研究を行い、得点シーンの90%を得ることに成功した。放送局のハイライト作成支援システムとしての実用化が期待できる。また米国NIST主催のTRECVIDワークショップに引き続き参加し、高次特徴量抽出のタスクについて、研究を行った。画像特徴に対し教師なしクラスタリングを行い、画像特徴を木構造化した辞書を作成し、そのノードを単語と見なしたBag of wordsアプローチを用いることにより、データ量の大小に対し頑健な特徴量選択を可能とした。また、動画における動き特徴についてもmotion wordを用いてモデル化した。39種類の高次特徴に対し、顕著な性能改善を得た。この他にもグラフィカルモデルを用いた耐雑音音声認識、非同期入力に対応したマルチモーダルインタフェースなどの研究を行った。

    researchmap

  • グラフィカルモデリングを用いた話し言葉音声認識の研究

    研究課題/領域番号:15650028  2003年 - 2005年

    日本学術振興会  科学研究費助成事業  萌芽研究

    篠田 浩一, 古井 貞煕

      詳細を見る

    配分額:2900000円 ( 直接経費:2900000円 )

    グラフィカルモデリングの手法を用いて、音声の内在構造を抽出することを目的とし研究を進めている。これは、従来のHMMに代表される画一的な認識単位をベースとしたモデルより、より自由度の大きいモデルを用いることで、音声の様々な現象に対応することを目的としたものである。我々は、グラフィカルモデルの中でも、時系列データに対応したダイナミックベイジアンネットワークを音声に応用する研究を進めている。モデル化の対象は話し言葉音声とし、その音声認識性能の向上を目標としている。話し言葉音声は、読み上げ音声とは異なり、一般に話速が大きく、また、調音結合(発声のなまけ)が大きい。そのため、従来の隠れマルコフモデル(HMM)を用いた音声認識では、認識性能が70%と、読み上げ音声と比べると性能が劣る。その改善が課題である。
    初年度は、話し言葉音声における音声の特徴の把握、グラフィカルモデリングのツールの準備を行った。次年度は、実際にグラフィカルモデリングツールを用いて調音結合のモデル化を行い、その性能を評価した。調音器官の運動を主に表す弁別素性に着目し、グラフィカルモデリングの手法を用いて音素をそれら弁別素性の束として表したモデルを用いて、認識性能をあげることを試み、若干の性能向上を得た。今年度は、それに加え、基本周波数(ピッチ)の情報を用いて、認識性能の向上を図った。そこでは、基本周波数情報を量子化し、異なるフレーム間の相関も考慮することにより、有声・無声の区別や、イントネーションの情報を反映したモデル化を行っている。評価実験には、日本語話し言葉コーパスを用い、話し言葉における性能を評価した。評価実験の結果、従来手法と比べ、少ないモデルパラメータ数で、より高い認識性能を示すことが判明し、提案手法の有効性が確認された。

    researchmap

  • パターン認識手法とその実世界応用

    2003年 - 2005年

      詳細を見る

    資金種別:競争的資金

    researchmap

  • Pattern recognition and its applications

    2003年 - 2005年

      詳細を見る

    資金種別:競争的資金

    researchmap

  • 携帯機器向けの手書き文字の準同期入力を併用した音声認識手法の研究

    研究課題/領域番号:15300054  2003年 - 2004年

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    篠田 浩一, 古井 貞熙

      詳細を見る

    配分額:5900000円 ( 直接経費:5900000円 )

    携帯情報機器における使いやすく、かつ、頑健な入力インターフェースが求められている。本研究課題では、「書きながら話す、話しながら書く、入力インターフェース」の実現を目指した。音声入力のみより周囲雑音に対し頑健で、手書き文字入力のみより高速な入力が可能となることが期待できる。そのために、本研究課題の研究期間内では、特にメール文などの自由文入力を想定し、音声入力と手書き文字入力との同時入力を統合して認識する手法を開発した。
    初年度は、速度の異なる2入力を用いた、使いやすく、かつ、それぞれの単独入力よりも高性能が期待できる形態として、文節の先頭ひらがな文字を手書き文字で入力するインターフェースを提案した。また、そのためのオンライン手書き文字入力方式を実装した。そして、同時入力に対する認識アルゴリズムを考案し、音声と手書き文字とを別々に収録したデータベースを用いてシミュレーション実験を行い、その有効性を確認した。
    最終年度は、提案したインターフェースを実装した収録システムを構築し、被験者10名の計530文のデータを収録し、認識性能評価を行った。探索方式は、まず、音声のみを用いた認識で認識結果候補を単語グラフの形で出力し、次に、音声スコアと手書き文字スコアを同時に用いてグラフ探索を行う2パス処理を用いた。あわせて音声と手書き文字の入力のずれに対し適応する方式も採用した。音声のみの認識結果に比べ、話者平均で5%程度認識性能が向上し、提案手法の効果を確認した。
    今後は、音声と手書き文字の間の重みの自動最適化などのアルゴリズム改良を行い、実時間で動作するシステムを実装する。また、インターフェースとしての使いやすさの評価、他の入力形態の検討を行う。さらに本手法は雑音下で特に有用と考えられるため、実環境下での評価も行いたい。

    researchmap

  • 連続音声認識手法を用いた音楽情報処理の研究

    研究課題/領域番号:14380156  2002年 - 2004年

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    嵯峨山 茂樹, 篠田 浩一, 田原 鉄也, 西本 卓也

      詳細を見る

    配分額:16900000円 ( 直接経費:16900000円 )

    MIDIデータを入力にして楽譜を復元するためのリズム認識を、意図された音価を持つ音符を隠れ状態に、変動を伴って実際に演奏された音符長を出力にして、HMMにおけるViterbi経路探索の問題として定式化した。多声部楽曲のリズム認識も、単一声部の問題に還元することで解決した。テンポのモデル化や、テンポ変化の検出なども音声認識におけるセグメンタルk-meansアルゴリズムを拡張した手法により可能となった。
    与えられた旋律に対する自動和声付けを、旋律の背後に存在するであろう和音を隠れ状態とし、旋律をその和音からの出力とし、さらに和音の系列として統計的言語モデルを用いることで、連続音声認識と同型の問題として定式化した。
    数理的手法による自動対位法の研究は、対旋律のリズムの設計と、音高列の決定の二段階で尤度最大の規準で解を動的計画法によって求める手法を開拓した。
    多重音の信号解析は、フレーム単位で観測したスペクトルは倍音構造の重ね合わせであるとモデル化し、単音の倍音として分散しているエネルギーは本来一つのクラスタに属するものと考えて、調波構造を拘束条件としてk-meansクラスタリングをベースにしたアルゴリズム(ハーモニッククラスタリング)を考案した。さらにクラスタ所属を確率とし、k-meansをEMアルゴリズムに一般化し、より精度を向上させた。AICなどの情報量規準を用いて、音源数やオクターブ位置の決定も可能となった。
    もう一つの多重音の解析手法として、「specmurt分析」を提案した。周波数軸のみを対数に変換したスペクトルの逆フーリエ変換をspecmurtと呼ぶ。複数の楽音の調波構造が同一であると仮定すると、対数周波数の線形スペクトルは音源周波数の分布と調波構造の畳み込みになるという点に着目し、新しい信号処理の可能性を開いた。

    researchmap

▼全件表示