2026/04/28 更新

写真a

イトヤマ カツトシ
糸山 克寿
ITOYAMA KATSUTOSHI
所属
工学院 准教授
職名
准教授
外部リンク

学位

  • Ph.D. (Informatics) ( Kyoto University )

研究キーワード

  • 動物音声分析

  • ロボット聴覚

  • 音楽情報処理

  • 統計的音響信号処理

研究分野

  • 情報通信 / 知能情報学  / 統計的音響信号処理, 音楽情報処理, ロボット聴覚, 動物音声分析

学歴

  • 京都大学   大学院情報学研究科   知能情報学専攻

    2008年4月 - 2011年3月

      詳細を見る

    国名: 日本国

    備考: 博士後期課程

    researchmap

  • 京都大学   大学院情報学研究科   知能情報学専攻

    2006年4月 - 2008年3月

      詳細を見る

    国名: 日本国

    備考: 修士課程

    researchmap

  • 京都大学   工学部   情報学科

    2002年4月 - 2006年3月

      詳細を見る

    国名: 日本国

    備考: 計算機科学コース

    researchmap

経歴

  • 東京工業大学   工学院 システム制御系   特任准教授

    2021年4月 - 現在

      詳細を見る

    国名:日本国

    researchmap

  • 東京工業大学   工学院 システム制御系   特任講師

    2018年4月 - 2021年3月

      詳細を見る

    国名:日本国

    researchmap

  • 京都大学   大学院情報学研究科 知能情報学専攻   助教

    2011年6月 - 2018年3月

      詳細を見る

    国名:日本国

    researchmap

  • 京都大学   大学院情報学研究科 知能情報学専攻   特定助教

    2011年4月 - 2011年5月

      詳細を見る

    国名:日本国

    researchmap

所属学協会

委員歴

  • 電子情報通信学会 ソサイエティ論文誌編集委員会   査読委員  

    2020年6月 - 現在   

      詳細を見る

    団体区分:学協会

    researchmap

  • 情報処理学会 音楽情報科学研究会   幹事  

    2020年4月 - 現在   

      詳細を見る

    団体区分:学協会

    researchmap

  • 情報処理学会 音楽情報科学研究会   運営委員  

    2016年4月 - 2020年3月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 情報処理学会 音楽情報科学研究会   運営委員  

    2011年4月 - 2015年3月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 10th International Society for Music Information Retrieval Conference   Local Organizing Committee  

      詳細を見る

    団体区分:学協会

    researchmap

論文

  • An Efficient GPU-based Implementation for Noise Robust Sound Source Localization.

    Zirui Lin, Masayuki Takigahira, Naoya Terakado, Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano

    CoRR   abs/2504.03373   2025年4月

     詳細を見る

    掲載種別:研究論文(学術雑誌)  

    DOI: 10.48550/arXiv.2504.03373

    researchmap

  • 話者情報の半教師あり学習を用いたオフライン話者ダイアライゼーション

    阿坂 脩平, Yen Benjamin, 糸山 克寿, 中臺 一博

    人工知能学会第二種研究会資料   2024 ( Challenge-066 )   04   2024年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人 人工知能学会  

    DOI: 10.11517/jsaisigtwo.2024.challenge-066_04

    CiNii Research

    researchmap

  • 小領域移動物体検出における背景フローの弁別手法

    西田 健次, 中臺 一博, 糸山 克寿

    人工知能学会第二種研究会資料   2024 ( Challenge-066 )   10   2024年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人 人工知能学会  

    DOI: 10.11517/jsaisigtwo.2024.challenge-066_10

    CiNii Research

    researchmap

  • Can all variations within the unified mask-based beamformer framework achieve identical peak extraction performance?

    Atsuo Hiroe, Katsutoshi Itoyama, Kazuhiro Nakadai

    EURASIP Journal on Audio, Speech, and Music Processing   2024 ( 1 )   66 - 66   2024年12月

     詳細を見る

    掲載種別:研究論文(学術雑誌)  

    DOI: 10.1186/s13636-024-00387-x

    researchmap

  • Bird Vocalization Embedding Extraction Using Self-Supervised Disentangled Representation Learning.

    Runwu Shi, Katsutoshi Itoyama, Kazuhiro Nakadai

    CoRR   abs/2412.20146   2024年

     詳細を見る

    掲載種別:研究論文(学術雑誌)  

    DOI: 10.48550/arXiv.2412.20146

    researchmap

  • UAV-Enhanced Combination to Application: Comprehensive Analysis and Benchmarking of a Human Detection Dataset for Disaster Scenarios.

    Ragib Amin Nihal, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai

    ICPR (14)   145 - 162   2024年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1007/978-3-031-78341-8_10

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/icpr/icpr2024-14.html#NihalYIN24

  • Improving Impressions of Response Delay in AI-based Spoken Dialogue Systems.

    Shuhei Asaka, Katsutoshi Itoyama, Kazuhiro Nakadai

    33rd IEEE International Conference on Robot and Human Interactive Communication(RO-MAN)   1416 - 1421   2024年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/RO-MAN60168.2024.10731216

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ro-man/ro-man2024.html#AsakaIN24

  • LCMV-based Scan-and-Sum Beamforming for Region Source Extraction.

    Aoto Yasue, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai

    APSIPA   1 - 6   2024年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/APSIPAASC63619.2025.10848984

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/apsipa/apsipa2024.html#Yasue0IN24

  • A Video Vision Transformer for Sound Source Localization.

    Haruto Yokota, Mert Bozkurtlar, Benjamin Yen 0001, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    32nd European Signal Processing Conference(EUSIPCO)   106 - 110   2024年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    researchmap

    その他リンク: https://dblp.uni-trier.de/rec/conf/eusipco/2024

  • UAV-Enhanced Combination to Application: Comprehensive Analysis and Benchmarking of a Human Detection Dataset for Disaster Scenarios.

    Ragib Amin Nihal, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai

    CoRR   abs/2408.04922   2024年

     詳細を見る

    掲載種別:研究論文(学術雑誌)  

    DOI: 10.48550/arXiv.2408.04922

    researchmap

  • Can all variations within the unified mask-based beamformer framework achieve identical peak extraction performance?

    Atsuo Hiroe, Katsutoshi Itoyama, Kazuhiro Nakadai

    CoRR   abs/2407.15310   2024年

     詳細を見る

    掲載種別:研究論文(学術雑誌)  

    DOI: 10.48550/arXiv.2407.15310

    researchmap

  • SLAM-based Joint Calibration of Multiple Asynchronous Microphone Arrays and Sound Source Localization.

    Jiang Wang, Yuanzheng He, Daobilige Su, Katsutoshi Itoyama, Kazuhiro Nakadai, Junfeng Wu 0001, Shoudong Huang, Youfu Li 0001, He Kong

    CoRR   abs/2405.19813   2024年

     詳細を見る

    掲載種別:研究論文(学術雑誌)  

    DOI: 10.48550/arXiv.2405.19813

    researchmap

  • From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection with Super Resolution.

    Ragib Amin Nihal, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai

    CoRR   abs/2401.14661   2024年

     詳細を見る

    掲載種別:研究論文(学術雑誌)  

    DOI: 10.48550/arXiv.2401.14661

    researchmap

  • Real Time Sound Source Localization Using von-Mises ResNet.

    Mert Bozkurtlar, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai

    SII   466 - 471   2024年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/SII58957.2024.10417224

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/sii/sii2024.html#BozkurtlarYIN24

  • SLAM-Based Joint Calibration of Multiple Asynchronous Microphone Arrays and Sound Source Localization.

    Jiang Wang, Yuanzheng He, Daobilige Su, Katsutoshi Itoyama, Kazuhiro Nakadai, Junfeng Wu 0001, Shoudong Huang, Youfu Li 0001, He Kong

    IEEE Trans. Robotics   40   4024 - 4044   2024年

     詳細を見る

    掲載種別:研究論文(学術雑誌)  

    DOI: 10.1109/TRO.2024.3410456

    researchmap

  • Improving Noise Robustness of Automatic Speech Recognition Based on a Parallel Adapter Model with Near-Identity Initialization.

    Takahiro Osaki, Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    IEA/AIE   454 - 466   2024年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1007/978-981-97-4677-4_37

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ieaaie/ieaaie2024.html#OsakiSINN24

  • FPGA-based Low Power Acceleration of HARK Sound Source Localization.

    Zirui Lin, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano

    COOL CHIPS   1 - 6   2024年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/COOLCHIPS61292.2024.10531180

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/coolchips/coolchips2024.html#LinINA24

  • FPGA based Power-Efficient Edge Server to Accelerate Speech Interface for Socially Assistive Robotics 査読

    Haris Gulzar, Muhammad Shakeel, Katsutoshi Itoyama, Kazuhiro Nakadai, Kenji Nishida, Hideharu Amano, Takeharu Eda

    2023 IEEE/SICE International Symposium on System Integration (SII)   2023年1月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/sii55687.2023.10039093

    researchmap

  • An Ensemble Method for Multiple Speech Enhancement Using Deep Learning 査読

    Masahiko Fujita, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2023 IEEE/SICE International Symposium on System Integration (SII)   2023年1月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/sii55687.2023.10039167

    researchmap

  • Metric-Based Multimodal Meta-Learning for Human Movement Identification Via Footstep Recognition 査読

    Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2023 IEEE/SICE International Symposium on System Integration (SII)   2023年1月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/sii55687.2023.10039089

    researchmap

  • Audio-Visual Class Association Based on Two-stage Self-supervised Contrastive Learning towards Robust Scene Analysis 査読

    Kei Suzuki, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2023 IEEE/SICE International Symposium on System Integration (SII)   2023年1月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/sii55687.2023.10039379

    researchmap

  • Assessment of Simultaneous Calibration for Positions, Orientations, and Time Offsets in Multiple Microphone Arrays Systems 査読

    Chishio Sugiyama, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2023 IEEE/SICE International Symposium on System Integration (SII)   2023年1月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/sii55687.2023.10039440

    researchmap

  • Reconstruction of Depth Scenes Based on Echolocation 査読

    Hidehiko Kishinami, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2023 IEEE/SICE International Symposium on System Integration (SII)   2023年1月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/sii55687.2023.10039271

    researchmap

  • Classification of Ball Rotation Direction Using Hitting Sound in Tennis and Investigation of Generalization Performance Improvement

    Naoki Yamamoto, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

    Proceedings of IEEE/SICE International Symposium on System Integration (SII 2023)   2023年1月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Is the Ideal Ratio Mask Really the Best? - Exploring the Best Extraction Performance and Optimal Mask of Mask-based Beamformers.

    Atsuo Hiroe, Katsutoshi Itoyama, Kazuhiro Nakadai

    CoRR   abs/2309.12065   2023年

     詳細を見る

    掲載種別:研究論文(学術雑誌)  

    DOI: 10.48550/arXiv.2309.12065

    researchmap

  • Unsupervised Domain Adaptation of Universal Source Separation Based on Neural Full-Rank Spatial Covariance Analysis.

    Takahiro Aizawa, Yoshiaki Bando, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai, Masaki Onishi

    MLSP   1 - 6   2023年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/MLSP55844.2023.10285999

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/mlsp/mlsp2023.html#AizawaBINNO23

  • Improving Sign Language Understanding Introducing Label Smoothing.

    Tan Sihan, Khan Nabeela Khanum, Katsutoshi Itoyama, Kazuhiro Nakadai

    RO-MAN   113 - 118   2023年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/RO-MAN57019.2023.10309531

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ro-man/ro-man2023.html#SihanKIN23

  • miniStreamer: Enhancing Small Conformer with Chunked-Context Masking for Streaming ASR Applications on the Edge.

    Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai

    INTERSPEECH   3277 - 3281   2023年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.21437/Interspeech.2023-1162

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/interspeech/interspeech2023.html#GulzarBEIN23

  • Is the Ideal Ratio Mask Really the Best? - Exploring the Best Extraction Performance and Optimal Mask of Mask-based Beamformers.

    Atsuo Hiroe, Katsutoshi Itoyama, Kazuhiro Nakadai

    APSIPA ASC   1843 - 1850   2023年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/APSIPAASC58517.2023.10317440

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/apsipa/apsipa2023.html#HiroeIN23

  • Development of a continuum robot enhanced with distributed sensors for search and rescue

    Yu Yamauchi, Yuichi Ambe, Hikaru Nagano, Masashi Konyo, Yoshiaki Bando, Eisuke Ito, Solvi Arnold, Kimitoshi Yamazaki, Katsutoshi Itoyama, Takayuki Okatani, Hiroshi G. Okuno, Satoshi Tadokoro

    ROBOMECH Journal   9 ( 1 )   2022年12月

     詳細を見る

    掲載種別:研究論文(学術雑誌)   出版者・発行元:Springer Science and Business Media LLC  

    Abstract

    Continuum robots can enter narrow spaces and are useful for search and rescue missions in disaster sites. The exploration efficiency at disaster sites improves if the robots can simultaneously acquire several pieces of information. However, a continuum robot that can simultaneously acquire information to such an extent has not yet been designed. This is because attaching multiple sensors to the robot without compromising its body flexibility is challenging. In this study, we installed multiple small sensors in a distributed manner to develop a continuum-robot system with multiple information-gathering functions. In addition, a field experiment with the robot demonstrated that the gathered multiple information has a potential to improve the searching efficiency. Concretely, we developed an active scope camera with sensory functions, which was equipped with a total of 80 distributed sensors, such as inertial measurement units, microphones, speakers, and vibration sensors. Herein, we consider space-saving, noise reduction, and the ease of maintenance for designing the robot. The developed robot can communicate with all the attached sensors even if it is bent with a minimum bending radius of 250 mm. We also developed an operation interface that integrates search-support technologies using the information gathered via sensors. We demonstrated the survivor search procedure in a simulated rubble environment of the Fukushima Robot Test Field. We confirmed that the information provided through the operation interface is useful for searching and finding survivors. The limitations of the designed system are also discussed. The development of such a continuum robot system, with a great potential for several applications, extends the application of continuum robots to disaster management and will benefit the community at large.

    DOI: 10.1186/s40648-022-00223-x

    researchmap

    その他リンク: https://link.springer.com/article/10.1186/s40648-022-00223-x/fulltext.html

  • 低解像度画像からの小領域物体の検出手法の検討

    西田 健次, 糸山 克寿, 中臺 一博

    人工知能学会第二種研究会資料   2022 ( Challenge-061 )   03   2022年11月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人 人工知能学会  

    野鳥の生態観測のための全天録画画像から、実際に野鳥の録画されている時間帯を切り出す手法について検討を行った。野鳥に対する画像解像度が低く、また、樹木の枝などでのオクルージョンが繰り返されるため、通常の物体検出、物体追跡手法では対応が難しい。野鳥自体の動き、野鳥による樹木の枝の動きを手掛かりとして、検出・追跡を行う手法について検討した。

    DOI: 10.11517/jsaisigtwo.2022.challenge-061_03

    CiNii Research

    researchmap

  • PyHARK: HARKのオンライン・オフライン処理用Pythonパッケージ

    中臺 一博, 糸山 克寿, 瀧ヶ平 将行

    人工知能学会第二種研究会資料   2022 ( Challenge-061 )   04   2022年11月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人 人工知能学会  

    本稿では,ロボット聴覚オープンソースソフトウェア HARK 3.4 で新規に導入されるPyHARK をHARK講習会に先立ち紹介する。PyHARK は HARK の Python インタフェースを提供するパッケージであり,Python から HARK の機能のオンライン・オフライン呼び出しを可能にする実装である。そのアーキテクチャ,既存のHARKとの違い,使い方を中心に解説する。

    DOI: 10.11517/jsaisigtwo.2022.challenge-061_04

    CiNii Research

    researchmap

  • 複数音源追跡におけるドローン群の行動計画の検討

    山田 泰基, 糸山 克寿, 西田 健次, 中臺 一博

    人工知能学会第二種研究会資料   2022 ( Challenge-061 )   07   2022年11月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人 人工知能学会  

    DOI: 10.11517/jsaisigtwo.2022.challenge-061_07

    CiNii Research

    researchmap

  • 任意の混合音を入力としたマイクロホンアレイ形状のキャリブレーション

    糸山 克寿, 中臺 一博

    人工知能学会第二種研究会資料   2022 ( Challenge-061 )   11   2022年11月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人 人工知能学会  

    本稿では,マイクロホンアレイの形状,すなわち各マイクロホンの位置をキャリブレーションする手法について述べる.特殊な試験音ではなく任意の混合音を入力とするため,(1)基準位置に基づくマイクロホン位置の事前確率、(2)音源スペクトルの事前確率、(3)録音スペクトルの条件付確率の3つの確率の積として定義されるスペクトルの確率的生成モデルに基づく反復アルゴリズムで推定を行う.

    DOI: 10.11517/jsaisigtwo.2022.challenge-061_11

    CiNii Research

    researchmap

  • Outdoor evaluation of sound source localization for drone groups using microphone arrays 査読

    Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)   2022年10月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/iros47612.2022.9982039

    researchmap

  • Spotforming by NMF Using Multiple Microphone Arrays 査読

    Yasuhiro Kagimoto, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)   2022年10月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/iros47612.2022.9981808

    researchmap

  • Weakly-Supervised Neural Full-Rank Spatial Covariance Analysis for a Front-End System of Distant Speech Recognition 査読

    Yoshiaki Bando, Takahiro Aizawa, Katsutoshi Itoyama, Kazuhiro Nakadai

    Interspeech 2022   3824 - 3828   2022年9月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/interspeech.2022-11077

    researchmap

  • Optimization of Microphone Array Placement for Sound Source Localization Using Drones with Microphone Arrays

    Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    Second International Symposium on Noise from UAVs UASs and eVTOLs (Quiet Drones 2022)   39   2022年7月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • アンサンブル時間周波数マスクとビームフォーミングを組み合わせた音声強調手法の評価 査読

    藤田 雅彦, 糸山 克寿, 西田 健次, 中臺 一博

    日本ロボット学会誌   40 ( 7 )   631 - 634   2022年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.7210/jrsj.40.631

    researchmap

  • エコロケーションに基づく視覚シーンの再構成手法の提案と入力特徴量の検討 査読

    岸波 華彦, 糸山 克寿, 西田 健次, 中臺 一博

    日本ロボット学会誌   40 ( 4 )   351 - 354   2022年4月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.7210/jrsj.40.351

    researchmap

  • System-on-Chip based Edge Device for Speech Commands Recognition 査読

    Haris Gulzar, Muhammad Shakeel, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano

    2022 IEEE Symposium in Low-Power and High-Speed Chips (COOL CHIPS)   2022年4月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Introduction to robot audition technology for bird localization and classification in the wild

    Kazuhiro Nakadai, Ryo Yamamoto, Katsutoshi Itoyama, Kenji Nishida, Shiho Matsubayashi, Reiji Suzuki, Hiroshi G. Okuno

    2022年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • 複数マイクロホンアレイを用いたNMFによる空間音源分離法の残響下での評価

    鍵本 泰宏, 糸山 克寿, 西田 健次, 中臺 一博

    人工知能学会第二種研究会資料   2021 ( Challenge-058 )   05   2021年11月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人 人工知能学会  

    DOI: 10.11517/jsaisigtwo.2021.challenge-058_05

    CiNii Research

    researchmap

  • Multichannel environmental sound segmentation: with separately trained spectral and spatial features

    Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    Applied Intelligence   51 ( 11 )   8245 - 8259   2021年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Springer  

    DOI: 10.1007/s10489-021-02314-5

    Scopus

    researchmap

  • CASE: CNN Acceleration for Speech-Classification in Edge-Computing 査読

    Haris Gulzar, Muhammad Shakeel, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano

    2021 IEEE Cloud Summit   63 - 68   2021年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ieeecloudsummit52029.2021.00018

    researchmap

  • Assessment of sound source tracking using multiple drones equipped with multiple microphone arrays

    Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    International Journal of Environmental Research and Public Health   18 ( 17 )   2021年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:MDPI  

    DOI: 10.3390/ijerph18179039

    Scopus

    PubMed

    researchmap

  • Assessment of von Mises-Bernoulli Deep Neural Network in Sound Source Localization 査読

    Katsutoshi Itoyama, Yoshiya Morimoto, Shungo Masaki, Ryosuke Kojima, Kenji Nishida, Kazuhiro Nakadai

    Interspeech 2021   2152 - 2156   2021年8月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/interspeech.2021-1050

    researchmap

  • Simultaneous Calibration of Positions, Orientations, and Time Offsets, Among Multiple Microphone Arrays 査読

    Chishio Sugiyama, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2021 IEEE International Conference on Autonomous Systems (ICAS)   2021年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/icas49788.2021.9551166

    researchmap

  • Detecting earthquakes: a novel deep learning-based approach for effective disaster response 査読

    Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    Applied Intelligence   2021年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Springer Science and Business Media LLC  

    DOI: 10.1007/s10489-021-02285-7

    researchmap

    その他リンク: http://link.springer.com/article/10.1007/s10489-021-02285-7/fulltext.html

  • EMC: Earthquake Magnitudes Classification on Seismic Signals via Convolutional Recurrent Networks 査読

    Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2021 IEEE/SICE International Symposium on System Integration (SII)   388 - 393   2021年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ieeeconf49454.2021.9382696

    researchmap

  • Multi-channel Environmental Sound Segmentation utilizing Sound Source Localization and Separation U-Net

    Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2021 IEEE/SICE International Symposium on System Integration (SII)   382 - 387   2021年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ieeeconf49454.2021.9382730

    researchmap

  • Assessment of a Beamforming Implementation Developed for Surface Sound Source Separation 査読

    Zhi Zhong, Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2021 IEEE/SICE International Symposium on System Integration (SII 2021)   369 - 374   2021年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ieeeconf49454.2021.9382648

    researchmap

  • Sound Source Tracking Using Integrated Direction Likelihood for Drones with Microphone Arrays 査読

    Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2021 IEEE/SICE International Symposium on System Integration (SII)   394 - 399   2021年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ieeeconf49454.2021.9382619

    researchmap

  • 重み付け尤度関数と定在波を用いた可聴音による二次元環境認識 査読

    岸波 華彦, 糸山 克寿, 西田 健次, 中臺 一博

    日本ロボット学会誌   39 ( 3 )   271 - 274   2021年

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:日本ロボット学会  

    DOI: 10.7210/jrsj.39.271

    researchmap

  • Detection of Ball Spin Direction using Hitting Sound in Tennis 査読

    30 - 37   2020年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.5220/0010107600300037

    researchmap

  • Sound event aware environmental sound segmentation with Mask U-Net

    Y. Sudo, K. Itoyama, K. Nishida, K. Nakadai

    Advanced Robotics   34 ( 20 )   1280 - 1290   2020年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Robotics Society of Japan  

    DOI: 10.1080/01691864.2020.1829040

    Scopus

    researchmap

  • Synchronization of microphones based on rank minimization of warped spectrum for asynchronous distributed recording 査読

    Katsutoshi Itoyama, Kazuhiro Nakadai

    2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS2020)   4842 - 4847   2020年10月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Onset-informed source separation using non-negative matrix factorization with binary masks 査読

    Yuta Kusaka, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    23rd International Conference on Digital Audio Effects (DAFx2020)   289 - 296   2020年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Calibration of a microphone array based on a probabilistic model of microphone positions 査読

    Katsuhiro Dan, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    Trends in Artificial Intelligence Theory and Applications. Artificial Intelligence Practices (IEA/AIE 2020)   614 - 625   2020年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1007/978-3-030-55789-8_53

    researchmap

  • Bayesian Singing Transcription Based on a Hierarchical Generative Model of Keys, Musical Notes, and F0 Trajectories 査読

    Ryo Nishikimi, Eita Nakamura, Masataka Goto, Katsutoshi Itoyama, Kazuyoshi Yoshii

    IEEE/ACM Transactions on Audio, Speech, and Language Processing   28   1678 - 1691   2020年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.1109/TASLP.2020.2996095

    researchmap

  • Design and assessment of a scan-and-sum beamformer for surface sound source separation 査読

    Zhi Zhong, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2020 IEEE/SICE International Symposium on System Integration (SII2020)   808 - 813   2020年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/SII46433.2020.9025981

    researchmap

  • Audio-visual 3D reconstruction framework for dynamic scenes 査読

    Takashi Konno, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

    2020 IEEE/SICE International Symposium on System Integration (SII2020)   802 - 807   2020年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/SII46433.2020.9025812

    researchmap

  • Sound source tracking by drones with microphone arrays 査読

    Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2020 IEEE/SICE International Symposium on System Integration (SII2020)   796 - 801   2020年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/SII46433.2020.9026185

    researchmap

  • Sound source localization based on von-Mises-Bernoulli deep neural network 査読

    Kazuhiro Nakadai, Shungo Masaki, Ryosuke Kojima, Osamu Sugiyama, Katsutoshi Itoyama, Kenji Nishida

    2020 IEEE/SICE International Symposium on System Integration (SII2020)   658 - 663   2020年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/SII46433.2020.9025880

    researchmap

  • Multi-channel environmental sound segmentation 査読

    Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2020 IEEE/SICE International Symposium on System Integration (SII2020)   820 - 825   2020年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/SII46433.2020.9025963

    researchmap

  • Environmental sound segmentation utilizing mask U-Net 査読

    Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019)   5340 - 5345   2019年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/IROS40897.2019.8967954

    researchmap

  • Improvement of DOA estimation by using quaternion output in sound event localization and detection 査読

    Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2019 DCASE Workshop   244 - 247   2019年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Joint transcription of lead, bass, and rhythm guitars based on a factorial hidden semi-Markov model 査読

    Kentaro Shibata, Ryo Nishikimi, Satoru Fukayama, Masataka Goto, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)   236 - 240   2019年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ICASSP.2019.8682817

    researchmap

  • 2D sound source position estimation using microphone arrays and its application to a VR-based bird song analysis system 査読

    Daniel Gabriel, Ryosuke Kojima, Kotaro Hoshiba, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    Advanced Robotics   33 ( 7-8 )   403 - 414   2019年3月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.1080/01691864.2019.1598491

    researchmap

  • Unsupervised speech enhancement based on multichannel NMF-informed beamforming for noise-robust automatic speech recognition 査読

    Kazuki Shimada, Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

    IEEE/ACM Transactions on Audio, Speech, and Language Processing   27 ( 5 )   960 - 971   2019年3月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.1109/TASLP.2019.2907015

    researchmap

  • ImPACT-TRC thin serpentine robot platform for urban search and rescue

    Masashi Konyo, Yuichi Ambe, Hikaru Nagano, Yu Yamauchi, Satoshi Tadokoro, Yoshiaki Bando, Katsutoshi Itoyama, Hiroshi G. Okuno, Takayuki Okatani, Kanta Shimizu, Eisuke Ito

    Disaster Robotics   25 - 76   2019年1月

     詳細を見る

    記述言語:英語   出版者・発行元:Springer  

    DOI: 10.1007/978-3-030-05321-5_2

    researchmap

  • Design and assessment of multiple-sound source localization using microphone arrays 査読

    Daniel Gabriel, Ryosuke Kojima, Kotaro Hoshiba, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2019 IEEE/SICE International Symposium on System Integration (SII 2019)   199 - 204   2019年1月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/SII.2019.8700368

    researchmap

  • 能動スコープカメラの極限ロボット聴覚

    坂東 宜昭, 安部 祐一, 糸山 克寿, 奥乃 博

    日本ロボット学会誌   37 ( 9 )   808 - 813   2019年

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人 日本ロボット学会  

    <p></p>

    DOI: 10.7210/jrsj.37.808

    CiNii Books

    researchmap

  • Development of Tough Snake Robot Systems

    Fumitoshi Matsuno, Tetsushi Kamegawa, Wei Qi, Tatsuya Takemori, Motoyasu Tanaka, Mizuki Nakajima, Kenjiro Tadakuma, Masahiro Fujita, Yosuke Suzuki, Katsutoshi Itoyama, Hiroshi G. Okuno, Yoshiaki Bando, Tomofumi Fujiwara, Satoshi Tadokoro

    Disaster Robotics   267 - 326   2019年

     詳細を見る

    記述言語:英語   出版者・発行元:Springer  

    DOI: 10.1007/978-3-030-05321-5_6

    researchmap

  • Sequential generation of singing F0 contours from musical note sequences based on WaveNet 査読

    Yusuke Wada, Ryo Nishikimi, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)   983 - 989   2018年12月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.23919/APSIPA.2018.8659502

    researchmap

  • Chord-Aware Automatic Music Transcription Based on Hierarchical Bayesian Integration of Acoustic and Language Models 査読

    Yuta Ojima, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    APSIPA Transactions on Signal and Information Processing   7 ( e14 )   1 - 14   2018年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.1017/ATSIP.2018.17

    researchmap

  • Interactive arrangement of chords and melodies based on a tree-structured generative model 査読

    Hiroaki Tsushima, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    19th International Society for Music Information Retrieval Conference (ISMIR 2018)   145 - 151   2018年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Signal restoration based on bi-directional LSTM with spectral filtering for robot audition 査読

    Ryosuke Taniguchi, Kotaro Hoshiba, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    2018 27th IEEE International Symposium on Robot and Human Interactive Communication (RO-MAN 2018)   955 - 960   2018年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ROMAN.2018.8525793

    researchmap

  • Statistical speech enhancement based on probabilistic integration of variational autoencoder and non-negative matrix factorization 査読

    Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

    2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018)   716 - 720   2018年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ICASSP.2018.8461530

    researchmap

  • Unsupervised beamforming based on multichannel nonnegative matrix factorization for noisy speech recognition 査読

    Kazuki Shimada, Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

    2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018)   5734 - 5738   2018年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ICASSP.2018.8462642

    researchmap

  • Generative statistical models with self-emergent grammar of chord sequences 査読

    Hiroaki Tsushima, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    Journal of New Music Research   47 ( 3 )   226 - 248   2018年3月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Informa UK Limited  

    DOI: 10.1080/09298215.2018.1447584

    researchmap

  • Speech enhancement based on Bayesian low-rank and sparse decomposition of multichannel magnitude spectrograms 査読

    Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Tatsuya Kawahara, Hiroshi G. Okuno

    IEEE/ACM Transactions on Audio, Speech, and Language Processing   26 ( 2 )   215 - 230   2018年2月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.1109/TASLP.2017.2772340

    researchmap

  • Bayesian multichannel audio source separation based on integrated source and spatial models 査読

    Kousuke Itakura, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

    IEEE/ACM Transactions on Audio, Speech, and Language Processing   26 ( 4 )   831 - 846   2018年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.1109/TASLP.2017.2789320

    researchmap

  • スペクトル伸縮に基づく複数A/Dコンバータのチャネル間同期

    糸山 克寿, 中臺 一博

    ロボティクス・メカトロニクス講演会講演概要集   2018   2P1-K05   2018年

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人 日本機械学会  

    DOI: 10.1299/jsmermd.2018.2p1-k05

    CiNii Research

    researchmap

  • ImPACT TRC太索状ロボットの研究開発の現状と展望 査読

    松野 文俊, 藤原 始史, 亀川 哲志, 竹森 達也, 田中 基康, 多田隈 建二郎, 鈴木 陽介, 坂東 宜昭, 糸山 克寿, 奥乃 博

    日本ロボット学会誌   35 ( 10 )   720 - 726   2017年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人 日本ロボット学会  

    DOI: 10.7210/jrsj.35.720

    CiNii Books

    researchmap

  • Multi-party Interactions by Quizmaster Robot in Speech-based Jeopardy! like Games 査読

    Izaya Nishimuta, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

    2017 International Conference on Computational Science and Computational Intelligence (CSCI2017)   1787 - 1792   2017年12月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/CSCI.2017.313

    Web of Science

    Scopus

    researchmap

  • Scale- and rhythm-aware musical note estimation for vocal F0 trajectories based on a semi-tatum-synchronous hierarchical hidden semi-Markov model 査読

    Ryo Nishikimi, Eita Nakamura, Masataka Goto, Katsutoshi Itoyama, Kazuyoshi Yoshii

    18th International Society for Music Information Retrieval Conference (ISMIR 2017)   376 - 382   2017年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

    その他リンク: https://dblp.org/rec/conf/ismir/NishikimiNGIY17

  • Function- and rhythm-aware melody harmonization based on tree-structured parsing and split-merge sampling of chord sequences 査読

    Hiroaki Tsushima, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    18th International Society for Music Information Retrieval Conference (ISMIR 2017)   502 - 508   2017年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

    その他リンク: https://dblp.org/rec/conf/ismir/TsushimaNIY17

  • Infinite probabilistic latent component analysis for audio source separation 査読

    Kazuyoshi Yoshii, Eita Nakamura, Katsutoshi Itoyama, Masataka Goto

    2017 IEEE 27th International Workshop on Machine Learning for Signal Processing (MLSP 2017)   1 - 6   2017年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/MLSP.2017.8168189

    Web of Science

    researchmap

  • Semi-blind speech enhancement based on recurrent neural network for source separation and dereverberation 査読

    Masaya Wake, Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

    2017 IEEE 27th International Workshop on Machine Learning for Signal Processing (MLSP 2017)   1 - 6   2017年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/MLSP.2017.8168191

    researchmap

  • A Singing Instrument for Real-Time Vocal-Part Arrangement of Music Audio Signals 査読

    Yuta Ojima, Tomoyasu Nakano, Satoru Fukayama, Jun Kato, Masataka Goto, Katsutoshi Itoyama, Kazuyoshi Yoshii

    Sound and Music Computing Conference (SMC)   443 - 449   2017年7月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • An Adaptive Karaoke System that Plays Accompaniment Parts of Music Audio Signals Synchronously with Users' Singing Voices 査読

    Yusuke Wada, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    Sound and Music Computing Conference (SMC)   110 - 116   2017年7月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Bayesian multichannel nonnegative matrix factorization for audio source separation and localization 査読

    Kousuke Itakura, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

    2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2017)   551 - 555   2017年3月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ICASSP.2017.7952216

    researchmap

  • Audio-visual beat tracking based on a state-space model for a robot dancer performing with a human dancer 査読

    Misato Ohkita, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    Journal of Robotics and Mechatronics   29 ( 1 )   125 - 136   2017年2月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Fuji Technology Press  

    DOI: 10.20965/jrm.2017.p0125

    Scopus

    researchmap

  • Simultaneous identification and localization of still and mobile speakers based on binaural robot audition 査読

    Karim Youssef, Katsutoshi Itoyama, Kazuyoshi Yoshii

    Journal of Robotics and Mechatronics   29 ( 1 )   59 - 71   2017年2月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Fuji Technology Press  

    DOI: 10.20965/jrm.2017.p0059

    Scopus

    researchmap

  • Layout optimization of cooperative distributed microphone arrays based on estimation of source separation performance 査読

    Kouhei Sekiguchi, Yoshiaki Bando, Katsutoshi Itoyama, Kazuyoshi Yoshii

    Journal of Robotics and Mechatronics   29 ( 1 )   83 - 93   2017年2月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Fuji Technology Press  

    DOI: 10.20965/jrm.2017.p0083

    Scopus

    researchmap

  • Low Latency and High Quality Two-Stage Human-Voice-Enhancement System for a Hose-Shaped Rescue Robot 査読

    Bando Yoshiaki, Saruwatari Hiroshi, Ono Nobutaka, Makino Shoji, Itoyama Katsutoshi, Kitamura Daichi, Ishimura Masaru, Takakusaki Moe, Mae Narumi, Yamaoka Kouei, Matsui Yutaro, Ambe Yuichi, Konyo Masashi, Tadokoro Satoshi, Yoshii Kazuyoshi, Okuno Hiroshi G.

    Journal of Robotics and Mechatronics   29 ( 1 )   198 - 212   2017年2月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:富士技術出版株式会社  

    <p>This paper presents the design and implementation of a two-stage human-voice enhancement system for a hose-shaped rescue robot. When a microphone-equipped hose-shaped robot is used to search for a victim under a collapsed building, human-voice enhancement is crucial because the sound captured by a microphone array is contaminated by the ego-noise of the robot. For achieving both low latency and high quality, our system combines online and offline human-voice enhancement, providing an overview first and then details on demand. The online enhancement is used for searching for a victim in real time, while the offline one facilitates scrutiny by listening to highly enhanced human voices. Our online enhancement is based on an online robust principal component analysis, and our offline enhancement is based on an independent low-rank matrix analysis. The two enhancement methods are integrated with Robot Operating System (ROS). Experimental results showed that both the online and offline enhancement methods outperformed conventional methods.</p>

    DOI: 10.20965/jrm.2017.p0198

    CiNii Books

    researchmap

  • Singing voice separation and vocal F0 estimation based on mutual combination of robust principal component analysis and subharmonic summation 査読

    Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

    IEEE/ACM Transactions on Audio, Speech, and Language Processing   24 ( 11 )   2084 - 2095   2016年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Institute of Electrical and Electronics Engineers (IEEE)  

    DOI: 10.1109/TASLP.2016.2577879

    researchmap

  • Online simultaneous localization and mapping of multiple sound sources and asynchronous microphone arrays 査読

    Kouhei Sekiguchi, Yoshiaki Bando, Keisuke Nakamura, Kazuhiro Nakadai, Katsutoshi Itoyama, Kazuyoshi Yoshii

    2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2016)   1973 - 1979   2016年10月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/IROS.2016.7759311

    researchmap

  • Sound-based online localization for an in-pipe snake robot 査読

    Yoshiaki Bando, Hiroki Suhara, Motoyasu Tanaka, Tetsushi Kamegawa, Katsutoshi Itoyama, Kazuyoshi Yoshii, Fumitoshi Matsuno, Hiroshi G. Okuno

    2016 IEEE International Symposium on Safety, Security, and Rescue Robotics (SSRR 2016)   207 - 213   2016年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/SSRR.2016.7784300

    researchmap

  • Student's t multichannel nonnegative matrix factorization for blind source separation 査読

    Koichi Kitamura, Yoshiaki Bando, Katsutoshi Itoyama, Kazuyoshi Yoshii

    2016 IEEE International Workshop on Acoustic Signal Enhancement (IWAENC2016)   1 - 5   2016年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/IWAENC.2016.7602889

    Web of Science

    researchmap

  • A hierarchical Bayesian model of chords, pitches, and spectrograms for multipitch analysis 査読

    Yuta Ojima, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    17th International Society for Music Information Retrieval Conference (ISMIR 2016)   309 - 315   2016年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

    その他リンク: https://dblp.org/rec/conf/ismir/OjimaNIY16

  • A unified Bayesian model of time-frequency clustering and low-rank approximation for multi-channel source separation 査読

    Kousuke Itakura, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    2016 24th European Signal Processing Conference (EUSIPCO 2016)   2280 - 2284   2016年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/EUSIPCO.2016.7760655

    researchmap

  • Rhythm transcription of MIDI performances based on hierarchical Bayesian modelling of repetition and modification of musical note patterns 査読

    Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    2016 24th European Signal Processing Conference (EUSIPCO 2016)   1946 - 1950   2016年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/EUSIPCO.2016.7760588

    researchmap

  • Variational Bayesian multi-channel robust NMF for human-voice enhancement with a deformable and partially-occluded microphone array 査読

    Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Hiroshi G. Okuno

    2016 24th European Signal Processing Conference (EUSIPCO 2016)   1018 - 1022   2016年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/EUSIPCO.2016.7760402

    researchmap

  • Musical note estimation for F0 trajectories of singing voices based on a Bayesian semi-beat-synchronous HMM 査読

    Ryo Nishikimi, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

    17th International Society for Music Information Retrieval Conference (ISMIR 2016)   461 - 467   2016年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

    その他リンク: https://dblp.org/rec/conf/ismir/NishikimiNIY16

  • Sparse learning for music signal analysis

    Kazuyoshi Yoshii, Katsutoshi Itoyama

    Journal of the Institute of Electronics, Information and Communication Engineers   99 ( 5 )   456 - 460   2016年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Institute of Electronics Information Communication Engineers  

    Scopus

    researchmap

  • Parallel speech corpora of Japanese dialects 査読

    Koichiro Yoshino, Naoki Hirayama, Shinsuke Mori, Fumihiko Takahashi, Katsutoshi Itoyama, Hiroshi G. Okuno

    Tenth International Conference on Language Resources and Evaluation (LREC 2016)   4652 - 4657   2016年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Web of Science

    researchmap

    その他リンク: https://dblp.org/rec/conf/lrec/YoshinoHMTIO16

  • 音楽音響信号解析のためのスパース学習(小特集「スパースモデリングの発展 —原理から応用まで—」)

    吉井 和佳, 糸山 克寿

    電子情報通信学会誌   99 ( 5 )   456 - 460   2016年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    researchmap

  • 歌声・調波楽器音・打楽器音分離とユーザ演奏のリアルタイム可視化に基づく音楽演奏練習システム 査読

    土橋 彩香, 池宮 由楽, 糸山 克寿, 吉井 和佳

    情報処理学会 インタラクション2016   97 - 105   2016年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    researchmap

  • Student's t nonnegative matrix factorization and positive semidefinite tensor factorization for single-channel audio source separation 査読

    Kazuyoshi Yoshii, Katsutoshi Itoyama, Masataka Goto

    2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016)   51 - 55   2016年3月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ICASSP.2016.7471635

    researchmap

  • HMM-based Attacks on Google's ReCAPTCHA with Continuous Visual and Audio Symbols 査読

    Shotaro Sano, Takuma Otsuka, Katsutoshi Itoyama, Hiroshi G. Okuno

    Journal of Information Processing   23 ( 6 )   814 - 826   2015年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Information Processing Society of Japan  

    CAPTCHAs distinguish humans from automated programs by presenting questions that are easy for humans but difficult for computers, e.g., recognition of visual characters or audio utterances. The state of the art research suggests that the security of visual and audio CAPTCHAs mainly lies in anti-segmentation techniques, because individual symbol recognition after segmentation can be solved with a high success rate with certain machine learning algorithms. Thus, most recent commercial CAPTCHAs present continuous symbols to prevent automated segmentation. We propose a novel framework that can automatically decode continuous CAPTCHAs and assess its effectiveness with actual CAPTCHA questions from Google's reCAPTCHA. Our framework is constructed on the basis of a sequence recognition method based on hidden Markov models (HMMs), which can be concisely implemented by using an off-the-shelf library HMM toolkit. This method concatenates several HMMs, each of which recognizes a symbol, to build a larger HMM that recognizes a question. Our experimental results reveal vulnerabilities in continuous CAPTCHAs because the solver cracks the visual and audio reCAPTCHA systems with 31.75% and 58.75% accuracy, respectively. We further propose guidelines to prevent possible attacking from HMM-based CAPTCHA solvers on the basis of synthetic experiments with simulated continuous CAPTCHAs.CAPTCHAs distinguish humans from automated programs by presenting questions that are easy for humans but difficult for computers, e.g., recognition of visual characters or audio utterances. The state of the art research suggests that the security of visual and audio CAPTCHAs mainly lies in anti-segmentation techniques, because individual symbol recognition after segmentation can be solved with a high success rate with certain machine learning algorithms. Thus, most recent commercial CAPTCHAs present continuous symbols to prevent automated segmentation. We propose a novel framework that can automatically decode continuous CAPTCHAs and assess its effectiveness with actual CAPTCHA questions from Google's reCAPTCHA. Our framework is constructed on the basis of a sequence recognition method based on hidden Markov models (HMMs), which can be concisely implemented by using an off-the-shelf library HMM toolkit. This method concatenates several HMMs, each of which recognizes a symbol, to build a larger HMM that recognizes a question. Our experimental results reveal vulnerabilities in continuous CAPTCHAs because the solver cracks the visual and audio reCAPTCHA systems with 31.75% and 58.75% accuracy, respectively. We further propose guidelines to prevent possible attacking from HMM-based CAPTCHA solvers on the basis of synthetic experiments with simulated continuous CAPTCHAs.

    DOI: 10.2197/ipsjjip.23.814

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00146090/

  • スパース性に基づく音楽音響信号の分解

    吉井 和佳, 糸山 克寿

    日本音響学会誌   71 ( 11 )   607 - 614   2015年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人 日本音響学会  

    DOI: 10.20697/jasj.71.11_607

    CiNii Books

    researchmap

  • Infinite Superimposed Discrete All-pole Modeling for Source-Filter Decomposition of Wavelet Spectrograms 査読

    Kazuyoshi Yoshii, Katsutoshi Itoyama, Masataka Goto

    16th International Society for Music Information Retrieval Conference (ISMIR2015)   86 - 92   2015年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Unified inter- and intra-recording duration model for multiple music audio alignment 査読

    Akira Maezawa, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

    2015 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA2015)   1 - 5   2015年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/WASPAA.2015.7336929

    Web of Science

    researchmap

  • Human-voice enhancement based on online RPCA for a hose-shaped rescue robot with a microphone array 査読

    Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Hiroshi G. Okuno

    2015 IEEE International Symposium on Safety, Security, and Rescue Robotics (SSRR 2015)   1 - 6   2015年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/SSRR.2015.7442949

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ssrr/ssrr2015.html#BandoIKTNYO15

  • Identification and localization of one or two concurrent speakers in a binaural robotic context 査読

    Karim Youssef, Katsutoshi Itoyama, Kazuyoshi Yoshii

    2015 IEEE International Conference on Systems, Man, and Cybernetics (IEEE SMC 2015)   407 - 412   2015年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/SMC.2015.82

    researchmap

  • Infinite superimposed discrete all-pole modeling for multipitch analysis of wavelet spectrograms 査読

    Kazuyoshi Yoshii, Katsutoshi Itoyama, Masataka Goto

    16th International Society for Music Information Retrieval Conference (ISMIR 2015)   86 - 92   2015年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

    その他リンク: https://dblp.org/rec/conf/ismir/YoshiiIG15

  • Audio-visual beat tracking based on a state-space model for a music robot dancing with humans 査読

    Misato Ohkita, Yoshiaki Bando, Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

    2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2015)   5555 - 5560   2015年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/IROS.2015.7354164

    researchmap

  • Bayesian integration of sound source separation and speech recognition: A new approach to simultaneous speech recognition 査読

    Kousuke Itakura, Izaya Nishimuta, Yoshiaki Bando, Katsutoshi Itoyama, Kazuyoshi Yoshii

    16th Annual Conference of the International Speech Communication Association (INTERSPEECH 2015)   736 - 740   2015年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Toward a quizmaster robot for speech-based multiparty interaction 査読

    Izaya Nishimuta, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

    Advanced Robotics   29 ( 18 )   1205 - 1219   2015年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Informa UK Limited  

    DOI: 10.1080/01691864.2015.1079504

    researchmap

  • Optimizing the layout of multiple mobile robots for cooperative sound source separation 査読

    Kouhei Sekiguchi, Yoshiaki Bando, Katsutoshi Itoyama, Kazuyoshi Yoshii

    2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2015)   5548 - 5554   2015年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/IROS.2015.7354163

    researchmap

  • Microphone-accelerometer based 3D posture estimation for a hose-shaped rescue robot 査読

    Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Hiroshi G. Okuno

    2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2015)   5580 - 5586   2015年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/IROS.2015.7354168

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/iros/iros2015.html#BandoIKTNYO15

  • A Music Performance Assistance System based on Vocal, Harmonic, and Percussive Source Separation and Content Visualization for Music Audio Signals 査読

    Ayaka Dobashi, Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

    12th Sound and Music Computing Conference (SMC15)   99 - 104   2015年7月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • A Score-Informed Piano Tutoring System with Mistake Detection and Score Simplification 査読

    Tsubasa Fukuda, Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

    12th Sound and Music Computing Conference (SMC15)   105 - 110   2015年7月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • A feedback framework for improved chord recognition based on NMF-based approximate note transcription 査読

    Satoshi Maruo, Kazuyoshi Yoshii, Katsutoshi Itoyama, Matthias Mauch, Masataka Goto

    2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2015)   196 - 200   2015年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ICASSP.2015.7177959

    researchmap

  • Challenges in deploying a microphone array to localize and separate sound sources in real auditory scenes 査読

    Yoshiaki Bando, Takuma Otsuka, Katsutoshi Itoyama, Kazuyoshi Yoshii, Yoko Sasaki, Satoshi Kagami, Hiroshi G. Okuno

    2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2015)   723 - 727   2015年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ICASSP.2015.7178064

    researchmap

  • Singing voice analysis and editing based on mutually dependent F0 estimation and source separation 査読

    Yukara Ikemiya, Kazuyoshi Yoshii, Katsutoshi Itoyama

    2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2015)   574 - 578   2015年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/ICASSP.2015.7178034

    researchmap

  • 市販楽曲中の歌声の分離と音高推定に基づく歌唱表現編集システム 査読

    池宮 由楽, 糸山 克寿, 吉井 和佳

    情報処理学会 インタラクション2015   128 - 135   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    researchmap

  • 統計的音響信号処理の新展開

    吉井 和佳, 糸山 克寿

    映像情報メディア学会誌   69 ( 2 )   111 - 116   2015年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人映像情報メディア学会  

    DOI: 10.3169/itej.69.111

    CiNii Books

    researchmap

  • Automatic speech recognition for mixed dialect utterances by mixing dialect language models 査読

    Naoki Hirayama, Koichiro Yoshino, Katsutoshi Itoyama, Shinsuke Mori, Hiroshi G. Okuno

    IEEE/ACM Transactions on Audio, Speech, and Language Processing   23 ( 2 )   373 - 382   2015年2月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.1109/TASLP.2014.2387414

    researchmap

  • Posture estimation of hose-shaped robot by using active microphone array 査読

    Yoshiaki Bando, Takuma Otsuka, Takeshi Mizumoto, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Hiroshi G. Okuno

    Advanced Robotics   29 ( 1 )   35 - 49   2015年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.1080/01691864.2014.981291

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/journals/ar/ar29.html#BandoOMIKTNO15

  • Recognition of in-field frog chorusing using Bayesian nonparametric microphone array processing 査読

    Yoshiaki Bando, Takuma Otsuka, Ikkyu Aihara, Hiromitsu Awano, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

    Computational Sustainability, Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence   2015年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Schemeによる3D図形の構成的制作 査読

    古川 孝太郎, 糸山 克寿, 吉井 和佳, 奥乃 博

    コンピュータ ソフトウェア   32 ( 4 )   4_31 - 4_49   2015年

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:日本ソフトウェア科学会  

    本稿では,LISP系言語の1つであるSchemeを用いた3D図形言語の設計と実装について述べる.効率的にプログラミングを行う上で,手続きやデータ構造の抽象化の概念を正確に理解しておくことは重要である.プログラミングの代表的な教科書SICP (Structure and Interpretation of Computer Programs)においては,プログラムの階層構造を直観的かつ視覚的に捉えることを目的として,Schemeを用いた平面図形構成のためのシステムである図形言語が利用されてきた.我々はScheme処理系としてJAKLDを用い,オリジナルの図形言語に立体図形構成のための拡張を加えた.さらにプログラムに記述された立体フラクタル図形を3Dプリンタを利用し実体化することで,プログラミング初学者の大学一年生が手続きとデータ構造を効果的に習得するための教材として利用した.

    DOI: 10.11309/jssst.32.4_31

    CiNii Books

    researchmap

  • Nonparametric Bayesian Dereverberation of Power Spectrograms Based on Infinite-Order Autoregressive Processes 査読

    Maezawa Akira, Itoyama Katsutoshi, Yoshii Kazuyoshi, Okuno Hiroshi G.

    IEEE/ACM Transactions on Audio, Speech, and Language Processing   22 ( 12 )   1918 - 1930   2014年12月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:IEEE  

    This paper describes a monaural audio dereverberation method that operates in the power spectrogram domain. The method is robust to different kinds of source signals such as speech or music. Moreover, it requires little manual intervention, including the complexity of room acoustics. The method is based on a non-conjugate Bayesian model of the power spectrogram. It extends the idea of multi-channel linear prediction to the power spectrogram domain, and formulates a model of reverberation as a non-negative, infinite-order autoregressive process. To this end, the power spectrogram is interpreted as a histogram count data, which allows a nonparametric Bayesian model to be used as the prior for the autoregressive process, allowing the effective number of active components to grow, without bound, with the complexity of data. In order to determine the marginal posterior distribution, a convergent algorithm, inspired by the variational Bayes method, is formulated. It employs the minorization-maximization technique to arrive at an iterative, convergent algorithm that approximates the marginal posterior distribution. Both objective and subjective evaluations show advantage over other methods based on the power spectrum. We also apply the method to a music information retrieval task and demonstrate its effectiveness.

    DOI: 10.1109/TASLP.2014.2355772

    CiNii Books

    researchmap

  • Development of a robot quizmaster with auditory functions for speech-based multiparty interaction 査読

    Izaya Nishimuta, Kazuyoshi Yoshii, Katsutoshi Itoyama, Hiroshi G. Okuno

    2014 IEEE/SICE International Symposium on System Integration (SII2014)   328 - 333   2014年12月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/sii.2014.7028059

    Web of Science

    researchmap

  • A robot quizmaster that can localize, separate, and recognize simultaneous utterances for a fastest-voice-first quiz game 査読

    Izaya Nishimuta, Naoki Hirayama, Kazuyoshi Yoshii, Katsutoshi Itoyama, Hiroshi G. Okuno

    2014 IEEE-RAS International Conference on Humanoid Robots (Humanoids 2014)   967 - 972   2014年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/HUMANOIDS.2014.7041480

    researchmap

  • Visualization of auditory awareness based on sound source positions estimated by depth sensor and microphone array 査読

    Takahiro Iyama, Osamu Sugiyama, Takuma Otsuka, Katsutoshi Itoyama, Hiroshi G. Okuno

    2014 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2014)   1908 - 1913   2014年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/IROS.2014.6942814

    researchmap

  • A sound-based online method for estimating the time-varying posture of a hose-shaped robot 査読

    Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Hiroshi G. Okuno

    2014 IEEE International Symposium on Safety, Security, and Rescue Robotics (SSRR 2014)   1 - 6   2014年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/SSRR.2014.7017665

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ssrr/ssrr2014.html#BandoIKTNYO14

  • Transferring Vocal Expressions of a Professional Singer to Unaccompanied Singing Signals

    Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

    Late Breaking Demo (LBD), International Society for Music Information Retrieval (ISMIR)   1 - 2   2014年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(その他学術会議資料等)  

    researchmap

  • Bayesian audio alignment based on a unified model of music composition and performance 査読

    Akira Maezawa, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

    15th International Society for Music Information Retrieval Conference (ISMIR 2014)   233 - 238   2014年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

    その他リンク: https://dblp.org/rec/conf/ismir/MaezawaIYO14

  • Sound annotation tool for multidirectional sounds based on spatial information extracted by HARK robot audition software 査読

    Osamu Sugiyama, Katsutoshi Itoyama, Kazuhiro Nakadai, Hiroshi G. Okuno

    2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC2014)   2335 - 2340   2014年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/SMC.2014.6974275

    researchmap

  • Parameter estimation of virtual musical instrument synthesizers 査読

    Katsutoshi Itoyama, Hiroshi G. Okuno

    40th International Computer Music Conference and 11th Sound and Music Computing Conference (ICMC SMC 2014)   1426 - 1431   2014年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • 擬似生成した複数方言言語モデル混合による混合方言音声認識 査読

    平山 直樹, 吉野 幸一郎, 糸山 克寿, 森 信介, 奥乃 博

    情報処理学会論文誌   55 ( 7 )   1681 - 1694   2014年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    本論文では,様々な方言の混合に対応する音声認識システムを構築する.まず,単一方言音声認識の言語モデルを,大規模共通語言語コーパスから擬似生成した方言言語コーパスで学習する.擬似生成には,共通語-方言対訳コーパスからWFST(重み付き有限状態トランスデューサ)によって学習されたルールを用いる.次に,構築された各方言言語モデルを混合し,発話ごとに最適な混合比を推定しながら認識を行う.これは,実際に話される方言が純粋な単一方言ではなく,人の移動やテレビ,ラジオなどの放送の影響を受けた様々な方言の混合であると考えられるからである.この推定には,音声認識用言語モデルにおける対数尤度の値を用いる.実験により,方言音声認識用言語モデルを用いて方言音声の認識精度が向上することを確認した.また,対数尤度と音声認識精度に強い相関があること,対数尤度を最大化する混合比を発話ごとに選択することで,固定混合比の場合と比較して音声認識精度が向上することを確認した.

    CiNii Books

    researchmap

  • Automatic transcription of guitar tablature from audio signals in accordance with player's proficiency 査読

    Kazuki Yazawa, Katsutoshi Itoyama, Hiroshi G. Okuno

    2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2014)   3122 - 3126   2014年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/ICASSP.2014.6854175

    Web of Science

    researchmap

  • Transcribing vocal expression from polyphonic music 査読

    Yukara Ikemiya, Katsutoshi Itoyama, Hiroshi G. Okuno

    2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2014)   3127 - 3131   2014年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/ICASSP.2014.6854176

    Web of Science

    researchmap

  • 音声中の任意検索語検出のための未知語区間推定に基づく選択的インデックス統合法 査読

    神田 直之, 糸山 克寿, 奥乃 博

    情報処理学会論文誌   55 ( 3 )   1201 - 1211   2014年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    本研究では音声検索語検出のために複数の音声認識器から出力された認識結果を統合する手法において,未知語区間推定結果に基づいてインデックスを選択的に統合することで,検出精度の劣化を抑えつつインデックスサイズを削減する手法について提案する.提案する手法は4種類の音声認識器から得られた出力を1つのネットワークへと統合する.その際,未知語区間推定結果に基づきネットワーク中の有効なアークの選択や,インデックスに用いるサブワード単位の選択を行うことで,冗長なインデックスを削減する.日本語話し言葉コーパスを用いた評価の結果,提案法によって,検出精度の劣化を1.4ポイントに抑えたうえで音素Transition Networkから22.7%のインデックスが削減できることを確認した.単一の音声認識結果から作成した音素単位のネットワークと比較した場合,提案法では,インデックスの統合による検出精度向上の効果(既知語で16.3%,未知語で16.0%の検出エラー削減)を保ちながら,単一の音声認識結果に基づくインデックスと同等以下の大きさまでインデックスサイズを抑えることができた.

    CiNii Books

    researchmap

  • Transferring vocal expression of F0 contour using singing voice synthesizer 査読

    Yukara Ikemiya, Katsutoshi Itoyama, Hiroshi G. Okuno

    Modern Advances in Applied Intelligence (IEA/AIE 2014)   ( 2 )   250 - 259   2014年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer Verlag  

    DOI: 10.1007/978-3-319-07467-2_27

    Scopus

    researchmap

  • Posture estimation of hose-shaped robot using microphone array localization 査読

    Yoshiaki Bando, Takeshi Mizumoto, Katsutoshi Itoyama, Kazuhiro Nakadai, Hiroshi G. Okuno

    2013 IEEE International Conference on Intelligent Robots and Systems (IROS2013)   3446 - 3451   2013年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/IROS.2013.6696847

    Scopus

    researchmap

  • Noise correlation matrix estimation for improving sound source localization by multirotor UAV 査読

    Koutarou Furukawa, Keita Okutani, Kohei Nagira, Takuma Otsuka, Katsutoshi Itoyama, Kazuhiro Nakadai, Hiroshi G. Okuno

    2013 IEEE International Conference on Intelligent Robots and Systems (IROS2013)   3943 - 3948   2013年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/IROS.2013.6696920

    Web of Science

    researchmap

  • Multiple index combination for Japanese spoken term detection with optimum index selection based on OOV-region classifier 査読

    Naoyuki Kanda, Katsutoshi Itoyama, Hiroshi G. Okuno

    2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2013)   8540 - 8544   2013年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/ICASSP.2013.6639332

    Web of Science

    researchmap

  • Initialization-robust Bayesian multipitch analyzer based on psychoacoustical and musical criteria 査読

    Daichi Sakaue, Takuma Otsuka, Katsutoshi Itoyama, Hiroshi G. Okuno

    2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2013)   226 - 230   2013年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/ICASSP.2013.6637642

    Scopus

    researchmap

  • Audio-based guitar tablature transcription using multipitch analysis and playability constraints 査読

    Kazuki Yazawa, Daichi Sakaue, Kohei Nagira, Katsutoshi Itoyama, Hiroshi G. Okuno

    2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2013)   196 - 200   2013年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/ICASSP.2013.6637636

    Web of Science

    researchmap

  • Robust multipitch analyzer against initialization based on latent harmonic allocation using overtone corpus 査読

    Daichi Sakaue, Katsutoshi Itoyama, Tetsuya Ogata, Hiroshi G. Okuno

    Journal of Information Processing   21 ( 2 )   246 - 255   2013年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.2197/ipsjjip.21.246

    Scopus

    researchmap

  • Automatic Estimation of Dialect Mixing Ratio for Dialect Speech Recognition 査読

    Naoki Hirayama, Koichiro Yoshino, Katsutoshi Itoyama, Shinsuke Mori, Hiroshi G. Okuno

    14th Annual Conference of the International Speech Communication Association (INTERSPEECH 2013)   1492 - 1496   2013年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Web of Science

    researchmap

  • Robust Multipitch Analyzer against Initialization based on Latent Harmonic Allocation using Overtone Corpus

    Sakaue Daichi, Itoyama Katsutoshi, Ogata Tetsuya, Okuno Hiroshi G.

    Information and Media Technologies   8 ( 2 )   467 - 476   2013年

     詳細を見る

    記述言語:英語   出版者・発行元:Information and Media Technologies Editorial Board  

    We present a Bayesian analysis method that estimates the harmonic structure of musical instruments in music signals on the basis of psychoacoustic evidence. Since the main objective of multipitch analysis is joint estimation of the fundamental frequencies and their harmonic structures, the performance of harmonic structure estimation significantly affects fundamental frequency estimation accuracy. Many methods have been proposed for estimating the harmonic structure accurately, but no method has been proposed that satisfies all these requirements: robust against initialization, optimization-free, and psychoacoustically appropriate and thus easy to develop further. Our method satisfies these requirements by explicitly incorporating Terhardt's virtual pitch theory within a Bayesian framework. It does this by automatically learning the valid weight range of the harmonic components using a MIDI synthesizer. The bounds are termed "overtone corpus." Modeling demonstrated that the proposed overtone corpus method can stably estimate the harmonic structure of 40 musical pieces for a wide variety of initial settings.

    DOI: 10.11185/imt.8.467

    researchmap

  • Bayesian nonnegative harmonic-temporal factorization and its application to multipitch analysis 査読

    Daichi Sakaue, Takuma Otsuka, Katsutoshi Itoyama, Hiroshi G. Okuno

    13th International Society for Music Information Retrieval Conference (ISMIR 2012)   91 - 96   2012年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.5281/zenodo.1418163

    researchmap

    その他リンク: https://dblp.org/rec/conf/ismir/SakaueOIO12

  • Initialization-robust multipitch estimation based on latent harmonic allocation using overtone corpus 査読

    Daichi Sakaue, Katsutoshi Itoyama, Tetsuya Ogata, Hiroshi G. Okuno

    2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2012)   425 - 428   2012年3月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/ICASSP.2012.6287907

    Web of Science

    researchmap

  • Automated violin fingering transcription through analysis of an audio recording 査読

    Akira Maezawa, Katsutoshi Itoyama, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

    Computer Music Journal   36 ( 3 )   57 - 72   2012年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:MIT Press Journals  

    DOI: 10.1162/COMJ_a_00129

    Scopus

    researchmap

  • Automatic chord recognition based on probabilistic integration of acoustic features, bass sounds, and chord transition 査読

    Katsutoshi Itoyama, Tetsuya Ogata, Hiroshi G. Okuno

    Advanced Research in Applied Artificial Intelligence (IEA/AIE 2012)   7345 LNAI   58 - 67   2012年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1007/978-3-642-31087-4_7

    Scopus

    researchmap

  • フレーズ置換のための調波非調波GMM・NMFに基づく音源分離・演奏合成 査読

    安良岡 直希, 吉岡 拓也, 糸山克寿, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会論文誌   52 ( 12 )   3839 - 3852   2011年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:情報処理学会  

    本論文では,多重奏音響信号中の特定の楽器パート演奏をユーザ指定の別楽譜による演奏に差し替える「フレーズ置換」システムのための音源分離・演奏合成法について報告する.本システムはまず上記特定の楽器パート演奏(置換元演奏と呼ぶ)を多重奏から分離除去し(音源分離),次にユーザが指定した楽譜の演奏を合成し多重奏に挿入する(演奏合成).自然なフレーズ置換のために,合成される演奏には置換元演奏の特徴を反映させる.本システムの技術的課題は,1)置換元演奏楽譜のみを用いた音源分離,2)置換元演奏特徴を持つ置換先演奏の高品質合成,の2点である.この課題に対処するため,次の2点に基づく音源分離・演奏合成法を設計した:1)調波非調波Gaussian Miixture Model(GMM)とNonnegative Matrix Factorization(NMF)の統合モデルによる置換元演奏と伴奏の音源分離,2) MIDI音源が合成した演奏への音色・演奏表情補正.本手法に対しi)置換元演奏が正しく除去されるか,ii)合成演奏は置換元演奏の特徴を保持しているか,の2点を客観評価した結果,それぞれ比較対象に対し28.2%, 11.5%対数スペクトル距離が改善された.

    CiNii Books

    researchmap

  • Simultaneous processing of sound source separation and musical instrument identification using Bayesian spectral modeling 査読

    Katsutoshi Itoyama, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

    2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2011)   3816 - 3819   2011年5月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/ICASSP.2011.5947183

    Web of Science

    researchmap

  • ベース音高と和音特徴の統合に基づく和音系列認識 査読

    須見 康平, 糸山 克寿, 吉井 和佳, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会論文誌   52 ( 4 )   1803 - 1812   2011年4月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    本論文では,ベース音高と和音の関連を考慮した和音系列認識の手法を提案する.和音系列はともに楽曲を構成する他の音楽的要素と深く関連しているため,それらの関係性を考慮して認識を行うことで精度の向上が期待される.我々は,ベース音が構成するメロディであるベースラインとの関係性に着目し,和音系列認識の重要な手がかりとして使用する.和音特徴,和音遷移パターンに加え,ベース音高分布に基づく和音系列の事後確率を定義し,事後確率が最大となる和音系列をViterbi探索することで求める.&quot;The Beatles&quot;の12アルバム中の,調を持ち転調を含まない150楽曲に対して行った実験の結果,和音に関する特徴のみを用いる場合よりもベース音高情報を付加した場合の方が精度は向上し,73.7%の平均認識率が得られた.

    CiNii Books

    researchmap

  • Query-by-Example Music Information Retrieval by Score-Informed Source Separation and Remixing Technologies 査読

    Itoyama Katsutoshi, Goto Masataka, Komatani Kazunori, Ogata Tetsuya, Okuno Hiroshi G.

    EURASIP Journal on Advances in Signal Processing   2010 ( 172961 )   1 - 14   2011年1月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Hindawi Publishing Corporation  

    We describe a novel query-by-example (QBE) approach in music information retrieval that allows a user to customize query examples by directly modifying the volume of different instrument parts. The underlying hypothesis of this approach is that the musical mood of retrieved results changes in relation to the volume balance of different instruments. On the basis of this hypothesis, we aim to clarify the relationship between the change in the volume balance of a query and the genre of the retrieved pieces, called genre classification shift. Such an understanding would allow us to instruct users in how to generate alternative queries without finding other appropriate pieces. Our QBE system first separates all instrument parts from the audio signal of a piece with the help of its musical score, and then it allows users remix these parts to change the acoustic features that represent the musical mood of the piece. Experimental results showed that the genre classification shift was actually caused by the volume change in the vocal, guitar, and drum parts.

    DOI: 10.1155/2010/172961

    CiNii Books

    researchmap

  • A musical mood trajectory estimation method using lyrics and acoustic features 査読

    Naoki Nishikawa, Katsutoshi Itoyama, Hiromasa Fujihara, Masataka Goto, Tetsuya Ogata, Hiroshi G. Okuno

    2011 ACM Multimedia Conference and Co-Located Workshops (MIRUM '11)   51 - 56   2011年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1145/2072529.2072543

    Scopus

    researchmap

  • SpeakBySinging: Converting singing voices to speaking voices while retaining voice timbre 査読

    Shimpei Aso, Takeshi Saitou, Matataka Goto, Katsutoshi Itoyama, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

    13th International Conference on Digital Audio Effects (DAFx-10)   114 - 121   2010年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Scopus

    researchmap

  • Violin fingering estimation based on violin pedagogical fingering model constrained by bowed sequence estimation from audio input 査読

    Akira Maezawa, Katsutoshi Itoyama, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

    Trends in Applied Intelligent Systems (IEA/AIE 2010)   249 - 259   2010年6月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1007/978-3-642-13033-5_26

    researchmap

  • Query-by-Example music retrieval approach based on musical genre shift by changing instrument volume 査読

    Katsutoshi Itoyama, Masataka Goto, Kazuhiro Komatani, Testuya Ogata, Hiroshi G. Okuno

    12th International Conference on Digital Audio Effects (DAFx-09)   205 - 212   2009年9月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Scopus

    researchmap

    その他リンク: http://dafx09.como.polimi.it/proceedings/data/DAFx09_Proceedings.pdf

  • Parameter estimation for harmonic and inharmonic models by using timbre feature distributions 査読

    Katsutoshi Itoyama, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

    Journal of Information Processing   17   191 - 201   2009年7月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Information Processing Society of Japan  

    DOI: 10.2197/ipsjjip.17.191

    Scopus

    researchmap

  • 音色の音高依存性を考慮した楽器音の音高操作手法 査読

    安部 武宏, 糸山克寿, 吉井 和佳, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会論文誌   50 ( 3 )   1054 - 1066   2009年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    本稿では,ある音高を持つ楽器音をもとにして,音色の歪みを抑えながら任意の音高を持つ楽器音を合成する手法について述べる.我々は音色の聴感上の差に関する音響心理学的知見に基づき,楽器音のスペクトログラム上で観察される音色特徴量として,(i) 倍音ピーク間の相対強度,(ii) 非調波成分の分布,(iii) 時間方向の振幅エンベロープの3つを定義する.まず,もとになる楽器音の音色特徴量を分析するため,糸山らの調波&amp;middot;非調波統合モデルを用いて楽器音を調波構造と非調波構造に分離する.音高操作時には,特徴量(i),(ii) の音高依存性を考慮しなければならない.そのため,音高に対する特徴量を3次関数で近似し,所望の音高における特徴量の値を予測する.32種類の楽器に対して音高操作を試みたところ,音高依存性を考慮しない場合と比べて合成音と実際の楽器音との距離が,スペクトル距離尺度では64.70%,MFCC距離尺度では32.31%減少し,手法の有効性が確かめられた.

    CiNii Books

    researchmap

  • Parameter Estimation for Harmonic and Inharmonic Models by Using Timbre Feature Distributions

    Itoyama Katsutoshi, Goto Masataka, Komatani Kazunori, Ogata Tetsuya, G. Okuno Hiroshi

    Information and Media Technologies   4 ( 3 )   672 - 682   2009年

     詳細を見る

    記述言語:英語   出版者・発行元:Information and Media Technologies 編集運営会議  

    We describe an improved way of estimating parameters for an integrated weighted-mixture model consisting of both harmonic and inharmonic tone models. Our final goal is to build an instrument equalizer (music remixer) that enables a user to change the volume of parts of polyphonic sound mixtures. To realize the instrument equalizer, musical signals must be separated into each musical instrument part. We have developed a score-informed sound source separation method using the integrated model. A remaining but critical problem is to find a way to deal with timbre varieties caused by various performance styles and instrument bodies because our method used template sounds to represent their timbre. Template sounds are generated from a MIDI tone generator based on an aligned score. Difference of instrument bodies between mixed signals and template sounds causes timbre difference and decreases separation performance. To solve this problem, we train probabilistic distributions of timbre features using various sounds to reduce template dependency. By adding a new constraint of maximizing the likelihood of timbre features extracted from each tone model, we can estimate model parameters that express the timbre more accurately. Experimental results show that separation performance improved from 4.89 to 8.48dB.

    DOI: 10.11185/imt.4.672

    researchmap

  • Changing timbre and phrase in existing musical performances as you like - Manipulations of single part using harmonic and inharmonic models 査読

    Naoki Yasuraoka, Takehiro Abe, Katsutoshi Itoyama, Toru Takahashi, Tetsuya Ogata, Hiroshi G. Okuno

    17th ACM international conference on Multimedia (MM '09)   203 - 212   2009年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1145/1631272.1631302

    Scopus

    researchmap

  • Bowed String Sequence Estimation of a Violin Based on Adaptive Audio Signal Classification and Context-Dependent Error Correction 査読

    Akira Maezawa, Katsutoshi Itoyama, Tom Takahashi, Tetsuya Ogata, Hiroshi G. Okuno

    2009 11th IEEE International Symposium on Multimedia (ISM '09)   9 - 16   2009年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/ISM.2009.30

    Web of Science

    researchmap

  • Automatic chord recognition based on probabilistic integration of chord transition and bass pitch estimation 査読

    Kouhei Sumi, Katsutoshi Itoyama, Kazuyoshi Yoshii, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

    9th International Conference on Music Information Retrieval (ISMIR 2008)   39 - 44   2008年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Instrument equalizer for query-by-example retrieval: Improving sound source separation based on integrated harmonic and inharmonic models 査読

    Katsutoshi Itoyama, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

    9th International Conference on Music Information Retrieval (ISMIR 2008)   133 - 138   2008年9月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • 楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付きパラメータ推定の同時実現 査読

    糸山 克寿, 後藤 真孝, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会論文誌   49 ( 3 )   1465 - 1479   2008年3月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人情報処理学会  

    本論文では,多重奏の音楽音響信号とその楽曲に含まれるすべての単音の音高・音長・音量・発音時刻・楽器の種類の組である楽譜情報を入力として,単音ごとの音響信号を出力する音源分離手法と,そのための制約付きモデルパラメータ推定手法について述べる.本分離手法では,Standard MIDIb File(SMF)などから抽出された楽譜情報を用いることで混合音のパワースペクトルを単音ごとに分離し,調波構造と非調波構造のそれぞれを表現する2 つのモデルを統合した新たな重み付き混合モデルを用いることで,単音に複数の調波構造が含まれることを防ぎ,かつ音高を超えた楽器音の音色類似性を考慮することを実現する.モデルパラメータは,楽譜情報に基づいてMIDI 音源から生成したテンプレート音によって初期化し,EM アルゴリズムを用いた最大事後確率推定により反復推定する.さらに,モデルの過学習を防ぎ,同一楽器の単音のモデルに類似した音色を持たせるための制約条件も同時に用いる.ポピュラー音楽のSMF を用いた評価実験で,本手法によりSNR が0.4-0.9dB向上することを確認した.

    CiNii Books

    researchmap

  • Analysis-and-manipulation approach to pitch and duration of musical instrument sounds without distorting timbral characteristics 査読

    Takehiro Abe, Katsutoshi Itoyama, Kazuyoshi Yoshii, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

    11th International Conference on Digital Audio Effects (DAFx-08)   249 - 256   2008年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Scopus

    researchmap

  • Integration and adaptation of harmonic and inharmonic models for separating polyphonic musical signals 査読

    Katsutoshi Itoyama, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

    2007 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2007)   I   57 - 60   2007年

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/ICASSP.2007.366615

    Web of Science

    researchmap

  • Automatic feature weighting in automatic transcription of specified part in polyphonic music 査読

    Katsutoshi Itoyama, Tetsuro Kitahara, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

    7th International Conference on Music Information Retrieval (ISMIR 2006)   172 - 175   2006年10月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

    その他リンク: https://dblp.org/rec/conf/ismir/ItoyamaKKOO06

▼全件表示

書籍等出版物

  • ロボット工学ハンドブック

    日本ロボット学会( 担当: 分担執筆 範囲: 音響情報処理)

    コロナ社  2023年3月  ( ISBN:9784339046793

     詳細を見る

    総ページ数:ix, 1072p   記述言語:日本語  

    CiNii Books

    researchmap

MISC

  • 距離ベース時間周波数マスク推定による音声強調手法の検討

    石井, 遼平, 中臺, 一博, 糸山, 克寿

    第86回全国大会講演論文集   2024 ( 1 )   361 - 362   2024年3月

     詳細を見る

    記述言語:日本語   出版者・発行元:情報処理学会  

    一般に会議では、複数の人が集まって話をするため、たとえ各話者の口元にマイクをつけて収録した場合でも、収録音には対象話者の音声に加え、他の話者の音声が混入してしまう。このため、収録音中の対象話者の音声の聴取が困難になり、議事録作成などの用途に支障をきたすという問題がある。本稿では、この問題を解決するため、ディープラーニングにより推定された時間周波数マスクを用いて、モノラル収録音から、近距離話者の音声のみを抽出する音声強調法を提案する。提案手法を人間の聴覚と相関があるPESQとSTOIを用いて評価した結果、提案手法の有効性を示すことができた。

    CiNii Books

    CiNii Research

    researchmap

  • 動画中の稀少イベントとしての小領域移動物体の検出手法

    西田健次, 糸山克寿, 糸山克寿, 中臺一博

    人工知能学会第二種研究会資料(Web)   2024 ( Challenge-064 )   2024年

     詳細を見る

  • LCMVベースのScan-and-Sum Beamformerによる面領域内音源の抽出

    安江蒼人, YEN Benjamin, 糸山克寿, 中臺一博

    日本ロボット学会学術講演会予稿集(CD-ROM)   42nd   2024年

     詳細を見る

  • Biasing Networkを用いた音声認識の雑音耐性向上

    大崎崇博, 周藤唯, 糸山克寿, 中臺一博

    日本ロボット学会学術講演会予稿集(CD-ROM)   42nd   2024年

     詳細を見る

  • 距離学習を用いた話者識別に基づく話者ダイアライゼーションの検討

    阿坂脩平, 西田健次, 糸山克寿, 中臺一博

    日本ロボット学会学術講演会予稿集(CD-ROM)   42nd   2024年

     詳細を見る

  • ガウス過程回帰を用いた音響伝達関数の環境変化適応

    藤田侑樹, 糸山克寿, 西田健次, 中臺一博

    日本ロボット学会学術講演会予稿集(CD-ROM)   42nd   2024年

     詳細を見る

  • 屋外環境下でのドローンのローターノイズによる地表材質推定手法の検討

    矢野翼, YEN Benjamin, 糸山克寿, 中臺一博

    日本ロボット学会学術講演会予稿集(CD-ROM)   42nd   2024年

     詳細を見る

  • Video Vision Transformerに基づく音源定位の提案

    横田遥大, BOZKURTLAR Mert, BOZKURTLAR Mert, YEN Benjamin, 糸山克寿, 西田健次, 中臺一博

    日本ロボット学会学術講演会予稿集(CD-ROM)   42nd   2024年

     詳細を見る

  • 話者情報を利用した距離ベース 時間周波数マスク推定による音声強調の向上

    田口鐵人, 石井遼平, 大崎崇博, 阿坂脩平, YEN Benjamin, 糸山克寿, 中臺一博

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM)   25th   2024年

     詳細を見る

  • HARK3.6およびそのアクティブドローン聴覚への応用

    中臺一博, 公文誠, 佐々木洋子, 干場功太郎, YEN Benjamin, 糸山克寿, 瀧ヶ平将行, 寺門直哉, LIN Zirui, GULZAR Haris, BUSTO Monikka Rosalianna, 江田毅晴, 天野英晴

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM)   25th   2024年

     詳細を見る

  • 音声強調ネットワークとアダプターを用いた音声認識の耐雑音ロバスト性向上

    大崎崇博, 周藤唯, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

    日本ロボット学会誌   42 ( 9 )   2024年

     詳細を見る

  • 面音源抽出のための複数拘束 MVDR ビームフォーマーの逐次計算による高速化

    安江蒼人, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

    日本ロボット学会誌   42 ( 6 )   2024年

     詳細を見る

  • 深層ブラインド音源分離を用いた転移学習による環境音分離

    合澤 隆拓, 坂東 宜昭, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第85回全国大会   ( 5S-02 )   2023年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 音声強調ネットワークとアダプターを用いた音声認識の耐雑音ロバスト性向上

    大崎崇博, 周藤唯, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

    日本ロボット学会学術講演会予稿集(CD-ROM)   41st   2023年

     詳細を見る

  • フォンミーゼス分布に基づく音響伝達関数オンライン適応の向上

    藤田侑樹, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

    日本ロボット学会学術講演会予稿集(CD-ROM)   41st   2023年

     詳細を見る

  • 面音源抽出のための複数拘束MVDRビームフォーマーの逐次計算による高速化

    安江蒼人, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

    日本ロボット学会学術講演会予稿集(CD-ROM)   41st   2023年

     詳細を見る

  • ロボット聴覚のための音源定位と深層ブラインド音源分離の統合

    合澤隆拓, 合澤隆拓, 坂東宜昭, 糸山克寿, 糸山克寿, 西田健次, 中臺一博, 大西正輝

    日本ロボット学会学術講演会予稿集(CD-ROM)   41st   2023年

     詳細を見る

  • 自然な音声対話AIに向けたシステム応答法の検討

    阿坂脩平, 西田健次, 糸山克寿, 糸山克寿, 中臺一博

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM)   24th   2023年

     詳細を見る

  • 気配センシングに向けた磁束密度センサと風速センサを用いた動作検出

    川口洋慶, SHAKEEL Muhammad, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

    日本ロボット学会学術講演会予稿集(CD-ROM)   41st   2023年

     詳細を見る

  • 可聴音ベースの反響定位に基づく3次元空間認識の5チャネルマイクロホンアレイによる向上

    小林宙輝, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM)   24th   2023年

     詳細を見る

  • ドローンのローターノイズによる地表材質推定手法の検討

    矢野翼, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM)   24th   2023年

     詳細を見る

  • Scan-and-Sum Beamformerの拡張による二次元領域抽出の検討

    安江 蒼人, 糸山 克寿, 西田 健次, 中臺 一博

    第23回計測自動制御学会システムインテグレーション部門後援会 (SI 2022)   ( 3A2-B04 )   2022年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 最頻値フィルタを用いたマイクロホンアレイ音響伝達関数の環境適応手法の検討

    藤田 侑樹, 糸山 克寿, 西田 健次, 中臺 一博

    第23回計測自動制御学会システムインテグレーション部門後援会 (SI 2022)   ( 3A2-B01 )   2022年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • HARK 3.4 ~PyHARKの紹介~

    中臺 一博, 糸山 克寿

    第23回計測自動制御学会システムインテグレーション部門後援会 (SI 2022)   ( 3P2-H12 )   2022年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 音響伝達関数の二次元補間手法の提案とその音源定位への適用

    大﨑 崇博, 糸山 克寿, 西田 健次, 中臺 一博

    第23回計測自動制御学会システムインテグレーション部門後援会 (SI 2022)   ( 3A2-B14 )   2022年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数音源追跡におけるドローン群の行動計画の検討

    山田 泰基, 糸山 克寿, 西田 健次, 中臺 一博

    第61回AIチャレンジ研究会   ( SIG-Challenge-061-07 )   33 - 39   2022年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • ロボット聴覚用音響処理ソフトウェアHARKを用いたサウンドスケープの解析

    山本 遼, 西田 健次, 糸山 克寿, 松林 志穂, 鈴木 麗璽, 中臺 一博

    日本鳥学会2022年度大会   ( P048 )   2022年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • PyHARK: HARKのオンライン・オフライン処理用Pythonパッケージ

    中臺 一博, 糸山 克寿, 瀧ヶ平 将行

    第61回AIチャレンジ研究会   ( SIG-Challenge-061-04 )   14 - 19   2022年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 低解像度画像からの小領域物体の検出手法の検討

    西田 健次, 糸山 克寿, 中臺 一博

    第61回AIチャレンジ研究会   ( SIG-Challenge-061-03 )   9 - 13   2022年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 任意の混合音を入力としたマイクロホンアレイ形状のキャリブレーション

    糸山 克寿, 中臺 一博

    第61回AIチャレンジ研究会   ( SIG-Challenge-061-11 )   57 - 62   2022年11月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 深層ブラインド音源分離と転移学習に基づく遠隔音声認識の評価

    合澤 隆拓, 坂東 宜昭, 糸山 克寿, 西田 健次, 中臺 一博

    第61回AIチャレンジ研究会   2022 ( SIG-Challenge-061-09 )   09   2022年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人 人工知能学会  

    DOI: 10.11517/jsaisigtwo.2022.challenge-061_09

    CiNii Research

    researchmap

  • 音源定位結果の3D可視化とmAPベースの評価指標の提案

    山本 遼, 糸山 克寿, 西田 健次, 中臺 一博

    第40回日本ロボット学会学術講演会   ( 4J3-07 )   2022年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 環境イベント識別学習フレームワークの提案とその日本語テキスト入力からの音響シーン生成部の実装

    露口 弘毅, シャキール ムハマド, 糸山 克寿, 西田 健次, 中臺 一博

    第40回日本ロボット学会学術講演会   ( 4J3-07 )   2022年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • アンサンブル時間周波数マスクを用いた複数の音声強調手法の統合

    藤田 雅彦, 糸山 克寿, 西田 健次, 中臺 一博

    第40回日本ロボット学会学術講演会   ( 4J3-04 )   2022年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • Speech-Recognition on Low-Power GPU Device for Robotic Applications on the Edge

    Haris Gulzar, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

    40th Annual Conference of the Robotics Society of Japan   ( 2J3-06 )   2022年9月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数マイクロホンアレイのパラメータ同時最適化

    杉山 地塩, 糸山 克寿, 西田 健次, 中臺 一博

    第40回日本ロボット学会学術講演会   ( 4J3-09 )   2022年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数のマイクロホンアレイ搭載ドローンの配置最適化による音源追跡性能の向上

    山田 泰基, 糸山 克寿, 西田 健次, 中臺 一博

    第40回日本ロボット学会学術講演会   ( 4J3-08 )   2022年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 深層フルランク空間相関分析に基づく遠隔音声認識のフロントエンド

    合澤 隆拓, 坂東 宜昭, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会第84回全国大会   ( 1R-02 )   2022年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 深層学習を用いた複数音声強調処理のアンサンブル手法の検討

    藤田 雅彦, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会第84回全国大会   ( 5R-05 )   2022年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • ロボット聴覚用音響処理ソフトウェアHARKを用いたサウンドスケープの分析および考察

    山本遼, 西田健次, 糸山克寿, 中臺一博, 中臺一博

    日本生態学会大会講演要旨(Web)   69th   2022年

     詳細を見る

  • 転移学習を用いた音響クラス分類の検討

    露口 弘毅, 西田 健次, 糸山 克寿, 中臺 一博

    第22回 計測自動制御学会 システムインテグレーション部門講演会 (SI2021)   ( 3B4-03 )   2021年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • スポットフォーミングによる音声認識性能向上の評価

    合澤 隆拓, 鍵本 泰宏, 西田 健次, 糸山 克寿, 中臺 一博

    第22回 計測自動制御学会 システムインテグレーション部門講演会 (SI2021)   ( 2G4-03 )   2021年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • Detecting earthquakes: a novel deep learning-based approach for effective disaster response

    Shakeel Muhammad, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    第58回人工知能学会AIチャレンジ研究会   47 - 52   2021年11月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • Haris Gulzar, Shakeel Muhammad, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

    Haris Gulzar, Shakeel Muhammad, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

    第58回人工知能学会AIチャレンジ研究会   29 - 34   2021年11月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数マイクロホンアレイを用いたNMFによる空間音源分離法の残響下での評価

    鍵本 泰宏, 糸山 克寿, 西田 健次, 中臺 一博

    第58回人工知能学会AIチャレンジ研究会   22 - 28   2021年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • Numerical Evaluation of 3D Sound Source Tracking Methods for Drones with Microphone Arrays

    Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    第39回 日本ロボット学会学術講演会 (RSJ2021)   ( 2D4-02 )   2021年9月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 類似度行列を考慮した野鳥の歌自動識別の検討

    山本 遼, 中臺 一博, 西田 健次, 糸山 克寿

    第39回 日本ロボット学会学術講演会 (RSJ2021)   ( 2D4-04 )   2021年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数マイクロホンアレイの同期および3次元位置・姿勢推定の同時最適化の検討

    杉山 地塩, 糸山 克寿, 西田 健次, 中臺 一博

    第39回 日本ロボット学会学術講演会 (RSJ2021)   ( 2D4-01 )   2021年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • アンサンブル時間周波数マスクによる音声強調手法の評価

    藤田 雅彦, 糸山 克寿, 西田 健次, 中臺 一博

    第39回 日本ロボット学会学術講演会 (RSJ2021)   ( 2D3-03 )   2021年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • エコロケーションに基づく視覚シーンの再構成手法の提案と入力特徴量の検討

    岸波 華彦, 糸山 克寿, 西田 健次, 中臺 一博

    第39回 日本ロボット学会学術講演会 (RSJ2021)   ( 2D3-02 )   2021年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 類似度行列による野鳥の歌識別器の検討

    山本 遼, 中臺 一博, 糸山 克寿, 西田 健次, 鈴木 麗璽, 松林 志保

    日本鳥学会2021年度大会   2021年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • アンサンブル時間周波数マスクによる音声強調手法の検討

    藤田 雅彦, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第83回全国大会   ( 7N-6 )   2021年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数マイクロホンアレイの同期および位置・姿勢推定の同時最適化の検討

    杉山 地塩, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第83回全国大会   ( 5W-7 )   2021年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • A Multi-Access Edge Computing Solution with Distributed Sound Source Localization for IoT Networks

    Haris Gulzar, Muhammad Shakeel, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

    第21回計測自動制御学会システムインテグレーション部門講演会 (SICE SI 2020)   ( 1E3-04 )   2020年12月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • バイナリマスク付き非負値行列因子分解に基づく発音時刻を用いた音源分離

    日下 湧太, 糸山 克寿, 西田 健次, 中臺 一博

    第57回 人工知能学会 AIチャレンジ研究会   2020年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • マイクロホンアレイ搭載ドローンによる音源方向尤度統合に基づく音源追跡

    山田 泰基, 糸山 克寿, 西田 健次, 中臺 一博

    第57回 人工知能学会 AIチャレンジ研究会   2020年11月

     詳細を見る

    掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 表情による感情推定と音声による感情推定手法の検討

    西田 健次, 山田 亨, 糸山 克寿, 中臺 一博

    第57回 人工知能学会 AIチャレンジ研究会   2020年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • テニスにおける打球音を用いた打球回転方向の識別

    山本 修己, 糸山 克寿, 西田 健次, 中臺 一博

    第57回 人工知能学会 AIチャレンジ研究会   2020年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • マイクロホン位置と音源スペクトルの確率モデルに基づくマイクロホンアレイのキャリブレーション

    段 雄啓, 糸山 克寿, 西田 健次, 中臺 一博

    第57回 人工知能学会 AIチャレンジ研究会   2020年11月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 重み付け尤度関数と定在波を用いた可聴音による二次元環境認識

    岸波 華彦, 糸山 克寿, 西田 健次, 中臺 一博

    第38回 日本ロボット学会学術講演会 (RSJ2020)   ( 1D3-04 )   2020年10月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 環境音情報と画像情報を用いた物体検出による音ラベル付きセグメントの生成

    鈴木 啓, 糸山 克寿, 西田 健次, 中臺 一博

    第38回 日本ロボット学会学術講演会 (RSJ2020)   ( 1D3-02 )   2020年10月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数マイクロホンアレイを用いたNMFによる空間音源分離法の提案と評価

    鍵本 泰宏, 糸山 克寿, 西田 健次, 中臺 一博

    第38回 日本ロボット学会学術講演会 (RSJ2020)   ( 1D2-04 )   2020年10月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 伸縮スペクトルのランク最小化の緩和に基づくチャネル間同期

    糸山 克寿, 中臺 一博

    第38回 日本ロボット学会学術講演会 (RSJ2020)   ( 1D2-03 )   2020年10月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • テニスの打球音による球種識別の検討

    山本 修己, 糸山 克寿, 西田 健次, 中臺 一博

    第38回 日本ロボット学会学術講演会 (RSJ2020)   ( 1D3-05 )   2020年10月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • バイナリマスク付き非負値行列因子分解に基づく音源分離手法の発音時刻ずれに対する性能評価

    日下 湧太, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第82回全国大会   ( 5S-1 )   361 - 362   2020年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • クラウドソーシングを用いた作成した環境音キャプションコーパスの評価

    岩月 道生, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第82回全国大会   ( 5Q-7 )   201 - 202   2020年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数マイクロホンアレイを用いた尤度分布統合による移動音源追跡

    山田 泰基, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第82回全国大会   ( 5Q-2 )   191 - 192   2020年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • A Spatial Filter Design for Surface Sound Source Separation

    鍾 知, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第82回全国大会   ( 5Q-1 )   189 - 190   2020年2月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数マイクロホンアレイを用いたLDAによるスポットフォーミングの検討

    鍵本 泰宏, 糸山 克寿, 西田 健次, 中臺 一博

    第20回計測自動制御学会システムインテグレーション部門講演会 (SI2019)   ( 2C2-16 )   2019年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 重み付け尤度関数と定在波を用いた可聴音による距離測定

    岸波 華彦, 糸山 克寿, 西田 健次, 中臺 一博

    第20回計測自動制御学会システムインテグレーション部門講演会 (SI2019)   ( 2C2-14 )   2019年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 音響距離計測情報を用いた透明物体の三次元構造復元法の検討

    岡本 悠太朗, 糸山 克寿, 西田 健次, 中臺 一博

    第20回計測自動制御学会システムインテグレーション部門講演会 (SI2019)   ( 1C5-08 )   2019年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • リハビリテーション効果推定のための感情識別器の構成と評価

    西田 健次, 山田 亨, 藤村 友美, 糸山 克寿, 中臺 一博

    第55回 人工知能学会 AIチャレンジ研究会   ( SIG-Challenge-055-8 )   41 - 47   2019年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 視聴覚統合による動的環境下における三次元再構成の提案

    紺野 隆志, 西田 健次, 糸山 克寿, 中臺 一博

    第55回 人工知能学会 AIチャレンジ研究会   ( SIG-Challenge-055-7 )   33 - 40   2019年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • スペクトル伸縮モデルと複素正規分布音源モデルに基づく複数マイクロホンの同期

    糸山 克寿, 中臺 一博

    第55回 人工知能学会 AIチャレンジ研究会   ( SIG-Challenge-055-5 )   24 - 29   2019年11月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数マイクロホンアレイにおける音源方向尤度に基づく三次元音源追跡

    山田 泰基, 糸山 克寿, 西田 健次, 中臺 一博

    第55回 人工知能学会 AIチャレンジ研究会   ( SIG-Challenge-055-3 )   12 - 17   2019年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • Design of a Scan-and-sum Beamformer for Surface Sound Source Separation

    Zhi Zhong, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    第37回 日本ロボット学会学術講演会 (RSJ2019)   ( 1F3-04 )   2019年9月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数マイクロホンアレイを搭載した複数のUAVによる移動音源の三次元追跡手法の実収録音評価

    山田 泰基, 糸山 克寿, 西田 健次, 中臺 一博

    第37回 日本ロボット学会学術講演会 (RSJ2019)   ( 2I1-02 )   2019年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 音環境説明ロボットの実現に向けた環境音キャプションコーパスの構築

    岩月 道生, 周藤 唯, 糸山 克寿, 西田 健次, 中臺 一博

    第37回 日本ロボット学会学術講演会 (RSJ2019)   ( 2I1-05 )   2019年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数同時音源を用いたマイクロホンアレイのキャリブレーション

    段 雄啓, 糸山 克寿, 西田 健次, 中臺 一博

    第37回 日本ロボット学会学術講演会 (RSJ2019)   ( 2I2-04 )   2019年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • バイナリマスク付き非負値行列因子分解による発音時刻を用いた音源分離手法の評価

    日下 湧太, 糸山 克寿, 西田 健次, 中臺 一博

    第37回 日本ロボット学会学術講演会 (RSJ2019)   ( 2I2-05 )   2019年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • バイナリマスク付き非負値行列因子分解による発音時刻を用いた音源分離手法とその評価

    日下 湧太, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第124回音楽情報科学研究会   2019-MUS-124 ( 14 )   1 - 7   2019年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • Listen and Tell: Acoustic Scene Caption Generation using Deep Learning

    Michio Iwatsuki, Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    Third International Workshop on Symbolic-Neural Learning (SNL-2019)   P-17   2019年7月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(国際会議)  

    researchmap

  • Sound Source Tracking Using Multiple Microphone Arrays Mounted to an Unmanned Aerial Vehicle

    Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

    ICRA 2019 Workshop on Sound Source Localization and Its Applications for Robots   2019年5月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(国際会議)  

    researchmap

  • マルコフ連鎖に基づくマスク付きNMFを用いた特定音源の分離

    日下 湧太, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第81回全国大会   ( 7T-1 )   419 - 420   2019年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • マイクロホンと音源位置に関する確率モデルに基づくマイクロホンアレイのキャリブレーションの検討

    段 雄啓, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第81回全国大会   ( 4V-2 )   553 - 554   2019年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • von Mises - Bernoulli RBMを用いた音源定位の検討

    正木 俊伍, 杉山 治, 小島 諒介, 中臺 一博, 糸山 克寿, 西田 健次

    情報処理学会 第81回全国大会   ( 4V-3 )   555 - 556   2019年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数のマイクロホンアレイを搭載した複数のUAVによる移動音源の三次元追跡

    山田 泰基, Daniel Gabriel, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第81回全国大会   ( 2M-3 )   115 - 116   2019年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 視聴覚統合による三次元構造復元に関する検討

    紺野 隆志, 西田 健次, 糸山 克寿, 中臺 一博

    情報処理学会 第81回全国大会   ( 5R-9 )   207 - 208   2019年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

    岩月 道生, 周藤 唯, 糸山 克寿, 西田 健次, 中臺 一博

    情報処理学会 第81回全国大会   ( 6T-3 )   407 - 408   2019年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 柔軟索状レスキューロボットのための空気噴射音下での単チャネル音声強調

    坂東宜昭, 安部祐一, 糸山克寿, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 中臺一博, 奥乃博

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM)   2019   2019年

     詳細を見る

  • Mask U-Netを用いた環境音セグメンテーションの提案

    周藤 唯, 西田 健次, 糸山 克寿, 中臺 一博

    第52回 人工知能学会 AIチャレンジ研究会   ( SIG-Challenge-052-5 )   21 - 26   2018年12月

     詳細を見る

  • 階乗隠れセミマルコフモデルに基づく音楽音響信号に対するカバー譜生成

    柴田健太郎, 錦見亮, 中村栄太, 深山覚, 後藤真孝, 糸山克寿, 吉井和佳, 吉井和佳

    情報処理学会 第121回音楽情報科学研究会   2018-MUS-121 ( 16 )   1 - 8   2018年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • WaveNetを用いた楽譜情報に基づく歌唱F0軌跡の生成

    和田雄介, 錦見亮, 中村栄太, 糸山克寿, 吉井和佳

    情報処理学会 第120回音楽情報科学研究会   2018-MUS-120 ( 8 )   1 - 7   2018年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • デモンストレーション:音楽情報処理の研究紹介XVII

    糸山 克寿, 飯島 祥, 梅村 祥之, 尾形 正泰, 加藤 淳, 柴田 健太郎, 津島 啓晃, 佃 洸摂, 出口 幸子, 錦見 亮, 橋田 光代, 濱崎 雅弘, 廣瀬 均, Junichi Yamagishi, 吉久 怜子, 和田 雄介

    情報処理学会 第120回音楽情報科学研究会   2018-MUS-120 ( 5 )   1 - 5   2018年8月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • ImPACT TRCにおけるタフなヘビ型ロボットの開発

    亀川 哲志, 斉 偉, 須原 大貴, 松田 絵梨子, 秋山 太一, 酒井 聡志, 宇根 和志, 竹森 達也, 藤原 始史, 松野 文俊, 鈴木 陽介, 坂東 宜昭, 糸山 克寿, 奥乃 博

    ロボティクス・メカトロニクス講演会2018 (ROBOMECH2018)   2018 ( 2A2-K05 )   2A2 - K05   2018年6月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:日本機械学会  

    <p>We are developing snake robots as a solution for inspection of plants. The snake robots are constructed by connecting pitch axis and a yaw axis alternately. The snake robots realize various locomotion mode. Especially, helical rolling motion is utilized to move inside and outside of a pipe. In this paper, designed and system of the snake robots are described in addition to experimental results conducted in test field of Tough Robotics Challenge.</p>

    DOI: 10.1299/jsmermd.2018.2a2-k05

    researchmap

  • 慣性・音響センサアレイを用いた柔軟索状レスキューロボットのマルチモーダル姿勢推定

    坂東 宜昭, 安部 祐一, 糸山 克寿, 昆陽 雅司, 田所 諭, 吉井 和佳, 奥乃 博

    ロボティクス・メカトロニクス講演会2018 (ROBOMECH2018)   2018 ( 2A1-M01 )   2018年6月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人 日本機械学会  

    &lt;p&gt;Posture estimation of a hose-shaped rescue robot is crucial for handling the flexible robot body. Conventional posture estimation based on inertial sensors gradually accumulates its errors due to unexpected posture change and temperature change. The accumulative error problem can be avoided by using a sound-based method that localizes microphones and loudspeakers on the robot by measuring time differences of arrival (TDOAs) of a reference sound. The sound-based method, however, cannot distinguish mirror-symmetric postures because of the sensors serially placed on the robot. To solve these problems, we integrate the inertial and sound measurements into a unified state-space model. The time-varying posture is estimated by using the inertial sensors while the accumulative error is estimated and corrected by using the sound sensors. Experimental results that our method suppresses the accumulative errors for more than 10 minutes whereas the inertial-based method increased monotonically.&lt;/p&gt;

    DOI: 10.1299/jsmermd.2018.2A1-M01

    J-GLOBAL

    researchmap

  • ロボット聴覚技術の極限環境への展開

    奥乃 博, 糸山 克寿, 中臺 一博, 公文 誠, 坂東 宜昭, 干場 功太郎

    第62回システム制御情報学会研究発表講演会 (SCI’18)   62 ( 221‐1 )   5p   2018年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:システム制御情報学会  

    CiNii Books

    J-GLOBAL

    researchmap

  • ImPACT TRC太索状ロボットの研究開発の現状と展望

    松野 文俊, 亀川 哲志, 竹森 達也, 田中 基康, 多田隈 建二郎, 藤田 政宏, 鈴木 陽介, 坂東 宜昭, 糸山 克寿, 奥乃 博, 藤原 始史, 伊達 央, 有泉 亮

    第62回システム制御情報学会研究発表講演会 (SCI’18)   62 ( 141-8 )   4p   2018年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:システム制御情報学会  

    CiNii Books

    researchmap

  • ImPACT TRC索状ロボット(細)プラットフォーム : 多感覚機能を統合した空気浮上型能動スコープカメラ

    昆陽 雅司, 安部 祐一, 永野 光, 坂東 宜昭, 山崎 公俊, 岡谷 貴之, 糸山 克寿, 奥乃 博, 田所 諭

    第62回システム制御情報学会研究発表講演会 (SCI’18)   62 ( 141-5 )   5p   2018年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:システム制御情報学会  

    CiNii Books

    CiNii Research

    researchmap

  • WaveNetを用いた音符系列に対する歌唱F0軌跡の生成

    和田 雄介, 糸山 克寿, 吉井 和佳

    情報処理学会 第80回全国大会   80th ( 3N-5 )   169 - 170   2018年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • VAEを事前分布とするNMFを用いた音楽音響信号に対するドラム譜推定

    上田 舜, 坂東 宜昭, 糸山 克寿, 吉井 和佳

    情報処理学会 第80回全国大会   80th ( 3N-1 )   161 - 162   2018年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 木構造モデルに基づくコードとメロディの対話的生成システム

    津島 啓晃, 糸山 克寿, 吉井 和佳

    情報処理学会 第80回全国大会   80th ( 2N-2 )   145 - 146   2018年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • Factorial HSMMに基づく音楽音響信号に対するリード・リズムギター譜推定

    柴田 健太郎, 坂東 宜昭, 尾島 優太, 錦見 亮, 糸山 克寿, 吉井 和佳

    情報処理学会 第80回全国大会   80th ( 3N-2 )   163 - 164   2018年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • VAEを用いたメロディのモーフィング

    村田 叡, 坂東 宜昭, 糸山 克寿, 吉井 和佳

    情報処理学会 第80回全国大会   2018 ( 3N-8 )   175 - 176   2018年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,音楽的な妥当性を考慮しながら,異なるメロディ間をモーフィングする方法について述べる.従来の生成音楽理論GTTMに基づくモーフィング手法では,メロディを階層的に簡約化するための木構造が似ているメロディ同士でしかモーフィングを行うことができなかった.本研究では,潜在変数モデルであるVAEを用いて,あらかじめ大量のメロディからメロディの生成モデルを学習しておくことにより,潜在空間において任意のメロディ間の線形補完を行う手法を提案する.

    CiNii Books

    CiNii Research

    researchmap

  • ブラインド音源分離のための高速相関テンソル分解

    北村 昂一, 坂東 宜昭, 糸山 克寿, 吉井 和佳, 河原 達也

    電子情報通信学会 音声研究会   117 ( 517 )   235 - 240   2018年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:電子情報通信学会  

    CiNii Books

    CiNii Research

    researchmap

    その他リンク: http://id.ndl.go.jp/bib/028943418

  • マルチチャネル非負値行列因子分解に基づくビームフォーミングを用いた雑音環境下音声認識

    島田 一希, 坂東 宜昭, 三村 正人, 糸山 克寿, 吉井 和佳, 河原 達也

    電子情報通信学会 音声研究会   117 ( 517 )   33 - 38   2018年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:電子情報通信学会  

    CiNii Books

    CiNii Research

    researchmap

  • Variational Auto Encoderを用いたメロディとコードのモーフィング

    村田叡, 坂東宜昭, 糸山克寿, 吉井和佳

    情報処理学会全国大会講演論文集   80th ( 2 )   2018年

     詳細を見る

  • 感覚機能統合型能動スコープカメラの改良と瓦礫フィールドへの適用

    山内 悠, 安部 祐一, 永野 光, 昆陽 雅司, 坂東 宜昭, 山崎 公俊, 糸山 克寿, 猿渡 洋, 岡谷 貴之, 奥乃 博, 田所 諭

    第18回計測自動制御学会システムインテグレーション部門講演会 (SI2017)   18th ( 1C6‐09 )   2017年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • ImPACT TRC太索状ロボット研究開発の概要

    松野 文俊, 亀川 哲志, 田中 基康, 奥乃 博, 多田隈 建二郎, 伊達 央, 有泉 亮, 伊藤 一之, 大道 武生, 芦澤 怜史, 鈴木 陽介, 糸山 克寿, 藤原 始史, 坂東 宜明, 竹森 達也, 藤田 政宏

    第8回横幹連合コンファレンス   2017 ( C‐3‐1 )   C - 3-1   2017年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:横断型基幹科学技術研究団体連合(横幹連合)  

    In ImPACT TRC (Tough Robot Challenge) project we have developed cord-like robots for not only daily maintenance/inspection of plants but also disaster response. In this paper overview of development of the cord-like robots is introduced and future progress is discussed.

    DOI: 10.11487/oukan.2017.0_C-3-1

    J-GLOBAL

    researchmap

  • 配管内探査ロボットのための音響センサを用いた自己位置推定

    坂東 宜昭, 須原 大貴, 亀川 哲志, 糸山 克寿, 吉井 和佳, 松野 文俊, 奥乃 博

    第8回横幹連合コンファレンス   ( C-4-2 )   2017年12月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • ポスター講演 調とリズムを考慮した階層隠れセミマルコフモデルに基づく歌声の自動採譜 (情報論的学習理論と機械学習)

    錦見 亮, 中村 栄太, 後藤 真孝, 糸山 克寿, 吉井 和佳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   117 ( 293 )   147 - 153   2017年11月

     詳細を見る

    記述言語:日本語   出版者・発行元:電子情報通信学会  

    researchmap

  • ポスター講演 和音系列に対するPCFGのベイズ学習とSplit-Mergeサンプリングを用いたメロディへの和声付け (情報論的学習理論と機械学習)

    津島 啓晃, 中村 栄太, 糸山 克寿, 吉井 和佳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   117 ( 293 )   101 - 107   2017年11月

     詳細を見る

    記述言語:日本語   出版者・発行元:電子情報通信学会  

    researchmap

  • 和音系列に対するPCFGのベイズ学習とSplit-Mergeサンプリングを用いたメロディへの和声付け

    津島 啓晃, 中村 栄太, 糸山 克寿, 吉井 和佳

    第20回情報論的学習理論ワークショップ (IBIS2017)   117 ( 293 )   101 - 107   2017年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 調とリズムを考慮した階層隠れセミマルコフモデルに基づく歌声の自動採譜

    錦見 亮, 中村 栄太, 後藤 真孝, 糸山 克寿, 吉井 和佳

    第20回情報論的学習理論ワークショップ (IBIS2017)   117 ( 293 )   147 - 153   2017年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 音響センサを用いた配管内探査ヘビ型ロボットの3次元位置推定

    坂東 宜昭, 須原 大貴, 亀川 哲志, 糸山 克寿, 吉井 和佳, 松野 文俊, 奥乃 博

    第35回 日本ロボット学会学術講演会 (RSJ2017)   ( 3A2-01 )   2017年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 雑音環境下音声認識のための多チャネル非負値行列因子分解に基づく教師なしビームフォーマ

    島田 一希, 坂東 宜昭, 三村 正人, 糸山 克寿, 吉井 和佳, 河原 達也

    電子情報通信学会 音声研究会   117 ( 189 )   19 - 24   2017年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:電子情報通信学会  

    CiNii Books

    researchmap

  • 調とリズムを考慮した階層隠れセミマルコフモデルに基づく歌声F0軌跡に対する音符推定

    錦見 亮, 中村 栄太, 後藤 真孝, 糸山 克寿, 吉井 和佳

    情報処理学会 第116回音楽情報科学研究会   2017-MUS-116 ( 17 )   1 - 8   2017年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 和音系列の統計的木構造解析とSplit-Mergeサンプリングに基づくメロディへの和声付け

    津島 啓晃, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第116回音楽情報科学研究会   2017-MUS-116 ( 14 )   1 - 7   2017年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 既存歌唱曲アレンジのための歌声キーボード

    尾島 優太, 中野 倫靖, 深山 覚, 加藤 淳, 後藤 真孝, 糸山 克寿, 吉井 和佳

    情報処理学会 第116回音楽情報科学研究会   2017-MUS-116 ( 4 )   1 - 7   2017年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 楽曲中の歌声とユーザ歌唱のリアルタイムアラインメントに基づく伴奏追従型カラオケシステム

    和田 雄介, 坂東 宜昭, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第116回音楽情報科学研究会   2017-MUS-116 ( 3 )   1 - 7   2017年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 深層生成モデルを事前分布に用いた教師なし音声強調

    坂東 宜昭, 三村 正人, 糸山 克寿, 吉井 和佳, 河原 達也

    電子情報通信学会 音声研究会   117 ( 189 )   1 - 6   2017年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:電子情報通信学会  

    CiNii Books

    researchmap

  • ニューラルネットワークを用いたセミブラインド音声分離・強調

    和気 雅弥, 坂東 宜昭, 三村 正人, 糸山 克寿, 吉井 和佳, 河原 達也

    電子情報通信学会 音声研究会   117 ( 189 )   13 - 18   2017年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 多チャネル低ランク・スパース分解に基づく柔軟索状レスキューロボットのためのリアルタイム音声強調

    坂東 宜昭, 安部 祐一, 糸山 克寿, 昆陽 雅司, 田所 諭, 中臺 一博, 吉井 和佳, 奥乃 博

    ロボティクス・メカトロニクス講演会2017 (ROBOMECH2017)   2017 ( 1P2-P05 )   1P2 - P05   2017年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    DOI: 10.1299/jsmermd.2017.1p2-p05

    researchmap

  • マイクロホンアレイを搭載した複数ロボットによる自己位置・同期ずれ・音源位置・音源信号の推定

    関口 航平, 坂東 宜昭, 糸山 克寿, 吉井 和佳

    ロボティクス・メカトロニクス講演会2017 (ROBOMECH2017)   2017 ( 1P2-P06 )   1P2 - P06   2017年5月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人 日本機械学会  

    <p>This paper presents a method of simultaneous localization and mapping (SLAM) for estimating the positions of multiple sound sources and those of stationary robots and synchronizing microphone arrays attached to those robots. Since each robot with a microphone array can solely estimate the directions of sound sources, the two-dimensional sound positions can be estimated from the source directions estimated by multiple robots. In addition, sound mixtures can be separated accurately by regarding distributed microphone arrays as one big array. To perform these tasks, the robot positions and synchronization between microphone arrays are necessary. The proposed method estimates the posterior distribution of the positions and time offsets and conducts source separation simultaneously in a Bayesian manner, given the observed signals. We conducted experiments using three robots and four sound sources. When the two of the model parameters (robot positions, sound source positions, and time offsets) were fixed to the correct value, the other one was correctly estimated and the observed signals were separated precisely. However, when all of the parameters were estimated simultaneously, they cannot be estimated correctly because of many local optimal solutions of the posterior distribution.</p>

    DOI: 10.1299/jsmermd.2017.1P2-P06

    researchmap

  • 感覚機能統合型能動スコープカメラの開発

    安部 祐一, 田所 諭, 坂東 宜昭, 永野 光, 昆陽 雅司, 山崎 公俊, 糸山 克寿, 猿渡 洋, 岡谷 貴之, 奥乃 博

    ロボティクス・メカトロニクス講演会2017 (ROBOMECH2017)   2017 ( 1P2-P01 )   1P2-P01   2017年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人 日本機械学会  

    DOI: 10.1299/jsmermd.2017.1p2-p01

    CiNii Research

    researchmap

  • 既存歌唱曲のリアルタイム歌声アレンジシステム

    尾島 優太, 中野 倫靖, 深山 覚, 加藤 淳, 後藤 真孝, 糸山 克寿, 吉井 和佳

    情報処理学会 第79回全国大会   ( 7L-3 )   127 - 128   2017年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,歌唱曲中の歌声を分離し,MIDIキーボードを用いてリアルタイムに音高・タイミングを変化させ,再合成する歌声編集システムについて述べる.これまでに既存楽曲中のドラムパートをリアルタイムにアレンジできるシステムが存在したが,同様のアレンジを歌声に対して行うためには歌詞・音高情報を用意する必要があり,その実現は困難であった.本研究では,音楽音響信号から分離された歌声を用いることで,そのような情報を事前に用意することなく歌声を編集することが可能なシステムを提案する.本システムにより,ハモリパートや合いの手といったパートを楽曲に付与することが可能となる.また,音高・タイミングの編集はリアルタイムで行われるため,DJのようなパフォーマンスが可能である.提案システムの評価のため,被験者実験を行った.

    researchmap

  • ロボット対話における深層学習を用いたセミブラインド音声強調

    和気 雅弥, 坂東 宜昭, 三村 正人, 糸山 克寿, 吉井 和佳, 河原 達也

    情報処理学会 第79回全国大会   2017 ( 6M-1 )   219 - 220   2017年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では、人間とロボットの発話の混合音から人間の発話を強調するセミブラインド音声強調法について述べる。人間同士の対話で発生するような双方の発話が重なる状況にロボット対話が対処するには、自己発話を除去し、人間の発話を強調する必要がある。従来法のセミブラインド独立成分分析では、実環境で起こりうる非線形混合過程が考慮されていなかった.そこで本研究では,非線形混合過程を表現可能な深層学習を用いてセミブラインド音声強調を実現する.提案法を用いて2発話の混合音のうち一方を強調し,その音声認識率により有効性を評価した.

    CiNii Books

    CiNii Research

    researchmap

  • 遠隔音声認識のためのブラインド音源分離に基づくビームフォーマ

    島田 一希, 坂東 宜昭, 板倉 光佑, 三村 正人, 糸山 克寿, 吉井 和佳, 河原 達也

    情報処理学会 第79回全国大会   2017 ( 6M-2 )   221 - 222   2017年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では、遠隔音声認識のための音声強調について述べる。録音信号に含まれる雑音は認識性能を大きく低下させるため、前処理として雑音を除去し目的音声を強調することは遠隔音声認識において不可欠である。マイクロホンアレイを用いた音声強調手法が活発に研究されており、アレイの配置や雑音の音源数・音色といった事前情報を用いず頑健に動作することが課題である。また認識性能低下の要因となる分離歪みの影響を抑えることも課題となる。本研究では、ブラインド音源分離により推定した空間相関行列に基づくビームフォーマを提案し、これらの課題を包括的に解決する。CHiME-4のデータを用いて、提案手法の有効性を評価した。

    CiNii Books

    CiNii Research

    researchmap

  • ベイズ文脈自由文法に基づく和音系列の教師なし構文解析と自動生成

    津島 啓晃, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第79回全国大会   ( 4L-2 )   87 - 88   2017年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • スケールと音高の過渡的変化を考慮したHSMMに基づく歌声F0軌跡に対する音符推定

    錦見 亮, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第79回全国大会   ( 7L-1 )   123 - 124   2017年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 市販音楽CDを用いたユーザ歌唱に伴奏音が自動追従するスマートカラオケシステム

    和田 雄介, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第79回全国大会   ( 5L-1 )   97 - 98   2017年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 熱帯の長期環境録音データから鳥類のさえずりを検出する

    藤田 素子, 丸山 晃央, 糸山 克寿, 奥乃 博, 神崎 護

    第64回日本生態学会大会   ( P2‐B‐094 )   2017年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 楽譜簡略化と自動補完伴奏によるピアノ演奏練習支援システム

    福田 翼, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第114回音楽情報科学研究会   2017-MUS-114 ( 21 )   1 - 4   2017年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • HARK2.3の紹介とタフロボティクスチャレンジへの展開

    中臺 一博, 坂東 宜昭, 水本 武志, 干場 功太郎, 小島 諒介, 糸山 克寿, 杉山 治, 公文 誠, 奥乃 博

    第17回計測自動制御学会システムインテグレーション部門講演会 (SI2016)   ( 3A3‐3 )   2016年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • マルチチャネル音源分離のための低ランク音源モデルとスパース重畳過程に基づくネスト型ベイズ混合・因子モデル

    板倉 光佑, 坂東 宜昭, 中村 栄太, 糸山 克寿, 吉井 和佳, 河原 達也

    第19回情報論的学習理論ワークショップ (IBIS2016)   116 ( 300 )   353 - 359   2016年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:電子情報通信学会  

    CiNii Books

    CiNii Research

    researchmap

  • 音楽音響信号解析のためのディリクレ過程に基づくベイズ潜在成分分析

    吉井 和佳, 中村 栄太, 糸山 克寿, 後藤 真孝

    第19回情報論的学習理論ワークショップ (IBIS2016)   116 ( 300 )   155 - 162   2016年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 音楽音響信号に対する多重音高推定と和音構造学習のための階層ベイズ音響・言語統合モデル

    尾島 優太, 中村 栄太, 糸山 克寿, 吉井 和佳

    第19回情報論的学習理論ワークショップ (IBIS2016)   116 ( 300 )   329 - 335   2016年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 歌声F0軌跡に対する自動採譜のための準ビート同期セグメンタルHMM

    錦見 亮, 中村 栄太, 糸山 克寿, 吉井 和佳

    第19回情報論的学習理論ワークショップ (IBIS2016)   116 ( 300 )   337 - 343   2016年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 変分ベイズ多チャネルRNMFに基づく柔軟索状レスキューロボットのための音声強調

    坂東 宜昭, 糸山 克寿, 昆陽 雅司, 田所 諭, 中臺 一博, 吉井 和佳, 奥乃 博

    第34回 日本ロボット学会学術講演会 (RSJ2016)   34th ( 1C2‐04 )   2016年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 変分ベイズ多チャネルロバストNMFに基づくマイクロホンの移動・被覆を許容する音声強調

    坂東 宜昭, 糸山 克寿, 昆陽 雅司, 田所 諭, 中臺 一博, 吉井 和佳, 河原 達也, 奥乃 博

    電子情報通信学会 音声研究会   116 ( 189 )   47 - 52   2016年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:電子情報通信学会  

    CiNii Books

    CiNii Research

    researchmap

  • マルチチャネル音源分離のためのネスト型基底・音源混合モデルに基づく時間周波数クラスタリング

    板倉 光佑, 坂東 宜昭, 中村 栄太, 糸山 克寿, 吉井 和佳, 河原 達也

    電子情報通信学会 音声研究会   116 ( 189 )   25 - 28   2016年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:電子情報通信学会  

    CiNii Books

    researchmap

  • 音型の反復と変形に基づく階層ベイズ音楽言語モデルとMIDI演奏のリズム採譜への応用

    中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第112回音楽情報科学研究会   2016‐MUS‐112 ( 22 )   1 - 6   2016年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 調・コード・音高・スペクトログラムの階層ベイズモデルに基づく多重音解析

    尾島 優太, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第112回音楽情報科学研究会   2016‐MUS‐112 ( 6 )   1 - 8   2016年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • NMF vs PLCA: 多重音生成過程のための無限因子モデルと無限混合モデル

    吉井 和佳, 中村 栄太, 糸山 克寿, 後藤 真孝

    情報処理学会 第112回音楽情報科学研究会   2016‐MUS‐112 ( 21 )   1 - 10   2016年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 視聴覚統合ビートトラッキングとリアルタイムコード認識を用いたダンス共演ロボット

    大喜多 美里, 坂東 宜昭, 糸山 克寿, 吉井 和佳

    情報処理学会 第112回音楽情報科学研究会   2016‐MUS‐112 ( 15 )   1 - 6   2016年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 歌声F0軌跡に対する音符推定のためのベイジアン準ビート同期HMM

    錦見 亮, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第112回音楽情報科学研究会   2016-MUS-112 ( 7 )   1 - 7   2016年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 柔軟索状レスキューロボットのためのマイクロホン・加速度センサアレイを用いた3次元姿勢推定

    坂東 宜昭, 糸山 克寿, 昆陽 雅司, 田所 諭, 中臺 一博, 吉井 和佳, 奥乃 博

    ロボティクス・メカトロニクス講演会2016 (ROBOMECH2016)   2016 ( 1A2-10a6 )   2016年6月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人 日本機械学会  

    &lt;p&gt;This paper presents an online method that estimates a 3D posture of a hose-shaped rescue robot using a microphone and accelerometer array. Posture (shape) estimation of a self-driving hose-shaped rescue robot is crucial for handling the robot body because the unseen robot posture deforms in narrow spaces under collapsed buildings. Conventional sound-based method that uses time-differences of arrivals (TDOAs) works only on a two-dimensional surface and is often hampered by the rubble around the robot. Our method eliminates the outliers of sound-based TDOA measurements, and compensates the lack of the posture information with the tilt information measured by accelerometers. Experimental results using a 3-m hose-shaped robot that was deployed in a simple 3D structure demonstrate that our method reduces the errors of initial states to about 20cm in the 3D space.&lt;/p&gt;

    DOI: 10.1299/jsmermd.2016.1A2-10a6

    J-GLOBAL

    researchmap

  • ロボット聴覚の極限音響への展開

    奥乃 博, 中臺 一博, 公文 誠, 糸山 克寿, 吉井 和佳, 坂東 宜昭, 佐々木 洋子

    ロボティクス・メカトロニクス講演会2016 (ROBOMECH2016)   2016 ( 1A2-09b3 )   1A2 - 09b3   2016年6月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人 日本機械学会  

    <p>The ability of robots to listen to several things at once with their own "ears", i.e., robot audition, is critical in improving the performance of search and rescue activities under severe conditions. This paper introduces "HARK" robot audition open-source software and its capabilities of suppressing ego-noise that is caused by robot's own movements such as motor, propeller and/or flying noise. Then it describes three main applications of robot audition: 1) Unmanned Aerial Vehicle (UAV) with a microphone array to capture sounds can localize a sound source by suppressing ego-noise with either hovering, slow gliding or fast gliding. It can also recognize a sound source by CNN. 2) A serpentine robot with a microphone array can estimate its posture by sound. It can also enhance a voice by Online Robust PCA. 3) A robot with a LiDAR and 32-channel microphone can visualize a sound map by superimposing sound source directions on point clouds.</p>

    DOI: 10.1299/jsmermd.2016.1A2-09b3

    researchmap

  • 非同期マイクロホンアレイを搭載した複数ロボットによる音環境マップの協調オンライン推定

    関口 航平, 坂東 宜昭, 中村 圭佑, 中臺 一博, 糸山 克寿, 吉井 和佳

    ロボティクス・メカトロニクス講演会2016 (ROBOMECH2016)   2016 ( 1A2-09b5 )   1A2-09b5   2016年6月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人 日本機械学会  

    DOI: 10.1299/jsmermd.2016.1A2-09b5

    CiNii Research

    researchmap

  • 「音学シンポジウム2016」開催にあたって

    北原 鉄朗, 齋藤 大輔, 森勢 将雅, 深山 覚, 糸山 克寿, 滝口 哲也, 饗庭 絵里子, 堀内 俊治, 寺島 裕貴, 亀岡 弘和, 大石 康智, 程島 奈緒, 向井 智彦, 小幡 哲史

    情報処理学会 第111回音楽情報科学研究会 (音学シンポジウム2015)   2016-MUS-111 ( 1 )   1 - 2   2016年5月

     詳細を見る

    記述言語:日本語   掲載種別:講演資料等(セミナー,チュートリアル,講習,講義他)  

    researchmap

  • 音源スペクトログラムの低ランク性とスパース性を考慮したNMF-LDAに基づくマルチチャネル音源定位と音源分離

    板倉 光佑, 坂東 宜昭, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第78回全国大会   2016 ( 4Q-3 )   485 - 486   2016年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,マイクロホンアレイを用いたマルチチャネル音源定位と音源分離を行ううえで,混合音スペクトログラムの低ランク性とスパース性を同時に考慮する手法について述べる.従来,LDAに基づく手法では,音源スペクトログラムのスパース性に着目し,観測スペクトログラムの各時間・周波数における空間相関行列をいずれかの音源・方向にクラスタリングすることが行われていた.本研究ではさらに,音源スペクトログラムの低ランク性に着目し, NMFを用いて観測スペクトログラムを低ランク近似すると同時に,各時間・周波数成分を音源・方向にクラスタリングできる統一的なベイズモデルを提案する.

    CiNii Books

    CiNii Research

    researchmap

  • コード進行と多重音スペクトルの階層ベイズモデルに基づく音楽音響信号の音高推定

    尾島 優太, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第78回全国大会   ( 3Q-6 )   475 - 476   2016年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • ビート準同期隠れマルコフモデルに基づく歌声音高軌跡に対する音符推定

    錦見 亮, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第78回全国大会   ( 3Q-5 )   473 - 474   2016年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 音源到来方向・時間差を用いた非同期複数マイクロホンアレイ位置のオンライン推定

    関口 航平, 中村 圭佑, 坂東 宜昭, 糸山 克寿, 吉井 和佳, 中臺 一博

    情報処理学会 第78回全国大会   2016 ( 4Q-2 )   483 - 484   2016年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では非同期複数マイクロホンアレイの同期ずれ・位置推定手法について述べる.マイクロホンアレイを搭載した複数台のロボットを用いた音源定位・分離などの音環境認識技術は,単独のロボットを用いた場合よりも高精度な処理を行うことができる.しかし,複数台のロボットを用いたマイクロホンアレイ信号処理には,各ロボットの位置,マイクロホンアレイ間の同期ずれの推定が不可欠である.本稿では各マイクロホンアレイごとに個別に推定した音源定位・位相情報をもとに,非同期複数マイクロホンアレイ間の同期ずれ・位置推定を行う.ロボットと音源の位置・同期ずれを潜在変数として持つ状態空間モデルを設計し,その事後分布をオンライン推定する.

    CiNii Books

    CiNii Research

    researchmap

  • マイクロホンアレイ音源分離のための複素t分布に基づくマルチチャネル非負値行列因子分解

    北村 昂一, 坂東 宜昭, 糸山 克寿, 吉井 和佳

    情報処理学会 第78回全国大会   2016 ( 4Q-1 )   481 - 482   2016年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,マイクロホンアレイで収録された混合音の音源分離を行うため,複素t分布を尤度関数とするマルチチャネル非負値行列因子分解(NMF)について述べる.マルチチャネルNMFは,音源の低ランク性を仮定することで,伝達関数の測定を不要とするブラインド音源分離法の一つである.最近,単一チャネルNMFでは,尤度関数に複素正規分布の代わりに複素t分布を用いることにより,初期値依存性が低く,外れ値に頑健な音源分離を実現できることが報告されている.本研究では,複素t分布に基づく単一チャネルNMFをマルチチャネルNMFに拡張した手法を提案する.

    CiNii Books

    CiNii Research

    researchmap

  • ビート位置依存隠れセミマルコフモデルに基づく音楽音響信号に対するコード認識

    丸尾 智志, 前澤 陽, 中村 栄太, 糸山 克寿, 吉井 和佳

    情報処理学会 第78回全国大会   ( 3Q-2 )   467 - 468   2016年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • <論文・報告>ビートとコードをリアルタイムで認識しながら音楽に合わせて歌って踊るロボット

    津牧 美葉子, 大和 勝宣, 和佐 圭悟, 池田 賢矢, 坂東 宜昭, 大喜多 美里, 糸山 克寿, 吉井 和佳

    ELCAS Journal   1   97 - 100   2016年3月

     詳細を見る

    記述言語:日本語   出版者・発行元:京都大学学際融合教育研究推進センター高大接続科学教育ユニット  

    情報学 ロボット聴覚と音楽情報処理This paper presents a humanoid robot capable of singing and dancing to a song in an improvisational manner while recognizing the beats and chords of the song in real time. Among various kinds of entertainment robots that are expected to live with humans in the future, music robots such as robot dancers and singers are considered as one of the most attractive applications of music analysis techniques. Our robot mainly consists of listening, dancing, and singing functions. The listening function captures music audio signals and recognizes the beats and chords in real time. The dancing function switches dancing movements according to the types and root notes of the estimated chords. The singing function, on the other hand, generates singing voices whose pitches change according to the root notes of the chords. The information on beats and chords are exchanged between the three functions. The preliminary experiment showed the great potential of the proposed dancing robot. We plan to improve the response of dancing and singing functions by predicting next chords.本稿では,2015年度に開講された専修コース「ロボット聴覚と音楽情報処理」の研究成果について報告する.本コースでは,高校生四名と大学院情報学研究科知能情報学専攻音声メディア分野の大学院生数名とが協力しながら,音楽を聴きながらビート時刻とコードをリアルタイムに認識し,音楽に合わせて即興で歌いながらダンスをするロボットの開発に取り組んだ.我々が開発したロボットは,主に音楽解析部(大和・池田が担当)・ダンス制御部(津牧が担当)・歌唱制御部(和佐が担当)の三つから構成されている.これらのモジュールは独立性が高くなるように設計することで,高校生は自らの担当部分に専念することができ,最後に統合実験まで計画通り行うことができた.研究成果は,音楽情報処理のトップカンファレンスであるISMIR 2015 のLate Breaking Demo セッションにて発表した.聴衆から高い評価を受け,多くの著名な研究者と有意義な議論・交流を行うことができた.

    researchmap

  • 日本語方言における音声対訳コーパスの構築

    吉野 幸一郎, 平山 直樹, 森 信介, 高橋 文彦, 糸山 克寿, 奥乃 博

    言語処理学会第22回年次大会 (NLP2016)   ( B5‐2 )   2016年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 複数移動ロボットによる協調音源分離のための分離精度予測を用いた配置最適化

    関口 航平, 坂東 昭宜, 糸山 克寿, 吉井 和佳

    第43回 人工知能学会 AIチャレンジ研究会   ( SIG-Challenge-043-08 )   41 - 46   2015年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 音楽音響信号解析のためのステューデントt分布に基づく非負値行列分解と半正定値テンソル分解

    吉井 和佳, 糸山 克寿, 後藤 真孝

    第18回情報論的学習理論ワークショップ (IBIS2015)   115 ( 323 )   131 - 138   2015年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 複数移動ロボットを用いた音源分離における音源配置に応じたロボットの最適配置探索

    関口 航平, 坂東 宜昭, 糸山 克寿, 吉井 和佳

    第33回 日本ロボット学会学術講演会 (RSJ2015)   ( 3D1-06 )   2015年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • ロバスト主成分分析を用いた動作雑音抑圧に基づく柔軟索状ロボットのための音声強調

    坂東 宜昭, 糸山 克寿, 昆陽 雅司, 田所 諭, 中臺 一博, 吉井 和佳, 奥乃 博

    第33回日本ロボット学会学術講演会 (RSJ2015)   33rd ( 2D2-05 )   2015年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 音源分離のためのベイズモデルに基づく音源信号の不確実性を考慮した音声認識

    板倉 光佑, 坂東 宣昭, 糸山 克寿, 吉井 和佳

    日本音響学会 2015年秋季研究発表会   ( 3-2-3 )   2015年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 音楽音響信号に対する歌声・伴奏音・打楽器音分離に基づくコード認識

    丸尾 智志, 池宮 由楽, 糸山 克寿, 吉井 和佳

    情報処理学会 第108回音楽情報科学研究会   2015-MUS-108 ( 1 )   1 - 6   2015年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 非ガウス性モノラル音響信号に対する音源分離のための非負値行列分解と半正定値テンソル分解

    吉井 和佳, 糸山 克寿, 後藤 真孝

    情報処理学会 第108回音楽情報科学研究会   2015-MUS-108 ( 2 )   1 - 9   2015年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 両耳聴ロボット聴覚ソフトウェアHARK‐BinauralとRaspberry Pi2を用いたヒューマノイドロボットへの適用

    坂東 宜昭, 金 宜鉉, 糸山 克寿, 吉 井和佳, 中臺 一博, 奥乃 博

    情報処理学会 第107回音楽情報科学研究会 (音学シンポジウム2015)   2015-MUS-107 ( 33 )   1 - 2   2015年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • モノラル音楽音響信号を対象としたRPCAと音高推定に基づく歌声・伴奏分離

    池宮 由楽, 糸山 克寿, 吉井 和佳

    情報処理学会 第107回音楽情報科学研究会 (音学シンポジウム2015)   2015-MUS-107 ( 57 )   1 - 3   2015年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 視聴覚統合NMFによるカエル合唱音声の分析

    糸山 克寿, 坂東 宜昭, 粟野 皓光, 合原 一究, 吉井 和佳

    情報処理学会 第107回音楽情報科学研究会 (音学シンポジウム2015)   2015-MUS-107 ( 55 )   1 - 6   2015年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 音楽音響信号に対する相補的な歌声分離と音高推定

    池宮 由楽, 糸山 克寿, 吉井 和佳

    情報処理学会 第77回全国大会   ( 5S-1 )   417 - 418   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 早言いクイズ司会者ロボットの開発と評価

    西牟田 勇哉, 糸山 克寿, 吉井 和佳, 奥乃 博

    情報処理学会 第77回全国大会   2015 ( 5T-6 )   509 - 510   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,複数プレイヤーで競う「早言い」クイズの司会を行えるロボットの開発と評価について述べる.「早言い」クイズでは,各プレイヤーはボタンを押すなどの事前の合図を必要とせず,思いついた回答を直接発話する自然な音声インタラクションことが許されている.そのため,ロボットの出題中における割り込み回答や複数プレイヤーによる同時回答に対処する必要がある.本研究では,マイクロフォンアレイを用いた音源定位・音源分離技術に基づいて,クイズインタラクションの進行管理を行うロボットを開発した.被験者実験により,人・ロボット聴覚能力比較や印象評価を行い,提案ロボットの有用性を確認した.

    CiNii Books

    J-GLOBAL

    researchmap

  • 聴覚アウェアネスの可視化のための深度センサとマイクロフォンアレイを用いた物体認識と音イベント検出

    井山 貴裕, 杉山 治, 坂東 宜昭, 糸山 克寿, 吉井 和佳, 奥乃 博

    情報処理学会 第77回全国大会   2015 ( 2ZB-7 )   379 - 380   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,聴覚アウェアネス可視化のための深度センサとマイクロフォンアレイを用いた物体認識と音イベント検出について述べる.従来の可視化手法では,すべての音響情報をカメラ画像に重ね合わせてユーザに提示していたため,画面内の音環境の詳細な観察が困難であった.本研究では,この問題を解決するため,深度センサで得られる音源形状データに対して物体認識を,マイクロフォンアレイで得られる音圧データに対して音イベント検出を行うことで,画面内の興味のある物体のみに着目し,発生する音の時間変化の様子を観察(聴覚アウェアネスの可視化)できる手法を提案する.実験の結果,提案手法の有効性を確認した.

    CiNii Books

    J-GLOBAL

    researchmap

  • プログラミング基礎教育のための図形言語の3D拡張

    古川 孝太郎, 糸山 克寿, 吉井 和佳, 奥乃 博

    情報処理学会 第77回全国大会   2015 ( 3ZF-5 )   947 - 948   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,Scheme 上で 3D 図形を構成することでプログラミングの基礎的内容への初学者の理解を促進するシステムについて述べる.従来,図形とそれを描画するプログラムとの構造の類推による抽象化の学習は,プログラミングの代表的な教科書である SICP において導入される図形言語によってなされてきたが,これは構成可能な対象が 2D 図形の画像に限定されていた.本システムは図形言語の枠組みにのっとり,CSG の思想を取り入れて構成的に 3D 図形を描画し,3D プリンタにより造形可能な形式でモデルを出力する 3D 図形言語システムを提案する.本システムを講義の補助教材として用いて受講生に図形を作成させ,造型されたモデルとともに学生にフィードバックを与えたところ良好な反応を得て有効性を確認した.

    CiNii Books

    J-GLOBAL

    researchmap

  • ユーザの技術に合わせた自動編曲機能をもつピアノ演奏練習システム

    福田 翼, 池宮 由楽, 糸山 克寿, 吉井 和佳

    情報処理学会 第77回全国大会   ( 4S-2 )   403 - 404   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 歌声・伴奏音・打楽器音分離に基づく音楽演奏支援システム

    土橋 彩香, 池宮 由楽, 糸山 克寿, 吉井 和佳

    情報処理学会 第77回全国大会   ( 4S-1 )   401 - 402   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 混合音に対する音源分離の不確実性を考慮した同時発話音声認識

    板倉 光佑, 西牟田 勇哉, 坂東 宜昭, 糸山 克寿, 吉井 和佳

    情報処理学会 第77回全国大会   2015 ( 5P-2 )   117 - 118   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,複数の発話を含む混合音に対する音源分離結果を一意に定めることなく同時発話音声認識を行う方法について述べる.人間は複数の人から話かけられた時に,脳の中で単独発話音声信号を復元しているわけではないが,直接単語を聞き取ることが可能である.従来の同時発話音声認識システムでは,音源分離を行ったのちに独立した処理として音声認識を行っており,認識精度に限界があった.この問題を解決するため,本研究では,分離音声の不確実性を確率的に取り扱うことで分離音声をベイズ的に積分消去することにより,混合音を直接認識することができる方法を提案する.実験の結果,提案法により認識率が向上することを確認した.

    CiNii Books

    CiNii Research

    researchmap

  • 柔軟索状レスキューロボットのためのロバスト主成分分析を用いた走行雑音抑圧

    坂東 宜昭, 池宮 由楽, 糸山 克寿, 昆陽 雅司, 田所 諭, 中臺 一博, 吉井 和佳, 奥乃 博

    情報処理学会 第77回全国大会   77th ( 5T-4 )   505 - 506   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • ダンス共演ロボットのためのマルチモーダルビートトラッキング

    大喜多 美里, 坂東 宣昭, 池宮 由楽, 糸山 克寿, 吉井 和佳

    情報処理学会 第77回全国大会   2015 ( 5S-5 )   425 - 426   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,ダンス共演ロボットのためのマルチモーダルビートトラッキング手法について述べる.ダンス共演ロボットは,音楽と人間の動作を認識しながら人間と共に踊るエンターテインメントロボットである.この種のロボットでは,音楽のテンポとビート時刻をリアルタイムに推定することが重要であるが,音響信号のみを用いた従来法では,音楽のテンポの揺らぎや裏拍ビートを含む多様なリズムの追従に失敗する問題があった.本研究では,この問題を解決するため,音響信号に加えてダンサーの骨格時系列情報を同時に考慮しながらビートトラッキングを行う手法を提案する.実際のセンサデータを用いた実験により,提案法の有効性を確認した.

    CiNii Books

    CiNii Research

    researchmap

  • コード制約付きNMFを用いた音高推定に基づくコード認識

    丸尾 智志, 吉井 和佳, 糸山 克寿, Matthias Mauch, 後藤 真孝

    情報処理学会 第77回全国大会   ( 5S-3 )   421 - 422   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 分散型マイクロホンアレイを用いた音源分離のための複数移動ロボットの配置最適化

    関口 航平, 坂東 宣昭, 糸山 克寿, 吉井 和佳

    情報処理学会 第77回全国大会   ( 4T-7 )   497 - 498   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • タイ熱帯林における鳥類の自動音声認識による多様性調査法の開発

    丸山 晃央, 藤田 素子, 奥乃 博, 糸山 克寿, PRATUMTHONG Dome, ARTCHAWACOM Taksin, 神崎 護

    第62回 日本生態学会大会   ( D1-18 )   2015年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • マイクロホンアレイとスピーカをもつ柔軟索状ロボットのための動的スピーカ選択による姿勢推定の高速化

    坂東 宜昭, 糸山 克寿, 昆陽 雅司, 田所 諭, 中臺 一博, 吉井 和佳, 奥乃 博

    第41回 人工知能学会 AIチャレンジ研究会   41st ( SIG-ChallengeB402-08 )   45 - 50   2014年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 深度センサとマイクロフォンアレイを用いた聴覚アウェアネスの提示

    井山 貴裕, 杉山 治, 坂東 宜昭, 糸山 克寿, 吉井 和佳, 奥乃 博

    第41回 人工知能学会 AIチャレンジ研究会   ( SIG-Challenge-B402-04 )   20 - 25   2014年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 音楽音響信号解析のためのガンマ過程に基づく無限重畳離散全極モデル

    吉井 和佳, 糸山 克寿, 後藤 真孝

    第17回情報論的学習理論ワークショップ (IBIS2014)   114 ( 360 )   191 - 198   2014年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

    その他リンク: http://sap.ist.i.kyoto-u.ac.jp/members/yoshii/papers/ibis-2014-yoshii.pdf

  • Schemeによる3D図形の構成的制作

    古川 孝太郎, 坂東 宜昭, 糸山 克寿

    日本ソフトウェア科学会大会論文集   31   101 - 108   2014年9月

     詳細を見る

    記述言語:日本語   出版者・発行元:[日本ソフトウェア科学会]  

    CiNii Books

    researchmap

  • 「早言い」合図を識別しインタラクションに活用するロボットクイズ司会者

    西牟田 勇哉, 吉井 和佳, 西出 俊, 糸山 克寿, 奥乃 博

    第32回 日本ロボット学会学術講演会 (RSJ2014)   ( 1I2-05 )   2014年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 聴覚アウェアネス可視化モデルに基づくジェスチャ操作インタフェースの開発

    井山 貴裕, 杉山 治, 坂東 宜昭, 糸山 克寿, 吉井 和佳, 奥乃 博

    第32回 日本ロボット学会学術講演会 (RSJ2014)   ( 1I2-04 )   2014年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • マイクロホンアレイを用いた駆動機構付ホース型ロボットの姿勢推定

    坂東 宜昭, 糸山 克寿, 昆陽 雅司, 田所 諭, 中臺 一博, 吉井 和佳, 奥乃 博

    第32回 日本ロボット学会学術講演会 (RSJ2014)   32nd ( 1I2-02 )   2014年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • Schemeによる3D図形の構成的制作

    古川 孝太郎, 坂東 宜昭, 糸山 克寿, 吉井 和佳, 奥乃 博

    日本ソフトウエア科学会 第31回大会   ( 一般2-3 )   2014年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 結合動的モデルに基づく音響信号アライメント

    前澤 陽, 糸山 克寿, 吉井 和佳, 奥乃 博, 河原 達也

    情報処理学会 第104回音楽情報科学研究会   2014-MUS-104 ( 13 )   1 - 7   2014年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,複数の演奏者が演奏した同一楽曲の複数の音響信号の比較を支援するため,各音響信号の時刻を同一楽曲内での位置に対応づける手法 (音響信号アライメント) について述べる.従来,演奏の解析において,テンポの動特性に関するモデルの有用性が指摘されていたが,一般的な音響信号アライメント手法にはテンポ推定の機構がなく,テンポ情報を活用することができなかった.本研究では,テンポの動特性を間接的にモデル化するため,楽曲の各位置で,各音響信号が演奏する,瞬時的なテンポ同士の比率をモデル化する.具体的には,瞬時的なテンポの比率が連続的であり,その変化量は音響信号間で相関があることを仮定することで,テンポ軌跡の連続性と演奏者間の類似性を同時にモデル化する.このとき,変化量を生成する背後にある共分散行列は,少数の代表的な共分散行列から構成されるマルコフ系列であるとして確率的な定式化を行う.これにより,楽曲を通して頻出する,特徴的なテンポ比率の発生箇所とその変動パターンを同時に学習することが出来るため,演奏解析に有益な情報も得られる.評価実験の結果,アライメントの精度が向上することが示され,解釈の違いの分析に対する有用性が示唆された.

    CiNii Books

    J-GLOBAL

    researchmap

  • 多重音基本周波数解析のための無限重畳離散全極型モデル

    吉井 和佳, 糸山 克寿, 後藤 真孝

    情報処理学会 第104回音楽情報科学研究会   2014-MUS-104 ( 9 )   1 - 8   2014年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,多数の楽器音が重畳している音楽音響信号を,音の三要素である音高 (基本周波数)・音色 (スペクトル包絡)・音量に分解するための確率的ソース・フィルタモデルについて述べる.ソース・フィルタ理論は楽器音分析に広く利用されており,楽器音のフーリエ変換スペクトルは,音源信号の基本周波数に起因するスペクトル微細構造と楽器音の音色を表すスペクトル包絡との積に分解される.このとき,スペクトル包絡が全極型モデルで表現できると仮定すると,理論的には線形予測分析 (LPC) を用いて,線形周波数領域でスペクトル包絡を推定することができる.しかし,実際には,調波構造のピークのみがスペクトル包絡からの信頼できるサンプルであるとみなせるため,スペクトル包絡推定に全周波数帯域を利用することは適切ではない.この問題の解決法のひとつに離散全極型モデルが知られているが,多重音に対して適用することはできなかった.本研究では,離散全極型モデルを LPC の多重音拡張である複合自己回帰モデルの枠組みに組み入れることで,調波構造が複数重畳した音響信号を扱うことができる無限重畳離散全極型モデルを提案する.本モデルは,人間の聴覚特性に則した対数周波数領域で定式化されるノンパラメトリックベイズモデルであり,適切な個数のスペクトル包絡とそこからサンプルされた適切な個数の調波構造を推定することができる.実験の結果,提案手法の有効性を確認した.

    CiNii Books

    researchmap

  • 混合音中の歌声F0軌跡に対する歌唱表現転写システム

    池宮 由楽, 糸山 克寿, 吉井 和佳, 奥乃 博

    情報処理学会 第104回音楽情報科学研究会   2014-MUS-104 ( 23 )   1 - 6   2014年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,音楽音響信号に含まれる歌声の基本周波数 (F0) 軌跡に対して歌唱表現 (ビブラート・グリッサンド・こぶし) を転写することを可能とするシステムを提案する.能動的音楽鑑賞インタフェースは,エンドユーザのインタラクティブな音楽鑑賞を実現することを目的とした研究アプローチである.これには既存楽曲の加工支援も含まれ,歌声に関連するものでは,声質変換や歌声分離などの研究がなされている.本研究では,歌唱の歌い回しの加工を扱い,特に混合音中の歌声の F0 軌跡を任意に編集するインタフェースを実現する.ユーザは,歌声の任意の箇所を指定し,好みの歌唱表現を転写することで,歌い回しを自由に加工することができる.また,事前に市販楽曲からプロ歌手の歌唱表現を蓄積したデータベースを作成し,ユーザはそのデータベースから歌唱表現を参照することで直感的に転写を行うことが可能となる.歌唱表現の転写は,対数周波数軸において選択的に歌声のスペクトルのみをシフトさせ,伴奏音への影響を抑圧しながら歌声の音高を操作することで行われる.このとき,音韻性を保持するためスペクトル包絡を用いて音色の補正を行う.実際にユーザが表現の転写箇所を指定したり,F0 の存在範囲を提示するため,Graphical User Interface (GUI) の作成を行っている.実験では,音色補正の有効性やユーザ入力を用いた F0 推定の頑健性などを確認した.

    CiNii Books

    J-GLOBAL

    researchmap

  • 新博士によるパネルディスカッションIV「新博士さんいらっしゃい!」

    竹川 佳成, 平田 圭二, 糸山 克寿, 大石 康智, 橘 秀幸, 寺澤 洋子, 土井 啓成, 平野 砂峰旅, 深山 覚, 松原 正樹

    情報処理学会 第104回音楽情報科学研究会   2014-MUS-104 ( 12 )   1 - 5   2014年8月

     詳細を見る

    記述言語:日本語   掲載種別:講演資料等(セミナー,チュートリアル,講習,講義他)   出版者・発行元:一般社団法人情報処理学会  

    「新博士によるパネルディスカッション」 は,音楽情報科学の研究に取り組んできた博士号を取得したばかりの方を集め,研究の紹介,博士課程進学の動機,博士課程在学中のドラマ,今後の抱負などについてパネル形式で議論する.本稿では,今回パネリストとして参加していただく 8 名の新博士を紹介する.

    CiNii Books

    researchmap

  • HARKによって定位・分離された多方向音声のアノテーションツールの開発

    杉山 治, 糸山 克寿, 中臺 一博, 奥乃 博

    電子情報通信学会 クラウドネットワークロボット研究会   114 ( 85 )   23 - 26   2014年6月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 市販楽曲からの歌い方ライブラリの作成(ポスターセッション,音学シンポジウム2014)

    池宮 由楽, 糸山 克寿, 奥乃 博

    電子情報通信学会技術研究報告. SP, 音声   114 ( 52 )   243 - 244   2014年5月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    本稿では,市販楽曲からビブラート,こぶしやグリッサンドといった歌い方に関係する特徴を歌唱表現として抽出することで,歌手の歌い方のライブラリを作成する手法について述べる.これらの特徴は,歌唱F0軌跡中の特徴的な変動として現れる.本手法ではまず,時間周波数領域での最適経路探索問題を定式化することにより高周波数分解能,高精度な歌唱F0推定を行う.推定F0軌跡からパターンマッチングにより各歌唱表現を同定,パラメータ表現する.実験では,実際に市販楽曲からプロ歌手の歌唱表現を抽出できることを確認した.

    CiNii Books

    researchmap

  • 市販楽曲からの歌い方ライブラリの作成

    池宮 由楽, 糸山 克寿, 吉井 和佳, 奥乃 博

    情報処理学会 第103回音楽情報科学研究会 (音学シンポジウム2014)   2014-MUS-103 ( 48 )   1 - 2   2014年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:http://id.nii.ac.jp/1001/00101343/  

    本稿では,市販楽曲からビブラート,こぶしやグリッサンドといった歌い方に関係する特徴を歌唱表現として抽出することで、歌手の歌い方のライブラリを作成する手法について述べる.これらの特徴は,歌唱 F0 軌跡中の特徴的な変動として現れる.本手法ではまず,時間周波数領域での最適経路探索問題を定式化することにより高周波数分解能,高精度な歌唱 F0 推定を行う.推定 F0 軌跡からパターンマッチングにより各歌唱表現を同定,パラメータ表現する.実験では、実際に市販楽曲からプロ歌手の歌唱表現を抽出できることを確認した.

    CiNii Books

    researchmap

  • 潜在共通構造モデルに基づく音響信号間アライメント

    前澤 陽, 糸山 克寿, 吉井 和佳, 奥乃 博

    情報処理学会 第103回音楽情報科学研究会 (音学シンポジウム2014)   2014-MUS-103 ( 23 )   1 - 6   2014年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,同一楽曲を演奏した複数の音響信号に対して時間軸対応付け(音響信号間アライメント)を行うための確率モデルを提案する.我々は,アライメント結果に基づいて演奏分析を行う応用を考えると,複数の演奏の背後に存在する潜在的な共通構造と各演奏に固有の時間的ゆらぎとを区別することが重要であると考えている.従来は,動的時間伸縮法(DTW)やLeft-to-Right型隠れマルコフモデル(LRHMM)を用いて,表層的な音響的類似度に基づいて対応点を探す手法が主流であった.一方,本研究では,複数の演奏に共通な状態系列を生成する上位HMMと,上位HMMで定められた順序で状態を遷移する演奏ごとに独立な下位LRHMMを考え,両者を階層HMMとして確率的に統合する.このとき,上位HMMにおいては,楽曲中で繰り返し登場する音響的特徴が同じ状態に割り当てられているので,楽曲自体の音楽構造の解析が容易に行える.さらに,下位LRHMMにおいては,各状態での滞留時間に着目することで,各演奏に固有の時間的ゆらぎを調査することができる.実験の結果,音響信号間アライメント精度の点で,提案手法は従来法より優れていることが分かった.

    CiNii Books

    researchmap

  • 深度センサとマイクロホンアレイを用いた音源位置可視化による聴覚アウェアネスの提示

    井山 貴裕, 杉山 治, 大塚 琢馬, 糸山 克寿, 奥乃 博

    情報処理学会 第76回全国大会   2014 ( 6S-5 )   489 - 490   2014年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では、複数の音源が同時に存在しうる環境下における音源可視化による聴覚アウェアネスの提示手法について述べる。従来の音源可視化は観測混合音から検出される全ての音源を区別なく表示するため、可視化結果が煩雑になる。可視化の煩雑さを軽減するためには、音源をフィルタリングし、ユーザの必要な音源を選択的に提示する必要がある。本稿では,音源位置によって可視化方法を変化させる複数音環境における聴覚アウェアネス可視化手法を述べる.音源位置推定には,マイクロホンアレイによる音源到来方向推定と深度センサによる物体までの距離推定を併用する.本手法を深度センサとマイクロホンアレイを用いて実装し、その有効性を確認した。

    CiNii Books

    J-GLOBAL

    researchmap

  • 環境音に頑健な同時合図を識別するクイズ司会者の構築

    西牟田 勇哉, 平山 直樹, 大塚 琢馬, 杉山 治, 糸山 克寿, 奥乃 博

    情報処理学会 第76回全国大会   2014 ( 5S-1 )   461 - 462   2014年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    近年,実環境で人と共存してコミュニケーションを行うロボットが期待されているが,従来の音声対話システムは一人で,理想的な環境において利用するに留まっていた.ここで,ロボットが実環境で人と共存してコミュニケーションを行うには,ロボット自身に搭載されたマイクロフォンを用いた複数話者の位置同定,同時発話の分離といった音環境理解,また実環境での環境音に頑健な音声認識が必要となる.本研究ではロボット聴覚ソフトウェアHARKを用いて音環境理解を,言語モデルの切り替えによる誤認識の抑制,音節タイプライタを用いた雑音棄却によって環境音に頑健な音声認識を実現した対話システムを構築した.

    CiNii Books

    J-GLOBAL

    researchmap

  • 音響特徴量を用いた楽曲印象分布の推定

    絵本 詩織, 糸山 克寿, 奥乃 博

    情報処理学会 第76回全国大会   2014 ( 6R-8 )   391 - 392   2014年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では、楽曲の音響信号から素の楽曲の印象の分布を推定する手法について述べる。音響信号から抽出された音響特徴量と、被験者実験によって得られた楽曲の印象の関係を学習する。楽曲の印象はラッセルの円環モデルに基づくV-A平面の座標で表現する。楽曲の印象には個人やフレーズの移り変わりによるばらつきがあるため、単一の座標ではなくばらつきをもつ分布として未知楽曲の印象を推定する。

    CiNii Books

    J-GLOBAL

    researchmap

  • マイクロホンアレイの位置推定によるホース型ロボットの姿勢推定

    坂東 宜昭, 大塚 琢馬, 糸山 克寿, 昆陽 雅司, 田所 諭, 中臺 一博, 奥乃 博

    情報処理学会 第76回全国大会   76th ( 4V-1 )   189 - 190   2014年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    ホース型ロボットは細長い形状が特徴のレスキューロボットで,倒壊した建築物の隙間などの探索が可能である.操縦の効率化のために加速度センサやカメラ画像などを用いた本ロボットの姿勢推定法が提案されてきたが,累積誤差が生じるなどの問題があった.本稿ではマイクロホンアレイと小型スピーカを本ロボットに装着し,音によるこれらの位置推定によって姿勢を推定する手法について述べる.本手法ではスピーカから発する試験音の各マイクへの到達時間差を用いて姿勢を推定するが,到達時間差は現在のマイクとスピーカの位置関係を表しており,過去の誤差を修正できる.実録音データを用いて本手法の有効性を評価した.

    J-GLOBAL

    researchmap

  • 混合方言言語モデルと混合比推定による方言音声認識システム

    平山 直樹, 吉野 幸一郎, 糸山 克寿, 森 信介, 奥乃 博

    情報処理学会 第76回全国大会   2014 ( 4S-6 )   451 - 452   2014年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,複数方言が混合した日常発話を対象とする音声認識システムを開発する.日常発話では居住地の方言だけでなく,話者や両親の経歴,交通やメディアの影響で様々な地域の方言が混合する.これまでの方言音声認識では単一方言が対象であり,方言の混合という概念は捉えられていなかった.本稿では,入力発話の方言をいくつかの方言の混合として,単一方言言語モデルの重み付き平均で構築した混合方言言語モデルで音声認識を行う.言語モデルの混合比を変化させて,尤度が最大となる音声認識結果を出力する.5方言を対象とした混合方言言語モデルによる実験で,話者方言のみの言語モデルを用いた場合と比較して音声認識精度が向上することを示した.

    CiNii Books

    J-GLOBAL

    researchmap

  • 歌声-話声変換における動的音響特徴量が話声らしさに及ぼす影響

    山崎 健史, 池宮 由楽, 糸山 克寿, 奥乃 博

    情報処理学会 第76回全国大会   2014 ( 5R-8 )   373 - 374   2014年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    近年、CGMなどの普及と共に多様な音声合成技術が求められるようになってきた. 中でもSpeakBySingingでは歌声から話声への変換を目的としている。従来法では、変換話声の話声らしさと元の歌声の声質との保持性について評価しているが、どのような処理が話声の自然性を生み出しているのかを深く吟味されていなかった。歌声と話声の識別における音響的特徴として音韻長や音高、jitter、ビブラートに代表される動的成分等が挙げられるが、本稿ではその音響的特徴から歌声-話声変換の話声らしさに影響を与える主要な要素として動的な音響的特徴に着目する。実験では、実録音声を各手法による変換結果を視聴者実験によって比較することで、どの音響的特徴が歌声-話声変換の話声としての自然さに影響を与えるのか評価した。

    CiNii Books

    J-GLOBAL

    researchmap

  • 伴奏付き歌唱からの歌唱表現のパラメータ化と転写

    池宮 由楽, 糸山 克寿, 奥乃 博

    情報処理学会 第76回全国大会   2014 ( 5R-7 )   371 - 372   2014年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,伴奏付き歌唱に含まれるビブラートやこぶしといった歌唱表現のパラメータ化と,それらを用いた歌い方の転写について述べる.歌唱表現は歌唱者の個人性を強く反映し,それらをパラメータ化し保存することで,CGMやMIRへの応用が可能になる.本手法ではまず,歌唱F0を探索範囲を制限したビタビ探索によって推定する.歌唱表現はF0軌跡中の特徴的な変動として現れ,観測的に決定したテンプレートに基づき同定・パラメータ化する.また,集積されたパラメータから歌唱表現を再合成し,単調な歌唱への転写を行う.実験では,市販楽曲からプロ歌手の歌唱表現を学習し,歌声合成システムへの転写を行った.

    CiNii Books

    J-GLOBAL

    researchmap

  • ギター演奏音からの難易度調整可能なタブ譜自動生成システム

    矢澤 一樹, 糸山 克寿, 奥乃 博

    情報処理学会 第76回全国大会   2014 ( 5R-5 )   367 - 368   2014年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,ギター演奏者の演奏支援を目的とした,音響信号からの難易度調整可能なタブ譜自動生成手法を提案する.従来のタブ譜生成法の多くは,ある音響信号に対して一意に音高・運指を推定する手法であったため,出力タブ譜の難易度とユーザーの演奏レベルとが一致しない可能性があった.そこで提案法では,音響信号からの運指推定を重み付き有向グラフ上での最適経路探索問題として新たにモデル化し,本グラフのパラメータを調整することによって,出力タブ譜の難易度を調整可能にした.評価実験では,本システムによって出力されたタブ譜について,音高推定精度と運指難易度の両面から評価を行った.

    CiNii Books

    J-GLOBAL

    researchmap

  • ロボット聴覚ソフトウェアHARKを用いたクイズの同時回答を識別するロボット司会者の設計と実装

    西牟田 勇哉, 平山 直樹, 大塚 琢馬, 杉山 治, 糸山 克寿, 奥乃 博

    第38回 人工知能学会 AIチャレンジ研究会   ( SIG-Challenge-B302-09 )   45 - 50   2013年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • ホースの伸び縮みによるマイク位置の変化を許容するマイクロホンアレイを用いたホース型ロボットの姿勢推定

    坂東 宜昭, 大塚 琢馬, 糸山 克寿, 中村 圭佑, 昆陽 雅司, 田所 諭, 中臺 一博, 奥乃 博

    第38回 人工知能学会 AIチャレンジ研究会   38th ( SIG-Challenge-B302-10 )   51 - 56   2013年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • HARKを用いたロボットクイズ司会者HATTACK25の開発

    西牟田 勇哉, 平山 直樹, 大塚 琢馬, 杉山 治, 糸山 克寿, 奥乃 博

    第31回 日本ロボット学会学術講演会 (RSJ2013)   ( 3D3-08 )   2013年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • Multirotor UAVを用いた音源定位のための雑音相関行列推定

    古川 孝太郎, 大塚 琢馬, 糸山 克寿, 中臺 一博, 奥乃 博

    第31回 日本ロボット学会学術講演会 (RSJ2013)   ( 3D3-02 )   2013年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • ホース型ロボットのマイクロホンアレイを用いた姿勢推定

    坂東 宜昭, 大塚 琢馬, 水本 武志, 糸山 克寿, 中臺 一博, 奥乃 博

    第31回 日本ロボット学会学術講演会 (RSJ2013)   ( 3D3-01 )   2013年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 楽器音に対する仮想音源のパラメータ推定

    糸山 克寿, 奥乃 博

    情報処理学会 第100回音楽情報科学研究会 (MUS)   2013-MUS-100 ( 5 )   1 - 6   2013年8月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,音源分離などに起因する雑音や歪みを含む楽器音に対して,それらを含まないクリーンな楽器音を得るための仮想楽器音源のパラメータ推定法について述べる.多数の楽器音をランダムに生成し,楽器音からフレームベースの音響特徴量とその統計量を計算する.重回帰分析を用いて音源パラメータと音響特徴量との関係を学習し,未知楽器音のパラメータをその関係性を用いて推定する.評価実験の結果,推定対象のパラメータが少ない場合には学習データを十分に用意することで,実用上十分な精度でのパラメータ推定を実現した.

    CiNii Books

    J-GLOBAL

    researchmap

  • 伴奏付き歌唱に含まれる歌い方要素の個別抽出

    池宮 由楽, 糸山 克寿, 奥乃 博

    情報処理学会 第100回音楽情報科学研究会 (MUS)   2013-MUS-100 ( 20 )   1 - 6   2013年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,伴奏付き歌唱に含まれるビブラートやこぶしといった歌い方要素を個別に抽出する手法について述べる.歌い方要素は歌唱者の個人性を強く反映し,それらを個別に検出しパラメータ化することで,CGM や MIR への多様な応用が可能となる.本手法では,ユーザが簡易に取得できる歌唱の音高列を事前知識として用いる.音高列から探索範囲を制限したビタビ探索によって高精度に F0 を推定する.各要素は歌唱者の意図による F0 の特徴的な変動として現れ,それらを個別に検出し,設計したモデルに従ってパラメータとして抽出する.評価実験により,市販楽曲からプロ歌手の歌い方要素を個別に抽出できることを確認した.

    CiNii Books

    J-GLOBAL

    researchmap

  • ギター演奏者の習熟度に合わせた音響信号からのタブ譜自動生成

    矢澤 一樹, 糸山 克寿, 奥乃 博

    情報処理学会 第100回音楽情報科学研究会 (MUS)   2013-MUS-100 ( 17 )   1 - 6   2013年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,ギター演奏者の演奏支援をするために実際のギター演奏音から演奏者の習熟度に応じたタブ譜を自動生成する手法について述べる.具体的には,初級者向けには音符の欠落などを許容してでも演奏が容易なタブ譜を,上級者向けには音高を正確に再現するタブ譜を,それぞれ生成する.推定される運指の難易度は,音響再現度と運指容易度の相対的な重みをユーザー側で調整することによって変更可能である.本手法によって得られたタブ譜について音響再現度と運指容易度の両面から評価を行った結果,パラメータを変更することによって音高推定の適合率を保ったまま運指を簡略化できることが確認された.

    CiNii Books

    J-GLOBAL

    researchmap

  • 楽器音分析合成に基づく音量・音色・旋律の置換

    糸山 克寿, 奥乃 博

    情報処理学会 第99回音楽情報科学研究会 (音学シンポジウム2013)   2013-MUS-099 ( 25 )   1 - 2   2013年5月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿は,混合音の音楽音響信号に対して,楽器音分析合成手法を用いてその構成楽器音の音量・音色・旋律を操作・置換する手法を述べる.調波・非調波統合モデルと呼ぶ,スペクトログラム上での混合ガウス分布で単独楽器音をモデル化し,各単音の発音時刻と音高に応じた時間周波数平面上の位置にモデルを重み付きで配置することで混合音を表現する.楽譜を事前情報とした混合音に対する最適なモデルパラメータの推定を通じて,楽器音を分析し,音源分離と音色などの音響特徴抽出を行う.音量操作は分離された楽器音の音量を操作し,各楽器音を再度加算することで実現する.音色と旋律はモデルパラメータ中のそれぞれに対応する成分の操作と楽器音再合成を通じて実現する.

    CiNii Books

    J-GLOBAL

    researchmap

  • ギター演奏からの押弦パターン・発音時刻・フォーム変化時間制約を用いたタブ譜自動生成システム

    矢澤 一樹, 阪上 大地, 柳楽 浩平, 糸山 克寿, 奥乃 博

    情報処理学会 第75回全国大会   2013 ( 4R-3 )   269 - 270   2013年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本研究の目的は,ギター演奏初心者の演奏支援や個人作曲楽曲の二次利用のために,音響信号からのタブ譜自動生成を行うことである.従来の多重基本周波数推定法を用いてタブ譜の自動生成を行う場合,主に次の3つの問題があった.1. ギターで演奏不可能な音高の組合わせが推定される,2. オンセット時刻以外でフォームが変化する,3. フォーム変化が短時間で頻繁に起こりすぎる.そこで我々は,既存の多重基本周波数推定手法LHAに新たに 1.押弦パターン 2.発音時刻 3.フォーム変化に要する時間 に関する制約を加えることで,ギター演奏に適したタブ譜を自動生成することに成功した.

    CiNii Books

    J-GLOBAL

    researchmap

  • Score following of human accompaniment using a lead-sheet for an artificial lead singer

    JooYoung Ahn, 糸山 克寿, Louis-Kenzo Cahier, 奥乃 博

    情報処理学会 第75回全国大会   2013 ( 4R-8 )   279 - 280   2013年3月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    The goal of this work is a system capable of following human accompaniment. The fundamental difficulty of score following for human accompaniment is that the score -a lead-sheet, common in popular music- only provides chord-names. Thus, actual accompaniments have uncertain octave and timber; fluctuating rhythm and tempo. This can degrade performance in conventional score following systems. Our solution is using chroma vectors as features for a particle filter. We measure robustness to timber and tempo changes by testing our system on 9 sets of 20 songs, covering all combinations of 3 levels of accompaniment complexity, and 3 types of instruments.

    CiNii Books

    researchmap

  • 非負値調波時間構造因子分解法に基づく音楽音響信号の多重基本周波数解析

    阪上 大地, 大塚 琢馬, 糸山 克寿, 奥乃 博

    情報処理学会 第75回全国大会   2013 ( 4T-8 )   491 - 492   2013年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    音楽音響信号は構成音の音量包絡,音高,音色など様々な特性によって形作られており,これらの同時推定を実現することで高精度な多重基本周波数解析を行うことができる.我々は入力音のウェーブレットスペクトログラムを精度よく解析するため,潜在的調波配分法と非負値行列因子分解法をベイズ的に統合し,音量の時間包絡を考慮した新手法を開発した.提案法では,各楽器音のスペクトル包絡と時間包絡をそれぞれ混合ガウス分布によりモデル化し,二つの分布の積として観測スペクトログラムの確率密度を表現した.実験の結果,提案法がF値基準で従来法の性能を上回ることを確認した.

    CiNii Books

    J-GLOBAL

    researchmap

  • 歌声F0生成過程とメロディ分離手法に基づく楽譜逸脱成分推定

    池宮 由楽, 阪上 大地, 糸山 克寿, 奥乃 博

    情報処理学会 第75回全国大会   2013 ( 3R-9 )   261 - 262   2013年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本研究の目的は,楽曲中に含まれる歌声の楽譜逸脱成分を楽譜情報と分離して抽出することである.楽譜逸脱成分とはビブラートやオーバーシュートなど,歌声に含まれる楽譜に記載されないダイナミクスのことであり歌唱者の特徴が反映されるため,歌声合成や音楽情報検索などに広く使われる.従来研究では,クリーンな歌声のみを対象としており,多様なデータを扱うことができなかった.本研究では,メロディ分離手法により楽曲から歌声を分離し,F0 生成過程に基づき楽譜逸脱成分を推定する.評価実験において,楽曲から歌声楽譜逸脱成分を取り出せることを確認した.

    CiNii Books

    J-GLOBAL

    researchmap

  • 単音の音量ダイナミクスを共有化したNMFによる楽器パート分離

    田島 照久, 阪上 大地, 糸山 克寿, 奥乃 博

    情報処理学会 第75回全国大会   2013 ( 3R-10 )   263 - 264   2013年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本研究の目標は次元圧縮や特徴抽出の手法である非負値行列因子分解 (Non-negative Matrix Factorization; NMF)を用い, 複数の楽器で演奏された音楽音響信号から楽器パートごとの音響信号を精度よく分離することである.従来の研究のような, 各楽器の周波数構造を調波や非調波でモデル化し基底に制約を加える手法では, 周波数方向のみの制約で時間方向の制約はなかった.そこで我々は単音の音量はその単音の発音時刻に依存せずに変化するとの仮定を元に, 複数の単音の音量変化を関連付ける制約をアクティベーションの更新に加えた.実験では楽譜から各単音の発音時刻を得たうえで, 比較実験を行い分離性能の向上を確認した.

    CiNii Books

    J-GLOBAL

    researchmap

  • 押弦制約と運指制約を用いたタブ譜自動生成システム

    矢澤 一樹, 阪上 大地, 糸山 克寿, 奥乃 博

    情報処理学会 第96回音楽情報科学研究会   2012-MUS-96 ( 11 )   1 - 7   2012年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿は,ギター演奏者の押弦・運指に関する制約を用いたタブ譜自動生成システムについて報告する.我々は,潜在的調波配分法 (LHA) の推定結果に押弦・運指制約を加えることで,演奏不可能な音の組合せを排除する.押弦制約として,あらかじめ列挙した演奏可能な押弦パターンの中から各時間フレームでの最適パターンを推定し,その押弦パターンで演奏可能な音のみを抽出する.これにより,演奏可能な押弦パターンのみで構成されたタブ譜を出力することができる.また,運指制約として編集距離に基づく運指のコストを用いて,運指の面でもタブ譜の改善を行った.実験の結果,我々はさらに本手法が音高推定を頑健に行えることも確認した.This paper describes an automatic tablature generation system for guitar performances using constraints of finger configurations and fingering. We exclude unplayable combinations of sounds from estimation results of the latent harmonic allocation (LHA) by using the constraints. Our system estimates optimal finger configurations for each time frame among playable finger configurations and extract playable sounds on the configurations. Thus our system can output a tabulature consisting of only playable finger configurations. In addition, we define the fingering constraint as a cost function based on edit distance to improve the quality of generated tabulatures. Experimental results showed that our system achieved robust multipitch estimation by using the constraints.

    CiNii Books

    J-GLOBAL

    researchmap

  • ベイジアン非負値調波因子分解と多重基本周波数推定への応用

    阪上 大地, 大塚 琢馬, 糸山 克寿, 奥乃 博

    情報処理学会 第99回音楽情報科学研究会   2012-MUS-96 ( 9 )   1 - 6   2012年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,音の三要素 (音量・音高・音色) を同時にモデル化し,音楽の多重音解析を行う手法,ベイジアン非負値調波領域分解について報告する.本手法では,非負値行列因子分解 (NMF) にならい,観測音のウェーブレットスペクトログラムを基底とアクティベーションの積に分解する.さらに,各基底を調波構造を模した混合ガウス分布とすることで,各単音の音高・音色を表現する.これは,NMF と調波クラスタリングを統合した非負値調波因子分解 (NHF) という手法により実現する.パラメータの推定時には,特性事前分布と呼ぶ新しい確率分布族を用いてより正確な多重音解析を行う解を探索する.従来法と提案法それぞれで,一様乱数を初期値とする多重基本周波数解析の性能評価を行った結果,F 値基準で平均 5.2% 性能が向上することを確認した.

    CiNii Books

    researchmap

  • 倍音コーパスを用いた初期値依存性の低い多重基本周波数推定法

    阪上 大地, 糸山 克寿, 尾形 哲也, 奥乃 博

    情報処理学会 第74回全国大会   2012 ( 4S-7 )   393 - 394   2012年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,倍音コーパスを用いた初期値依存性の低い多重基本周波数推定法について述べる.Harmonic Temporal Clustering (HTC) など従来の多重基本周波数推定法ではモデル上任意の倍音構造を取りうるため,事前分布を精密に設定する必要があった.しかし,この値は統計的根拠に基づいて決定することが出来ないため,手作業によるチューニングが必要であった.本稿では,MIDI 音声を用いて楽器音の倍音構造の一覧 (倍音コーパス) を作成し,楽器音として適切な倍音構造の範囲を決定して推論を行った.実験の結果,音楽的でない局所解を排除し,初期値依存性が低く,統計的にも妥当なモデルが得られることを確認した.

    CiNii Books

    J-GLOBAL

    researchmap

  • 楽曲印象軌跡に基づく楽曲検索システムの実装と評価

    西川 直毅, 糸山 克寿, 藤原 弘将, 後藤 真孝, 尾形 哲也, 奥乃 博

    情報処理学会 第74回全国大会   2012 ( 1S-7 )   337 - 338   2012年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,楽曲印象軌跡を用いた楽曲検索システムの実装と,被験者実験による評価について報告する.実際の楽曲において,印象は時々刻々と変化し,また印象は歌詞と音響信号の両方で特徴づけられる.この2点の特徴を反映する為に,我々は楽曲印象を歌詞印象軌跡と音響印象軌跡の組み合わせで表現する.歌詞印象軌跡は確率的潜在意味解析,音響信号印象軌跡は多重線形回帰を用いて推定する.ユーザは検索システムに歌詞,音響信号印象軌跡を入力し,入力軌跡と類似する軌跡を持つ楽曲が検索される.印象軌跡間の類似度はDPマッチングによって求める.実験では,被験者に本システムを使用して楽曲検索を行わせたのち,検索された楽曲と入力した印象軌跡がどの程度合致するかを評価させた.

    CiNii Books

    J-GLOBAL

    researchmap

  • 押弦制約付きギター演奏自動採譜システム

    矢澤 一樹, 阪上 大地, 糸山 克寿, 尾形 哲也, 奥乃 博

    情報処理学会 第74回全国大会   2012 ( 4S-6 )   391 - 392   2012年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,押弦制約を用いたギター演奏の自動採譜システムについて述べる.Latent Harmonic Allocation (LHA) などの従来の多重基本周波数推定法ではあらゆる音の組み合わせが許容されるため,人間の身体構造上は同時に演奏できない音の組み合わせが推定結果に含まれる場合があった.我々は,LHAの出力に押弦制約を組み合わせることで,このような音の組み合わせを除外可能な自動採譜システムを構築した.押弦制約は,押弦位置が3~4フレット以内である押弦パターンをリストアップしたものである.実験の結果,押弦制約を用いることで推定精度の向上,およびLHAの閾値に対する頑健性の向上を確認した.

    CiNii Books

    J-GLOBAL

    researchmap

  • アクセント特徴量を用いた歌声と朗読音声の識別システム

    阿曽 慎平, 齋藤 毅, 後藤 真孝, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博

    情報処理学会 第74回全国大会   2012 ( 6U-9 )   625 - 626   2012年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    アクセント特徴量を用いて歌声と歌詞の朗読音声を識別するシステムを開発した.システムの入力は雑音を含まない単独音声,出力は歌声か朗読音声かの2値である.我々はリズム構造が歌声と朗読音声で聴感上異なることに着目し,リズムと関連が強いと考えられるアクセント特徴量を識別に用いた.この特徴量は音響的な時間変化の大きい部分,例えば音素境界や発話開始時間で極大値(ピーク)を持つ.隣り合うアクセントピークの時間間隔と,アクセント強度の分布をそれぞれ混合ガウス分布でモデル化し,2つの識別機を設計した.実験の結果,約10秒の音声に対し,ピーク時間間隔を用いた識別機では89.2%,アクセント強度を用いた識別機では59.7%の精度であった.

    CiNii Books

    J-GLOBAL

    researchmap

  • スペクトル変化量のピーク間隔・F0・MFCCを用いた歌声と朗読音声の自動識別システム

    阿曽 慎平, 齋藤 毅, 後藤 真孝, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博

    情報処理学会 第94回音楽情報科学研究会 (MUS)   2012-MUS-94 ( 13 )   1 - 8   2012年1月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,歌声と朗読音声を識別するシステムについて述べる.入力は無雑音音声,出力は歌声と朗読音声それぞれの尤度 (連続値) である.従来,スペクトル包絡 (MFCC) と基本周波数 (F0) の時間変化に基づいた識別システムが報告されている.これらの特徴量に基づく識別器に,スペクトル変化量のピーク間隔という,音素継続時間に関連する特徴量に基づく識別器を加え,入力音声長に応じて各識別器への重みを変化させた.実験の結果,従来システムでは1秒の音声に対し 86.7% の精度であったのに対し,本システムでは 90.2% という結果を得た.本システムが実時間で動作するデモアプリケーションについても述べる.In this paper we describe a system that discriminates between singing and speaking voices. Given a clean speech signal, it outputs the likelihood of each of the singing and speaking voices. Previous systems use temporal transition of spectral envelope (MFCC) and fundamental frequency (F0) as discrimina- tion features. Our system adds peak interval of spectral change as a phoneme duration feature and weights these features according to the duration of the input speech signal. Experimental results with one-second speech signal show that our system achieves 90.2 % accuracy compared to 86.7 % with previous systems. We also describe a real-time application demonstrating our system.

    CiNii Books

    J-GLOBAL

    researchmap

  • 音響特徴・ベース音・和音遷移を用いた自動和音認識

    糸山 克寿, 尾形 哲也, 奥乃 博

    情報科学研究会 第94回音楽情報科学研究会   2012-MUS-94 ( 29 )   1 - 7   2012年1月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    researchmap

  • 歌詞と音響特徴量を用いた楽曲印象軌跡推定法の設計と評価

    西川 直毅, 糸山 克寿, 藤原 弘将, 後藤 真孝, 尾形 哲也, 奥乃 博

    情報処理学会 第91回音楽情報科学研究会 (MUS)   2011-MUS-91 ( 7 )   1 - 8   2011年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では,歌詞と音響信号のそれぞれが持つ印象の時間変化を印象軌跡として推定し,その二つの組み合わせで楽曲全体の印象軌跡を表現する手法について述べる.歌詞の印象軌跡は,確率的潜在意味解析 (PLSA) を用いて,歌詞中の単語から歌詞の印象を表すトピックを推定することで求める.音響信号の印象軌跡は,重線形回帰分析を用いて音響特徴量から推定する.評価実験では,「The Beatles」 の 175 曲の印象軌跡を推定し,それらを複数のクラスにクラスタリングして分析した.各クラスごとの音響特徴量の比較,ソーシャルタグと印象軌跡の比較から,推定された印象軌跡は適切であり,楽曲印象の時間変化が表現できる事がわかった.

    CiNii Books

    researchmap

  • MAHL: 演奏者間のインタラクション分析のためのスコアアライメント手法の提案

    前澤 陽, 糸山 克寿, 尾形 哲也, 奥乃 博

    情報処理学会 第91回音楽情報科学研究会 (MUS)   2011-MUS-91 ( 19 )   1 - 6   2011年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では、楽器パート毎に、楽譜と音響信号のアライメントを算出する手法を提案する。本手法では、各楽器パートに共通の、自己回帰過程に従うテンポモデルを持たせる。各楽器パートの時系列は隠れセミマルコフモデルに従い、状態継続長の事前分布としてテンポモデルを持つ。また、音響信号の出力は潜在的調波配分法に従う。パート間の揺らぎを持たせない場合の、アライメントの性能を評価し、アライメント手法としての有用性が確認された。また、演奏における発音タイミングの揺らぎがモデル化できることが示唆された。

    CiNii Books

    researchmap

  • 歌詞と音響特徴量を用いた楽曲の印象軌跡推定

    西川 直毅, 糸山 克寿, 藤原 弘将, 後藤 真孝, 高橋 徹, 尾形 哲也, 奥乃 博

    情報処理学会 第73回全国大会   2011 ( 5R-3 )   297 - 298   2011年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本研究は,楽曲の進行によって変化する印象の軌跡を推定する事を目的としている.従来の楽曲印象データベースには曲の進行に応じた印象変化の情報がなく,学習データがない.この問題に対し,(a) 歌詞中の単語を,確率的潜在意味解析 (pLSA) を用いて潜在的印象クラスに分割(b) 楽曲の一部分の単語集合が持つ印象と音響特徴量の相関を学習というアプローチをとる.本手法により,音響特徴量と歌詞を用いて楽曲の印象軌跡が推定可能となる.

    CiNii Books

    J-GLOBAL

    researchmap

  • F0・音韻長・パワー制御による歌声らしさ・話声らしさの変化の評価

    阿曽 慎平, 齋藤 毅, 後藤 真孝, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博

    情報処理学会 第73回全国大会   2011 ( 2R-6 )   255 - 256   2011年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    歌声,話声,歌声と話声の中間的な音声,歌舞伎や能の音声のそれぞれの歌声らしさ,話声らしさを評価する.人間の歌声らしさ・話声らしさに関する知覚は連続的に変化すると考えられるため,中間的に知覚される音声が存在する.従来の研究では歌声か,話声かのみを考えており,中間的な音声や歌声・話声以外を考慮していない.計算機で中間的な音声の評価ができれば人間の歌声らしさ・話声らしさの知覚機構解明に貢献できると考えられる.本報告ではF0・音韻長・パワーを制御することで中間的な音声を作る.合成した音声に対し聴取実験を行い,どのような制御が歌声らしさ・話声らしさ知覚に影響を与えるのか聴取実験で評価する.

    CiNii Books

    J-GLOBAL

    researchmap

  • Classification of Harmonic and Textural Keyboard Playing Style Using Acoustic Features

    JooYoung Ahn, 前澤 陽, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博

    情報処理学会 第73回全国大会   2011 ( 4C-2 )   17 - 18   2011年3月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    Keyboard playing is a widely used method to represent musical idea,which is played in either harmonic or textural styles. The goal ofthis paper is to classify such style of the user&#039;s keyboard playingfrom its audio signal. Because the acoustic features for suchclassification is poorly studied, we defined acoustic features whichrepresent harmonic and textural playing style, and classified actualpractical keyboard playings.

    CiNii Books

    researchmap

  • 調波パラメトリックNMFによる楽器演奏音響信号の分析合成

    安良岡 直希, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博

    情報処理学会 第73回全国大会   2011 ( 5R-1 )   293 - 294   2011年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    本稿では調波パラメトリックNonnegative Matrix Factorization (HPNMF) と呼ぶ新しい振幅スペクトログラムモデリング手法を用いた音源分離と演奏合成法について述べる.HPNMFでは,振幅スペクトログラムを直接因子分解するのではなく,各時刻のスペクトルを調波Gaussian Mixtureによりモデル化した上でその各倍音強度パラメータを楽曲全体で因子分解する.これにより基本周波数パラメータをNMFの枠組みの外側で適応でき,通常のNMFが苦手とするビブラート信号などを効率的に推定できる.HPNMFを用いて多重奏からの特定楽器パート音源分離と演奏音響信号再合成が高精度に実現されることを示す.

    CiNii Books

    J-GLOBAL

    researchmap

  • 多重奏音響信号中の歌唱音声の歌詞を自由に差し替える歌詞置換システム

    安良岡 直希, 糸山 克寿, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博

    日本音響学会 2010年秋期研究発表会   ( 2-7-7 )   2010年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • SpeakBySinging: 歌声を話声に変換する話声合成システム

    阿曽 慎平, 齋藤 毅, 後藤 真孝, 糸山克寿, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第86回音楽情報科学研究会   2010-MUS-86 ( 8 )   1 - 7   2010年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    Scopus

    researchmap

  • 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム

    安良岡 直希, 糸山克寿, 吉岡 拓也, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第86回音楽情報科学研究会   2010-MUS-86 ( 20 )   1 - 8   2010年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:情報処理学会  

    フレーズ置換とは,多重奏音響信号から特定パート演奏をユーザー指定の別楽譜による演奏に差し替えるものである.これは,1) 元々のフレーズ演奏成分を除去する音源分離の課題と,2)元演奏の音色や演奏表情を新しい演奏上で再現する演奏合成の課題からなる.我々は調波非調波Gaussian Mixture Model (GMM) による置換対象演奏モデルとNonnegative Matrix Factorizationによる伴奏モデルを用いて音源分離を行い,同時に調波非調波GMMから得た基本周波数,倍音強度などの音響特徴を新しい演奏楽譜のMIDI音源音響信号に転写することで元演奏の音響特性を持つ新しい演奏を合成する.本フレーズ置換法に対し1) 元の演奏が正しく除去されるか,2) 新しい演奏は元演奏の特徴を保持しているか,の2点を客観評価し,提案法の有効性を示す.

    CiNii Books

    researchmap

  • 楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用

    糸山 克寿, 後藤 真孝, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第72回全国大会   72 ( 6J-6 )   25 - 26   2010年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    J-GLOBAL

    researchmap

  • 調波非調波GMMに基づくMIDI演奏音響信号に対する音色・演奏表情操作

    安良岡 直希, 糸山 克寿, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第72回全国大会   72 ( 5T-5 )   183 - 184   2010年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    J-GLOBAL

    researchmap

  • F0・振幅・音韻長の制御により歌声を話声に変換する話声合成システムSpeakBySinging

    阿曽 慎平, 齋藤 毅, 後藤 真孝, 糸山 克寿, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第72回全国大会   72 ( 6U-1 )   295 - 296   2010年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    J-GLOBAL

    researchmap

  • 音響信号とコンテキスト制約を併用したバイオリンの演奏弦系列の推定

    前澤 陽, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博

    日本音響学会 2009年秋期研究発表会   ( 2-5-15 )   2009年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 音響信号と音楽的制約を統合したバイオリンの演奏弦系列の推定

    前澤 陽, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博

    情報処理学会 第81回音楽情報科学研究会   2009-MUS-81 ( 5 )   1 - 6   2009年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:情報処理学会  

    本報告ではコンテキストベースの規則と音響信号を併用したバイオリン演奏弦系列推定手法を提案する.音響信号から演奏弦系列を推定し,それの規則に合わない箇所を訂正することにより認識率の向上を図る.6 楽節での実験の結果,学習データと同一の弦の場合最大8%,平均 5%,別の銘柄の弦の場合最大 15%,平均 7% の認識率の向上が確認される.

    CiNii Books

    researchmap

  • 残差スペクトルモデルによる伴奏・残響成分抑制に基づいた楽器演奏分析合成の高精度化

    安良岡 直希, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博

    情報処理学会 第81回音楽情報科学研究会   2009-MUS-81 ( 10 )   1 - 6   2009年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:情報処理学会  

    本報告書では,楽器演奏音響信号の分析合成における,入力中の伴奏音や残響成分を抑制した分析手法を報告する.対象演奏パートの楽譜情報に合致しないスペクトル成分を表現する残差スペクトルモデルを導入し, これを用いて伴奏や残響を含む音響信号から対象の演奏を効率よく分離する. 調波非調波統合音モデルに用いた演奏分析をこの分離と同時に行い, 分析された音モデルを用いて未知楽譜への演奏を合成する.評価実験では, 伴奏付き演奏に対する分析精度が本手法によりスペクトル距離において平均 35.2% 改善し, また残響を含む演奏に対する分析合成精度の低下を回避できる事が確認された.

    CiNii Books

    researchmap

  • 複数楽器混合モデルのパラメータ推定と楽器名同定への応用

    糸山 克寿, 後藤 真孝, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第81回音楽情報科学研究会   2009-MUS-81 ( 13 )   1 - 6   2009年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:情報処理学会  

    本報告では,音源分離に適用可能な音モデルである,調波・非調波統合モデルを用いた複数楽器混合モデルのパラメータ推定とその楽器名同定への応用について述べる.観測パワースペクトルに適合する複数楽器混合モデルのパラメータは変分法に基づくベイズ推論を用いて推定する.調波・非調波統合モデルのパラメータ分布は楽器によって異なるため,楽器間相対重みが最大となる楽器を選択することで楽器名が同定される.楽器音データベース中から選択した 10 楽器に対する評価実験で,平均認識率 81.6% を得た.

    CiNii Books

    researchmap

  • 多重奏楽曲の楽器音量バランス変化による音楽ジャンルシフト

    糸山 克寿, 後藤 真孝, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第81回音楽情報科学研究会   2009-MUS-81 ( 3 )   1 - 6   2009年7月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:情報処理学会  

    本報告では,楽曲の楽器パート音量操作によってユーザがクエリをカスタマイズすることが可能な類似楽曲検索手法を提案する.楽曲の雰囲気やジャンルは楽曲を構成する楽器およびその音量バランスと強く関係する,という仮説に基づく.楽曲の音響信号を楽譜に基づいて楽器パートへと分離し,その分離信号の音量を操作することで楽曲の音響的特徴を変化させる.楽曲の音響特徴はガウス混合分布で表現され,楽曲間の類似性を分布間の Earth Movers Distance で定義する.実験により,歌声,ギター,ドラムスパートの音量を操作した際にジャンルシフトが起こることを示す.

    CiNii Books

    researchmap

  • Parameter Estimation for Harmonic and Inharmonic Models by Using Timbre Feature Distributions

    Katsutoshi Itoyama, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, HiroshiG.Okuno

    情報処理学会論文誌   50 ( 7 )   1757 - 1767   2009年7月

     詳細を見る

    記述言語:英語  

    We describe an improved way of estimating parameters for an integrated weighted-mixture model consisting of both harmonic and inharmonic tone models. Our final goal is to build an instrument equalizer (music remixer) that enables a user to change the volume of parts of polyphonic sound mixtures. To realize the instrument equalizer, musical signals must be separated into each musical instrument part. We have developed a score-informed sound source separation method using the integrated model. A remaining but critical problem is to find a way to deal with timbre varieties caused by various performance styles and instrument bodies because our method used template sounds to represent their timbre. Template sounds are generated from a MIDI tone generator based on an aligned score. Difference of instrument bodies between mixed signals and template sounds causes timbre difference and decreases separation performance. To solve this problem, we train probabilistic distributions of timbre features using various sounds to reduce template dependency. By adding a new constraint of maximizing the likelihood of timbre features extracted from each tone model, we can estimate model parameters that express the timbre more accurately. Experimental results show that separation performance improved from 4.89 to 8.48 dB.We describe an improved way of estimating parameters for an integrated weighted-mixture model consisting of both harmonic and inharmonic tone models. Our final goal is to build an instrument equalizer (music remixer) that enables a user to change the volume of parts of polyphonic sound mixtures. To realize the instrument equalizer, musical signals must be separated into each musical instrument part. We have developed a score-informed sound source separation method using the integrated model. A remaining but critical problem is to find a way to deal with timbre varieties caused by various performance styles and instrument bodies because our method used template sounds to represent their timbre. Template sounds are generated from a MIDI tone generator based on an aligned score. Difference of instrument bodies between mixed signals and template sounds causes timbre difference and decreases separation performance. To solve this problem, we train probabilistic distributions of timbre features using various sounds to reduce template dependency. By adding a new constraint of maximizing the likelihood of timbre features extracted from each tone model, we can estimate model parameters that express the timbre more accurately. Experimental results show that separation performance improved from 4.89 to 8.48 dB.

    CiNii Books

    researchmap

  • 連続発音中の音色変化に着目した未学習譜面上への演奏信号生成

    安良岡 直希, 安部 武宏, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博

    情報処理学会 第71回全国大会   71 ( 4R-1 )   217 - 218   2009年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    J-GLOBAL

    researchmap

  • 音色特徴量に基づく調波・非調波統合モデルによる楽器音モーフィング

    安部 武宏, 糸山 克寿, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第71回全国大会   71 ( 4R-2 )   219 - 220   2009年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    J-GLOBAL

    researchmap

  • Probabilistic Classification of Monophonic Instrument Playing Techniques

    前澤 陽, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博

    情報処理学会 第71回全国大会   71 ( 4R-3 )   221 - 222   2009年3月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    researchmap

  • A Music Retrieval Approach from Alternative Genres of Query by Adjusting Instrument Volume

    王 凱平, 糸山 克寿, 後藤 真孝, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第71回全国大会   71 ( 5R-5 )   239 - 240   2009年3月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    researchmap

  • ベース音高確率とクロマベクトルの相関を考慮した和音進行認識

    高野 秀樹, 須見 康平, 糸山 克寿, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第71回全国大会   71 ( 5R-6 )   241 - 242   2009年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    J-GLOBAL

    researchmap

  • 西洋古典歌唱における発声時の頭部、頸部、胸部の姿勢変化

    鈴木 茉莉緒, 進矢 正宏, 高橋 徹, 糸山 克寿, 奥乃 博, 小田 伸午

    京都体育学会   2009年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 音色の音高依存性を考慮した楽器音の音高操作手法 (特集 音楽情報処理)

    安部 武宏, 糸山 克寿, 吉井 和佳

    情報処理学会論文誌 論文誌ジャーナル   50 ( 3 )   1054 - 1066   2009年3月

     詳細を見る

    記述言語:日本語   出版者・発行元:情報処理学会  

    CiNii Books

    researchmap

  • 音響信号と音楽的制約を統合したバイオリンの演奏弦系列の推定

    前澤陽, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

    情報処理学会研究報告(CD-ROM)   2009 ( 2 )   2009年

     詳細を見る

  • 楽器音イコライザによる音色の類似度に基づく楽曲検索システム

    糸山克寿, 後藤 真孝, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第76回音楽情報科学研究会   2008 ( 78 (2008-MUS-076) )   143 - 148   2008年7月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,音楽音響信号中の楽器パートごとの音量を操作することを可能とするオーディオプレーヤー,楽器音イコライザについて述べる.Query-by-Example に基づく音楽情報検索システムを利用する際,多様な検索結果を得るためには検索のクエリとなる楽曲を複数用意する必要があるが,楽器音イコライザを用いて楽曲中の楽器パートの音量を操作しそれをクエリとすることで,一つの楽曲から多様な検索結果を得ることができる.音量操作のためには音楽音響信号はあらかじめ楽器パートごとに分離されている必要がある.分離には,調波・非調波統合モデルと呼ぶ,調波音と非調波音の両方を表現可能な音モデルを用いる.分離におけるパラメータ推定の精度を向上させるために,多数の楽器音を用いてモデルパラメータの事前分布を学習させる.

    CiNii Books

    J-GLOBAL

    researchmap

  • 音高による音色変化を考慮した楽器音の音高・音長操作手法

    安部 武宏, 糸山克寿, 吉井 和佳, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第76回音楽情報科学研究会   2008 ( 78 (2008-MUS-76) )   155 - 160   2008年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)   出版者・発行元:一般社団法人情報処理学会  

    本稿では,ある音高・音長をもつ楽器音を音色の特徴を歪ませることなく任意の音高・音長へ操作する手法について述べる.我々は音色の聴感上の差に関する音響心理学的知見に基づき,楽器音のスペクトログラム上での音色特徴量として(i) 倍音ピーク間の相対強度,(ii) 非調波成分の分布,(iii) 時間方向エンべロープの 3 つを定義する.これら音色特徴量の分析には糸山らの調波・非調波統合モデルを用いる.音高操作時には,音高に対する特徴量 (i) (ii) の分布を三次関数でモデル化し,所望の音高における特徴量の値を予測することで音高依存性を考慮する.音長操作時には,特徴量 (iii) の時間的変化がゆるやかな区間のみを伸縮させることで,楽器音の立ち上がりと立ち下がりを保存する.32 種類の楽器に対して音高操作を試みたところ,音高依存性を考慮しない場合と比べて合成音と実際の楽器音との MFCC 距離が 32.31% 減少した.

    CiNii Books

    J-GLOBAL

    researchmap

  • 楽器固有の音響的特徴を考慮した楽器音の音高操作手法

    安部 武宏, 糸山 克寿, 吉井 和佳, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第70回全国大会   70 ( 2X-7 )   437 - 438   2008年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    J-GLOBAL

    researchmap

  • 複数楽器個体による事前分布を用いた調波・非調波統合モデルのパラメータ推定

    糸山 克寿, 後藤 真孝, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第70回全国大会   70 ( 2X-6 )   435 - 436   2008年3月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    J-GLOBAL

    researchmap

  • 音楽と映像の調和度計算モデルを用いたクロスメディア検索

    斎藤 博己, 糸山 克寿, 吉井 和佳, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第70回全国大会   70 ( 4X-4 )   465 - 466   2008年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    J-GLOBAL

    researchmap

  • ベース音高を考慮したポピュラー音楽に対する和音進行認識

    須見 康平, 糸山 克寿, 吉井 和佳, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第70回全国大会   70 ( 2X-5 )   433 - 434   2008年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    CiNii Books

    J-GLOBAL

    researchmap

  • デモンストレーション:若手による研究紹介V

    浜中 雅俊, 西村 明, 高江洲 弘, 平井 重行, 糸山克寿, 吉野 祥之, 梶原祥平, 釘本 望美, 勝本道哲, 中野 倫靖, 伊藤 直樹, 中村 俊介, 長澤 槙子, 柴田 光太郎

    情報処理学会 第71回音楽情報科学研究会   2007 ( 81 (2007-MUS-071) )   127 - 136   2007年8月

     詳細を見る

    記述言語:日本語   掲載種別:講演資料等(セミナー,チュートリアル,講習,講義他)   出版者・発行元:一般社団法人情報処理学会  

    本デモセッションでは, 音楽情報処理の研究分野における若手研究者のさらなる発展に向けて, 若手による研究事例をデモンストレーション形式で紹介する.Toward further progresses of young researchers in the field of music information processing, we introduce case studies of demonstrations.

    CiNii Books

    researchmap

  • 音色特徴量分布の利用による調波・非調波統合モデルのパラメータ推定

    糸山 克寿, 後藤 真孝, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第71回音楽情報科学研究会   2007 ( 81 (2008-MUS-071) )   161 - 166   2007年8月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定

    糸山 克寿, 後藤 真孝, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第70回音楽情報科学研究会   2007 ( 37 (2007-MUS-070) )   81 - 88   2007年5月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • 楽譜情報を用いたNMFによる音楽音響信号の音源分離

    糸山 克寿, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第69回全国大会   ( 2N-1 )   159 - 160   2007年3月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

  • デモンストレーション:若手による研究紹介IV

    浜中 雅俊, 竹川 佳成, 岩井 憲一, 高橋 直也, 中野 倫靖, 大石康智, 糸山克寿, 北原 鉄朗, 吉井 和佳, 橋本 周司, 中野 倫靖, 後藤 真孝, 平賀 譲, 大石 康智, 伊藤 克亘, 武田 一哉, 糸山 克寿, 奥乃 博, 北原 鉄朗, 吉井 和佳

    情報処理学会 第67回音楽情報科学研究会   2006 ( 113 (2007-MUS-067) )   9 - 14   2006年10月

     詳細を見る

    記述言語:日本語   掲載種別:講演資料等(セミナー,チュートリアル,講習,講義他)   出版者・発行元:一般社団法人情報処理学会  

    本デモセッションでは,音楽情報処理の研究分野における若手研究者のさらなる発展に向けて,若手による研究事例をデモンストレーション形式で紹介する.

    CiNii Books

    researchmap

  • 多重奏中特定パートの自動採譜における複数特徴量の自動重み付け

    糸山 克寿, 北原 鉄朗, 駒谷 和範, 尾形 哲也, 奥乃 博

    情報処理学会 第68回全国大会   ( 2L-4 )   169 - 170   2006年3月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究発表ペーパー・要旨(全国大会,その他学術会議)  

    J-GLOBAL

    researchmap

▼全件表示

産業財産権

  • マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム

    中臺 一博, 段 雄啓, 糸山 克寿, 西田 健次

     詳細を見る

    出願人:本田技研工業株式会社

    出願番号:特願2019-034898  出願日:2019年2月

    公開番号:特開2020-141232  公開日:2020年9月

    researchmap

  • 音源定位装置、音源定位方法、およびプログラム

    中臺 一博, 正木 俊伍, 小島 諒介, 杉山 治, 糸山 克寿, 西田 健次

     詳細を見る

    出願人:本田技研工業株式会社

    出願番号:特願2019-034717  出願日:2019年2月

    公開番号:特開2020-141222  公開日:2020年9月

    researchmap

  • キャプション生成装置、キャプション生成方法、およびプログラム

    中臺 一博, 岩月 道生, 糸山 克寿, 西田 健次

     詳細を見る

    出願人:本田技研工業株式会社

    出願番号:特願2019-034979  出願日:2019年2月

    公開番号:特開2020-140050  公開日:2020年9月

    researchmap

  • 音源分離装置、音源分離方法、およびプログラム

    中臺 一博, 日下 湧太, 糸山 克寿, 西田 健次

     詳細を見る

    出願人:本田技研工業株式会社

    出願番号:特願2019-034713  出願日:2019年2月

    公開番号:特開2020-140041  公開日:2020年9月

    researchmap

  • 音響信号処理装置、音響信号処理方法及びプログラム

    糸山 克寿, 中臺 一博

     詳細を見る

    出願人:本田技研工業株式会社

    出願番号:特願2018-165504  出願日:2018年9月

    公開番号:特開2020-039057  公開日:2020年3月

    researchmap

  • 目的音響信号復元システム及び方法

    坂東 宜昭, 吉井 和佳, 糸山 克寿, 奥乃 博

     詳細を見る

    出願人:国立大学法人京都大学

    出願番号:特願2018-519566  出願日:2017年5月

    researchmap

  • 歌声信号分離方法及びシステム

    池宮 由楽, 吉井 和佳, 糸山 克寿

     詳細を見る

    出願人:国立大学法人京都大学

    出願番号:特願2015-034339  出願日:2015年2月

    公開番号:特開2016-156938  公開日:2016年9月

    researchmap

▼全件表示

共同研究・競争的資金等の研究課題

  • 動的環境における非同期分散マイクアレイの時空間キャリブレーション

    研究課題/領域番号:23K11160  2023年4月 - 2026年3月

    日本学術振興会  科学研究費助成事業  基盤研究(C)

    糸山 克寿

      詳細を見る

    配分額:4550000円 ( 直接経費:3500000円 、 間接経費:1050000円 )

    researchmap

  • 非同期分散マイクアレイにおけるキャリブレーションフリーモデルの研究

    研究課題/領域番号:19K12017  2019年4月 - 2022年3月

    日本学術振興会  科学研究費助成事業 基盤研究(C)  基盤研究(C)

    糸山 克寿

      詳細を見る

    担当区分:研究代表者 

    配分額:3900000円 ( 直接経費:3000000円 、 間接経費:900000円 )

    本研究課題では,キャリブレーション(マイクロホンやマイクロホンアレイのサンプリング周波数や位置のずれを精密な測定により事前に補正すること)を行わずに非同期分散マイクアレイ(複数のマイクロホンを同期させて用いるデバイスであるマイクロホンアレイに対して,独立した複数のマイクロホンをあたかもマイクロホンアレイであるかのように扱う)に対して音源定位や音源分離などのアレイ信号処理を実現することを目指す.具体的に,令和3年度は以下について取り組んだ.
    ・複数のマイクロホンアレイと複数の音源の位置・向き・時間オフセットなどを同時に推定するための,複数目的関数の統合について検討した.従来手法である2つの目的関数を順番に最適化する手法に対して,一方の目的関数中の項を変形してもう一方の目的関数に組み込むことで,目的関数を統合する手法を提案した.
    ・2次元および3次元空間でのシミュレーション実験で推定精度向上と計算時間低減について確認した.統合した目的関数を用いた手法は,従来手法と同程度のキャリブレーション性能をもち,かつ少ない計算量での最適化が行えることが明らかになった.一方で,統合した目的関数では好ましくない解(全てのマイクロホンアレイと音源の位置が一点に集まる)への収束が起こり得ることも明らかになった.
    これらの手法に基づいて,様々な前提条件がセンサアレイ構築に対して寄与する度合いを調査することで,アレイ信号処理の適用範囲が広がることが期待される.

    researchmap

  • 音声による種の識別システムを用いた鳥類モニタリング手法の開発

    研究課題/領域番号:16K16222  2016年4月 - 2019年3月

    日本学術振興会  科学研究費助成事業 若手研究(B)  若手研究(B)

    藤田 素子, 奥乃 博, 糸山 克寿, 鈴木 麗璽, 丸山 晃央

      詳細を見る

    担当区分:連携研究者 

    配分額:3380000円 ( 直接経費:2600000円 、 間接経費:780000円 )

    録音データからの機械的な種の識別システムは、①さえずりの検出、②さえずりの識別の2段階から構成されている。①の過程において、当初想定していた2チャンネルでの録音では解析時の検出率が低いといった問題がでてきた。その大きな理由は、同時にさえずっている複数の個体を分離できないことにあった。本研究課題では録音チャンネルを8つに増やし、ロボット聴覚ソフトウェアHARKを用いて解析を進めた。福井県およびインドネシアの森林において8チャンネルで録音したデータを解析したところ、同時にさえずっている個体の分離が可能であることが明らかになり、精度の高い識別のための基礎的な知見が得られた。

    researchmap

  • 混合音に対する複数同時発話認識のための統一的ベイズアプローチ

    研究課題/領域番号:15K12063  2015年4月 - 2017年3月

    日本学術振興会  科学研究費助成事業 挑戦的萌芽研究  挑戦的萌芽研究

    吉井 和佳, 河原 達也, 持橋 大地, 糸山 克寿

      詳細を見る

    担当区分:研究分担者 

    配分額:3640000円 ( 直接経費:2800000円 、 間接経費:840000円 )

    本研究では、音源分離を確率的に統合した同時発話音声認識を行う手法を提案した。音源分離により復元される音声信号には不確実性が存在するため、音声信号の事後分布を考慮することで音声認識との統合を行う。これにより、復元すべき音声を一意に定めることなく混合音から直接認識結果を得ることが可能となった。また、音の重畳過程と音源モデルを内包する統合モデルにより、高精度な音源分離を行う手法を考案した。具体的には、重畳過程・音源モデルに対して、混合モデル (LDA) および因子モデル (NMF) のそれぞれのモデル化を行うことで、各モデルの音源分離性能を比較評価した。

    researchmap

  • ロボット聴覚の実環境理解に向けた多面的展開

    研究課題/領域番号:24220006  2012年5月 - 2017年3月

    日本学術振興会  科学研究費助成事業 基盤研究(S)  基盤研究(S)

    奥乃 博, 中臺 一博, 公文 誠, 糸山 克寿, 吉井 和佳, 佐々木 洋子, 昆陽 雅司, 合原 一究, 鈴木 麗璽, 加賀美 聡, 田所 諭

      詳細を見る

    配分額:218140000円 ( 直接経費:167800000円 、 間接経費:50340000円 )

    本研究では,ロボット聴覚ソフトHARKの「聞き分ける技術」を基に,自然環境・災害現場でも通用するように,豊富な機能拡充・高性能化と応用に取り組んだ.HARKはWindows版提供により9万件弱のダウンロードがあった.多人数インタラクション,音楽共演ロボットの可能性を示し, iGSVD-MUSICの開発によるUAV用音源定位の頑健化,索状ロボット用に姿勢推定・音声強調の開発により,レスキューロボットへの音利用の可能性を示し,さらに,カエルの合唱の解明,野鳥の鳴交解析のためのHARKBirdの開発と実地検証により音響生態学への可能性を実証し,ロボット聴覚の多面的展開のための基礎技術が確立できた.

    researchmap

  • 統計的機械学習による音楽情景分析と音楽的要素のディレクションの研究

    研究課題/領域番号:24700168  2012年4月 - 2015年3月

    日本学術振興会  科学研究費助成事業 若手研究(B)  若手研究(B)

    糸山 克寿

      詳細を見る

    担当区分:研究代表者 

    配分額:4420000円 ( 直接経費:3400000円 、 間接経費:1020000円 )

    本研究では,以下を達成した.(1)ノンパラメトリックベイズ法に基づく音楽音響信号の分析手法, (2) ベイズ推定に基づく和音の認識,(3)音楽音響信号からのバイオリン運指推定,(4)仮想楽器音源パラメータを推定,(5)ギター演奏者の習熟度に応じたタブ譜自動生成,(6)歌い方の特徴を抽出し歌手の歌い方のライブラリを作成,(7) 歌声と伴奏を分離し,歌声にビブラートやこぶしなどの歌唱表現を付与する音楽編集システムを開発,(8) 音響信号に対する残響抑圧,(9) 反復的な和音・音高推定方法の開発.

    researchmap

  • ロボット聴覚の実環境理解に向けた多面的展開

    研究課題/領域番号:24240035  2012年

    日本学術振興会  科学研究費助成事業 基盤研究(A)  基盤研究(A)

    奥乃 博, 加賀美 聡, 糸山 克寿, 公文 誠, 中臺 一博

      詳細を見る

    担当区分:研究分担者 

    配分額:21060000円 ( 直接経費:16200000円 、 間接経費:4860000円 )

    音は画像と比べ拡散性が強いので,ロボット聴覚による音環境理解は,画像だけでは捉えきれない環境でも理解できる一方,広域から得られる情報の活用方法が課題となる.本研究課題では,既開発のロボット聴覚を基に,実環境音環境理解が可能な安全安心のためのロボット聴覚技術の多面的展開を目的とする.
    具体的には,
    WP1:多様なマイクロフォンコンフィグレーションへの展開,HARK-16の性能向上や分散設置された複数のマイクロホンアレイの同期方法,
    WP2:室内から屋外への展開,室内での音響マップ作成から無人飛行機による空中からの音の取得と音源定位,
    WP3:音声から楽音・環境音を含めた音一般への展開,特にノンパラメトリックベイズ信号処理,音光変換による動物音響学,楽器演奏音からの楽器音実時間分離,環境音の擬音語認識,
    に取り組むことになっていた.研究開始から辞退までの2ヶ月間で,実験装置の準備と,無人ヘリコプタの使用の詳細化,無人ヘリコプタ搭載用のマルチチャネルAD装置の設計,特に,非同期分散マイクの処理を高性能化するための時間情報付き音響データ転送方式の設計を行った.また,
    HARK-Binauralの洗練化,移動音源を対象とした音源定位のベイズ手法の開発,ベイズ手法による突発音や反射音を抑制したMUSIC(Multiple Signal Classification)法の開発,音源の活動状況と音源分離とを同時に推定するノンパラメトリックベイズ手法によるIVA法の開発,楽器音の音モデルのゆらぎを許容する多重演奏曲の楽器音分離法の開発,バンドパスフィルタを用いたカエルホタルの高機能化などに取り組んだ.

    researchmap

  • 音楽音響信号の音源分離における統合的理論の構築とその応用

    研究課題/領域番号:08J02757  2008年 - 2010年

    日本学術振興会  科学研究費助成事業 特別研究員奨励費  特別研究員奨励費

    糸山 克寿

      詳細を見る

    担当区分:研究代表者 

    配分額:1800000円 ( 直接経費:1800000円 )

    本年度は,音源分離と楽器名同定の同時処理,および音源分離の応用としての類似楽曲検索システムに関する研究に取り組み,論文を発表した.
    1.複数楽器混合モデルのパラメータ推定と楽器名同定への応用 複雑な音楽音響信号中の楽器音を認識し,信号からその構成要素である楽器音や歌声を分離することは,近年の音楽情報処理における重要な要素技術である.混合音の音楽音響信号および楽曲中の各単音の音高と発音区間を入力として,各単音の分離音響信号と楽器名同定結果を出力する問題に取り組んだ.2~3楽器音の混合音に対して楽器音を分離しそれぞれの楽器名を同定する実験を行ったところ,2音の混合に対する平均音源同定正解率は72.1%,3音に対しては54.8%であった.音源分離性能は2音,3音のそれぞれに対して平均対数スペクトル距離が3.12,3.65であった.さらに,楽器名同定の正解によって音源分離性能が向上することを確認した.
    2.楽器音イコライザによる音色の類似度に基づく楽曲検索システム 類似楽曲検索とは,ユーザが指定した楽曲をクエリとして与え,楽曲を類似性に基づいてランキングする検索手法である.楽器音量バランスを操作したクエリ楽曲を用いて類似楽曲検索を行い,検索結果のジャンルからクエリ楽曲のジャンルシフトを調査した.楽器音量バランスとジャンルシフトとの間には合理的な関係があり,音楽ジャンルの典型的なイメージと整合していることが確認できた.ボーカルパートとドラムスパートでは,分離音と原音で同じ傾向のジャンルシフトが確認されたが,ギターパートでは異なっていた.

    researchmap

  • 音環境理解に基づくロボット聴覚の構築

    研究課題/領域番号:19100003  2007年 - 2011年

    日本学術振興会  科学研究費助成事業 基盤研究(S)  基盤研究(S)

    奥乃 博, 尾形 哲也, 駒谷 和範, 高橋 徹, 白松 俊, 中臺 一博, 北原 鉄朗, 糸山 克寿, 浅野 太, 浅野 太

      詳細を見る

    担当区分:研究分担者 

    配分額:119340000円 ( 直接経費:91800000円 、 間接経費:27540000円 )

    音環境理解の主要機能である混合音の音源定位・分離・認識技術を開発し,ロボット聴覚ソフトウエアHARKとして公開し,国内外で複数の講習会を実施した. HARKを応用し,複数話者同時発話を認識する聖徳太子ロボット,ユーザの割込発話を許容する対話処理などを開発し,その有効性を実証した.さらに,多重奏音楽演奏から書くパート演奏を聞き分ける技術,実時間楽譜追跡機能を開発し,人と共演をする音楽ロボットなどに応用した。

    researchmap

▼全件表示