研究者詳細 - 糸山　克寿

2026/04/28 更新

写真a

イトヤマ　カツトシ

糸山　克寿

ITOYAMA KATSUTOSHI

所属

工学院准教授

外部リンク

学位

Ph.D. (Informatics) （ Kyoto University ）

研究キーワード

動物音声分析
ロボット聴覚
音楽情報処理
統計的音響信号処理

研究分野

情報通信 / 知能情報学 / 統計的音響信号処理, 音楽情報処理, ロボット聴覚, 動物音声分析

学歴

京都大学大学院情報学研究科知能情報学専攻

2008年4月 - 2011年3月

　詳細を見る

国名：日本国

備考：博士後期課程

researchmap
京都大学大学院情報学研究科知能情報学専攻

2006年4月 - 2008年3月

　詳細を見る

国名：日本国

備考：修士課程

researchmap
京都大学工学部情報学科

2002年4月 - 2006年3月

　詳細を見る

国名：日本国

備考：計算機科学コース

researchmap

経歴

東京工業大学工学院システム制御系特任准教授

2021年4月 - 現在

　詳細を見る

国名：日本国

researchmap
東京工業大学工学院システム制御系特任講師

2018年4月 - 2021年3月

　詳細を見る

国名：日本国

researchmap
京都大学大学院情報学研究科知能情報学専攻助教

2011年6月 - 2018年3月

　詳細を見る

国名：日本国

researchmap
京都大学大学院情報学研究科知能情報学専攻特定助教

2011年4月 - 2011年5月

　詳細を見る

国名：日本国

researchmap

所属学協会

情報処理学会

　詳細を見る

researchmap
日本ロボット学会

　詳細を見る

researchmap
IEEE

　詳細を見る

researchmap
日本音響学会

　詳細を見る

researchmap

委員歴

電子情報通信学会ソサイエティ論文誌編集委員会査読委員

2020年6月 - 現在

　詳細を見る

団体区分：学協会

researchmap
情報処理学会音楽情報科学研究会幹事

2020年4月 - 現在

　詳細を見る

団体区分：学協会

researchmap
情報処理学会音楽情報科学研究会運営委員

2016年4月 - 2020年3月

　詳細を見る

団体区分：学協会

researchmap
情報処理学会音楽情報科学研究会運営委員

2011年4月 - 2015年3月

　詳細を見る

団体区分：学協会

researchmap
10th International Society for Music Information Retrieval Conference Local Organizing Committee

　詳細を見る

団体区分：学協会

researchmap

論文

An Efficient GPU-based Implementation for Noise Robust Sound Source Localization.

Zirui Lin, Masayuki Takigahira, Naoya Terakado, Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano

CoRR abs/2504.03373 2025年4月

　詳細を見る

掲載種別：研究論文（学術雑誌）

DOI： 10.48550/arXiv.2504.03373

researchmap
話者情報の半教師あり学習を用いたオフライン話者ダイアライゼーション

阿坂脩平, Yen Benjamin, 糸山克寿, 中臺一博

人工知能学会第二種研究会資料 2024 ( Challenge-066 ) 04 2024年12月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人人工知能学会

DOI： 10.11517/jsaisigtwo.2024.challenge-066_04

CiNii Research

researchmap
小領域移動物体検出における背景フローの弁別手法

西田健次, 中臺一博, 糸山克寿

人工知能学会第二種研究会資料 2024 ( Challenge-066 ) 10 2024年12月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人人工知能学会

DOI： 10.11517/jsaisigtwo.2024.challenge-066_10

CiNii Research

researchmap
Can all variations within the unified mask-based beamformer framework achieve identical peak extraction performance?

Atsuo Hiroe, Katsutoshi Itoyama, Kazuhiro Nakadai

EURASIP Journal on Audio, Speech, and Music Processing 2024 ( 1 ) 66 - 66 2024年12月

　詳細を見る

掲載種別：研究論文（学術雑誌）

DOI： 10.1186/s13636-024-00387-x

researchmap
Bird Vocalization Embedding Extraction Using Self-Supervised Disentangled Representation Learning.

Runwu Shi, Katsutoshi Itoyama, Kazuhiro Nakadai

CoRR abs/2412.20146 2024年

　詳細を見る

掲載種別：研究論文（学術雑誌）

DOI： 10.48550/arXiv.2412.20146

researchmap
UAV-Enhanced Combination to Application: Comprehensive Analysis and Benchmarking of a Human Detection Dataset for Disaster Scenarios.

Ragib Amin Nihal, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai

ICPR (14) 145 - 162 2024年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1007/978-3-031-78341-8_10

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/icpr/icpr2024-14.html#NihalYIN24
Improving Impressions of Response Delay in AI-based Spoken Dialogue Systems.

Shuhei Asaka, Katsutoshi Itoyama, Kazuhiro Nakadai

33rd IEEE International Conference on Robot and Human Interactive Communication(RO-MAN) 1416 - 1421 2024年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/RO-MAN60168.2024.10731216

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/ro-man/ro-man2024.html#AsakaIN24
LCMV-based Scan-and-Sum Beamforming for Region Source Extraction.

Aoto Yasue, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai

APSIPA 1 - 6 2024年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/APSIPAASC63619.2025.10848984

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/apsipa/apsipa2024.html#Yasue0IN24
A Video Vision Transformer for Sound Source Localization.

Haruto Yokota, Mert Bozkurtlar, Benjamin Yen 0001, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

32nd European Signal Processing Conference(EUSIPCO) 106 - 110 2024年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

researchmap

その他リンク： https://dblp.uni-trier.de/rec/conf/eusipco/2024
UAV-Enhanced Combination to Application: Comprehensive Analysis and Benchmarking of a Human Detection Dataset for Disaster Scenarios.

Ragib Amin Nihal, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai

CoRR abs/2408.04922 2024年

　詳細を見る

掲載種別：研究論文（学術雑誌）

DOI： 10.48550/arXiv.2408.04922

researchmap
Can all variations within the unified mask-based beamformer framework achieve identical peak extraction performance?

Atsuo Hiroe, Katsutoshi Itoyama, Kazuhiro Nakadai

CoRR abs/2407.15310 2024年

　詳細を見る

掲載種別：研究論文（学術雑誌）

DOI： 10.48550/arXiv.2407.15310

researchmap
SLAM-based Joint Calibration of Multiple Asynchronous Microphone Arrays and Sound Source Localization.

Jiang Wang, Yuanzheng He, Daobilige Su, Katsutoshi Itoyama, Kazuhiro Nakadai, Junfeng Wu 0001, Shoudong Huang, Youfu Li 0001, He Kong

CoRR abs/2405.19813 2024年

　詳細を見る

掲載種別：研究論文（学術雑誌）

DOI： 10.48550/arXiv.2405.19813

researchmap
From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection with Super Resolution.

Ragib Amin Nihal, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai

CoRR abs/2401.14661 2024年

　詳細を見る

掲載種別：研究論文（学術雑誌）

DOI： 10.48550/arXiv.2401.14661

researchmap
Real Time Sound Source Localization Using von-Mises ResNet.

Mert Bozkurtlar, Benjamin Yen 0001, Katsutoshi Itoyama, Kazuhiro Nakadai

SII 466 - 471 2024年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/SII58957.2024.10417224

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/sii/sii2024.html#BozkurtlarYIN24
SLAM-Based Joint Calibration of Multiple Asynchronous Microphone Arrays and Sound Source Localization.

Jiang Wang, Yuanzheng He, Daobilige Su, Katsutoshi Itoyama, Kazuhiro Nakadai, Junfeng Wu 0001, Shoudong Huang, Youfu Li 0001, He Kong

IEEE Trans. Robotics 40 4024 - 4044 2024年

　詳細を見る

掲載種別：研究論文（学術雑誌）

DOI： 10.1109/TRO.2024.3410456

researchmap
Improving Noise Robustness of Automatic Speech Recognition Based on a Parallel Adapter Model with Near-Identity Initialization.

Takahiro Osaki, Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

IEA/AIE 454 - 466 2024年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1007/978-981-97-4677-4_37

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/ieaaie/ieaaie2024.html#OsakiSINN24
FPGA-based Low Power Acceleration of HARK Sound Source Localization.

Zirui Lin, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano

COOL CHIPS 1 - 6 2024年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/COOLCHIPS61292.2024.10531180

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/coolchips/coolchips2024.html#LinINA24
FPGA based Power-Efficient Edge Server to Accelerate Speech Interface for Socially Assistive Robotics 査読

Haris Gulzar, Muhammad Shakeel, Katsutoshi Itoyama, Kazuhiro Nakadai, Kenji Nishida, Hideharu Amano, Takeharu Eda

2023 IEEE/SICE International Symposium on System Integration (SII) 2023年1月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/sii55687.2023.10039093

researchmap
An Ensemble Method for Multiple Speech Enhancement Using Deep Learning 査読

Masahiko Fujita, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2023 IEEE/SICE International Symposium on System Integration (SII) 2023年1月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/sii55687.2023.10039167

researchmap
Metric-Based Multimodal Meta-Learning for Human Movement Identification Via Footstep Recognition 査読

Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2023 IEEE/SICE International Symposium on System Integration (SII) 2023年1月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/sii55687.2023.10039089

researchmap
Audio-Visual Class Association Based on Two-stage Self-supervised Contrastive Learning towards Robust Scene Analysis 査読

Kei Suzuki, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2023 IEEE/SICE International Symposium on System Integration (SII) 2023年1月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/sii55687.2023.10039379

researchmap
Assessment of Simultaneous Calibration for Positions, Orientations, and Time Offsets in Multiple Microphone Arrays Systems 査読

Chishio Sugiyama, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2023 IEEE/SICE International Symposium on System Integration (SII) 2023年1月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/sii55687.2023.10039440

researchmap
Reconstruction of Depth Scenes Based on Echolocation 査読

Hidehiko Kishinami, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2023 IEEE/SICE International Symposium on System Integration (SII) 2023年1月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/sii55687.2023.10039271

researchmap
Classification of Ball Rotation Direction Using Hitting Sound in Tennis and Investigation of Generalization Performance Improvement

Naoki Yamamoto, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

Proceedings of IEEE/SICE International Symposium on System Integration (SII 2023) 2023年1月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Is the Ideal Ratio Mask Really the Best? - Exploring the Best Extraction Performance and Optimal Mask of Mask-based Beamformers.

Atsuo Hiroe, Katsutoshi Itoyama, Kazuhiro Nakadai

CoRR abs/2309.12065 2023年

　詳細を見る

掲載種別：研究論文（学術雑誌）

DOI： 10.48550/arXiv.2309.12065

researchmap
Unsupervised Domain Adaptation of Universal Source Separation Based on Neural Full-Rank Spatial Covariance Analysis.

Takahiro Aizawa, Yoshiaki Bando, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai, Masaki Onishi

MLSP 1 - 6 2023年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/MLSP55844.2023.10285999

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/mlsp/mlsp2023.html#AizawaBINNO23
Improving Sign Language Understanding Introducing Label Smoothing.

Tan Sihan, Khan Nabeela Khanum, Katsutoshi Itoyama, Kazuhiro Nakadai

RO-MAN 113 - 118 2023年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/RO-MAN57019.2023.10309531

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/ro-man/ro-man2023.html#SihanKIN23
miniStreamer: Enhancing Small Conformer with Chunked-Context Masking for Streaming ASR Applications on the Edge.

Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai

INTERSPEECH 3277 - 3281 2023年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.21437/Interspeech.2023-1162

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/interspeech/interspeech2023.html#GulzarBEIN23
Is the Ideal Ratio Mask Really the Best? - Exploring the Best Extraction Performance and Optimal Mask of Mask-based Beamformers.

Atsuo Hiroe, Katsutoshi Itoyama, Kazuhiro Nakadai

APSIPA ASC 1843 - 1850 2023年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/APSIPAASC58517.2023.10317440

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/apsipa/apsipa2023.html#HiroeIN23
Development of a continuum robot enhanced with distributed sensors for search and rescue

Yu Yamauchi, Yuichi Ambe, Hikaru Nagano, Masashi Konyo, Yoshiaki Bando, Eisuke Ito, Solvi Arnold, Kimitoshi Yamazaki, Katsutoshi Itoyama, Takayuki Okatani, Hiroshi G. Okuno, Satoshi Tadokoro

ROBOMECH Journal 9 ( 1 ) 2022年12月

　詳細を見る

掲載種別：研究論文（学術雑誌）出版者・発行元：Springer Science and Business Media LLC

Abstract

Continuum robots can enter narrow spaces and are useful for search and rescue missions in disaster sites. The exploration efficiency at disaster sites improves if the robots can simultaneously acquire several pieces of information. However, a continuum robot that can simultaneously acquire information to such an extent has not yet been designed. This is because attaching multiple sensors to the robot without compromising its body flexibility is challenging. In this study, we installed multiple small sensors in a distributed manner to develop a continuum-robot system with multiple information-gathering functions. In addition, a field experiment with the robot demonstrated that the gathered multiple information has a potential to improve the searching efficiency. Concretely, we developed an active scope camera with sensory functions, which was equipped with a total of 80 distributed sensors, such as inertial measurement units, microphones, speakers, and vibration sensors. Herein, we consider space-saving, noise reduction, and the ease of maintenance for designing the robot. The developed robot can communicate with all the attached sensors even if it is bent with a minimum bending radius of 250 mm. We also developed an operation interface that integrates search-support technologies using the information gathered via sensors. We demonstrated the survivor search procedure in a simulated rubble environment of the Fukushima Robot Test Field. We confirmed that the information provided through the operation interface is useful for searching and finding survivors. The limitations of the designed system are also discussed. The development of such a continuum robot system, with a great potential for several applications, extends the application of continuum robots to disaster management and will benefit the community at large.

DOI： 10.1186/s40648-022-00223-x

researchmap

その他リンク： https://link.springer.com/article/10.1186/s40648-022-00223-x/fulltext.html
低解像度画像からの小領域物体の検出手法の検討

西田健次, 糸山克寿, 中臺一博

人工知能学会第二種研究会資料 2022 ( Challenge-061 ) 03 2022年11月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人人工知能学会

野鳥の生態観測のための全天録画画像から、実際に野鳥の録画されている時間帯を切り出す手法について検討を行った。野鳥に対する画像解像度が低く、また、樹木の枝などでのオクルージョンが繰り返されるため、通常の物体検出、物体追跡手法では対応が難しい。野鳥自体の動き、野鳥による樹木の枝の動きを手掛かりとして、検出・追跡を行う手法について検討した。

DOI： 10.11517/jsaisigtwo.2022.challenge-061_03

CiNii Research

researchmap
PyHARK: HARKのオンライン・オフライン処理用Pythonパッケージ

中臺一博, 糸山克寿, 瀧ヶ平将行

人工知能学会第二種研究会資料 2022 ( Challenge-061 ) 04 2022年11月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人人工知能学会

本稿では，ロボット聴覚オープンソースソフトウェア HARK 3.4 で新規に導入されるPyHARK をHARK講習会に先立ち紹介する。PyHARK は HARK の Python インタフェースを提供するパッケージであり，Python から HARK の機能のオンライン・オフライン呼び出しを可能にする実装である。そのアーキテクチャ，既存のHARKとの違い，使い方を中心に解説する。

DOI： 10.11517/jsaisigtwo.2022.challenge-061_04

CiNii Research

researchmap
複数音源追跡におけるドローン群の行動計画の検討

山田泰基, 糸山克寿, 西田健次, 中臺一博

人工知能学会第二種研究会資料 2022 ( Challenge-061 ) 07 2022年11月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人人工知能学会

DOI： 10.11517/jsaisigtwo.2022.challenge-061_07

CiNii Research

researchmap
任意の混合音を入力としたマイクロホンアレイ形状のキャリブレーション

糸山克寿, 中臺一博

人工知能学会第二種研究会資料 2022 ( Challenge-061 ) 11 2022年11月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人人工知能学会

本稿では，マイクロホンアレイの形状，すなわち各マイクロホンの位置をキャリブレーションする手法について述べる．特殊な試験音ではなく任意の混合音を入力とするため，(1)基準位置に基づくマイクロホン位置の事前確率、(2)音源スペクトルの事前確率、(3)録音スペクトルの条件付確率の3つの確率の積として定義されるスペクトルの確率的生成モデルに基づく反復アルゴリズムで推定を行う．

DOI： 10.11517/jsaisigtwo.2022.challenge-061_11

CiNii Research

researchmap
Outdoor evaluation of sound source localization for drone groups using microphone arrays 査読

Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2022年10月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/iros47612.2022.9982039

researchmap
Spotforming by NMF Using Multiple Microphone Arrays 査読

Yasuhiro Kagimoto, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2022年10月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/iros47612.2022.9981808

researchmap
Weakly-Supervised Neural Full-Rank Spatial Covariance Analysis for a Front-End System of Distant Speech Recognition 査読

Yoshiaki Bando, Takahiro Aizawa, Katsutoshi Itoyama, Kazuhiro Nakadai

Interspeech 2022 3824 - 3828 2022年9月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/interspeech.2022-11077

researchmap
Optimization of Microphone Array Placement for Sound Source Localization Using Drones with Microphone Arrays

Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

Second International Symposium on Noise from UAVs UASs and eVTOLs (Quiet Drones 2022) 39 2022年7月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

researchmap
アンサンブル時間周波数マスクとビームフォーミングを組み合わせた音声強調手法の評価査読

藤田雅彦, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会誌 40 ( 7 ) 631 - 634 2022年7月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）

DOI： 10.7210/jrsj.40.631

researchmap
エコロケーションに基づく視覚シーンの再構成手法の提案と入力特徴量の検討査読

岸波華彦, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会誌 40 ( 4 ) 351 - 354 2022年4月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）

DOI： 10.7210/jrsj.40.351

researchmap
System-on-Chip based Edge Device for Speech Commands Recognition 査読

Haris Gulzar, Muhammad Shakeel, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano

2022 IEEE Symposium in Low-Power and High-Speed Chips (COOL CHIPS) 2022年4月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Introduction to robot audition technology for bird localization and classification in the wild

Kazuhiro Nakadai, Ryo Yamamoto, Katsutoshi Itoyama, Kenji Nishida, Shiho Matsubayashi, Reiji Suzuki, Hiroshi G. Okuno

2022年

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）

researchmap
複数マイクロホンアレイを用いたNMFによる空間音源分離法の残響下での評価

鍵本泰宏, 糸山克寿, 西田健次, 中臺一博

人工知能学会第二種研究会資料 2021 ( Challenge-058 ) 05 2021年11月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人人工知能学会

DOI： 10.11517/jsaisigtwo.2021.challenge-058_05

CiNii Research

researchmap
Multichannel environmental sound segmentation: with separately trained spectral and spatial features

Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

Applied Intelligence 51 ( 11 ) 8245 - 8259 2021年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Springer

DOI： 10.1007/s10489-021-02314-5

Scopus

researchmap
CASE: CNN Acceleration for Speech-Classification in Edge-Computing 査読

Haris Gulzar, Muhammad Shakeel, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano

2021 IEEE Cloud Summit 63 - 68 2021年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ieeecloudsummit52029.2021.00018

researchmap
Assessment of sound source tracking using multiple drones equipped with multiple microphone arrays

Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

International Journal of Environmental Research and Public Health 18 ( 17 ) 2021年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：MDPI

DOI： 10.3390/ijerph18179039

Scopus

PubMed

researchmap
Assessment of von Mises-Bernoulli Deep Neural Network in Sound Source Localization 査読

Katsutoshi Itoyama, Yoshiya Morimoto, Shungo Masaki, Ryosuke Kojima, Kenji Nishida, Kazuhiro Nakadai

Interspeech 2021 2152 - 2156 2021年8月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/interspeech.2021-1050

researchmap
Simultaneous Calibration of Positions, Orientations, and Time Offsets, Among Multiple Microphone Arrays 査読

Chishio Sugiyama, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2021 IEEE International Conference on Autonomous Systems (ICAS) 2021年8月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/icas49788.2021.9551166

researchmap
Detecting earthquakes: a novel deep learning-based approach for effective disaster response 査読

Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

Applied Intelligence 2021年4月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Springer Science and Business Media LLC

DOI： 10.1007/s10489-021-02285-7

researchmap

その他リンク： http://link.springer.com/article/10.1007/s10489-021-02285-7/fulltext.html
EMC: Earthquake Magnitudes Classification on Seismic Signals via Convolutional Recurrent Networks 査読

Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2021 IEEE/SICE International Symposium on System Integration (SII) 388 - 393 2021年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ieeeconf49454.2021.9382696

researchmap
Multi-channel Environmental Sound Segmentation utilizing Sound Source Localization and Separation U-Net

Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2021 IEEE/SICE International Symposium on System Integration (SII) 382 - 387 2021年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ieeeconf49454.2021.9382730

researchmap
Assessment of a Beamforming Implementation Developed for Surface Sound Source Separation 査読

Zhi Zhong, Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2021 IEEE/SICE International Symposium on System Integration (SII 2021) 369 - 374 2021年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ieeeconf49454.2021.9382648

researchmap
Sound Source Tracking Using Integrated Direction Likelihood for Drones with Microphone Arrays 査読

Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2021 IEEE/SICE International Symposium on System Integration (SII) 394 - 399 2021年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ieeeconf49454.2021.9382619

researchmap
重み付け尤度関数と定在波を用いた可聴音による二次元環境認識査読

岸波華彦, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会誌 39 ( 3 ) 271 - 274 2021年

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：日本ロボット学会

DOI： 10.7210/jrsj.39.271

researchmap
Detection of Ball Spin Direction using Hitting Sound in Tennis 査読

30 - 37 2020年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.5220/0010107600300037

researchmap
Sound event aware environmental sound segmentation with Mask U-Net

Y. Sudo, K. Itoyama, K. Nishida, K. Nakadai

Advanced Robotics 34 ( 20 ) 1280 - 1290 2020年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Robotics Society of Japan

DOI： 10.1080/01691864.2020.1829040

Scopus

researchmap
Synchronization of microphones based on rank minimization of warped spectrum for asynchronous distributed recording 査読

Katsutoshi Itoyama, Kazuhiro Nakadai

2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS2020) 4842 - 4847 2020年10月

　詳細を見る

担当区分：筆頭著者,　責任著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Onset-informed source separation using non-negative matrix factorization with binary masks 査読

Yuta Kusaka, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

23rd International Conference on Digital Audio Effects (DAFx2020) 289 - 296 2020年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Calibration of a microphone array based on a probabilistic model of microphone positions 査読

Katsuhiro Dan, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

Trends in Artificial Intelligence Theory and Applications. Artificial Intelligence Practices (IEA/AIE 2020) 614 - 625 2020年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1007/978-3-030-55789-8_53

researchmap
Bayesian Singing Transcription Based on a Hierarchical Generative Model of Keys, Musical Notes, and F0 Trajectories 査読

Ryo Nishikimi, Eita Nakamura, Masataka Goto, Katsutoshi Itoyama, Kazuyoshi Yoshii

IEEE/ACM Transactions on Audio, Speech, and Language Processing 28 1678 - 1691 2020年5月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

DOI： 10.1109/TASLP.2020.2996095

researchmap
Design and assessment of a scan-and-sum beamformer for surface sound source separation 査読

Zhi Zhong, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2020 IEEE/SICE International Symposium on System Integration (SII2020) 808 - 813 2020年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/SII46433.2020.9025981

researchmap
Audio-visual 3D reconstruction framework for dynamic scenes 査読

Takashi Konno, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

2020 IEEE/SICE International Symposium on System Integration (SII2020) 802 - 807 2020年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/SII46433.2020.9025812

researchmap
Sound source tracking by drones with microphone arrays 査読

Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2020 IEEE/SICE International Symposium on System Integration (SII2020) 796 - 801 2020年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/SII46433.2020.9026185

researchmap
Sound source localization based on von-Mises-Bernoulli deep neural network 査読

Kazuhiro Nakadai, Shungo Masaki, Ryosuke Kojima, Osamu Sugiyama, Katsutoshi Itoyama, Kenji Nishida

2020 IEEE/SICE International Symposium on System Integration (SII2020) 658 - 663 2020年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/SII46433.2020.9025880

researchmap
Multi-channel environmental sound segmentation 査読

Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2020 IEEE/SICE International Symposium on System Integration (SII2020) 820 - 825 2020年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/SII46433.2020.9025963

researchmap
Environmental sound segmentation utilizing mask U-Net 査読

Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019) 5340 - 5345 2019年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/IROS40897.2019.8967954

researchmap
Improvement of DOA estimation by using quaternion output in sound event localization and detection 査読

Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2019 DCASE Workshop 244 - 247 2019年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Joint transcription of lead, bass, and rhythm guitars based on a factorial hidden semi-Markov model 査読

Kentaro Shibata, Ryo Nishikimi, Satoru Fukayama, Masataka Goto, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019) 236 - 240 2019年5月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ICASSP.2019.8682817

researchmap
2D sound source position estimation using microphone arrays and its application to a VR-based bird song analysis system 査読

Daniel Gabriel, Ryosuke Kojima, Kotaro Hoshiba, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

Advanced Robotics 33 ( 7-8 ) 403 - 414 2019年3月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

DOI： 10.1080/01691864.2019.1598491

researchmap
Unsupervised speech enhancement based on multichannel NMF-informed beamforming for noise-robust automatic speech recognition 査読

Kazuki Shimada, Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

IEEE/ACM Transactions on Audio, Speech, and Language Processing 27 ( 5 ) 960 - 971 2019年3月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

DOI： 10.1109/TASLP.2019.2907015

researchmap
ImPACT-TRC thin serpentine robot platform for urban search and rescue

Masashi Konyo, Yuichi Ambe, Hikaru Nagano, Yu Yamauchi, Satoshi Tadokoro, Yoshiaki Bando, Katsutoshi Itoyama, Hiroshi G. Okuno, Takayuki Okatani, Kanta Shimizu, Eisuke Ito

Disaster Robotics 25 - 76 2019年1月

　詳細を見る

記述言語：英語出版者・発行元：Springer

DOI： 10.1007/978-3-030-05321-5_2

researchmap
Design and assessment of multiple-sound source localization using microphone arrays 査読

Daniel Gabriel, Ryosuke Kojima, Kotaro Hoshiba, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2019 IEEE/SICE International Symposium on System Integration (SII 2019) 199 - 204 2019年1月

　詳細を見る

掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/SII.2019.8700368

researchmap
能動スコープカメラの極限ロボット聴覚

坂東宜昭, 安部祐一, 糸山克寿, 奥乃博

日本ロボット学会誌 37 ( 9 ) 808 - 813 2019年

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人日本ロボット学会

<p></p>

DOI： 10.7210/jrsj.37.808

CiNii Books

researchmap
Development of Tough Snake Robot Systems

Fumitoshi Matsuno, Tetsushi Kamegawa, Wei Qi, Tatsuya Takemori, Motoyasu Tanaka, Mizuki Nakajima, Kenjiro Tadakuma, Masahiro Fujita, Yosuke Suzuki, Katsutoshi Itoyama, Hiroshi G. Okuno, Yoshiaki Bando, Tomofumi Fujiwara, Satoshi Tadokoro

Disaster Robotics 267 - 326 2019年

　詳細を見る

記述言語：英語出版者・発行元：Springer

DOI： 10.1007/978-3-030-05321-5_6

researchmap
Sequential generation of singing F0 contours from musical note sequences based on WaveNet 査読

Yusuke Wada, Ryo Nishikimi, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018) 983 - 989 2018年12月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.23919/APSIPA.2018.8659502

researchmap
Chord-Aware Automatic Music Transcription Based on Hierarchical Bayesian Integration of Acoustic and Language Models 査読

Yuta Ojima, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

APSIPA Transactions on Signal and Information Processing 7 ( e14 ) 1 - 14 2018年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

DOI： 10.1017/ATSIP.2018.17

researchmap
Interactive arrangement of chords and melodies based on a tree-structured generative model 査読

Hiroaki Tsushima, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

19th International Society for Music Information Retrieval Conference (ISMIR 2018) 145 - 151 2018年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Signal restoration based on bi-directional LSTM with spectral filtering for robot audition 査読

Ryosuke Taniguchi, Kotaro Hoshiba, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

2018 27th IEEE International Symposium on Robot and Human Interactive Communication (RO-MAN 2018) 955 - 960 2018年8月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ROMAN.2018.8525793

researchmap
Statistical speech enhancement based on probabilistic integration of variational autoencoder and non-negative matrix factorization 査読

Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018) 716 - 720 2018年4月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ICASSP.2018.8461530

researchmap
Unsupervised beamforming based on multichannel nonnegative matrix factorization for noisy speech recognition 査読

Kazuki Shimada, Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018) 5734 - 5738 2018年4月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ICASSP.2018.8462642

researchmap
Generative statistical models with self-emergent grammar of chord sequences 査読

Hiroaki Tsushima, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

Journal of New Music Research 47 ( 3 ) 226 - 248 2018年3月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Informa UK Limited

DOI： 10.1080/09298215.2018.1447584

researchmap
Speech enhancement based on Bayesian low-rank and sparse decomposition of multichannel magnitude spectrograms 査読

Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Tatsuya Kawahara, Hiroshi G. Okuno

IEEE/ACM Transactions on Audio, Speech, and Language Processing 26 ( 2 ) 215 - 230 2018年2月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

DOI： 10.1109/TASLP.2017.2772340

researchmap
Bayesian multichannel audio source separation based on integrated source and spatial models 査読

Kousuke Itakura, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

IEEE/ACM Transactions on Audio, Speech, and Language Processing 26 ( 4 ) 831 - 846 2018年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

DOI： 10.1109/TASLP.2017.2789320

researchmap
スペクトル伸縮に基づく複数A/Dコンバータのチャネル間同期

糸山克寿, 中臺一博

ロボティクス・メカトロニクス講演会講演概要集 2018 2P1-K05 2018年

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人日本機械学会

DOI： 10.1299/jsmermd.2018.2p1-k05

CiNii Research

researchmap
ImPACT TRC太索状ロボットの研究開発の現状と展望査読

松野文俊, 藤原始史, 亀川哲志, 竹森達也, 田中基康, 多田隈建二郎, 鈴木陽介, 坂東宜昭, 糸山克寿, 奥乃博

日本ロボット学会誌 35 ( 10 ) 720 - 726 2017年12月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：一般社団法人日本ロボット学会

DOI： 10.7210/jrsj.35.720

CiNii Books

researchmap
Multi-party Interactions by Quizmaster Robot in Speech-based Jeopardy! like Games 査読

Izaya Nishimuta, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

2017 International Conference on Computational Science and Computational Intelligence (CSCI2017) 1787 - 1792 2017年12月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/CSCI.2017.313

Web of Science

Scopus

researchmap
Scale- and rhythm-aware musical note estimation for vocal F0 trajectories based on a semi-tatum-synchronous hierarchical hidden semi-Markov model 査読

Ryo Nishikimi, Eita Nakamura, Masataka Goto, Katsutoshi Itoyama, Kazuyoshi Yoshii

18th International Society for Music Information Retrieval Conference (ISMIR 2017) 376 - 382 2017年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap

その他リンク： https://dblp.org/rec/conf/ismir/NishikimiNGIY17
Function- and rhythm-aware melody harmonization based on tree-structured parsing and split-merge sampling of chord sequences 査読

Hiroaki Tsushima, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

18th International Society for Music Information Retrieval Conference (ISMIR 2017) 502 - 508 2017年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap

その他リンク： https://dblp.org/rec/conf/ismir/TsushimaNIY17
Infinite probabilistic latent component analysis for audio source separation 査読

Kazuyoshi Yoshii, Eita Nakamura, Katsutoshi Itoyama, Masataka Goto

2017 IEEE 27th International Workshop on Machine Learning for Signal Processing (MLSP 2017) 1 - 6 2017年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/MLSP.2017.8168189

Web of Science

researchmap
Semi-blind speech enhancement based on recurrent neural network for source separation and dereverberation 査読

Masaya Wake, Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

2017 IEEE 27th International Workshop on Machine Learning for Signal Processing (MLSP 2017) 1 - 6 2017年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/MLSP.2017.8168191

researchmap
A Singing Instrument for Real-Time Vocal-Part Arrangement of Music Audio Signals 査読

Yuta Ojima, Tomoyasu Nakano, Satoru Fukayama, Jun Kato, Masataka Goto, Katsutoshi Itoyama, Kazuyoshi Yoshii

Sound and Music Computing Conference (SMC) 443 - 449 2017年7月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
An Adaptive Karaoke System that Plays Accompaniment Parts of Music Audio Signals Synchronously with Users' Singing Voices 査読

Yusuke Wada, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

Sound and Music Computing Conference (SMC) 110 - 116 2017年7月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Bayesian multichannel nonnegative matrix factorization for audio source separation and localization 査読

Kousuke Itakura, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2017) 551 - 555 2017年3月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ICASSP.2017.7952216

researchmap
Audio-visual beat tracking based on a state-space model for a robot dancer performing with a human dancer 査読

Misato Ohkita, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

Journal of Robotics and Mechatronics 29 ( 1 ) 125 - 136 2017年2月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Fuji Technology Press

DOI： 10.20965/jrm.2017.p0125

Scopus

researchmap
Simultaneous identification and localization of still and mobile speakers based on binaural robot audition 査読

Karim Youssef, Katsutoshi Itoyama, Kazuyoshi Yoshii

Journal of Robotics and Mechatronics 29 ( 1 ) 59 - 71 2017年2月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Fuji Technology Press

DOI： 10.20965/jrm.2017.p0059

Scopus

researchmap
Layout optimization of cooperative distributed microphone arrays based on estimation of source separation performance 査読

Kouhei Sekiguchi, Yoshiaki Bando, Katsutoshi Itoyama, Kazuyoshi Yoshii

Journal of Robotics and Mechatronics 29 ( 1 ) 83 - 93 2017年2月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Fuji Technology Press

DOI： 10.20965/jrm.2017.p0083

Scopus

researchmap
Low Latency and High Quality Two-Stage Human-Voice-Enhancement System for a Hose-Shaped Rescue Robot 査読

Bando Yoshiaki, Saruwatari Hiroshi, Ono Nobutaka, Makino Shoji, Itoyama Katsutoshi, Kitamura Daichi, Ishimura Masaru, Takakusaki Moe, Mae Narumi, Yamaoka Kouei, Matsui Yutaro, Ambe Yuichi, Konyo Masashi, Tadokoro Satoshi, Yoshii Kazuyoshi, Okuno Hiroshi G.

Journal of Robotics and Mechatronics 29 ( 1 ) 198 - 212 2017年2月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：富士技術出版株式会社

<p>This paper presents the design and implementation of a two-stage human-voice enhancement system for a hose-shaped rescue robot. When a microphone-equipped hose-shaped robot is used to search for a victim under a collapsed building, human-voice enhancement is crucial because the sound captured by a microphone array is contaminated by the ego-noise of the robot. For achieving both low latency and high quality, our system combines online and offline human-voice enhancement, providing an overview first and then details on demand. The online enhancement is used for searching for a victim in real time, while the offline one facilitates scrutiny by listening to highly enhanced human voices. Our online enhancement is based on an online robust principal component analysis, and our offline enhancement is based on an independent low-rank matrix analysis. The two enhancement methods are integrated with Robot Operating System (ROS). Experimental results showed that both the online and offline enhancement methods outperformed conventional methods.</p>

DOI： 10.20965/jrm.2017.p0198

CiNii Books

researchmap
Singing voice separation and vocal F0 estimation based on mutual combination of robust principal component analysis and subharmonic summation 査読

Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

IEEE/ACM Transactions on Audio, Speech, and Language Processing 24 ( 11 ) 2084 - 2095 2016年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Institute of Electrical and Electronics Engineers (IEEE)

DOI： 10.1109/TASLP.2016.2577879

researchmap
Online simultaneous localization and mapping of multiple sound sources and asynchronous microphone arrays 査読

Kouhei Sekiguchi, Yoshiaki Bando, Keisuke Nakamura, Kazuhiro Nakadai, Katsutoshi Itoyama, Kazuyoshi Yoshii

2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2016) 1973 - 1979 2016年10月

　詳細を見る

担当区分：責任著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/IROS.2016.7759311

researchmap
Sound-based online localization for an in-pipe snake robot 査読

Yoshiaki Bando, Hiroki Suhara, Motoyasu Tanaka, Tetsushi Kamegawa, Katsutoshi Itoyama, Kazuyoshi Yoshii, Fumitoshi Matsuno, Hiroshi G. Okuno

2016 IEEE International Symposium on Safety, Security, and Rescue Robotics (SSRR 2016) 207 - 213 2016年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/SSRR.2016.7784300

researchmap
Student's t multichannel nonnegative matrix factorization for blind source separation 査読

Koichi Kitamura, Yoshiaki Bando, Katsutoshi Itoyama, Kazuyoshi Yoshii

2016 IEEE International Workshop on Acoustic Signal Enhancement (IWAENC2016) 1 - 5 2016年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/IWAENC.2016.7602889

Web of Science

researchmap
A hierarchical Bayesian model of chords, pitches, and spectrograms for multipitch analysis 査読

Yuta Ojima, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

17th International Society for Music Information Retrieval Conference (ISMIR 2016) 309 - 315 2016年8月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap

その他リンク： https://dblp.org/rec/conf/ismir/OjimaNIY16
A unified Bayesian model of time-frequency clustering and low-rank approximation for multi-channel source separation 査読

Kousuke Itakura, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

2016 24th European Signal Processing Conference (EUSIPCO 2016) 2280 - 2284 2016年8月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/EUSIPCO.2016.7760655

researchmap
Rhythm transcription of MIDI performances based on hierarchical Bayesian modelling of repetition and modification of musical note patterns 査読

Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

2016 24th European Signal Processing Conference (EUSIPCO 2016) 1946 - 1950 2016年8月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/EUSIPCO.2016.7760588

researchmap
Variational Bayesian multi-channel robust NMF for human-voice enhancement with a deformable and partially-occluded microphone array 査読

Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Hiroshi G. Okuno

2016 24th European Signal Processing Conference (EUSIPCO 2016) 1018 - 1022 2016年8月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/EUSIPCO.2016.7760402

researchmap
Musical note estimation for F0 trajectories of singing voices based on a Bayesian semi-beat-synchronous HMM 査読

Ryo Nishikimi, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii

17th International Society for Music Information Retrieval Conference (ISMIR 2016) 461 - 467 2016年8月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap

その他リンク： https://dblp.org/rec/conf/ismir/NishikimiNIY16
Sparse learning for music signal analysis

Kazuyoshi Yoshii, Katsutoshi Itoyama

Journal of the Institute of Electronics, Information and Communication Engineers 99 ( 5 ) 456 - 460 2016年5月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：Institute of Electronics Information Communication Engineers

Scopus

researchmap
Parallel speech corpora of Japanese dialects 査読

Koichiro Yoshino, Naoki Hirayama, Shinsuke Mori, Fumihiko Takahashi, Katsutoshi Itoyama, Hiroshi G. Okuno

Tenth International Conference on Language Resources and Evaluation (LREC 2016) 4652 - 4657 2016年5月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

Web of Science

researchmap

その他リンク： https://dblp.org/rec/conf/lrec/YoshinoHMTIO16
音楽音響信号解析のためのスパース学習（小特集「スパースモデリングの発展 —原理から応用まで—」）

吉井和佳, 糸山克寿

電子情報通信学会誌 99 ( 5 ) 456 - 460 2016年5月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）

researchmap
歌声・調波楽器音・打楽器音分離とユーザ演奏のリアルタイム可視化に基づく音楽演奏練習システム査読

土橋彩香, 池宮由楽, 糸山克寿, 吉井和佳

情報処理学会インタラクション2016 97 - 105 2016年3月

　詳細を見る

記述言語：日本語掲載種別：研究論文（研究会，シンポジウム資料等）

researchmap
Student's t nonnegative matrix factorization and positive semidefinite tensor factorization for single-channel audio source separation 査読

Kazuyoshi Yoshii, Katsutoshi Itoyama, Masataka Goto

2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016) 51 - 55 2016年3月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ICASSP.2016.7471635

researchmap
HMM-based Attacks on Google's ReCAPTCHA with Continuous Visual and Audio Symbols 査読

Shotaro Sano, Takuma Otsuka, Katsutoshi Itoyama, Hiroshi G. Okuno

Journal of Information Processing 23 ( 6 ) 814 - 826 2015年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Information Processing Society of Japan

CAPTCHAs distinguish humans from automated programs by presenting questions that are easy for humans but difficult for computers, e.g., recognition of visual characters or audio utterances. The state of the art research suggests that the security of visual and audio CAPTCHAs mainly lies in anti-segmentation techniques, because individual symbol recognition after segmentation can be solved with a high success rate with certain machine learning algorithms. Thus, most recent commercial CAPTCHAs present continuous symbols to prevent automated segmentation. We propose a novel framework that can automatically decode continuous CAPTCHAs and assess its effectiveness with actual CAPTCHA questions from Google's reCAPTCHA. Our framework is constructed on the basis of a sequence recognition method based on hidden Markov models (HMMs), which can be concisely implemented by using an off-the-shelf library HMM toolkit. This method concatenates several HMMs, each of which recognizes a symbol, to build a larger HMM that recognizes a question. Our experimental results reveal vulnerabilities in continuous CAPTCHAs because the solver cracks the visual and audio reCAPTCHA systems with 31.75% and 58.75% accuracy, respectively. We further propose guidelines to prevent possible attacking from HMM-based CAPTCHA solvers on the basis of synthetic experiments with simulated continuous CAPTCHAs.CAPTCHAs distinguish humans from automated programs by presenting questions that are easy for humans but difficult for computers, e.g., recognition of visual characters or audio utterances. The state of the art research suggests that the security of visual and audio CAPTCHAs mainly lies in anti-segmentation techniques, because individual symbol recognition after segmentation can be solved with a high success rate with certain machine learning algorithms. Thus, most recent commercial CAPTCHAs present continuous symbols to prevent automated segmentation. We propose a novel framework that can automatically decode continuous CAPTCHAs and assess its effectiveness with actual CAPTCHA questions from Google's reCAPTCHA. Our framework is constructed on the basis of a sequence recognition method based on hidden Markov models (HMMs), which can be concisely implemented by using an off-the-shelf library HMM toolkit. This method concatenates several HMMs, each of which recognizes a symbol, to build a larger HMM that recognizes a question. Our experimental results reveal vulnerabilities in continuous CAPTCHAs because the solver cracks the visual and audio reCAPTCHA systems with 31.75% and 58.75% accuracy, respectively. We further propose guidelines to prevent possible attacking from HMM-based CAPTCHA solvers on the basis of synthetic experiments with simulated continuous CAPTCHAs.

DOI： 10.2197/ipsjjip.23.814

CiNii Books

researchmap

その他リンク： http://id.nii.ac.jp/1001/00146090/
スパース性に基づく音楽音響信号の分解

吉井和佳, 糸山克寿

日本音響学会誌 71 ( 11 ) 607 - 614 2015年11月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：一般社団法人日本音響学会

DOI： 10.20697/jasj.71.11_607

CiNii Books

researchmap
Infinite Superimposed Discrete All-pole Modeling for Source-Filter Decomposition of Wavelet Spectrograms 査読

Kazuyoshi Yoshii, Katsutoshi Itoyama, Masataka Goto

16th International Society for Music Information Retrieval Conference (ISMIR2015) 86 - 92 2015年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Unified inter- and intra-recording duration model for multiple music audio alignment 査読

Akira Maezawa, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

2015 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA2015) 1 - 5 2015年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/WASPAA.2015.7336929

Web of Science

researchmap
Human-voice enhancement based on online RPCA for a hose-shaped rescue robot with a microphone array 査読

Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Hiroshi G. Okuno

2015 IEEE International Symposium on Safety, Security, and Rescue Robotics (SSRR 2015) 1 - 6 2015年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/SSRR.2015.7442949

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/ssrr/ssrr2015.html#BandoIKTNYO15
Identification and localization of one or two concurrent speakers in a binaural robotic context 査読

Karim Youssef, Katsutoshi Itoyama, Kazuyoshi Yoshii

2015 IEEE International Conference on Systems, Man, and Cybernetics (IEEE SMC 2015) 407 - 412 2015年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/SMC.2015.82

researchmap
Infinite superimposed discrete all-pole modeling for multipitch analysis of wavelet spectrograms 査読

Kazuyoshi Yoshii, Katsutoshi Itoyama, Masataka Goto

16th International Society for Music Information Retrieval Conference (ISMIR 2015) 86 - 92 2015年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap

その他リンク： https://dblp.org/rec/conf/ismir/YoshiiIG15
Audio-visual beat tracking based on a state-space model for a music robot dancing with humans 査読

Misato Ohkita, Yoshiaki Bando, Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2015) 5555 - 5560 2015年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/IROS.2015.7354164

researchmap
Bayesian integration of sound source separation and speech recognition: A new approach to simultaneous speech recognition 査読

Kousuke Itakura, Izaya Nishimuta, Yoshiaki Bando, Katsutoshi Itoyama, Kazuyoshi Yoshii

16th Annual Conference of the International Speech Communication Association (INTERSPEECH 2015) 736 - 740 2015年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Toward a quizmaster robot for speech-based multiparty interaction 査読

Izaya Nishimuta, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

Advanced Robotics 29 ( 18 ) 1205 - 1219 2015年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Informa UK Limited

DOI： 10.1080/01691864.2015.1079504

researchmap
Optimizing the layout of multiple mobile robots for cooperative sound source separation 査読

Kouhei Sekiguchi, Yoshiaki Bando, Katsutoshi Itoyama, Kazuyoshi Yoshii

2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2015) 5548 - 5554 2015年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/IROS.2015.7354163

researchmap
Microphone-accelerometer based 3D posture estimation for a hose-shaped rescue robot 査読

Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Hiroshi G. Okuno

2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2015) 5580 - 5586 2015年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/IROS.2015.7354168

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/iros/iros2015.html#BandoIKTNYO15
A Music Performance Assistance System based on Vocal, Harmonic, and Percussive Source Separation and Content Visualization for Music Audio Signals 査読

Ayaka Dobashi, Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

12th Sound and Music Computing Conference (SMC15) 99 - 104 2015年7月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
A Score-Informed Piano Tutoring System with Mistake Detection and Score Simplification 査読

Tsubasa Fukuda, Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

12th Sound and Music Computing Conference (SMC15) 105 - 110 2015年7月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
A feedback framework for improved chord recognition based on NMF-based approximate note transcription 査読

Satoshi Maruo, Kazuyoshi Yoshii, Katsutoshi Itoyama, Matthias Mauch, Masataka Goto

2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2015) 196 - 200 2015年4月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ICASSP.2015.7177959

researchmap
Challenges in deploying a microphone array to localize and separate sound sources in real auditory scenes 査読

Yoshiaki Bando, Takuma Otsuka, Katsutoshi Itoyama, Kazuyoshi Yoshii, Yoko Sasaki, Satoshi Kagami, Hiroshi G. Okuno

2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2015) 723 - 727 2015年4月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ICASSP.2015.7178064

researchmap
Singing voice analysis and editing based on mutually dependent F0 estimation and source separation 査読

Yukara Ikemiya, Kazuyoshi Yoshii, Katsutoshi Itoyama

2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2015) 574 - 578 2015年4月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/ICASSP.2015.7178034

researchmap
市販楽曲中の歌声の分離と音高推定に基づく歌唱表現編集システム査読

池宮由楽, 糸山克寿, 吉井和佳

情報処理学会インタラクション2015 128 - 135 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究論文（研究会，シンポジウム資料等）

researchmap
統計的音響信号処理の新展開

吉井和佳, 糸山克寿

映像情報メディア学会誌 69 ( 2 ) 111 - 116 2015年2月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：一般社団法人映像情報メディア学会

DOI： 10.3169/itej.69.111

CiNii Books

researchmap
Automatic speech recognition for mixed dialect utterances by mixing dialect language models 査読

Naoki Hirayama, Koichiro Yoshino, Katsutoshi Itoyama, Shinsuke Mori, Hiroshi G. Okuno

IEEE/ACM Transactions on Audio, Speech, and Language Processing 23 ( 2 ) 373 - 382 2015年2月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

DOI： 10.1109/TASLP.2014.2387414

researchmap
Posture estimation of hose-shaped robot by using active microphone array 査読

Yoshiaki Bando, Takuma Otsuka, Takeshi Mizumoto, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Hiroshi G. Okuno

Advanced Robotics 29 ( 1 ) 35 - 49 2015年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

DOI： 10.1080/01691864.2014.981291

researchmap

その他リンク： https://dblp.uni-trier.de/db/journals/ar/ar29.html#BandoOMIKTNO15
Recognition of in-field frog chorusing using Bayesian nonparametric microphone array processing 査読

Yoshiaki Bando, Takuma Otsuka, Ikkyu Aihara, Hiromitsu Awano, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

Computational Sustainability, Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence 2015年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Schemeによる3D図形の構成的制作査読

古川孝太郎, 糸山克寿, 吉井和佳, 奥乃博

コンピュータソフトウェア 32 ( 4 ) 4_31 - 4_49 2015年

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：日本ソフトウェア科学会

本稿では，LISP系言語の1つであるSchemeを用いた3D図形言語の設計と実装について述べる．効率的にプログラミングを行う上で，手続きやデータ構造の抽象化の概念を正確に理解しておくことは重要である．プログラミングの代表的な教科書SICP (Structure and Interpretation of Computer Programs)においては，プログラムの階層構造を直観的かつ視覚的に捉えることを目的として，Schemeを用いた平面図形構成のためのシステムである図形言語が利用されてきた．我々はScheme処理系としてJAKLDを用い，オリジナルの図形言語に立体図形構成のための拡張を加えた．さらにプログラムに記述された立体フラクタル図形を3Dプリンタを利用し実体化することで，プログラミング初学者の大学一年生が手続きとデータ構造を効果的に習得するための教材として利用した．

DOI： 10.11309/jssst.32.4_31

CiNii Books

researchmap
Nonparametric Bayesian Dereverberation of Power Spectrograms Based on Infinite-Order Autoregressive Processes 査読

Maezawa Akira, Itoyama Katsutoshi, Yoshii Kazuyoshi, Okuno Hiroshi G.

IEEE/ACM Transactions on Audio, Speech, and Language Processing 22 ( 12 ) 1918 - 1930 2014年12月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：IEEE

This paper describes a monaural audio dereverberation method that operates in the power spectrogram domain. The method is robust to different kinds of source signals such as speech or music. Moreover, it requires little manual intervention, including the complexity of room acoustics. The method is based on a non-conjugate Bayesian model of the power spectrogram. It extends the idea of multi-channel linear prediction to the power spectrogram domain, and formulates a model of reverberation as a non-negative, infinite-order autoregressive process. To this end, the power spectrogram is interpreted as a histogram count data, which allows a nonparametric Bayesian model to be used as the prior for the autoregressive process, allowing the effective number of active components to grow, without bound, with the complexity of data. In order to determine the marginal posterior distribution, a convergent algorithm, inspired by the variational Bayes method, is formulated. It employs the minorization-maximization technique to arrive at an iterative, convergent algorithm that approximates the marginal posterior distribution. Both objective and subjective evaluations show advantage over other methods based on the power spectrum. We also apply the method to a music information retrieval task and demonstrate its effectiveness.

DOI： 10.1109/TASLP.2014.2355772

CiNii Books

researchmap
Development of a robot quizmaster with auditory functions for speech-based multiparty interaction 査読

Izaya Nishimuta, Kazuyoshi Yoshii, Katsutoshi Itoyama, Hiroshi G. Okuno

2014 IEEE/SICE International Symposium on System Integration (SII2014) 328 - 333 2014年12月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/sii.2014.7028059

Web of Science

researchmap
A robot quizmaster that can localize, separate, and recognize simultaneous utterances for a fastest-voice-first quiz game 査読

Izaya Nishimuta, Naoki Hirayama, Kazuyoshi Yoshii, Katsutoshi Itoyama, Hiroshi G. Okuno

2014 IEEE-RAS International Conference on Humanoid Robots (Humanoids 2014) 967 - 972 2014年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/HUMANOIDS.2014.7041480

researchmap
Visualization of auditory awareness based on sound source positions estimated by depth sensor and microphone array 査読

Takahiro Iyama, Osamu Sugiyama, Takuma Otsuka, Katsutoshi Itoyama, Hiroshi G. Okuno

2014 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2014) 1908 - 1913 2014年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/IROS.2014.6942814

researchmap
A sound-based online method for estimating the time-varying posture of a hose-shaped robot 査読

Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Hiroshi G. Okuno

2014 IEEE International Symposium on Safety, Security, and Rescue Robotics (SSRR 2014) 1 - 6 2014年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/SSRR.2014.7017665

researchmap

その他リンク： https://dblp.uni-trier.de/db/conf/ssrr/ssrr2014.html#BandoIKTNYO14
Transferring Vocal Expressions of a Professional Singer to Unaccompanied Singing Signals

Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

Late Breaking Demo (LBD), International Society for Music Information Retrieval (ISMIR) 1 - 2 2014年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（その他学術会議資料等）

researchmap
Bayesian audio alignment based on a unified model of music composition and performance 査読

Akira Maezawa, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

15th International Society for Music Information Retrieval Conference (ISMIR 2014) 233 - 238 2014年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap

その他リンク： https://dblp.org/rec/conf/ismir/MaezawaIYO14
Sound annotation tool for multidirectional sounds based on spatial information extracted by HARK robot audition software 査読

Osamu Sugiyama, Katsutoshi Itoyama, Kazuhiro Nakadai, Hiroshi G. Okuno

2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC2014) 2335 - 2340 2014年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/SMC.2014.6974275

researchmap
Parameter estimation of virtual musical instrument synthesizers 査読

Katsutoshi Itoyama, Hiroshi G. Okuno

40th International Computer Music Conference and 11th Sound and Music Computing Conference (ICMC SMC 2014) 1426 - 1431 2014年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
擬似生成した複数方言言語モデル混合による混合方言音声認識査読

平山直樹, 吉野幸一郎, 糸山克寿, 森信介, 奥乃博

情報処理学会論文誌 55 ( 7 ) 1681 - 1694 2014年7月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）

本論文では，様々な方言の混合に対応する音声認識システムを構築する．まず，単一方言音声認識の言語モデルを，大規模共通語言語コーパスから擬似生成した方言言語コーパスで学習する．擬似生成には，共通語-方言対訳コーパスからWFST（重み付き有限状態トランスデューサ）によって学習されたルールを用いる．次に，構築された各方言言語モデルを混合し，発話ごとに最適な混合比を推定しながら認識を行う．これは，実際に話される方言が純粋な単一方言ではなく，人の移動やテレビ，ラジオなどの放送の影響を受けた様々な方言の混合であると考えられるからである．この推定には，音声認識用言語モデルにおける対数尤度の値を用いる．実験により，方言音声認識用言語モデルを用いて方言音声の認識精度が向上することを確認した．また，対数尤度と音声認識精度に強い相関があること，対数尤度を最大化する混合比を発話ごとに選択することで，固定混合比の場合と比較して音声認識精度が向上することを確認した．

CiNii Books

researchmap
Automatic transcription of guitar tablature from audio signals in accordance with player's proficiency 査読

Kazuki Yazawa, Katsutoshi Itoyama, Hiroshi G. Okuno

2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2014) 3122 - 3126 2014年5月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/ICASSP.2014.6854175

Web of Science

researchmap
Transcribing vocal expression from polyphonic music 査読

Yukara Ikemiya, Katsutoshi Itoyama, Hiroshi G. Okuno

2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2014) 3127 - 3131 2014年5月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/ICASSP.2014.6854176

Web of Science

researchmap
音声中の任意検索語検出のための未知語区間推定に基づく選択的インデックス統合法査読

神田直之, 糸山克寿, 奥乃博

情報処理学会論文誌 55 ( 3 ) 1201 - 1211 2014年3月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）

本研究では音声検索語検出のために複数の音声認識器から出力された認識結果を統合する手法において，未知語区間推定結果に基づいてインデックスを選択的に統合することで，検出精度の劣化を抑えつつインデックスサイズを削減する手法について提案する．提案する手法は4種類の音声認識器から得られた出力を1つのネットワークへと統合する．その際，未知語区間推定結果に基づきネットワーク中の有効なアークの選択や，インデックスに用いるサブワード単位の選択を行うことで，冗長なインデックスを削減する．日本語話し言葉コーパスを用いた評価の結果，提案法によって，検出精度の劣化を1.4ポイントに抑えたうえで音素Transition Networkから22.7%のインデックスが削減できることを確認した．単一の音声認識結果から作成した音素単位のネットワークと比較した場合，提案法では，インデックスの統合による検出精度向上の効果（既知語で16.3%，未知語で16.0%の検出エラー削減）を保ちながら，単一の音声認識結果に基づくインデックスと同等以下の大きさまでインデックスサイズを抑えることができた．

CiNii Books

researchmap
Transferring vocal expression of F0 contour using singing voice synthesizer 査読

Yukara Ikemiya, Katsutoshi Itoyama, Hiroshi G. Okuno

Modern Advances in Applied Intelligence (IEA/AIE 2014) ( 2 ) 250 - 259 2014年

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：Springer Verlag

DOI： 10.1007/978-3-319-07467-2_27

Scopus

researchmap
Posture estimation of hose-shaped robot using microphone array localization 査読

Yoshiaki Bando, Takeshi Mizumoto, Katsutoshi Itoyama, Kazuhiro Nakadai, Hiroshi G. Okuno

2013 IEEE International Conference on Intelligent Robots and Systems (IROS2013) 3446 - 3451 2013年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/IROS.2013.6696847

Scopus

researchmap
Noise correlation matrix estimation for improving sound source localization by multirotor UAV 査読

Koutarou Furukawa, Keita Okutani, Kohei Nagira, Takuma Otsuka, Katsutoshi Itoyama, Kazuhiro Nakadai, Hiroshi G. Okuno

2013 IEEE International Conference on Intelligent Robots and Systems (IROS2013) 3943 - 3948 2013年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/IROS.2013.6696920

Web of Science

researchmap
Multiple index combination for Japanese spoken term detection with optimum index selection based on OOV-region classifier 査読

Naoyuki Kanda, Katsutoshi Itoyama, Hiroshi G. Okuno

2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2013) 8540 - 8544 2013年5月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/ICASSP.2013.6639332

Web of Science

researchmap
Initialization-robust Bayesian multipitch analyzer based on psychoacoustical and musical criteria 査読

Daichi Sakaue, Takuma Otsuka, Katsutoshi Itoyama, Hiroshi G. Okuno

2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2013) 226 - 230 2013年5月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/ICASSP.2013.6637642

Scopus

researchmap
Audio-based guitar tablature transcription using multipitch analysis and playability constraints 査読

Kazuki Yazawa, Daichi Sakaue, Kohei Nagira, Katsutoshi Itoyama, Hiroshi G. Okuno

2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2013) 196 - 200 2013年5月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/ICASSP.2013.6637636

Web of Science

researchmap
Robust multipitch analyzer against initialization based on latent harmonic allocation using overtone corpus 査読

Daichi Sakaue, Katsutoshi Itoyama, Tetsuya Ogata, Hiroshi G. Okuno

Journal of Information Processing 21 ( 2 ) 246 - 255 2013年4月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

DOI： 10.2197/ipsjjip.21.246

Scopus

researchmap
Automatic Estimation of Dialect Mixing Ratio for Dialect Speech Recognition 査読

Naoki Hirayama, Koichiro Yoshino, Katsutoshi Itoyama, Shinsuke Mori, Hiroshi G. Okuno

14th Annual Conference of the International Speech Communication Association (INTERSPEECH 2013) 1492 - 1496 2013年

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

Web of Science

researchmap
Robust Multipitch Analyzer against Initialization based on Latent Harmonic Allocation using Overtone Corpus

Sakaue Daichi, Itoyama Katsutoshi, Ogata Tetsuya, Okuno Hiroshi G.

Information and Media Technologies 8 ( 2 ) 467 - 476 2013年

　詳細を見る

記述言語：英語出版者・発行元：Information and Media Technologies Editorial Board

We present a Bayesian analysis method that estimates the harmonic structure of musical instruments in music signals on the basis of psychoacoustic evidence. Since the main objective of multipitch analysis is joint estimation of the fundamental frequencies and their harmonic structures, the performance of harmonic structure estimation significantly affects fundamental frequency estimation accuracy. Many methods have been proposed for estimating the harmonic structure accurately, but no method has been proposed that satisfies all these requirements: robust against initialization, optimization-free, and psychoacoustically appropriate and thus easy to develop further. Our method satisfies these requirements by explicitly incorporating Terhardt's virtual pitch theory within a Bayesian framework. It does this by automatically learning the valid weight range of the harmonic components using a MIDI synthesizer. The bounds are termed "overtone corpus." Modeling demonstrated that the proposed overtone corpus method can stably estimate the harmonic structure of 40 musical pieces for a wide variety of initial settings.

DOI： 10.11185/imt.8.467

researchmap
Bayesian nonnegative harmonic-temporal factorization and its application to multipitch analysis 査読

Daichi Sakaue, Takuma Otsuka, Katsutoshi Itoyama, Hiroshi G. Okuno

13th International Society for Music Information Retrieval Conference (ISMIR 2012) 91 - 96 2012年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.5281/zenodo.1418163

researchmap

その他リンク： https://dblp.org/rec/conf/ismir/SakaueOIO12
Initialization-robust multipitch estimation based on latent harmonic allocation using overtone corpus 査読

Daichi Sakaue, Katsutoshi Itoyama, Tetsuya Ogata, Hiroshi G. Okuno

2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2012) 425 - 428 2012年3月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/ICASSP.2012.6287907

Web of Science

researchmap
Automated violin fingering transcription through analysis of an audio recording 査読

Akira Maezawa, Katsutoshi Itoyama, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

Computer Music Journal 36 ( 3 ) 57 - 72 2012年

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：MIT Press Journals

DOI： 10.1162/COMJ_a_00129

Scopus

researchmap
Automatic chord recognition based on probabilistic integration of acoustic features, bass sounds, and chord transition 査読

Katsutoshi Itoyama, Tetsuya Ogata, Hiroshi G. Okuno

Advanced Research in Applied Artificial Intelligence (IEA/AIE 2012) 7345 LNAI 58 - 67 2012年

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1007/978-3-642-31087-4_7

Scopus

researchmap
フレーズ置換のための調波非調波GMM・NMFに基づく音源分離・演奏合成査読

安良岡直希, 吉岡拓也, 糸山克寿, 高橋徹, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会論文誌 52 ( 12 ) 3839 - 3852 2011年12月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：情報処理学会

本論文では，多重奏音響信号中の特定の楽器パート演奏をユーザ指定の別楽譜による演奏に差し替える「フレーズ置換」システムのための音源分離・演奏合成法について報告する．本システムはまず上記特定の楽器パート演奏（置換元演奏と呼ぶ）を多重奏から分離除去し（音源分離），次にユーザが指定した楽譜の演奏を合成し多重奏に挿入する（演奏合成）．自然なフレーズ置換のために，合成される演奏には置換元演奏の特徴を反映させる．本システムの技術的課題は，1)置換元演奏楽譜のみを用いた音源分離，2)置換元演奏特徴を持つ置換先演奏の高品質合成，の2点である．この課題に対処するため，次の2点に基づく音源分離・演奏合成法を設計した：1)調波非調波Gaussian Miixture Model（GMM）とNonnegative Matrix Factorization（NMF）の統合モデルによる置換元演奏と伴奏の音源分離，2) MIDI音源が合成した演奏への音色・演奏表情補正．本手法に対しi)置換元演奏が正しく除去されるか，ii)合成演奏は置換元演奏の特徴を保持しているか，の2点を客観評価した結果，それぞれ比較対象に対し28.2%, 11.5%対数スペクトル距離が改善された．

CiNii Books

researchmap
Simultaneous processing of sound source separation and musical instrument identification using Bayesian spectral modeling 査読

Katsutoshi Itoyama, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2011) 3816 - 3819 2011年5月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/ICASSP.2011.5947183

Web of Science

researchmap
ベース音高と和音特徴の統合に基づく和音系列認識査読

須見康平, 糸山克寿, 吉井和佳, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会論文誌 52 ( 4 ) 1803 - 1812 2011年4月

　詳細を見る

担当区分：責任著者記述言語：日本語掲載種別：研究論文（学術雑誌）

本論文では，ベース音高と和音の関連を考慮した和音系列認識の手法を提案する．和音系列はともに楽曲を構成する他の音楽的要素と深く関連しているため，それらの関係性を考慮して認識を行うことで精度の向上が期待される．我々は，ベース音が構成するメロディであるベースラインとの関係性に着目し，和音系列認識の重要な手がかりとして使用する．和音特徴，和音遷移パターンに加え，ベース音高分布に基づく和音系列の事後確率を定義し，事後確率が最大となる和音系列をViterbi探索することで求める．"The Beatles"の12アルバム中の，調を持ち転調を含まない150楽曲に対して行った実験の結果，和音に関する特徴のみを用いる場合よりもベース音高情報を付加した場合の方が精度は向上し，73.7%の平均認識率が得られた．

CiNii Books

researchmap
Query-by-Example Music Information Retrieval by Score-Informed Source Separation and Remixing Technologies 査読

Itoyama Katsutoshi, Goto Masataka, Komatani Kazunori, Ogata Tetsuya, Okuno Hiroshi G.

EURASIP Journal on Advances in Signal Processing 2010 ( 172961 ) 1 - 14 2011年1月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Hindawi Publishing Corporation

We describe a novel query-by-example (QBE) approach in music information retrieval that allows a user to customize query examples by directly modifying the volume of different instrument parts. The underlying hypothesis of this approach is that the musical mood of retrieved results changes in relation to the volume balance of different instruments. On the basis of this hypothesis, we aim to clarify the relationship between the change in the volume balance of a query and the genre of the retrieved pieces, called genre classification shift. Such an understanding would allow us to instruct users in how to generate alternative queries without finding other appropriate pieces. Our QBE system first separates all instrument parts from the audio signal of a piece with the help of its musical score, and then it allows users remix these parts to change the acoustic features that represent the musical mood of the piece. Experimental results showed that the genre classification shift was actually caused by the volume change in the vocal, guitar, and drum parts.

DOI： 10.1155/2010/172961

CiNii Books

researchmap
A musical mood trajectory estimation method using lyrics and acoustic features 査読

Naoki Nishikawa, Katsutoshi Itoyama, Hiromasa Fujihara, Masataka Goto, Tetsuya Ogata, Hiroshi G. Okuno

2011 ACM Multimedia Conference and Co-Located Workshops (MIRUM '11) 51 - 56 2011年

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1145/2072529.2072543

Scopus

researchmap
SpeakBySinging: Converting singing voices to speaking voices while retaining voice timbre 査読

Shimpei Aso, Takeshi Saitou, Matataka Goto, Katsutoshi Itoyama, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

13th International Conference on Digital Audio Effects (DAFx-10) 114 - 121 2010年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

Scopus

researchmap
Violin fingering estimation based on violin pedagogical fingering model constrained by bowed sequence estimation from audio input 査読

Akira Maezawa, Katsutoshi Itoyama, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

Trends in Applied Intelligent Systems (IEA/AIE 2010) 249 - 259 2010年6月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1007/978-3-642-13033-5_26

researchmap
Query-by-Example music retrieval approach based on musical genre shift by changing instrument volume 査読

Katsutoshi Itoyama, Masataka Goto, Kazuhiro Komatani, Testuya Ogata, Hiroshi G. Okuno

12th International Conference on Digital Audio Effects (DAFx-09) 205 - 212 2009年9月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

Scopus

researchmap

その他リンク： http://dafx09.como.polimi.it/proceedings/data/DAFx09_Proceedings.pdf
Parameter estimation for harmonic and inharmonic models by using timbre feature distributions 査読

Katsutoshi Itoyama, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

Journal of Information Processing 17 191 - 201 2009年7月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Information Processing Society of Japan

DOI： 10.2197/ipsjjip.17.191

Scopus

researchmap
音色の音高依存性を考慮した楽器音の音高操作手法査読

安部武宏, 糸山克寿, 吉井和佳, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会論文誌 50 ( 3 ) 1054 - 1066 2009年3月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）

本稿では，ある音高を持つ楽器音をもとにして，音色の歪みを抑えながら任意の音高を持つ楽器音を合成する手法について述べる．我々は音色の聴感上の差に関する音響心理学的知見に基づき，楽器音のスペクトログラム上で観察される音色特徴量として，(i) 倍音ピーク間の相対強度，(ii) 非調波成分の分布，(iii) 時間方向の振幅エンベロープの3つを定義する．まず，もとになる楽器音の音色特徴量を分析するため，糸山らの調波&middot;非調波統合モデルを用いて楽器音を調波構造と非調波構造に分離する．音高操作時には，特徴量(i)，(ii) の音高依存性を考慮しなければならない．そのため，音高に対する特徴量を3次関数で近似し，所望の音高における特徴量の値を予測する．32種類の楽器に対して音高操作を試みたところ，音高依存性を考慮しない場合と比べて合成音と実際の楽器音との距離が，スペクトル距離尺度では64.70%，MFCC距離尺度では32.31%減少し，手法の有効性が確かめられた．

CiNii Books

researchmap
Parameter Estimation for Harmonic and Inharmonic Models by Using Timbre Feature Distributions

Itoyama Katsutoshi, Goto Masataka, Komatani Kazunori, Ogata Tetsuya, G. Okuno Hiroshi

Information and Media Technologies 4 ( 3 ) 672 - 682 2009年

　詳細を見る

記述言語：英語出版者・発行元：Information and Media Technologies 編集運営会議

We describe an improved way of estimating parameters for an integrated weighted-mixture model consisting of both harmonic and inharmonic tone models. Our final goal is to build an instrument equalizer (music remixer) that enables a user to change the volume of parts of polyphonic sound mixtures. To realize the instrument equalizer, musical signals must be separated into each musical instrument part. We have developed a score-informed sound source separation method using the integrated model. A remaining but critical problem is to find a way to deal with timbre varieties caused by various performance styles and instrument bodies because our method used template sounds to represent their timbre. Template sounds are generated from a MIDI tone generator based on an aligned score. Difference of instrument bodies between mixed signals and template sounds causes timbre difference and decreases separation performance. To solve this problem, we train probabilistic distributions of timbre features using various sounds to reduce template dependency. By adding a new constraint of maximizing the likelihood of timbre features extracted from each tone model, we can estimate model parameters that express the timbre more accurately. Experimental results show that separation performance improved from 4.89 to 8.48dB.

DOI： 10.11185/imt.4.672

researchmap
Changing timbre and phrase in existing musical performances as you like - Manipulations of single part using harmonic and inharmonic models 査読

Naoki Yasuraoka, Takehiro Abe, Katsutoshi Itoyama, Toru Takahashi, Tetsuya Ogata, Hiroshi G. Okuno

17th ACM international conference on Multimedia (MM '09) 203 - 212 2009年

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1145/1631272.1631302

Scopus

researchmap
Bowed String Sequence Estimation of a Violin Based on Adaptive Audio Signal Classification and Context-Dependent Error Correction 査読

Akira Maezawa, Katsutoshi Itoyama, Tom Takahashi, Tetsuya Ogata, Hiroshi G. Okuno

2009 11th IEEE International Symposium on Multimedia (ISM '09) 9 - 16 2009年

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/ISM.2009.30

Web of Science

researchmap
Automatic chord recognition based on probabilistic integration of chord transition and bass pitch estimation 査読

Kouhei Sumi, Katsutoshi Itoyama, Kazuyoshi Yoshii, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

9th International Conference on Music Information Retrieval (ISMIR 2008) 39 - 44 2008年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Instrument equalizer for query-by-example retrieval: Improving sound source separation based on integrated harmonic and inharmonic models 査読

Katsutoshi Itoyama, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

9th International Conference on Music Information Retrieval (ISMIR 2008) 133 - 138 2008年9月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付きパラメータ推定の同時実現査読

糸山克寿, 後藤真孝, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会論文誌 49 ( 3 ) 1465 - 1479 2008年3月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：一般社団法人情報処理学会

本論文では，多重奏の音楽音響信号とその楽曲に含まれるすべての単音の音高・音長・音量・発音時刻・楽器の種類の組である楽譜情報を入力として，単音ごとの音響信号を出力する音源分離手法と，そのための制約付きモデルパラメータ推定手法について述べる．本分離手法では，Standard MIDIb File（SMF）などから抽出された楽譜情報を用いることで混合音のパワースペクトルを単音ごとに分離し，調波構造と非調波構造のそれぞれを表現する2 つのモデルを統合した新たな重み付き混合モデルを用いることで，単音に複数の調波構造が含まれることを防ぎ，かつ音高を超えた楽器音の音色類似性を考慮することを実現する．モデルパラメータは，楽譜情報に基づいてMIDI 音源から生成したテンプレート音によって初期化し，EM アルゴリズムを用いた最大事後確率推定により反復推定する．さらに，モデルの過学習を防ぎ，同一楽器の単音のモデルに類似した音色を持たせるための制約条件も同時に用いる．ポピュラー音楽のSMF を用いた評価実験で，本手法によりSNR が0.4-0.9dB向上することを確認した．

CiNii Books

researchmap
Analysis-and-manipulation approach to pitch and duration of musical instrument sounds without distorting timbral characteristics 査読

Takehiro Abe, Katsutoshi Itoyama, Kazuyoshi Yoshii, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

11th International Conference on Digital Audio Effects (DAFx-08) 249 - 256 2008年

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

Scopus

researchmap
Integration and adaptation of harmonic and inharmonic models for separating polyphonic musical signals 査読

Katsutoshi Itoyama, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

2007 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2007) I 57 - 60 2007年

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/ICASSP.2007.366615

Web of Science

researchmap
Automatic feature weighting in automatic transcription of specified part in polyphonic music 査読

Katsutoshi Itoyama, Tetsuro Kitahara, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

7th International Conference on Music Information Retrieval (ISMIR 2006) 172 - 175 2006年10月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap

その他リンク： https://dblp.org/rec/conf/ismir/ItoyamaKKOO06

▼全件表示

書籍等出版物

ロボット工学ハンドブック

日本ロボット学会（担当：分担執筆範囲: 音響情報処理）

コロナ社 2023年3月（ ISBN:9784339046793 ）

　詳細を見る

総ページ数：ix, 1072p 記述言語：日本語

CiNii Books

researchmap

MISC

距離ベース時間周波数マスク推定による音声強調手法の検討

石井, 遼平, 中臺, 一博, 糸山, 克寿

第86回全国大会講演論文集 2024 ( 1 ) 361 - 362 2024年3月

　詳細を見る

記述言語：日本語出版者・発行元：情報処理学会

一般に会議では、複数の人が集まって話をするため、たとえ各話者の口元にマイクをつけて収録した場合でも、収録音には対象話者の音声に加え、他の話者の音声が混入してしまう。このため、収録音中の対象話者の音声の聴取が困難になり、議事録作成などの用途に支障をきたすという問題がある。本稿では、この問題を解決するため、ディープラーニングにより推定された時間周波数マスクを用いて、モノラル収録音から、近距離話者の音声のみを抽出する音声強調法を提案する。提案手法を人間の聴覚と相関があるPESQとSTOIを用いて評価した結果、提案手法の有効性を示すことができた。

CiNii Books

CiNii Research

researchmap
動画中の稀少イベントとしての小領域移動物体の検出手法

西田健次, 糸山克寿, 糸山克寿, 中臺一博

人工知能学会第二種研究会資料(Web) 2024 ( Challenge-064 ) 2024年

　詳細を見る

J-GLOBAL

researchmap
LCMVベースのScan-and-Sum Beamformerによる面領域内音源の抽出

安江蒼人, YEN Benjamin, 糸山克寿, 中臺一博

日本ロボット学会学術講演会予稿集(CD-ROM) 42nd 2024年

　詳細を見る

J-GLOBAL

researchmap
Biasing Networkを用いた音声認識の雑音耐性向上

大崎崇博, 周藤唯, 糸山克寿, 中臺一博

日本ロボット学会学術講演会予稿集(CD-ROM) 42nd 2024年

　詳細を見る

J-GLOBAL

researchmap
距離学習を用いた話者識別に基づく話者ダイアライゼーションの検討

阿坂脩平, 西田健次, 糸山克寿, 中臺一博

日本ロボット学会学術講演会予稿集(CD-ROM) 42nd 2024年

　詳細を見る

J-GLOBAL

researchmap
ガウス過程回帰を用いた音響伝達関数の環境変化適応

藤田侑樹, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会学術講演会予稿集(CD-ROM) 42nd 2024年

　詳細を見る

J-GLOBAL

researchmap
屋外環境下でのドローンのローターノイズによる地表材質推定手法の検討

矢野翼, YEN Benjamin, 糸山克寿, 中臺一博

日本ロボット学会学術講演会予稿集(CD-ROM) 42nd 2024年

　詳細を見る

J-GLOBAL

researchmap
Video Vision Transformerに基づく音源定位の提案

横田遥大, BOZKURTLAR Mert, BOZKURTLAR Mert, YEN Benjamin, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会学術講演会予稿集(CD-ROM) 42nd 2024年

　詳細を見る

J-GLOBAL

researchmap
話者情報を利用した距離ベース時間周波数マスク推定による音声強調の向上

田口鐵人, 石井遼平, 大崎崇博, 阿坂脩平, YEN Benjamin, 糸山克寿, 中臺一博

計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 25th 2024年

　詳細を見る

J-GLOBAL

researchmap
HARK3.6およびそのアクティブドローン聴覚への応用

中臺一博, 公文誠, 佐々木洋子, 干場功太郎, YEN Benjamin, 糸山克寿, 瀧ヶ平将行, 寺門直哉, LIN Zirui, GULZAR Haris, BUSTO Monikka Rosalianna, 江田毅晴, 天野英晴

計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 25th 2024年

　詳細を見る

J-GLOBAL

researchmap
音声強調ネットワークとアダプターを用いた音声認識の耐雑音ロバスト性向上

大崎崇博, 周藤唯, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会誌 42 ( 9 ) 2024年

　詳細を見る

J-GLOBAL

researchmap
面音源抽出のための複数拘束 MVDR ビームフォーマーの逐次計算による高速化

安江蒼人, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会誌 42 ( 6 ) 2024年

　詳細を見る

J-GLOBAL

researchmap
深層ブラインド音源分離を用いた転移学習による環境音分離

合澤隆拓, 坂東宜昭, 糸山克寿, 西田健次, 中臺一博

情報処理学会第85回全国大会 ( 5S-02 ) 2023年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
音声強調ネットワークとアダプターを用いた音声認識の耐雑音ロバスト性向上

大崎崇博, 周藤唯, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会学術講演会予稿集(CD-ROM) 41st 2023年

　詳細を見る

J-GLOBAL

researchmap
フォンミーゼス分布に基づく音響伝達関数オンライン適応の向上

藤田侑樹, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会学術講演会予稿集(CD-ROM) 41st 2023年

　詳細を見る

J-GLOBAL

researchmap
面音源抽出のための複数拘束MVDRビームフォーマーの逐次計算による高速化

安江蒼人, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会学術講演会予稿集(CD-ROM) 41st 2023年

　詳細を見る

J-GLOBAL

researchmap
ロボット聴覚のための音源定位と深層ブラインド音源分離の統合

合澤隆拓, 合澤隆拓, 坂東宜昭, 糸山克寿, 糸山克寿, 西田健次, 中臺一博, 大西正輝

日本ロボット学会学術講演会予稿集(CD-ROM) 41st 2023年

　詳細を見る

J-GLOBAL

researchmap
自然な音声対話AIに向けたシステム応答法の検討

阿坂脩平, 西田健次, 糸山克寿, 糸山克寿, 中臺一博

計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 24th 2023年

　詳細を見る

J-GLOBAL

researchmap
気配センシングに向けた磁束密度センサと風速センサを用いた動作検出

川口洋慶, SHAKEEL Muhammad, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

日本ロボット学会学術講演会予稿集(CD-ROM) 41st 2023年

　詳細を見る

J-GLOBAL

researchmap
可聴音ベースの反響定位に基づく3次元空間認識の5チャネルマイクロホンアレイによる向上

小林宙輝, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 24th 2023年

　詳細を見る

J-GLOBAL

researchmap
ドローンのローターノイズによる地表材質推定手法の検討

矢野翼, 糸山克寿, 糸山克寿, 西田健次, 中臺一博

計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 24th 2023年

　詳細を見る

J-GLOBAL

researchmap
Scan-and-Sum Beamformerの拡張による二次元領域抽出の検討

安江蒼人, 糸山克寿, 西田健次, 中臺一博

第23回計測自動制御学会システムインテグレーション部門後援会 (SI 2022) ( 3A2-B04 ) 2022年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
最頻値フィルタを用いたマイクロホンアレイ音響伝達関数の環境適応手法の検討

藤田侑樹, 糸山克寿, 西田健次, 中臺一博

第23回計測自動制御学会システムインテグレーション部門後援会 (SI 2022) ( 3A2-B01 ) 2022年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
HARK 3.4 ～PyHARKの紹介～

中臺一博, 糸山克寿

第23回計測自動制御学会システムインテグレーション部門後援会 (SI 2022) ( 3P2-H12 ) 2022年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
音響伝達関数の二次元補間手法の提案とその音源定位への適用

大﨑崇博, 糸山克寿, 西田健次, 中臺一博

第23回計測自動制御学会システムインテグレーション部門後援会 (SI 2022) ( 3A2-B14 ) 2022年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数音源追跡におけるドローン群の行動計画の検討

山田泰基, 糸山克寿, 西田健次, 中臺一博

第61回AIチャレンジ研究会 ( SIG-Challenge-061-07 ) 33 - 39 2022年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
ロボット聴覚用音響処理ソフトウェアHARKを用いたサウンドスケープの解析

山本遼, 西田健次, 糸山克寿, 松林志穂, 鈴木麗璽, 中臺一博

日本鳥学会2022年度大会 ( P048 ) 2022年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
PyHARK: HARKのオンライン・オフライン処理用Pythonパッケージ

中臺一博, 糸山克寿, 瀧ヶ平将行

第61回AIチャレンジ研究会 ( SIG-Challenge-061-04 ) 14 - 19 2022年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
低解像度画像からの小領域物体の検出手法の検討

西田健次, 糸山克寿, 中臺一博

第61回AIチャレンジ研究会 ( SIG-Challenge-061-03 ) 9 - 13 2022年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
任意の混合音を入力としたマイクロホンアレイ形状のキャリブレーション

糸山克寿, 中臺一博

第61回AIチャレンジ研究会 ( SIG-Challenge-061-11 ) 57 - 62 2022年11月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
深層ブラインド音源分離と転移学習に基づく遠隔音声認識の評価

合澤隆拓, 坂東宜昭, 糸山克寿, 西田健次, 中臺一博

第61回AIチャレンジ研究会 2022 ( SIG-Challenge-061-09 ) 09 2022年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人人工知能学会

DOI： 10.11517/jsaisigtwo.2022.challenge-061_09

CiNii Research

researchmap
音源定位結果の3D可視化とmAPベースの評価指標の提案

山本遼, 糸山克寿, 西田健次, 中臺一博

第40回日本ロボット学会学術講演会 ( 4J3-07 ) 2022年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
環境イベント識別学習フレームワークの提案とその日本語テキスト入力からの音響シーン生成部の実装

露口弘毅, シャキールムハマド, 糸山克寿, 西田健次, 中臺一博

第40回日本ロボット学会学術講演会 ( 4J3-07 ) 2022年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
アンサンブル時間周波数マスクを用いた複数の音声強調手法の統合

藤田雅彦, 糸山克寿, 西田健次, 中臺一博

第40回日本ロボット学会学術講演会 ( 4J3-04 ) 2022年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
Speech-Recognition on Low-Power GPU Device for Robotic Applications on the Edge

Haris Gulzar, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

40th Annual Conference of the Robotics Society of Japan ( 2J3-06 ) 2022年9月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数マイクロホンアレイのパラメータ同時最適化

杉山地塩, 糸山克寿, 西田健次, 中臺一博

第40回日本ロボット学会学術講演会 ( 4J3-09 ) 2022年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数のマイクロホンアレイ搭載ドローンの配置最適化による音源追跡性能の向上

山田泰基, 糸山克寿, 西田健次, 中臺一博

第40回日本ロボット学会学術講演会 ( 4J3-08 ) 2022年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
深層フルランク空間相関分析に基づく遠隔音声認識のフロントエンド

合澤隆拓, 坂東宜昭, 糸山克寿, 西田健次, 中臺一博

情報処理学会第84回全国大会 ( 1R-02 ) 2022年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
深層学習を用いた複数音声強調処理のアンサンブル手法の検討

藤田雅彦, 糸山克寿, 西田健次, 中臺一博

情報処理学会第84回全国大会 ( 5R-05 ) 2022年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
ロボット聴覚用音響処理ソフトウェアHARKを用いたサウンドスケープの分析および考察

山本遼, 西田健次, 糸山克寿, 中臺一博, 中臺一博

日本生態学会大会講演要旨(Web) 69th 2022年

　詳細を見る

J-GLOBAL

researchmap
転移学習を用いた音響クラス分類の検討

露口弘毅, 西田健次, 糸山克寿, 中臺一博

第22回計測自動制御学会システムインテグレーション部門講演会 (SI2021) ( 3B4-03 ) 2021年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
スポットフォーミングによる音声認識性能向上の評価

合澤隆拓, 鍵本泰宏, 西田健次, 糸山克寿, 中臺一博

第22回計測自動制御学会システムインテグレーション部門講演会 (SI2021) ( 2G4-03 ) 2021年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
Detecting earthquakes: a novel deep learning-based approach for effective disaster response

Shakeel Muhammad, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

第58回人工知能学会AIチャレンジ研究会 47 - 52 2021年11月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
Haris Gulzar, Shakeel Muhammad, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

Haris Gulzar, Shakeel Muhammad, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

第58回人工知能学会AIチャレンジ研究会 29 - 34 2021年11月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数マイクロホンアレイを用いたNMFによる空間音源分離法の残響下での評価

鍵本泰宏, 糸山克寿, 西田健次, 中臺一博

第58回人工知能学会AIチャレンジ研究会 22 - 28 2021年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
Numerical Evaluation of 3D Sound Source Tracking Methods for Drones with Microphone Arrays

Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

第39回日本ロボット学会学術講演会 (RSJ2021) ( 2D4-02 ) 2021年9月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
類似度行列を考慮した野鳥の歌自動識別の検討

山本遼, 中臺一博, 西田健次, 糸山克寿

第39回日本ロボット学会学術講演会 (RSJ2021) ( 2D4-04 ) 2021年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数マイクロホンアレイの同期および3次元位置・姿勢推定の同時最適化の検討

杉山地塩, 糸山克寿, 西田健次, 中臺一博

第39回日本ロボット学会学術講演会 (RSJ2021) ( 2D4-01 ) 2021年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
アンサンブル時間周波数マスクによる音声強調手法の評価

藤田雅彦, 糸山克寿, 西田健次, 中臺一博

第39回日本ロボット学会学術講演会 (RSJ2021) ( 2D3-03 ) 2021年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
エコロケーションに基づく視覚シーンの再構成手法の提案と入力特徴量の検討

岸波華彦, 糸山克寿, 西田健次, 中臺一博

第39回日本ロボット学会学術講演会 (RSJ2021) ( 2D3-02 ) 2021年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
類似度行列による野鳥の歌識別器の検討

山本遼, 中臺一博, 糸山克寿, 西田健次, 鈴木麗璽, 松林志保

日本鳥学会2021年度大会 2021年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
アンサンブル時間周波数マスクによる音声強調手法の検討

藤田雅彦, 糸山克寿, 西田健次, 中臺一博

情報処理学会第83回全国大会 ( 7N-6 ) 2021年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数マイクロホンアレイの同期および位置・姿勢推定の同時最適化の検討

杉山地塩, 糸山克寿, 西田健次, 中臺一博

情報処理学会第83回全国大会 ( 5W-7 ) 2021年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
A Multi-Access Edge Computing Solution with Distributed Sound Source Localization for IoT Networks

Haris Gulzar, Muhammad Shakeel, Kenji Nishida, Katsutoshi Itoyama, Kazuhiro Nakadai

第21回計測自動制御学会システムインテグレーション部門講演会 (SICE SI 2020) ( 1E3-04 ) 2020年12月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
バイナリマスク付き非負値行列因子分解に基づく発音時刻を用いた音源分離

日下湧太, 糸山克寿, 西田健次, 中臺一博

第57回人工知能学会 AIチャレンジ研究会 2020年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
マイクロホンアレイ搭載ドローンによる音源方向尤度統合に基づく音源追跡

山田泰基, 糸山克寿, 西田健次, 中臺一博

第57回人工知能学会 AIチャレンジ研究会 2020年11月

　詳細を見る

掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
表情による感情推定と音声による感情推定手法の検討

西田健次, 山田亨, 糸山克寿, 中臺一博

第57回人工知能学会 AIチャレンジ研究会 2020年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
テニスにおける打球音を用いた打球回転方向の識別

山本修己, 糸山克寿, 西田健次, 中臺一博

第57回人工知能学会 AIチャレンジ研究会 2020年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
マイクロホン位置と音源スペクトルの確率モデルに基づくマイクロホンアレイのキャリブレーション

段雄啓, 糸山克寿, 西田健次, 中臺一博

第57回人工知能学会 AIチャレンジ研究会 2020年11月

　詳細を見る

担当区分：責任著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
重み付け尤度関数と定在波を用いた可聴音による二次元環境認識

岸波華彦, 糸山克寿, 西田健次, 中臺一博

第38回日本ロボット学会学術講演会 (RSJ2020) ( 1D3-04 ) 2020年10月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
環境音情報と画像情報を用いた物体検出による音ラベル付きセグメントの生成

鈴木啓, 糸山克寿, 西田健次, 中臺一博

第38回日本ロボット学会学術講演会 (RSJ2020) ( 1D3-02 ) 2020年10月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数マイクロホンアレイを用いたNMFによる空間音源分離法の提案と評価

鍵本泰宏, 糸山克寿, 西田健次, 中臺一博

第38回日本ロボット学会学術講演会 (RSJ2020) ( 1D2-04 ) 2020年10月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
伸縮スペクトルのランク最小化の緩和に基づくチャネル間同期

糸山克寿, 中臺一博

第38回日本ロボット学会学術講演会 (RSJ2020) ( 1D2-03 ) 2020年10月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
テニスの打球音による球種識別の検討

山本修己, 糸山克寿, 西田健次, 中臺一博

第38回日本ロボット学会学術講演会 (RSJ2020) ( 1D3-05 ) 2020年10月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
バイナリマスク付き非負値行列因子分解に基づく音源分離手法の発音時刻ずれに対する性能評価

日下湧太, 糸山克寿, 西田健次, 中臺一博

情報処理学会第82回全国大会 ( 5S-1 ) 361 - 362 2020年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
クラウドソーシングを用いた作成した環境音キャプションコーパスの評価

岩月道生, 糸山克寿, 西田健次, 中臺一博

情報処理学会第82回全国大会 ( 5Q-7 ) 201 - 202 2020年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数マイクロホンアレイを用いた尤度分布統合による移動音源追跡

山田泰基, 糸山克寿, 西田健次, 中臺一博

情報処理学会第82回全国大会 ( 5Q-2 ) 191 - 192 2020年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
A Spatial Filter Design for Surface Sound Source Separation

鍾知, 糸山克寿, 西田健次, 中臺一博

情報処理学会第82回全国大会 ( 5Q-1 ) 189 - 190 2020年2月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数マイクロホンアレイを用いたLDAによるスポットフォーミングの検討

鍵本泰宏, 糸山克寿, 西田健次, 中臺一博

第20回計測自動制御学会システムインテグレーション部門講演会 (SI2019) ( 2C2-16 ) 2019年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
重み付け尤度関数と定在波を用いた可聴音による距離測定

岸波華彦, 糸山克寿, 西田健次, 中臺一博

第20回計測自動制御学会システムインテグレーション部門講演会 (SI2019) ( 2C2-14 ) 2019年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
音響距離計測情報を用いた透明物体の三次元構造復元法の検討

岡本悠太朗, 糸山克寿, 西田健次, 中臺一博

第20回計測自動制御学会システムインテグレーション部門講演会 (SI2019) ( 1C5-08 ) 2019年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
リハビリテーション効果推定のための感情識別器の構成と評価

西田健次, 山田亨, 藤村友美, 糸山克寿, 中臺一博

第55回人工知能学会 AIチャレンジ研究会 ( SIG-Challenge-055-8 ) 41 - 47 2019年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
視聴覚統合による動的環境下における三次元再構成の提案

紺野隆志, 西田健次, 糸山克寿, 中臺一博

第55回人工知能学会 AIチャレンジ研究会 ( SIG-Challenge-055-7 ) 33 - 40 2019年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
スペクトル伸縮モデルと複素正規分布音源モデルに基づく複数マイクロホンの同期

糸山克寿, 中臺一博

第55回人工知能学会 AIチャレンジ研究会 ( SIG-Challenge-055-5 ) 24 - 29 2019年11月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数マイクロホンアレイにおける音源方向尤度に基づく三次元音源追跡

山田泰基, 糸山克寿, 西田健次, 中臺一博

第55回人工知能学会 AIチャレンジ研究会 ( SIG-Challenge-055-3 ) 12 - 17 2019年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
Design of a Scan-and-sum Beamformer for Surface Sound Source Separation

Zhi Zhong, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

第37回日本ロボット学会学術講演会 (RSJ2019) ( 1F3-04 ) 2019年9月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数マイクロホンアレイを搭載した複数のUAVによる移動音源の三次元追跡手法の実収録音評価

山田泰基, 糸山克寿, 西田健次, 中臺一博

第37回日本ロボット学会学術講演会 (RSJ2019) ( 2I1-02 ) 2019年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
音環境説明ロボットの実現に向けた環境音キャプションコーパスの構築

岩月道生, 周藤唯, 糸山克寿, 西田健次, 中臺一博

第37回日本ロボット学会学術講演会 (RSJ2019) ( 2I1-05 ) 2019年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数同時音源を用いたマイクロホンアレイのキャリブレーション

段雄啓, 糸山克寿, 西田健次, 中臺一博

第37回日本ロボット学会学術講演会 (RSJ2019) ( 2I2-04 ) 2019年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
バイナリマスク付き非負値行列因子分解による発音時刻を用いた音源分離手法の評価

日下湧太, 糸山克寿, 西田健次, 中臺一博

第37回日本ロボット学会学術講演会 (RSJ2019) ( 2I2-05 ) 2019年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
バイナリマスク付き非負値行列因子分解による発音時刻を用いた音源分離手法とその評価

日下湧太, 糸山克寿, 西田健次, 中臺一博

情報処理学会第124回音楽情報科学研究会 2019-MUS-124 ( 14 ) 1 - 7 2019年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
Listen and Tell: Acoustic Scene Caption Generation using Deep Learning

Michio Iwatsuki, Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

Third International Workshop on Symbolic-Neural Learning (SNL-2019) P-17 2019年7月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（国際会議）

researchmap
Sound Source Tracking Using Multiple Microphone Arrays Mounted to an Unmanned Aerial Vehicle

Taiki Yamada, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai

ICRA 2019 Workshop on Sound Source Localization and Its Applications for Robots 2019年5月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（国際会議）

researchmap
マルコフ連鎖に基づくマスク付きNMFを用いた特定音源の分離

日下湧太, 糸山克寿, 西田健次, 中臺一博

情報処理学会第81回全国大会 ( 7T-1 ) 419 - 420 2019年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
マイクロホンと音源位置に関する確率モデルに基づくマイクロホンアレイのキャリブレーションの検討

段雄啓, 糸山克寿, 西田健次, 中臺一博

情報処理学会第81回全国大会 ( 4V-2 ) 553 - 554 2019年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
von Mises - Bernoulli RBMを用いた音源定位の検討

正木俊伍, 杉山治, 小島諒介, 中臺一博, 糸山克寿, 西田健次

情報処理学会第81回全国大会 ( 4V-3 ) 555 - 556 2019年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数のマイクロホンアレイを搭載した複数のUAVによる移動音源の三次元追跡

山田泰基, Daniel Gabriel, 糸山克寿, 西田健次, 中臺一博

情報処理学会第81回全国大会 ( 2M-3 ) 115 - 116 2019年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
視聴覚統合による三次元構造復元に関する検討

紺野隆志, 西田健次, 糸山克寿, 中臺一博

情報処理学会第81回全国大会 ( 5R-9 ) 207 - 208 2019年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

岩月道生, 周藤唯, 糸山克寿, 西田健次, 中臺一博

情報処理学会第81回全国大会 ( 6T-3 ) 407 - 408 2019年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
柔軟索状レスキューロボットのための空気噴射音下での単チャネル音声強調

坂東宜昭, 安部祐一, 糸山克寿, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 中臺一博, 奥乃博

日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2019 2019年

　詳細を見る

J-GLOBAL

researchmap
Mask U-Netを用いた環境音セグメンテーションの提案

周藤唯, 西田健次, 糸山克寿, 中臺一博

第52回人工知能学会 AIチャレンジ研究会 ( SIG-Challenge-052-5 ) 21 - 26 2018年12月

　詳細を見る

researchmap
階乗隠れセミマルコフモデルに基づく音楽音響信号に対するカバー譜生成

柴田健太郎, 錦見亮, 中村栄太, 深山覚, 後藤真孝, 糸山克寿, 吉井和佳, 吉井和佳

情報処理学会第121回音楽情報科学研究会 2018-MUS-121 ( 16 ) 1 - 8 2018年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
WaveNetを用いた楽譜情報に基づく歌唱F0軌跡の生成

和田雄介, 錦見亮, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第120回音楽情報科学研究会 2018-MUS-120 ( 8 ) 1 - 7 2018年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
デモンストレーション：音楽情報処理の研究紹介XVII

糸山克寿, 飯島祥, 梅村祥之, 尾形正泰, 加藤淳, 柴田健太郎, 津島啓晃, 佃洸摂, 出口幸子, 錦見亮, 橋田光代, 濱崎雅弘, 廣瀬均, Junichi Yamagishi, 吉久怜子, 和田雄介

情報処理学会第120回音楽情報科学研究会 2018-MUS-120 ( 5 ) 1 - 5 2018年8月

　詳細を見る

担当区分：責任著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
ImPACT TRCにおけるタフなヘビ型ロボットの開発

亀川哲志, 斉偉, 須原大貴, 松田絵梨子, 秋山太一, 酒井聡志, 宇根和志, 竹森達也, 藤原始史, 松野文俊, 鈴木陽介, 坂東宜昭, 糸山克寿, 奥乃博

ロボティクス・メカトロニクス講演会2018 (ROBOMECH2018) 2018 ( 2A2-K05 ) 2A2 - K05 2018年6月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：日本機械学会

<p>We are developing snake robots as a solution for inspection of plants. The snake robots are constructed by connecting pitch axis and a yaw axis alternately. The snake robots realize various locomotion mode. Especially, helical rolling motion is utilized to move inside and outside of a pipe. In this paper, designed and system of the snake robots are described in addition to experimental results conducted in test field of Tough Robotics Challenge.</p>

DOI： 10.1299/jsmermd.2018.2a2-k05

researchmap
慣性・音響センサアレイを用いた柔軟索状レスキューロボットのマルチモーダル姿勢推定

坂東宜昭, 安部祐一, 糸山克寿, 昆陽雅司, 田所諭, 吉井和佳, 奥乃博

ロボティクス・メカトロニクス講演会2018 (ROBOMECH2018) 2018 ( 2A1-M01 ) 2018年6月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人日本機械学会

<p>Posture estimation of a hose-shaped rescue robot is crucial for handling the flexible robot body. Conventional posture estimation based on inertial sensors gradually accumulates its errors due to unexpected posture change and temperature change. The accumulative error problem can be avoided by using a sound-based method that localizes microphones and loudspeakers on the robot by measuring time differences of arrival (TDOAs) of a reference sound. The sound-based method, however, cannot distinguish mirror-symmetric postures because of the sensors serially placed on the robot. To solve these problems, we integrate the inertial and sound measurements into a unified state-space model. The time-varying posture is estimated by using the inertial sensors while the accumulative error is estimated and corrected by using the sound sensors. Experimental results that our method suppresses the accumulative errors for more than 10 minutes whereas the inertial-based method increased monotonically.</p>

DOI： 10.1299/jsmermd.2018.2A1-M01

J-GLOBAL

researchmap
ロボット聴覚技術の極限環境への展開

奥乃博, 糸山克寿, 中臺一博, 公文誠, 坂東宜昭, 干場功太郎

第62回システム制御情報学会研究発表講演会 (SCI’18) 62 ( 221‐1 ) 5p 2018年5月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：システム制御情報学会

CiNii Books

J-GLOBAL

researchmap
ImPACT TRC太索状ロボットの研究開発の現状と展望

松野文俊, 亀川哲志, 竹森達也, 田中基康, 多田隈建二郎, 藤田政宏, 鈴木陽介, 坂東宜昭, 糸山克寿, 奥乃博, 藤原始史, 伊達央, 有泉亮

第62回システム制御情報学会研究発表講演会 (SCI’18) 62 ( 141-8 ) 4p 2018年5月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：システム制御情報学会

CiNii Books

researchmap
ImPACT TRC索状ロボット(細)プラットフォーム : 多感覚機能を統合した空気浮上型能動スコープカメラ

昆陽雅司, 安部祐一, 永野光, 坂東宜昭, 山崎公俊, 岡谷貴之, 糸山克寿, 奥乃博, 田所諭

第62回システム制御情報学会研究発表講演会 (SCI’18) 62 ( 141-5 ) 5p 2018年5月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：システム制御情報学会

CiNii Books

CiNii Research

researchmap
WaveNetを用いた音符系列に対する歌唱F0軌跡の生成

和田雄介, 糸山克寿, 吉井和佳

情報処理学会第80回全国大会 80th ( 3N-5 ) 169 - 170 2018年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
VAEを事前分布とするNMFを用いた音楽音響信号に対するドラム譜推定

上田舜, 坂東宜昭, 糸山克寿, 吉井和佳

情報処理学会第80回全国大会 80th ( 3N-1 ) 161 - 162 2018年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
木構造モデルに基づくコードとメロディの対話的生成システム

津島啓晃, 糸山克寿, 吉井和佳

情報処理学会第80回全国大会 80th ( 2N-2 ) 145 - 146 2018年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
Factorial HSMMに基づく音楽音響信号に対するリード・リズムギター譜推定

柴田健太郎, 坂東宜昭, 尾島優太, 錦見亮, 糸山克寿, 吉井和佳

情報処理学会第80回全国大会 80th ( 3N-2 ) 163 - 164 2018年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
VAEを用いたメロディのモーフィング

村田叡, 坂東宜昭, 糸山克寿, 吉井和佳

情報処理学会第80回全国大会 2018 ( 3N-8 ) 175 - 176 2018年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では,音楽的な妥当性を考慮しながら,異なるメロディ間をモーフィングする方法について述べる.従来の生成音楽理論GTTMに基づくモーフィング手法では,メロディを階層的に簡約化するための木構造が似ているメロディ同士でしかモーフィングを行うことができなかった.本研究では,潜在変数モデルであるVAEを用いて,あらかじめ大量のメロディからメロディの生成モデルを学習しておくことにより,潜在空間において任意のメロディ間の線形補完を行う手法を提案する.

CiNii Books

CiNii Research

researchmap
ブラインド音源分離のための高速相関テンソル分解

北村昂一, 坂東宜昭, 糸山克寿, 吉井和佳, 河原達也

電子情報通信学会音声研究会 117 ( 517 ) 235 - 240 2018年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：電子情報通信学会

CiNii Books

CiNii Research

researchmap

その他リンク： http://id.ndl.go.jp/bib/028943418
マルチチャネル非負値行列因子分解に基づくビームフォーミングを用いた雑音環境下音声認識

島田一希, 坂東宜昭, 三村正人, 糸山克寿, 吉井和佳, 河原達也

電子情報通信学会音声研究会 117 ( 517 ) 33 - 38 2018年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：電子情報通信学会

CiNii Books

CiNii Research

researchmap
Variational Auto Encoderを用いたメロディとコードのモーフィング

村田叡, 坂東宜昭, 糸山克寿, 吉井和佳

情報処理学会全国大会講演論文集 80th ( 2 ) 2018年

　詳細を見る

J-GLOBAL

researchmap
感覚機能統合型能動スコープカメラの改良と瓦礫フィールドへの適用

山内悠, 安部祐一, 永野光, 昆陽雅司, 坂東宜昭, 山崎公俊, 糸山克寿, 猿渡洋, 岡谷貴之, 奥乃博, 田所諭

第18回計測自動制御学会システムインテグレーション部門講演会 (SI2017) 18th ( 1C6‐09 ) 2017年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
ImPACT TRC太索状ロボット研究開発の概要

松野文俊, 亀川哲志, 田中基康, 奥乃博, 多田隈建二郎, 伊達央, 有泉亮, 伊藤一之, 大道武生, 芦澤怜史, 鈴木陽介, 糸山克寿, 藤原始史, 坂東宜明, 竹森達也, 藤田政宏

第8回横幹連合コンファレンス 2017 ( C‐3‐1 ) C - 3-1 2017年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：横断型基幹科学技術研究団体連合（横幹連合）

In ImPACT TRC (Tough Robot Challenge) project we have developed cord-like robots for not only daily maintenance/inspection of plants but also disaster response. In this paper overview of development of the cord-like robots is introduced and future progress is discussed.

DOI： 10.11487/oukan.2017.0_C-3-1

J-GLOBAL

researchmap
配管内探査ロボットのための音響センサを用いた自己位置推定

坂東宜昭, 須原大貴, 亀川哲志, 糸山克寿, 吉井和佳, 松野文俊, 奥乃博

第8回横幹連合コンファレンス ( C-4-2 ) 2017年12月

　詳細を見る

担当区分：責任著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
ポスター講演調とリズムを考慮した階層隠れセミマルコフモデルに基づく歌声の自動採譜 (情報論的学習理論と機械学習)

錦見亮, 中村栄太, 後藤真孝, 糸山克寿, 吉井和佳

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 117 ( 293 ) 147 - 153 2017年11月

　詳細を見る

記述言語：日本語出版者・発行元：電子情報通信学会

researchmap
ポスター講演和音系列に対するPCFGのベイズ学習とSplit-Mergeサンプリングを用いたメロディへの和声付け (情報論的学習理論と機械学習)

津島啓晃, 中村栄太, 糸山克寿, 吉井和佳

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 117 ( 293 ) 101 - 107 2017年11月

　詳細を見る

記述言語：日本語出版者・発行元：電子情報通信学会

researchmap
和音系列に対するPCFGのベイズ学習とSplit-Mergeサンプリングを用いたメロディへの和声付け

津島啓晃, 中村栄太, 糸山克寿, 吉井和佳

第20回情報論的学習理論ワークショップ (IBIS2017) 117 ( 293 ) 101 - 107 2017年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
調とリズムを考慮した階層隠れセミマルコフモデルに基づく歌声の自動採譜

錦見亮, 中村栄太, 後藤真孝, 糸山克寿, 吉井和佳

第20回情報論的学習理論ワークショップ (IBIS2017) 117 ( 293 ) 147 - 153 2017年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
音響センサを用いた配管内探査ヘビ型ロボットの3次元位置推定

坂東宜昭, 須原大貴, 亀川哲志, 糸山克寿, 吉井和佳, 松野文俊, 奥乃博

第35回日本ロボット学会学術講演会 (RSJ2017) ( 3A2-01 ) 2017年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
雑音環境下音声認識のための多チャネル非負値行列因子分解に基づく教師なしビームフォーマ

島田一希, 坂東宜昭, 三村正人, 糸山克寿, 吉井和佳, 河原達也

電子情報通信学会音声研究会 117 ( 189 ) 19 - 24 2017年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：電子情報通信学会

CiNii Books

researchmap
調とリズムを考慮した階層隠れセミマルコフモデルに基づく歌声F0軌跡に対する音符推定

錦見亮, 中村栄太, 後藤真孝, 糸山克寿, 吉井和佳

情報処理学会第116回音楽情報科学研究会 2017-MUS-116 ( 17 ) 1 - 8 2017年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
和音系列の統計的木構造解析とSplit-Mergeサンプリングに基づくメロディへの和声付け

津島啓晃, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第116回音楽情報科学研究会 2017-MUS-116 ( 14 ) 1 - 7 2017年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
既存歌唱曲アレンジのための歌声キーボード

尾島優太, 中野倫靖, 深山覚, 加藤淳, 後藤真孝, 糸山克寿, 吉井和佳

情報処理学会第116回音楽情報科学研究会 2017-MUS-116 ( 4 ) 1 - 7 2017年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
楽曲中の歌声とユーザ歌唱のリアルタイムアラインメントに基づく伴奏追従型カラオケシステム

和田雄介, 坂東宜昭, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第116回音楽情報科学研究会 2017-MUS-116 ( 3 ) 1 - 7 2017年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
深層生成モデルを事前分布に用いた教師なし音声強調

坂東宜昭, 三村正人, 糸山克寿, 吉井和佳, 河原達也

電子情報通信学会音声研究会 117 ( 189 ) 1 - 6 2017年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：電子情報通信学会

CiNii Books

researchmap
ニューラルネットワークを用いたセミブラインド音声分離・強調

和気雅弥, 坂東宜昭, 三村正人, 糸山克寿, 吉井和佳, 河原達也

電子情報通信学会音声研究会 117 ( 189 ) 13 - 18 2017年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
多チャネル低ランク・スパース分解に基づく柔軟索状レスキューロボットのためのリアルタイム音声強調

坂東宜昭, 安部祐一, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 吉井和佳, 奥乃博

ロボティクス・メカトロニクス講演会2017 (ROBOMECH2017) 2017 ( 1P2-P05 ) 1P2 - P05 2017年5月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

DOI： 10.1299/jsmermd.2017.1p2-p05

researchmap
マイクロホンアレイを搭載した複数ロボットによる自己位置・同期ずれ・音源位置・音源信号の推定

関口航平, 坂東宜昭, 糸山克寿, 吉井和佳

ロボティクス・メカトロニクス講演会2017 (ROBOMECH2017) 2017 ( 1P2-P06 ) 1P2 - P06 2017年5月

　詳細を見る

担当区分：責任著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人日本機械学会

<p>This paper presents a method of simultaneous localization and mapping (SLAM) for estimating the positions of multiple sound sources and those of stationary robots and synchronizing microphone arrays attached to those robots. Since each robot with a microphone array can solely estimate the directions of sound sources, the two-dimensional sound positions can be estimated from the source directions estimated by multiple robots. In addition, sound mixtures can be separated accurately by regarding distributed microphone arrays as one big array. To perform these tasks, the robot positions and synchronization between microphone arrays are necessary. The proposed method estimates the posterior distribution of the positions and time offsets and conducts source separation simultaneously in a Bayesian manner, given the observed signals. We conducted experiments using three robots and four sound sources. When the two of the model parameters (robot positions, sound source positions, and time offsets) were fixed to the correct value, the other one was correctly estimated and the observed signals were separated precisely. However, when all of the parameters were estimated simultaneously, they cannot be estimated correctly because of many local optimal solutions of the posterior distribution.</p>

DOI： 10.1299/jsmermd.2017.1P2-P06

researchmap
感覚機能統合型能動スコープカメラの開発

安部祐一, 田所諭, 坂東宜昭, 永野光, 昆陽雅司, 山崎公俊, 糸山克寿, 猿渡洋, 岡谷貴之, 奥乃博

ロボティクス・メカトロニクス講演会2017 (ROBOMECH2017) 2017 ( 1P2-P01 ) 1P2-P01 2017年5月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人日本機械学会

DOI： 10.1299/jsmermd.2017.1p2-p01

CiNii Research

researchmap
既存歌唱曲のリアルタイム歌声アレンジシステム

尾島優太, 中野倫靖, 深山覚, 加藤淳, 後藤真孝, 糸山克寿, 吉井和佳

情報処理学会第79回全国大会 ( 7L-3 ) 127 - 128 2017年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，歌唱曲中の歌声を分離し，MIDIキーボードを用いてリアルタイムに音高・タイミングを変化させ，再合成する歌声編集システムについて述べる．これまでに既存楽曲中のドラムパートをリアルタイムにアレンジできるシステムが存在したが，同様のアレンジを歌声に対して行うためには歌詞・音高情報を用意する必要があり，その実現は困難であった．本研究では，音楽音響信号から分離された歌声を用いることで，そのような情報を事前に用意することなく歌声を編集することが可能なシステムを提案する．本システムにより，ハモリパートや合いの手といったパートを楽曲に付与することが可能となる．また，音高・タイミングの編集はリアルタイムで行われるため，DJのようなパフォーマンスが可能である．提案システムの評価のため，被験者実験を行った．

researchmap
ロボット対話における深層学習を用いたセミブラインド音声強調

和気雅弥, 坂東宜昭, 三村正人, 糸山克寿, 吉井和佳, 河原達也

情報処理学会第79回全国大会 2017 ( 6M-1 ) 219 - 220 2017年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では、人間とロボットの発話の混合音から人間の発話を強調するセミブラインド音声強調法について述べる。人間同士の対話で発生するような双方の発話が重なる状況にロボット対話が対処するには、自己発話を除去し、人間の発話を強調する必要がある。従来法のセミブラインド独立成分分析では、実環境で起こりうる非線形混合過程が考慮されていなかった．そこで本研究では，非線形混合過程を表現可能な深層学習を用いてセミブラインド音声強調を実現する．提案法を用いて2発話の混合音のうち一方を強調し，その音声認識率により有効性を評価した．

CiNii Books

CiNii Research

researchmap
遠隔音声認識のためのブラインド音源分離に基づくビームフォーマ

島田一希, 坂東宜昭, 板倉光佑, 三村正人, 糸山克寿, 吉井和佳, 河原達也

情報処理学会第79回全国大会 2017 ( 6M-2 ) 221 - 222 2017年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では、遠隔音声認識のための音声強調について述べる。録音信号に含まれる雑音は認識性能を大きく低下させるため、前処理として雑音を除去し目的音声を強調することは遠隔音声認識において不可欠である。マイクロホンアレイを用いた音声強調手法が活発に研究されており、アレイの配置や雑音の音源数・音色といった事前情報を用いず頑健に動作することが課題である。また認識性能低下の要因となる分離歪みの影響を抑えることも課題となる。本研究では、ブラインド音源分離により推定した空間相関行列に基づくビームフォーマを提案し、これらの課題を包括的に解決する。CHiME-4のデータを用いて、提案手法の有効性を評価した。

CiNii Books

CiNii Research

researchmap
ベイズ文脈自由文法に基づく和音系列の教師なし構文解析と自動生成

津島啓晃, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第79回全国大会 ( 4L-2 ) 87 - 88 2017年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
スケールと音高の過渡的変化を考慮したHSMMに基づく歌声F0軌跡に対する音符推定

錦見亮, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第79回全国大会 ( 7L-1 ) 123 - 124 2017年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
市販音楽CDを用いたユーザ歌唱に伴奏音が自動追従するスマートカラオケシステム

和田雄介, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第79回全国大会 ( 5L-1 ) 97 - 98 2017年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
熱帯の長期環境録音データから鳥類のさえずりを検出する

藤田素子, 丸山晃央, 糸山克寿, 奥乃博, 神崎護

第64回日本生態学会大会 ( P2‐B‐094 ) 2017年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
楽譜簡略化と自動補完伴奏によるピアノ演奏練習支援システム

福田翼, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第114回音楽情報科学研究会 2017-MUS-114 ( 21 ) 1 - 4 2017年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
HARK2.3の紹介とタフロボティクスチャレンジへの展開

中臺一博, 坂東宜昭, 水本武志, 干場功太郎, 小島諒介, 糸山克寿, 杉山治, 公文誠, 奥乃博

第17回計測自動制御学会システムインテグレーション部門講演会 (SI2016) ( 3A3‐3 ) 2016年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
マルチチャネル音源分離のための低ランク音源モデルとスパース重畳過程に基づくネスト型ベイズ混合・因子モデル

板倉光佑, 坂東宜昭, 中村栄太, 糸山克寿, 吉井和佳, 河原達也

第19回情報論的学習理論ワークショップ (IBIS2016) 116 ( 300 ) 353 - 359 2016年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：電子情報通信学会

CiNii Books

CiNii Research

researchmap
音楽音響信号解析のためのディリクレ過程に基づくベイズ潜在成分分析

吉井和佳, 中村栄太, 糸山克寿, 後藤真孝

第19回情報論的学習理論ワークショップ (IBIS2016) 116 ( 300 ) 155 - 162 2016年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
音楽音響信号に対する多重音高推定と和音構造学習のための階層ベイズ音響・言語統合モデル

尾島優太, 中村栄太, 糸山克寿, 吉井和佳

第19回情報論的学習理論ワークショップ (IBIS2016) 116 ( 300 ) 329 - 335 2016年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
歌声F0軌跡に対する自動採譜のための準ビート同期セグメンタルHMM

錦見亮, 中村栄太, 糸山克寿, 吉井和佳

第19回情報論的学習理論ワークショップ (IBIS2016) 116 ( 300 ) 337 - 343 2016年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
変分ベイズ多チャネルRNMFに基づく柔軟索状レスキューロボットのための音声強調

坂東宜昭, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 吉井和佳, 奥乃博

第34回日本ロボット学会学術講演会 (RSJ2016) 34th ( 1C2‐04 ) 2016年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
変分ベイズ多チャネルロバストNMFに基づくマイクロホンの移動・被覆を許容する音声強調

坂東宜昭, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 吉井和佳, 河原達也, 奥乃博

電子情報通信学会音声研究会 116 ( 189 ) 47 - 52 2016年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：電子情報通信学会

CiNii Books

CiNii Research

researchmap
マルチチャネル音源分離のためのネスト型基底・音源混合モデルに基づく時間周波数クラスタリング

板倉光佑, 坂東宜昭, 中村栄太, 糸山克寿, 吉井和佳, 河原達也

電子情報通信学会音声研究会 116 ( 189 ) 25 - 28 2016年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：電子情報通信学会

CiNii Books

researchmap
音型の反復と変形に基づく階層ベイズ音楽言語モデルとMIDI演奏のリズム採譜への応用

中村栄太, 糸山克寿, 吉井和佳

情報処理学会第112回音楽情報科学研究会 2016‐MUS‐112 ( 22 ) 1 - 6 2016年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
調・コード・音高・スペクトログラムの階層ベイズモデルに基づく多重音解析

尾島優太, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第112回音楽情報科学研究会 2016‐MUS‐112 ( 6 ) 1 - 8 2016年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
NMF vs PLCA: 多重音生成過程のための無限因子モデルと無限混合モデル

吉井和佳, 中村栄太, 糸山克寿, 後藤真孝

情報処理学会第112回音楽情報科学研究会 2016‐MUS‐112 ( 21 ) 1 - 10 2016年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
視聴覚統合ビートトラッキングとリアルタイムコード認識を用いたダンス共演ロボット

大喜多美里, 坂東宜昭, 糸山克寿, 吉井和佳

情報処理学会第112回音楽情報科学研究会 2016‐MUS‐112 ( 15 ) 1 - 6 2016年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
歌声F0軌跡に対する音符推定のためのベイジアン準ビート同期HMM

錦見亮, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第112回音楽情報科学研究会 2016-MUS-112 ( 7 ) 1 - 7 2016年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
柔軟索状レスキューロボットのためのマイクロホン・加速度センサアレイを用いた3次元姿勢推定

坂東宜昭, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 吉井和佳, 奥乃博

ロボティクス・メカトロニクス講演会2016 (ROBOMECH2016) 2016 ( 1A2-10a6 ) 2016年6月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人日本機械学会

<p>This paper presents an online method that estimates a 3D posture of a hose-shaped rescue robot using a microphone and accelerometer array. Posture (shape) estimation of a self-driving hose-shaped rescue robot is crucial for handling the robot body because the unseen robot posture deforms in narrow spaces under collapsed buildings. Conventional sound-based method that uses time-differences of arrivals (TDOAs) works only on a two-dimensional surface and is often hampered by the rubble around the robot. Our method eliminates the outliers of sound-based TDOA measurements, and compensates the lack of the posture information with the tilt information measured by accelerometers. Experimental results using a 3-m hose-shaped robot that was deployed in a simple 3D structure demonstrate that our method reduces the errors of initial states to about 20cm in the 3D space.</p>

DOI： 10.1299/jsmermd.2016.1A2-10a6

J-GLOBAL

researchmap
ロボット聴覚の極限音響への展開

奥乃博, 中臺一博, 公文誠, 糸山克寿, 吉井和佳, 坂東宜昭, 佐々木洋子

ロボティクス・メカトロニクス講演会2016 (ROBOMECH2016) 2016 ( 1A2-09b3 ) 1A2 - 09b3 2016年6月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人日本機械学会

<p>The ability of robots to listen to several things at once with their own "ears", i.e., robot audition, is critical in improving the performance of search and rescue activities under severe conditions. This paper introduces "HARK" robot audition open-source software and its capabilities of suppressing ego-noise that is caused by robot's own movements such as motor, propeller and/or flying noise. Then it describes three main applications of robot audition: 1) Unmanned Aerial Vehicle (UAV) with a microphone array to capture sounds can localize a sound source by suppressing ego-noise with either hovering, slow gliding or fast gliding. It can also recognize a sound source by CNN. 2) A serpentine robot with a microphone array can estimate its posture by sound. It can also enhance a voice by Online Robust PCA. 3) A robot with a LiDAR and 32-channel microphone can visualize a sound map by superimposing sound source directions on point clouds.</p>

DOI： 10.1299/jsmermd.2016.1A2-09b3

researchmap
非同期マイクロホンアレイを搭載した複数ロボットによる音環境マップの協調オンライン推定

関口航平, 坂東宜昭, 中村圭佑, 中臺一博, 糸山克寿, 吉井和佳

ロボティクス・メカトロニクス講演会2016 (ROBOMECH2016) 2016 ( 1A2-09b5 ) 1A2-09b5 2016年6月

　詳細を見る

担当区分：責任著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人日本機械学会

DOI： 10.1299/jsmermd.2016.1A2-09b5

CiNii Research

researchmap
「音学シンポジウム2016」開催にあたって

北原鉄朗, 齋藤大輔, 森勢将雅, 深山覚, 糸山克寿, 滝口哲也, 饗庭絵里子, 堀内俊治, 寺島裕貴, 亀岡弘和, 大石康智, 程島奈緒, 向井智彦, 小幡哲史

情報処理学会第111回音楽情報科学研究会 (音学シンポジウム2015) 2016-MUS-111 ( 1 ) 1 - 2 2016年5月

　詳細を見る

記述言語：日本語掲載種別：講演資料等（セミナー，チュートリアル，講習，講義他）

researchmap
音源スペクトログラムの低ランク性とスパース性を考慮したNMF-LDAに基づくマルチチャネル音源定位と音源分離

板倉光佑, 坂東宜昭, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第78回全国大会 2016 ( 4Q-3 ) 485 - 486 2016年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，マイクロホンアレイを用いたマルチチャネル音源定位と音源分離を行ううえで，混合音スペクトログラムの低ランク性とスパース性を同時に考慮する手法について述べる．従来，LDAに基づく手法では，音源スペクトログラムのスパース性に着目し，観測スペクトログラムの各時間・周波数における空間相関行列をいずれかの音源・方向にクラスタリングすることが行われていた．本研究ではさらに，音源スペクトログラムの低ランク性に着目し， NMFを用いて観測スペクトログラムを低ランク近似すると同時に，各時間・周波数成分を音源・方向にクラスタリングできる統一的なベイズモデルを提案する．

CiNii Books

CiNii Research

researchmap
コード進行と多重音スペクトルの階層ベイズモデルに基づく音楽音響信号の音高推定

尾島優太, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第78回全国大会 ( 3Q-6 ) 475 - 476 2016年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
ビート準同期隠れマルコフモデルに基づく歌声音高軌跡に対する音符推定

錦見亮, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第78回全国大会 ( 3Q-5 ) 473 - 474 2016年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
音源到来方向・時間差を用いた非同期複数マイクロホンアレイ位置のオンライン推定

関口航平, 中村圭佑, 坂東宜昭, 糸山克寿, 吉井和佳, 中臺一博

情報処理学会第78回全国大会 2016 ( 4Q-2 ) 483 - 484 2016年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では非同期複数マイクロホンアレイの同期ずれ・位置推定手法について述べる．マイクロホンアレイを搭載した複数台のロボットを用いた音源定位・分離などの音環境認識技術は，単独のロボットを用いた場合よりも高精度な処理を行うことができる．しかし，複数台のロボットを用いたマイクロホンアレイ信号処理には，各ロボットの位置，マイクロホンアレイ間の同期ずれの推定が不可欠である．本稿では各マイクロホンアレイごとに個別に推定した音源定位・位相情報をもとに，非同期複数マイクロホンアレイ間の同期ずれ・位置推定を行う．ロボットと音源の位置・同期ずれを潜在変数として持つ状態空間モデルを設計し，その事後分布をオンライン推定する．

CiNii Books

CiNii Research

researchmap
マイクロホンアレイ音源分離のための複素t分布に基づくマルチチャネル非負値行列因子分解

北村昂一, 坂東宜昭, 糸山克寿, 吉井和佳

情報処理学会第78回全国大会 2016 ( 4Q-1 ) 481 - 482 2016年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，マイクロホンアレイで収録された混合音の音源分離を行うため，複素t分布を尤度関数とするマルチチャネル非負値行列因子分解(NMF)について述べる．マルチチャネルNMFは，音源の低ランク性を仮定することで，伝達関数の測定を不要とするブラインド音源分離法の一つである．最近，単一チャネルNMFでは，尤度関数に複素正規分布の代わりに複素t分布を用いることにより，初期値依存性が低く，外れ値に頑健な音源分離を実現できることが報告されている．本研究では，複素t分布に基づく単一チャネルNMFをマルチチャネルNMFに拡張した手法を提案する．

CiNii Books

CiNii Research

researchmap
ビート位置依存隠れセミマルコフモデルに基づく音楽音響信号に対するコード認識

丸尾智志, 前澤陽, 中村栄太, 糸山克寿, 吉井和佳

情報処理学会第78回全国大会 ( 3Q-2 ) 467 - 468 2016年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
<論文・報告>ビートとコードをリアルタイムで認識しながら音楽に合わせて歌って踊るロボット

津牧美葉子, 大和勝宣, 和佐圭悟, 池田賢矢, 坂東宜昭, 大喜多美里, 糸山克寿, 吉井和佳

ELCAS Journal 1 97 - 100 2016年3月

　詳細を見る

記述言語：日本語出版者・発行元：京都大学学際融合教育研究推進センター高大接続科学教育ユニット

情報学ロボット聴覚と音楽情報処理This paper presents a humanoid robot capable of singing and dancing to a song in an improvisational manner while recognizing the beats and chords of the song in real time. Among various kinds of entertainment robots that are expected to live with humans in the future, music robots such as robot dancers and singers are considered as one of the most attractive applications of music analysis techniques. Our robot mainly consists of listening, dancing, and singing functions. The listening function captures music audio signals and recognizes the beats and chords in real time. The dancing function switches dancing movements according to the types and root notes of the estimated chords. The singing function, on the other hand, generates singing voices whose pitches change according to the root notes of the chords. The information on beats and chords are exchanged between the three functions. The preliminary experiment showed the great potential of the proposed dancing robot. We plan to improve the response of dancing and singing functions by predicting next chords.本稿では，2015年度に開講された専修コース「ロボット聴覚と音楽情報処理」の研究成果について報告する．本コースでは，高校生四名と大学院情報学研究科知能情報学専攻音声メディア分野の大学院生数名とが協力しながら，音楽を聴きながらビート時刻とコードをリアルタイムに認識し，音楽に合わせて即興で歌いながらダンスをするロボットの開発に取り組んだ．我々が開発したロボットは，主に音楽解析部（大和・池田が担当）・ダンス制御部（津牧が担当）・歌唱制御部（和佐が担当）の三つから構成されている．これらのモジュールは独立性が高くなるように設計することで，高校生は自らの担当部分に専念することができ，最後に統合実験まで計画通り行うことができた．研究成果は，音楽情報処理のトップカンファレンスであるISMIR 2015 のLate Breaking Demo セッションにて発表した．聴衆から高い評価を受け，多くの著名な研究者と有意義な議論・交流を行うことができた．

researchmap
日本語方言における音声対訳コーパスの構築

吉野幸一郎, 平山直樹, 森信介, 高橋文彦, 糸山克寿, 奥乃博

言語処理学会第22回年次大会 (NLP2016) ( B5‐2 ) 2016年2月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
複数移動ロボットによる協調音源分離のための分離精度予測を用いた配置最適化

関口航平, 坂東昭宜, 糸山克寿, 吉井和佳

第43回人工知能学会 AIチャレンジ研究会 ( SIG-Challenge-043-08 ) 41 - 46 2015年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
音楽音響信号解析のためのステューデントt分布に基づく非負値行列分解と半正定値テンソル分解

吉井和佳, 糸山克寿, 後藤真孝

第18回情報論的学習理論ワークショップ (IBIS2015) 115 ( 323 ) 131 - 138 2015年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
複数移動ロボットを用いた音源分離における音源配置に応じたロボットの最適配置探索

関口航平, 坂東宜昭, 糸山克寿, 吉井和佳

第33回日本ロボット学会学術講演会 (RSJ2015) ( 3D1-06 ) 2015年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
ロバスト主成分分析を用いた動作雑音抑圧に基づく柔軟索状ロボットのための音声強調

坂東宜昭, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 吉井和佳, 奥乃博

第33回日本ロボット学会学術講演会 (RSJ2015) 33rd ( 2D2-05 ) 2015年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
音源分離のためのベイズモデルに基づく音源信号の不確実性を考慮した音声認識

板倉光佑, 坂東宣昭, 糸山克寿, 吉井和佳

日本音響学会 2015年秋季研究発表会 ( 3-2-3 ) 2015年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
音楽音響信号に対する歌声・伴奏音・打楽器音分離に基づくコード認識

丸尾智志, 池宮由楽, 糸山克寿, 吉井和佳

情報処理学会第108回音楽情報科学研究会 2015-MUS-108 ( 1 ) 1 - 6 2015年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
非ガウス性モノラル音響信号に対する音源分離のための非負値行列分解と半正定値テンソル分解

吉井和佳, 糸山克寿, 後藤真孝

情報処理学会第108回音楽情報科学研究会 2015-MUS-108 ( 2 ) 1 - 9 2015年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
両耳聴ロボット聴覚ソフトウェアHARK‐BinauralとRaspberry Pi2を用いたヒューマノイドロボットへの適用

坂東宜昭, 金宜鉉, 糸山克寿, 吉井和佳, 中臺一博, 奥乃博

情報処理学会第107回音楽情報科学研究会 (音学シンポジウム2015) 2015-MUS-107 ( 33 ) 1 - 2 2015年5月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
モノラル音楽音響信号を対象としたRPCAと音高推定に基づく歌声・伴奏分離

池宮由楽, 糸山克寿, 吉井和佳

情報処理学会第107回音楽情報科学研究会 (音学シンポジウム2015) 2015-MUS-107 ( 57 ) 1 - 3 2015年5月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
視聴覚統合NMFによるカエル合唱音声の分析

糸山克寿, 坂東宜昭, 粟野皓光, 合原一究, 吉井和佳

情報処理学会第107回音楽情報科学研究会 (音学シンポジウム2015) 2015-MUS-107 ( 55 ) 1 - 6 2015年5月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
音楽音響信号に対する相補的な歌声分離と音高推定

池宮由楽, 糸山克寿, 吉井和佳

情報処理学会第77回全国大会 ( 5S-1 ) 417 - 418 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
早言いクイズ司会者ロボットの開発と評価

西牟田勇哉, 糸山克寿, 吉井和佳, 奥乃博

情報処理学会第77回全国大会 2015 ( 5T-6 ) 509 - 510 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，複数プレイヤーで競う「早言い」クイズの司会を行えるロボットの開発と評価について述べる．「早言い」クイズでは，各プレイヤーはボタンを押すなどの事前の合図を必要とせず，思いついた回答を直接発話する自然な音声インタラクションことが許されている．そのため，ロボットの出題中における割り込み回答や複数プレイヤーによる同時回答に対処する必要がある．本研究では，マイクロフォンアレイを用いた音源定位・音源分離技術に基づいて，クイズインタラクションの進行管理を行うロボットを開発した．被験者実験により，人・ロボット聴覚能力比較や印象評価を行い，提案ロボットの有用性を確認した．

CiNii Books

J-GLOBAL

researchmap
聴覚アウェアネスの可視化のための深度センサとマイクロフォンアレイを用いた物体認識と音イベント検出

井山貴裕, 杉山治, 坂東宜昭, 糸山克寿, 吉井和佳, 奥乃博

情報処理学会第77回全国大会 2015 ( 2ZB-7 ) 379 - 380 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，聴覚アウェアネス可視化のための深度センサとマイクロフォンアレイを用いた物体認識と音イベント検出について述べる．従来の可視化手法では，すべての音響情報をカメラ画像に重ね合わせてユーザに提示していたため，画面内の音環境の詳細な観察が困難であった．本研究では，この問題を解決するため，深度センサで得られる音源形状データに対して物体認識を，マイクロフォンアレイで得られる音圧データに対して音イベント検出を行うことで，画面内の興味のある物体のみに着目し，発生する音の時間変化の様子を観察（聴覚アウェアネスの可視化）できる手法を提案する．実験の結果，提案手法の有効性を確認した．

CiNii Books

J-GLOBAL

researchmap
プログラミング基礎教育のための図形言語の3D拡張

古川孝太郎, 糸山克寿, 吉井和佳, 奥乃博

情報処理学会第77回全国大会 2015 ( 3ZF-5 ) 947 - 948 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，Scheme 上で 3D 図形を構成することでプログラミングの基礎的内容への初学者の理解を促進するシステムについて述べる．従来，図形とそれを描画するプログラムとの構造の類推による抽象化の学習は，プログラミングの代表的な教科書である SICP において導入される図形言語によってなされてきたが，これは構成可能な対象が 2D 図形の画像に限定されていた．本システムは図形言語の枠組みにのっとり，CSG の思想を取り入れて構成的に 3D 図形を描画し，3D プリンタにより造形可能な形式でモデルを出力する 3D 図形言語システムを提案する．本システムを講義の補助教材として用いて受講生に図形を作成させ，造型されたモデルとともに学生にフィードバックを与えたところ良好な反応を得て有効性を確認した．

CiNii Books

J-GLOBAL

researchmap
ユーザの技術に合わせた自動編曲機能をもつピアノ演奏練習システム

福田翼, 池宮由楽, 糸山克寿, 吉井和佳

情報処理学会第77回全国大会 ( 4S-2 ) 403 - 404 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
歌声・伴奏音・打楽器音分離に基づく音楽演奏支援システム

土橋彩香, 池宮由楽, 糸山克寿, 吉井和佳

情報処理学会第77回全国大会 ( 4S-1 ) 401 - 402 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
混合音に対する音源分離の不確実性を考慮した同時発話音声認識

板倉光佑, 西牟田勇哉, 坂東宜昭, 糸山克寿, 吉井和佳

情報処理学会第77回全国大会 2015 ( 5P-2 ) 117 - 118 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，複数の発話を含む混合音に対する音源分離結果を一意に定めることなく同時発話音声認識を行う方法について述べる．人間は複数の人から話かけられた時に，脳の中で単独発話音声信号を復元しているわけではないが，直接単語を聞き取ることが可能である．従来の同時発話音声認識システムでは，音源分離を行ったのちに独立した処理として音声認識を行っており，認識精度に限界があった．この問題を解決するため，本研究では，分離音声の不確実性を確率的に取り扱うことで分離音声をベイズ的に積分消去することにより，混合音を直接認識することができる方法を提案する．実験の結果，提案法により認識率が向上することを確認した．

CiNii Books

CiNii Research

researchmap
柔軟索状レスキューロボットのためのロバスト主成分分析を用いた走行雑音抑圧

坂東宜昭, 池宮由楽, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 吉井和佳, 奥乃博

情報処理学会第77回全国大会 77th ( 5T-4 ) 505 - 506 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
ダンス共演ロボットのためのマルチモーダルビートトラッキング

大喜多美里, 坂東宣昭, 池宮由楽, 糸山克寿, 吉井和佳

情報処理学会第77回全国大会 2015 ( 5S-5 ) 425 - 426 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，ダンス共演ロボットのためのマルチモーダルビートトラッキング手法について述べる．ダンス共演ロボットは，音楽と人間の動作を認識しながら人間と共に踊るエンターテインメントロボットである．この種のロボットでは，音楽のテンポとビート時刻をリアルタイムに推定することが重要であるが，音響信号のみを用いた従来法では，音楽のテンポの揺らぎや裏拍ビートを含む多様なリズムの追従に失敗する問題があった．本研究では，この問題を解決するため，音響信号に加えてダンサーの骨格時系列情報を同時に考慮しながらビートトラッキングを行う手法を提案する．実際のセンサデータを用いた実験により，提案法の有効性を確認した．

CiNii Books

CiNii Research

researchmap
コード制約付きNMFを用いた音高推定に基づくコード認識

丸尾智志, 吉井和佳, 糸山克寿, Matthias Mauch, 後藤真孝

情報処理学会第77回全国大会 ( 5S-3 ) 421 - 422 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
分散型マイクロホンアレイを用いた音源分離のための複数移動ロボットの配置最適化

関口航平, 坂東宣昭, 糸山克寿, 吉井和佳

情報処理学会第77回全国大会 ( 4T-7 ) 497 - 498 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
タイ熱帯林における鳥類の自動音声認識による多様性調査法の開発

丸山晃央, 藤田素子, 奥乃博, 糸山克寿, PRATUMTHONG Dome, ARTCHAWACOM Taksin, 神崎護

第62回日本生態学会大会 ( D1-18 ) 2015年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
マイクロホンアレイとスピーカをもつ柔軟索状ロボットのための動的スピーカ選択による姿勢推定の高速化

坂東宜昭, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 吉井和佳, 奥乃博

第41回人工知能学会 AIチャレンジ研究会 41st ( SIG-ChallengeB402-08 ) 45 - 50 2014年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
深度センサとマイクロフォンアレイを用いた聴覚アウェアネスの提示

井山貴裕, 杉山治, 坂東宜昭, 糸山克寿, 吉井和佳, 奥乃博

第41回人工知能学会 AIチャレンジ研究会 ( SIG-Challenge-B402-04 ) 20 - 25 2014年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
音楽音響信号解析のためのガンマ過程に基づく無限重畳離散全極モデル

吉井和佳, 糸山克寿, 後藤真孝

第17回情報論的学習理論ワークショップ (IBIS2014) 114 ( 360 ) 191 - 198 2014年11月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap

その他リンク： http://sap.ist.i.kyoto-u.ac.jp/members/yoshii/papers/ibis-2014-yoshii.pdf
Schemeによる3D図形の構成的制作

古川孝太郎, 坂東宜昭, 糸山克寿

日本ソフトウェア科学会大会論文集 31 101 - 108 2014年9月

　詳細を見る

記述言語：日本語出版者・発行元：[日本ソフトウェア科学会]

CiNii Books

researchmap
「早言い」合図を識別しインタラクションに活用するロボットクイズ司会者

西牟田勇哉, 吉井和佳, 西出俊, 糸山克寿, 奥乃博

第32回日本ロボット学会学術講演会 (RSJ2014) ( 1I2-05 ) 2014年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
聴覚アウェアネス可視化モデルに基づくジェスチャ操作インタフェースの開発

井山貴裕, 杉山治, 坂東宜昭, 糸山克寿, 吉井和佳, 奥乃博

第32回日本ロボット学会学術講演会 (RSJ2014) ( 1I2-04 ) 2014年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
マイクロホンアレイを用いた駆動機構付ホース型ロボットの姿勢推定

坂東宜昭, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 吉井和佳, 奥乃博

第32回日本ロボット学会学術講演会 (RSJ2014) 32nd ( 1I2-02 ) 2014年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
Schemeによる3D図形の構成的制作

古川孝太郎, 坂東宜昭, 糸山克寿, 吉井和佳, 奥乃博

日本ソフトウエア科学会第31回大会 ( 一般2-3 ) 2014年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
結合動的モデルに基づく音響信号アライメント

前澤陽, 糸山克寿, 吉井和佳, 奥乃博, 河原達也

情報処理学会第104回音楽情報科学研究会 2014-MUS-104 ( 13 ) 1 - 7 2014年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，複数の演奏者が演奏した同一楽曲の複数の音響信号の比較を支援するため，各音響信号の時刻を同一楽曲内での位置に対応づける手法（音響信号アライメント）について述べる．従来，演奏の解析において，テンポの動特性に関するモデルの有用性が指摘されていたが，一般的な音響信号アライメント手法にはテンポ推定の機構がなく，テンポ情報を活用することができなかった．本研究では，テンポの動特性を間接的にモデル化するため，楽曲の各位置で，各音響信号が演奏する，瞬時的なテンポ同士の比率をモデル化する．具体的には，瞬時的なテンポの比率が連続的であり，その変化量は音響信号間で相関があることを仮定することで，テンポ軌跡の連続性と演奏者間の類似性を同時にモデル化する．このとき，変化量を生成する背後にある共分散行列は，少数の代表的な共分散行列から構成されるマルコフ系列であるとして確率的な定式化を行う．これにより，楽曲を通して頻出する，特徴的なテンポ比率の発生箇所とその変動パターンを同時に学習することが出来るため，演奏解析に有益な情報も得られる．評価実験の結果，アライメントの精度が向上することが示され，解釈の違いの分析に対する有用性が示唆された．

CiNii Books

J-GLOBAL

researchmap
多重音基本周波数解析のための無限重畳離散全極型モデル

吉井和佳, 糸山克寿, 後藤真孝

情報処理学会第104回音楽情報科学研究会 2014-MUS-104 ( 9 ) 1 - 8 2014年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，多数の楽器音が重畳している音楽音響信号を，音の三要素である音高（基本周波数）・音色（スペクトル包絡）・音量に分解するための確率的ソース・フィルタモデルについて述べる．ソース・フィルタ理論は楽器音分析に広く利用されており，楽器音のフーリエ変換スペクトルは，音源信号の基本周波数に起因するスペクトル微細構造と楽器音の音色を表すスペクトル包絡との積に分解される．このとき，スペクトル包絡が全極型モデルで表現できると仮定すると，理論的には線形予測分析 (LPC) を用いて，線形周波数領域でスペクトル包絡を推定することができる．しかし，実際には，調波構造のピークのみがスペクトル包絡からの信頼できるサンプルであるとみなせるため，スペクトル包絡推定に全周波数帯域を利用することは適切ではない．この問題の解決法のひとつに離散全極型モデルが知られているが，多重音に対して適用することはできなかった．本研究では，離散全極型モデルを LPC の多重音拡張である複合自己回帰モデルの枠組みに組み入れることで，調波構造が複数重畳した音響信号を扱うことができる無限重畳離散全極型モデルを提案する．本モデルは，人間の聴覚特性に則した対数周波数領域で定式化されるノンパラメトリックベイズモデルであり，適切な個数のスペクトル包絡とそこからサンプルされた適切な個数の調波構造を推定することができる．実験の結果，提案手法の有効性を確認した．

CiNii Books

researchmap
混合音中の歌声F0軌跡に対する歌唱表現転写システム

池宮由楽, 糸山克寿, 吉井和佳, 奥乃博

情報処理学会第104回音楽情報科学研究会 2014-MUS-104 ( 23 ) 1 - 6 2014年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，音楽音響信号に含まれる歌声の基本周波数 (F0) 軌跡に対して歌唱表現（ビブラート・グリッサンド・こぶし）を転写することを可能とするシステムを提案する．能動的音楽鑑賞インタフェースは，エンドユーザのインタラクティブな音楽鑑賞を実現することを目的とした研究アプローチである．これには既存楽曲の加工支援も含まれ，歌声に関連するものでは，声質変換や歌声分離などの研究がなされている．本研究では，歌唱の歌い回しの加工を扱い，特に混合音中の歌声の F0 軌跡を任意に編集するインタフェースを実現する．ユーザは，歌声の任意の箇所を指定し，好みの歌唱表現を転写することで，歌い回しを自由に加工することができる．また，事前に市販楽曲からプロ歌手の歌唱表現を蓄積したデータベースを作成し，ユーザはそのデータベースから歌唱表現を参照することで直感的に転写を行うことが可能となる．歌唱表現の転写は，対数周波数軸において選択的に歌声のスペクトルのみをシフトさせ，伴奏音への影響を抑圧しながら歌声の音高を操作することで行われる．このとき，音韻性を保持するためスペクトル包絡を用いて音色の補正を行う．実際にユーザが表現の転写箇所を指定したり，F0 の存在範囲を提示するため，Graphical User Interface (GUI) の作成を行っている．実験では，音色補正の有効性やユーザ入力を用いた F0 推定の頑健性などを確認した．

CiNii Books

J-GLOBAL

researchmap
新博士によるパネルディスカッションIV「新博士さんいらっしゃい！」

竹川佳成, 平田圭二, 糸山克寿, 大石康智, 橘秀幸, 寺澤洋子, 土井啓成, 平野砂峰旅, 深山覚, 松原正樹

情報処理学会第104回音楽情報科学研究会 2014-MUS-104 ( 12 ) 1 - 5 2014年8月

　詳細を見る

記述言語：日本語掲載種別：講演資料等（セミナー，チュートリアル，講習，講義他）出版者・発行元：一般社団法人情報処理学会

「新博士によるパネルディスカッション」は，音楽情報科学の研究に取り組んできた博士号を取得したばかりの方を集め，研究の紹介，博士課程進学の動機，博士課程在学中のドラマ，今後の抱負などについてパネル形式で議論する．本稿では，今回パネリストとして参加していただく 8 名の新博士を紹介する．

CiNii Books

researchmap
HARKによって定位・分離された多方向音声のアノテーションツールの開発

杉山治, 糸山克寿, 中臺一博, 奥乃博

電子情報通信学会クラウドネットワークロボット研究会 114 ( 85 ) 23 - 26 2014年6月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
市販楽曲からの歌い方ライブラリの作成(ポスターセッション,音学シンポジウム2014)

池宮由楽, 糸山克寿, 奥乃博

電子情報通信学会技術研究報告. SP, 音声 114 ( 52 ) 243 - 244 2014年5月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人電子情報通信学会

本稿では,市販楽曲からビブラート,こぶしやグリッサンドといった歌い方に関係する特徴を歌唱表現として抽出することで,歌手の歌い方のライブラリを作成する手法について述べる.これらの特徴は,歌唱F0軌跡中の特徴的な変動として現れる.本手法ではまず,時間周波数領域での最適経路探索問題を定式化することにより高周波数分解能,高精度な歌唱F0推定を行う.推定F0軌跡からパターンマッチングにより各歌唱表現を同定,パラメータ表現する.実験では,実際に市販楽曲からプロ歌手の歌唱表現を抽出できることを確認した.

CiNii Books

researchmap
市販楽曲からの歌い方ライブラリの作成

池宮由楽, 糸山克寿, 吉井和佳, 奥乃博

情報処理学会第103回音楽情報科学研究会 (音学シンポジウム2014) 2014-MUS-103 ( 48 ) 1 - 2 2014年5月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：http://id.nii.ac.jp/1001/00101343/

本稿では，市販楽曲からビブラート，こぶしやグリッサンドといった歌い方に関係する特徴を歌唱表現として抽出することで、歌手の歌い方のライブラリを作成する手法について述べる．これらの特徴は，歌唱 F0 軌跡中の特徴的な変動として現れる．本手法ではまず，時間周波数領域での最適経路探索問題を定式化することにより高周波数分解能，高精度な歌唱 F0 推定を行う．推定 F0 軌跡からパターンマッチングにより各歌唱表現を同定，パラメータ表現する．実験では、実際に市販楽曲からプロ歌手の歌唱表現を抽出できることを確認した．

CiNii Books

researchmap
潜在共通構造モデルに基づく音響信号間アライメント

前澤陽, 糸山克寿, 吉井和佳, 奥乃博

情報処理学会第103回音楽情報科学研究会 (音学シンポジウム2014) 2014-MUS-103 ( 23 ) 1 - 6 2014年5月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では,同一楽曲を演奏した複数の音響信号に対して時間軸対応付け(音響信号間アライメント)を行うための確率モデルを提案する.我々は,アライメント結果に基づいて演奏分析を行う応用を考えると,複数の演奏の背後に存在する潜在的な共通構造と各演奏に固有の時間的ゆらぎとを区別することが重要であると考えている.従来は,動的時間伸縮法(DTW)やLeft-to-Right型隠れマルコフモデル(LRHMM)を用いて,表層的な音響的類似度に基づいて対応点を探す手法が主流であった.一方,本研究では,複数の演奏に共通な状態系列を生成する上位HMMと,上位HMMで定められた順序で状態を遷移する演奏ごとに独立な下位LRHMMを考え,両者を階層HMMとして確率的に統合する.このとき,上位HMMにおいては,楽曲中で繰り返し登場する音響的特徴が同じ状態に割り当てられているので,楽曲自体の音楽構造の解析が容易に行える.さらに,下位LRHMMにおいては,各状態での滞留時間に着目することで,各演奏に固有の時間的ゆらぎを調査することができる.実験の結果,音響信号間アライメント精度の点で,提案手法は従来法より優れていることが分かった.

CiNii Books

researchmap
深度センサとマイクロホンアレイを用いた音源位置可視化による聴覚アウェアネスの提示

井山貴裕, 杉山治, 大塚琢馬, 糸山克寿, 奥乃博

情報処理学会第76回全国大会 2014 ( 6S-5 ) 489 - 490 2014年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では、複数の音源が同時に存在しうる環境下における音源可視化による聴覚アウェアネスの提示手法について述べる。従来の音源可視化は観測混合音から検出される全ての音源を区別なく表示するため、可視化結果が煩雑になる。可視化の煩雑さを軽減するためには、音源をフィルタリングし、ユーザの必要な音源を選択的に提示する必要がある。本稿では，音源位置によって可視化方法を変化させる複数音環境における聴覚アウェアネス可視化手法を述べる．音源位置推定には，マイクロホンアレイによる音源到来方向推定と深度センサによる物体までの距離推定を併用する．本手法を深度センサとマイクロホンアレイを用いて実装し、その有効性を確認した。

CiNii Books

J-GLOBAL

researchmap
環境音に頑健な同時合図を識別するクイズ司会者の構築

西牟田勇哉, 平山直樹, 大塚琢馬, 杉山治, 糸山克寿, 奥乃博

情報処理学会第76回全国大会 2014 ( 5S-1 ) 461 - 462 2014年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

近年，実環境で人と共存してコミュニケーションを行うロボットが期待されているが，従来の音声対話システムは一人で，理想的な環境において利用するに留まっていた．ここで，ロボットが実環境で人と共存してコミュニケーションを行うには，ロボット自身に搭載されたマイクロフォンを用いた複数話者の位置同定，同時発話の分離といった音環境理解，また実環境での環境音に頑健な音声認識が必要となる．本研究ではロボット聴覚ソフトウェアHARKを用いて音環境理解を，言語モデルの切り替えによる誤認識の抑制，音節タイプライタを用いた雑音棄却によって環境音に頑健な音声認識を実現した対話システムを構築した．

CiNii Books

J-GLOBAL

researchmap
音響特徴量を用いた楽曲印象分布の推定

絵本詩織, 糸山克寿, 奥乃博

情報処理学会第76回全国大会 2014 ( 6R-8 ) 391 - 392 2014年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では、楽曲の音響信号から素の楽曲の印象の分布を推定する手法について述べる。音響信号から抽出された音響特徴量と、被験者実験によって得られた楽曲の印象の関係を学習する。楽曲の印象はラッセルの円環モデルに基づくV-A平面の座標で表現する。楽曲の印象には個人やフレーズの移り変わりによるばらつきがあるため、単一の座標ではなくばらつきをもつ分布として未知楽曲の印象を推定する。

CiNii Books

J-GLOBAL

researchmap
マイクロホンアレイの位置推定によるホース型ロボットの姿勢推定

坂東宜昭, 大塚琢馬, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 奥乃博

情報処理学会第76回全国大会 76th ( 4V-1 ) 189 - 190 2014年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

ホース型ロボットは細長い形状が特徴のレスキューロボットで，倒壊した建築物の隙間などの探索が可能である．操縦の効率化のために加速度センサやカメラ画像などを用いた本ロボットの姿勢推定法が提案されてきたが，累積誤差が生じるなどの問題があった．本稿ではマイクロホンアレイと小型スピーカを本ロボットに装着し，音によるこれらの位置推定によって姿勢を推定する手法について述べる．本手法ではスピーカから発する試験音の各マイクへの到達時間差を用いて姿勢を推定するが，到達時間差は現在のマイクとスピーカの位置関係を表しており，過去の誤差を修正できる．実録音データを用いて本手法の有効性を評価した．

J-GLOBAL

researchmap
混合方言言語モデルと混合比推定による方言音声認識システム

平山直樹, 吉野幸一郎, 糸山克寿, 森信介, 奥乃博

情報処理学会第76回全国大会 2014 ( 4S-6 ) 451 - 452 2014年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，複数方言が混合した日常発話を対象とする音声認識システムを開発する．日常発話では居住地の方言だけでなく，話者や両親の経歴，交通やメディアの影響で様々な地域の方言が混合する．これまでの方言音声認識では単一方言が対象であり，方言の混合という概念は捉えられていなかった．本稿では，入力発話の方言をいくつかの方言の混合として，単一方言言語モデルの重み付き平均で構築した混合方言言語モデルで音声認識を行う．言語モデルの混合比を変化させて，尤度が最大となる音声認識結果を出力する．5方言を対象とした混合方言言語モデルによる実験で，話者方言のみの言語モデルを用いた場合と比較して音声認識精度が向上することを示した．

CiNii Books

J-GLOBAL

researchmap
歌声-話声変換における動的音響特徴量が話声らしさに及ぼす影響

山崎健史, 池宮由楽, 糸山克寿, 奥乃博

情報処理学会第76回全国大会 2014 ( 5R-8 ) 373 - 374 2014年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

近年、CGMなどの普及と共に多様な音声合成技術が求められるようになってきた. 中でもSpeakBySingingでは歌声から話声への変換を目的としている。従来法では、変換話声の話声らしさと元の歌声の声質との保持性について評価しているが、どのような処理が話声の自然性を生み出しているのかを深く吟味されていなかった。歌声と話声の識別における音響的特徴として音韻長や音高、jitter、ビブラートに代表される動的成分等が挙げられるが、本稿ではその音響的特徴から歌声-話声変換の話声らしさに影響を与える主要な要素として動的な音響的特徴に着目する。実験では、実録音声を各手法による変換結果を視聴者実験によって比較することで、どの音響的特徴が歌声-話声変換の話声としての自然さに影響を与えるのか評価した。

CiNii Books

J-GLOBAL

researchmap
伴奏付き歌唱からの歌唱表現のパラメータ化と転写

池宮由楽, 糸山克寿, 奥乃博

情報処理学会第76回全国大会 2014 ( 5R-7 ) 371 - 372 2014年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，伴奏付き歌唱に含まれるビブラートやこぶしといった歌唱表現のパラメータ化と，それらを用いた歌い方の転写について述べる．歌唱表現は歌唱者の個人性を強く反映し，それらをパラメータ化し保存することで，CGMやMIRへの応用が可能になる．本手法ではまず，歌唱F0を探索範囲を制限したビタビ探索によって推定する．歌唱表現はF0軌跡中の特徴的な変動として現れ，観測的に決定したテンプレートに基づき同定・パラメータ化する．また，集積されたパラメータから歌唱表現を再合成し，単調な歌唱への転写を行う．実験では，市販楽曲からプロ歌手の歌唱表現を学習し，歌声合成システムへの転写を行った．

CiNii Books

J-GLOBAL

researchmap
ギター演奏音からの難易度調整可能なタブ譜自動生成システム

矢澤一樹, 糸山克寿, 奥乃博

情報処理学会第76回全国大会 2014 ( 5R-5 ) 367 - 368 2014年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，ギター演奏者の演奏支援を目的とした，音響信号からの難易度調整可能なタブ譜自動生成手法を提案する．従来のタブ譜生成法の多くは，ある音響信号に対して一意に音高・運指を推定する手法であったため，出力タブ譜の難易度とユーザーの演奏レベルとが一致しない可能性があった．そこで提案法では，音響信号からの運指推定を重み付き有向グラフ上での最適経路探索問題として新たにモデル化し，本グラフのパラメータを調整することによって，出力タブ譜の難易度を調整可能にした．評価実験では，本システムによって出力されたタブ譜について，音高推定精度と運指難易度の両面から評価を行った．

CiNii Books

J-GLOBAL

researchmap
ロボット聴覚ソフトウェアHARKを用いたクイズの同時回答を識別するロボット司会者の設計と実装

西牟田勇哉, 平山直樹, 大塚琢馬, 杉山治, 糸山克寿, 奥乃博

第38回人工知能学会 AIチャレンジ研究会 ( SIG-Challenge-B302-09 ) 45 - 50 2013年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
ホースの伸び縮みによるマイク位置の変化を許容するマイクロホンアレイを用いたホース型ロボットの姿勢推定

坂東宜昭, 大塚琢馬, 糸山克寿, 中村圭佑, 昆陽雅司, 田所諭, 中臺一博, 奥乃博

第38回人工知能学会 AIチャレンジ研究会 38th ( SIG-Challenge-B302-10 ) 51 - 56 2013年12月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
HARKを用いたロボットクイズ司会者HATTACK25の開発

西牟田勇哉, 平山直樹, 大塚琢馬, 杉山治, 糸山克寿, 奥乃博

第31回日本ロボット学会学術講演会 (RSJ2013) ( 3D3-08 ) 2013年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
Multirotor UAVを用いた音源定位のための雑音相関行列推定

古川孝太郎, 大塚琢馬, 糸山克寿, 中臺一博, 奥乃博

第31回日本ロボット学会学術講演会 (RSJ2013) ( 3D3-02 ) 2013年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
ホース型ロボットのマイクロホンアレイを用いた姿勢推定

坂東宜昭, 大塚琢馬, 水本武志, 糸山克寿, 中臺一博, 奥乃博

第31回日本ロボット学会学術講演会 (RSJ2013) ( 3D3-01 ) 2013年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
楽器音に対する仮想音源のパラメータ推定

糸山克寿, 奥乃博

情報処理学会第100回音楽情報科学研究会 (MUS) 2013-MUS-100 ( 5 ) 1 - 6 2013年8月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，音源分離などに起因する雑音や歪みを含む楽器音に対して，それらを含まないクリーンな楽器音を得るための仮想楽器音源のパラメータ推定法について述べる．多数の楽器音をランダムに生成し，楽器音からフレームベースの音響特徴量とその統計量を計算する．重回帰分析を用いて音源パラメータと音響特徴量との関係を学習し，未知楽器音のパラメータをその関係性を用いて推定する．評価実験の結果，推定対象のパラメータが少ない場合には学習データを十分に用意することで，実用上十分な精度でのパラメータ推定を実現した．

CiNii Books

J-GLOBAL

researchmap
伴奏付き歌唱に含まれる歌い方要素の個別抽出

池宮由楽, 糸山克寿, 奥乃博

情報処理学会第100回音楽情報科学研究会 (MUS) 2013-MUS-100 ( 20 ) 1 - 6 2013年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，伴奏付き歌唱に含まれるビブラートやこぶしといった歌い方要素を個別に抽出する手法について述べる．歌い方要素は歌唱者の個人性を強く反映し，それらを個別に検出しパラメータ化することで，CGM や MIR への多様な応用が可能となる．本手法では，ユーザが簡易に取得できる歌唱の音高列を事前知識として用いる．音高列から探索範囲を制限したビタビ探索によって高精度に F0 を推定する．各要素は歌唱者の意図による F0 の特徴的な変動として現れ，それらを個別に検出し，設計したモデルに従ってパラメータとして抽出する．評価実験により，市販楽曲からプロ歌手の歌い方要素を個別に抽出できることを確認した．

CiNii Books

J-GLOBAL

researchmap
ギター演奏者の習熟度に合わせた音響信号からのタブ譜自動生成

矢澤一樹, 糸山克寿, 奥乃博

情報処理学会第100回音楽情報科学研究会 (MUS) 2013-MUS-100 ( 17 ) 1 - 6 2013年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，ギター演奏者の演奏支援をするために実際のギター演奏音から演奏者の習熟度に応じたタブ譜を自動生成する手法について述べる．具体的には，初級者向けには音符の欠落などを許容してでも演奏が容易なタブ譜を，上級者向けには音高を正確に再現するタブ譜を，それぞれ生成する．推定される運指の難易度は，音響再現度と運指容易度の相対的な重みをユーザー側で調整することによって変更可能である．本手法によって得られたタブ譜について音響再現度と運指容易度の両面から評価を行った結果，パラメータを変更することによって音高推定の適合率を保ったまま運指を簡略化できることが確認された．

CiNii Books

J-GLOBAL

researchmap
楽器音分析合成に基づく音量・音色・旋律の置換

糸山克寿, 奥乃博

情報処理学会第99回音楽情報科学研究会 (音学シンポジウム2013) 2013-MUS-099 ( 25 ) 1 - 2 2013年5月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿は，混合音の音楽音響信号に対して，楽器音分析合成手法を用いてその構成楽器音の音量・音色・旋律を操作・置換する手法を述べる．調波・非調波統合モデルと呼ぶ，スペクトログラム上での混合ガウス分布で単独楽器音をモデル化し，各単音の発音時刻と音高に応じた時間周波数平面上の位置にモデルを重み付きで配置することで混合音を表現する．楽譜を事前情報とした混合音に対する最適なモデルパラメータの推定を通じて，楽器音を分析し，音源分離と音色などの音響特徴抽出を行う．音量操作は分離された楽器音の音量を操作し，各楽器音を再度加算することで実現する．音色と旋律はモデルパラメータ中のそれぞれに対応する成分の操作と楽器音再合成を通じて実現する．

CiNii Books

J-GLOBAL

researchmap
ギター演奏からの押弦パターン・発音時刻・フォーム変化時間制約を用いたタブ譜自動生成システム

矢澤一樹, 阪上大地, 柳楽浩平, 糸山克寿, 奥乃博

情報処理学会第75回全国大会 2013 ( 4R-3 ) 269 - 270 2013年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本研究の目的は，ギター演奏初心者の演奏支援や個人作曲楽曲の二次利用のために，音響信号からのタブ譜自動生成を行うことである．従来の多重基本周波数推定法を用いてタブ譜の自動生成を行う場合，主に次の3つの問題があった．1. ギターで演奏不可能な音高の組合わせが推定される，2. オンセット時刻以外でフォームが変化する，3. フォーム変化が短時間で頻繁に起こりすぎる．そこで我々は，既存の多重基本周波数推定手法LHAに新たに 1.押弦パターン 2.発音時刻 3.フォーム変化に要する時間に関する制約を加えることで，ギター演奏に適したタブ譜を自動生成することに成功した．

CiNii Books

J-GLOBAL

researchmap
Score following of human accompaniment using a lead-sheet for an artificial lead singer

JooYoung Ahn, 糸山克寿, Louis-Kenzo Cahier, 奥乃博

情報処理学会第75回全国大会 2013 ( 4R-8 ) 279 - 280 2013年3月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

The goal of this work is a system capable of following human accompaniment. The fundamental difficulty of score following for human accompaniment is that the score －a lead-sheet, common in popular music－ only provides chord-names. Thus, actual accompaniments have uncertain octave and timber; fluctuating rhythm and tempo. This can degrade performance in conventional score following systems. Our solution is using chroma vectors as features for a particle filter. We measure robustness to timber and tempo changes by testing our system on 9 sets of 20 songs, covering all combinations of 3 levels of accompaniment complexity, and 3 types of instruments.

CiNii Books

researchmap
非負値調波時間構造因子分解法に基づく音楽音響信号の多重基本周波数解析

阪上大地, 大塚琢馬, 糸山克寿, 奥乃博

情報処理学会第75回全国大会 2013 ( 4T-8 ) 491 - 492 2013年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

音楽音響信号は構成音の音量包絡，音高，音色など様々な特性によって形作られており，これらの同時推定を実現することで高精度な多重基本周波数解析を行うことができる．我々は入力音のウェーブレットスペクトログラムを精度よく解析するため，潜在的調波配分法と非負値行列因子分解法をベイズ的に統合し，音量の時間包絡を考慮した新手法を開発した．提案法では，各楽器音のスペクトル包絡と時間包絡をそれぞれ混合ガウス分布によりモデル化し，二つの分布の積として観測スペクトログラムの確率密度を表現した．実験の結果，提案法がF値基準で従来法の性能を上回ることを確認した．

CiNii Books

J-GLOBAL

researchmap
歌声F0生成過程とメロディ分離手法に基づく楽譜逸脱成分推定

池宮由楽, 阪上大地, 糸山克寿, 奥乃博

情報処理学会第75回全国大会 2013 ( 3R-9 ) 261 - 262 2013年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本研究の目的は，楽曲中に含まれる歌声の楽譜逸脱成分を楽譜情報と分離して抽出することである．楽譜逸脱成分とはビブラートやオーバーシュートなど，歌声に含まれる楽譜に記載されないダイナミクスのことであり歌唱者の特徴が反映されるため，歌声合成や音楽情報検索などに広く使われる．従来研究では，クリーンな歌声のみを対象としており，多様なデータを扱うことができなかった．本研究では，メロディ分離手法により楽曲から歌声を分離し，F0 生成過程に基づき楽譜逸脱成分を推定する．評価実験において，楽曲から歌声楽譜逸脱成分を取り出せることを確認した．

CiNii Books

J-GLOBAL

researchmap
単音の音量ダイナミクスを共有化したNMFによる楽器パート分離

田島照久, 阪上大地, 糸山克寿, 奥乃博

情報処理学会第75回全国大会 2013 ( 3R-10 ) 263 - 264 2013年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本研究の目標は次元圧縮や特徴抽出の手法である非負値行列因子分解 (Non-negative Matrix Factorization; NMF)を用い, 複数の楽器で演奏された音楽音響信号から楽器パートごとの音響信号を精度よく分離することである.従来の研究のような, 各楽器の周波数構造を調波や非調波でモデル化し基底に制約を加える手法では, 周波数方向のみの制約で時間方向の制約はなかった.そこで我々は単音の音量はその単音の発音時刻に依存せずに変化するとの仮定を元に, 複数の単音の音量変化を関連付ける制約をアクティベーションの更新に加えた.実験では楽譜から各単音の発音時刻を得たうえで, 比較実験を行い分離性能の向上を確認した.

CiNii Books

J-GLOBAL

researchmap
押弦制約と運指制約を用いたタブ譜自動生成システム

矢澤一樹, 阪上大地, 糸山克寿, 奥乃博

情報処理学会第96回音楽情報科学研究会 2012-MUS-96 ( 11 ) 1 - 7 2012年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿は，ギター演奏者の押弦・運指に関する制約を用いたタブ譜自動生成システムについて報告する．我々は，潜在的調波配分法 (LHA) の推定結果に押弦・運指制約を加えることで，演奏不可能な音の組合せを排除する．押弦制約として，あらかじめ列挙した演奏可能な押弦パターンの中から各時間フレームでの最適パターンを推定し，その押弦パターンで演奏可能な音のみを抽出する．これにより，演奏可能な押弦パターンのみで構成されたタブ譜を出力することができる．また，運指制約として編集距離に基づく運指のコストを用いて，運指の面でもタブ譜の改善を行った．実験の結果，我々はさらに本手法が音高推定を頑健に行えることも確認した．This paper describes an automatic tablature generation system for guitar performances using constraints of finger configurations and fingering. We exclude unplayable combinations of sounds from estimation results of the latent harmonic allocation (LHA) by using the constraints. Our system estimates optimal finger configurations for each time frame among playable finger configurations and extract playable sounds on the configurations. Thus our system can output a tabulature consisting of only playable finger configurations. In addition, we define the fingering constraint as a cost function based on edit distance to improve the quality of generated tabulatures. Experimental results showed that our system achieved robust multipitch estimation by using the constraints.

CiNii Books

J-GLOBAL

researchmap
ベイジアン非負値調波因子分解と多重基本周波数推定への応用

阪上大地, 大塚琢馬, 糸山克寿, 奥乃博

情報処理学会第99回音楽情報科学研究会 2012-MUS-96 ( 9 ) 1 - 6 2012年8月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，音の三要素（音量・音高・音色）を同時にモデル化し，音楽の多重音解析を行う手法，ベイジアン非負値調波領域分解について報告する．本手法では，非負値行列因子分解 (NMF) にならい，観測音のウェーブレットスペクトログラムを基底とアクティベーションの積に分解する．さらに，各基底を調波構造を模した混合ガウス分布とすることで，各単音の音高・音色を表現する．これは，NMF と調波クラスタリングを統合した非負値調波因子分解 (NHF) という手法により実現する．パラメータの推定時には，特性事前分布と呼ぶ新しい確率分布族を用いてより正確な多重音解析を行う解を探索する．従来法と提案法それぞれで，一様乱数を初期値とする多重基本周波数解析の性能評価を行った結果，F 値基準で平均 5.2% 性能が向上することを確認した．

CiNii Books

researchmap
倍音コーパスを用いた初期値依存性の低い多重基本周波数推定法

阪上大地, 糸山克寿, 尾形哲也, 奥乃博

情報処理学会第74回全国大会 2012 ( 4S-7 ) 393 - 394 2012年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，倍音コーパスを用いた初期値依存性の低い多重基本周波数推定法について述べる．Harmonic Temporal Clustering (HTC) など従来の多重基本周波数推定法ではモデル上任意の倍音構造を取りうるため，事前分布を精密に設定する必要があった．しかし，この値は統計的根拠に基づいて決定することが出来ないため，手作業によるチューニングが必要であった．本稿では，MIDI 音声を用いて楽器音の倍音構造の一覧 (倍音コーパス) を作成し，楽器音として適切な倍音構造の範囲を決定して推論を行った．実験の結果，音楽的でない局所解を排除し，初期値依存性が低く，統計的にも妥当なモデルが得られることを確認した．

CiNii Books

J-GLOBAL

researchmap
楽曲印象軌跡に基づく楽曲検索システムの実装と評価

西川直毅, 糸山克寿, 藤原弘将, 後藤真孝, 尾形哲也, 奥乃博

情報処理学会第74回全国大会 2012 ( 1S-7 ) 337 - 338 2012年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では,楽曲印象軌跡を用いた楽曲検索システムの実装と,被験者実験による評価について報告する.実際の楽曲において,印象は時々刻々と変化し,また印象は歌詞と音響信号の両方で特徴づけられる.この2点の特徴を反映する為に,我々は楽曲印象を歌詞印象軌跡と音響印象軌跡の組み合わせで表現する.歌詞印象軌跡は確率的潜在意味解析,音響信号印象軌跡は多重線形回帰を用いて推定する.ユーザは検索システムに歌詞,音響信号印象軌跡を入力し,入力軌跡と類似する軌跡を持つ楽曲が検索される.印象軌跡間の類似度はDPマッチングによって求める.実験では,被験者に本システムを使用して楽曲検索を行わせたのち,検索された楽曲と入力した印象軌跡がどの程度合致するかを評価させた.

CiNii Books

J-GLOBAL

researchmap
押弦制約付きギター演奏自動採譜システム

矢澤一樹, 阪上大地, 糸山克寿, 尾形哲也, 奥乃博

情報処理学会第74回全国大会 2012 ( 4S-6 ) 391 - 392 2012年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，押弦制約を用いたギター演奏の自動採譜システムについて述べる．Latent Harmonic Allocation (LHA) などの従来の多重基本周波数推定法ではあらゆる音の組み合わせが許容されるため，人間の身体構造上は同時に演奏できない音の組み合わせが推定結果に含まれる場合があった．我々は，LHAの出力に押弦制約を組み合わせることで，このような音の組み合わせを除外可能な自動採譜システムを構築した．押弦制約は，押弦位置が3～4フレット以内である押弦パターンをリストアップしたものである．実験の結果，押弦制約を用いることで推定精度の向上，およびLHAの閾値に対する頑健性の向上を確認した．

CiNii Books

J-GLOBAL

researchmap
アクセント特徴量を用いた歌声と朗読音声の識別システム

阿曽慎平, 齋藤毅, 後藤真孝, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

情報処理学会第74回全国大会 2012 ( 6U-9 ) 625 - 626 2012年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

アクセント特徴量を用いて歌声と歌詞の朗読音声を識別するシステムを開発した.システムの入力は雑音を含まない単独音声,出力は歌声か朗読音声かの2値である.我々はリズム構造が歌声と朗読音声で聴感上異なることに着目し,リズムと関連が強いと考えられるアクセント特徴量を識別に用いた.この特徴量は音響的な時間変化の大きい部分,例えば音素境界や発話開始時間で極大値(ピーク)を持つ.隣り合うアクセントピークの時間間隔と,アクセント強度の分布をそれぞれ混合ガウス分布でモデル化し,2つの識別機を設計した.実験の結果,約10秒の音声に対し,ピーク時間間隔を用いた識別機では89.2%,アクセント強度を用いた識別機では59.7%の精度であった.

CiNii Books

J-GLOBAL

researchmap
スペクトル変化量のピーク間隔・F0・MFCCを用いた歌声と朗読音声の自動識別システム

阿曽慎平, 齋藤毅, 後藤真孝, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

情報処理学会第94回音楽情報科学研究会 (MUS) 2012-MUS-94 ( 13 ) 1 - 8 2012年1月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，歌声と朗読音声を識別するシステムについて述べる．入力は無雑音音声，出力は歌声と朗読音声それぞれの尤度（連続値）である．従来，スペクトル包絡（MFCC）と基本周波数（F0）の時間変化に基づいた識別システムが報告されている．これらの特徴量に基づく識別器に，スペクトル変化量のピーク間隔という，音素継続時間に関連する特徴量に基づく識別器を加え，入力音声長に応じて各識別器への重みを変化させた．実験の結果，従来システムでは1秒の音声に対し 86.7% の精度であったのに対し，本システムでは 90.2% という結果を得た．本システムが実時間で動作するデモアプリケーションについても述べる．In this paper we describe a system that discriminates between singing and speaking voices. Given a clean speech signal, it outputs the likelihood of each of the singing and speaking voices. Previous systems use temporal transition of spectral envelope (MFCC) and fundamental frequency (F0) as discrimina- tion features. Our system adds peak interval of spectral change as a phoneme duration feature and weights these features according to the duration of the input speech signal. Experimental results with one-second speech signal show that our system achieves 90.2 % accuracy compared to 86.7 % with previous systems. We also describe a real-time application demonstrating our system.

CiNii Books

J-GLOBAL

researchmap
音響特徴・ベース音・和音遷移を用いた自動和音認識

糸山克寿, 尾形哲也, 奥乃博

情報科学研究会第94回音楽情報科学研究会 2012-MUS-94 ( 29 ) 1 - 7 2012年1月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

researchmap
歌詞と音響特徴量を用いた楽曲印象軌跡推定法の設計と評価

西川直毅, 糸山克寿, 藤原弘将, 後藤真孝, 尾形哲也, 奥乃博

情報処理学会第91回音楽情報科学研究会 (MUS) 2011-MUS-91 ( 7 ) 1 - 8 2011年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では，歌詞と音響信号のそれぞれが持つ印象の時間変化を印象軌跡として推定し，その二つの組み合わせで楽曲全体の印象軌跡を表現する手法について述べる．歌詞の印象軌跡は，確率的潜在意味解析 (PLSA) を用いて，歌詞中の単語から歌詞の印象を表すトピックを推定することで求める．音響信号の印象軌跡は，重線形回帰分析を用いて音響特徴量から推定する．評価実験では，「The Beatles」の 175 曲の印象軌跡を推定し，それらを複数のクラスにクラスタリングして分析した．各クラスごとの音響特徴量の比較，ソーシャルタグと印象軌跡の比較から，推定された印象軌跡は適切であり，楽曲印象の時間変化が表現できる事がわかった．

CiNii Books

researchmap
MAHL: 演奏者間のインタラクション分析のためのスコアアライメント手法の提案

前澤陽, 糸山克寿, 尾形哲也, 奥乃博

情報処理学会第91回音楽情報科学研究会 (MUS) 2011-MUS-91 ( 19 ) 1 - 6 2011年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では、楽器パート毎に、楽譜と音響信号のアライメントを算出する手法を提案する。本手法では、各楽器パートに共通の、自己回帰過程に従うテンポモデルを持たせる。各楽器パートの時系列は隠れセミマルコフモデルに従い、状態継続長の事前分布としてテンポモデルを持つ。また、音響信号の出力は潜在的調波配分法に従う。パート間の揺らぎを持たせない場合の、アライメントの性能を評価し、アライメント手法としての有用性が確認された。また、演奏における発音タイミングの揺らぎがモデル化できることが示唆された。

CiNii Books

researchmap
歌詞と音響特徴量を用いた楽曲の印象軌跡推定

西川直毅, 糸山克寿, 藤原弘将, 後藤真孝, 高橋徹, 尾形哲也, 奥乃博

情報処理学会第73回全国大会 2011 ( 5R-3 ) 297 - 298 2011年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本研究は，楽曲の進行によって変化する印象の軌跡を推定する事を目的としている．従来の楽曲印象データベースには曲の進行に応じた印象変化の情報がなく，学習データがない．この問題に対し，(a) 歌詞中の単語を，確率的潜在意味解析 (pLSA) を用いて潜在的印象クラスに分割(b) 楽曲の一部分の単語集合が持つ印象と音響特徴量の相関を学習というアプローチをとる．本手法により，音響特徴量と歌詞を用いて楽曲の印象軌跡が推定可能となる．

CiNii Books

J-GLOBAL

researchmap
F0・音韻長・パワー制御による歌声らしさ・話声らしさの変化の評価

阿曽慎平, 齋藤毅, 後藤真孝, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

情報処理学会第73回全国大会 2011 ( 2R-6 ) 255 - 256 2011年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

歌声，話声，歌声と話声の中間的な音声，歌舞伎や能の音声のそれぞれの歌声らしさ，話声らしさを評価する．人間の歌声らしさ・話声らしさに関する知覚は連続的に変化すると考えられるため，中間的に知覚される音声が存在する．従来の研究では歌声か，話声かのみを考えており，中間的な音声や歌声・話声以外を考慮していない．計算機で中間的な音声の評価ができれば人間の歌声らしさ・話声らしさの知覚機構解明に貢献できると考えられる．本報告ではF0・音韻長・パワーを制御することで中間的な音声を作る．合成した音声に対し聴取実験を行い，どのような制御が歌声らしさ・話声らしさ知覚に影響を与えるのか聴取実験で評価する．

CiNii Books

J-GLOBAL

researchmap
Classification of Harmonic and Textural Keyboard Playing Style Using Acoustic Features

JooYoung Ahn, 前澤陽, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

情報処理学会第73回全国大会 2011 ( 4C-2 ) 17 - 18 2011年3月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

Keyboard playing is a widely used method to represent musical idea,which is played in either harmonic or textural styles. The goal ofthis paper is to classify such style of the user's keyboard playingfrom its audio signal. Because the acoustic features for suchclassification is poorly studied, we defined acoustic features whichrepresent harmonic and textural playing style, and classified actualpractical keyboard playings.

CiNii Books

researchmap
調波パラメトリックNMFによる楽器演奏音響信号の分析合成

安良岡直希, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

情報処理学会第73回全国大会 2011 ( 5R-1 ) 293 - 294 2011年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

本稿では調波パラメトリックNonnegative Matrix Factorization (HPNMF) と呼ぶ新しい振幅スペクトログラムモデリング手法を用いた音源分離と演奏合成法について述べる．HPNMFでは，振幅スペクトログラムを直接因子分解するのではなく，各時刻のスペクトルを調波Gaussian Mixtureによりモデル化した上でその各倍音強度パラメータを楽曲全体で因子分解する．これにより基本周波数パラメータをNMFの枠組みの外側で適応でき，通常のNMFが苦手とするビブラート信号などを効率的に推定できる．HPNMFを用いて多重奏からの特定楽器パート音源分離と演奏音響信号再合成が高精度に実現されることを示す．

CiNii Books

J-GLOBAL

researchmap
多重奏音響信号中の歌唱音声の歌詞を自由に差し替える歌詞置換システム

安良岡直希, 糸山克寿, 高橋徹, 駒谷和範, 尾形哲也, 奥乃博

日本音響学会 2010年秋期研究発表会 ( 2-7-7 ) 2010年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
SpeakBySinging: 歌声を話声に変換する話声合成システム

阿曽慎平, 齋藤毅, 後藤真孝, 糸山克寿, 高橋徹, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第86回音楽情報科学研究会 2010-MUS-86 ( 8 ) 1 - 7 2010年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

Scopus

researchmap
多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム

安良岡直希, 糸山克寿, 吉岡拓也, 高橋徹, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第86回音楽情報科学研究会 2010-MUS-86 ( 20 ) 1 - 8 2010年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：情報処理学会

フレーズ置換とは，多重奏音響信号から特定パート演奏をユーザー指定の別楽譜による演奏に差し替えるものである．これは，1) 元々のフレーズ演奏成分を除去する音源分離の課題と，2）元演奏の音色や演奏表情を新しい演奏上で再現する演奏合成の課題からなる．我々は調波非調波Gaussian Mixture Model (GMM) による置換対象演奏モデルとNonnegative Matrix Factorizationによる伴奏モデルを用いて音源分離を行い，同時に調波非調波GMMから得た基本周波数，倍音強度などの音響特徴を新しい演奏楽譜のMIDI音源音響信号に転写することで元演奏の音響特性を持つ新しい演奏を合成する．本フレーズ置換法に対し1) 元の演奏が正しく除去されるか，2) 新しい演奏は元演奏の特徴を保持しているか，の2点を客観評価し，提案法の有効性を示す．

CiNii Books

researchmap
楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用

糸山克寿, 後藤真孝, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第72回全国大会 72 ( 6J-6 ) 25 - 26 2010年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

J-GLOBAL

researchmap
調波非調波GMMに基づくMIDI演奏音響信号に対する音色・演奏表情操作

安良岡直希, 糸山克寿, 高橋徹, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第72回全国大会 72 ( 5T-5 ) 183 - 184 2010年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

J-GLOBAL

researchmap
F0・振幅・音韻長の制御により歌声を話声に変換する話声合成システムSpeakBySinging

阿曽慎平, 齋藤毅, 後藤真孝, 糸山克寿, 高橋徹, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第72回全国大会 72 ( 6U-1 ) 295 - 296 2010年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

J-GLOBAL

researchmap
音響信号とコンテキスト制約を併用したバイオリンの演奏弦系列の推定

前澤陽, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

日本音響学会 2009年秋期研究発表会 ( 2-5-15 ) 2009年9月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
音響信号と音楽的制約を統合したバイオリンの演奏弦系列の推定

前澤陽, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

情報処理学会第81回音楽情報科学研究会 2009-MUS-81 ( 5 ) 1 - 6 2009年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：情報処理学会

本報告ではコンテキストベースの規則と音響信号を併用したバイオリン演奏弦系列推定手法を提案する．音響信号から演奏弦系列を推定し，それの規則に合わない箇所を訂正することにより認識率の向上を図る．6 楽節での実験の結果，学習データと同一の弦の場合最大8%，平均 5%，別の銘柄の弦の場合最大 15%，平均 7% の認識率の向上が確認される．

CiNii Books

researchmap
残差スペクトルモデルによる伴奏・残響成分抑制に基づいた楽器演奏分析合成の高精度化

安良岡直希, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

情報処理学会第81回音楽情報科学研究会 2009-MUS-81 ( 10 ) 1 - 6 2009年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：情報処理学会

本報告書では，楽器演奏音響信号の分析合成における，入力中の伴奏音や残響成分を抑制した分析手法を報告する．対象演奏パートの楽譜情報に合致しないスペクトル成分を表現する残差スペクトルモデルを導入し, これを用いて伴奏や残響を含む音響信号から対象の演奏を効率よく分離する. 調波非調波統合音モデルに用いた演奏分析をこの分離と同時に行い, 分析された音モデルを用いて未知楽譜への演奏を合成する.評価実験では, 伴奏付き演奏に対する分析精度が本手法によりスペクトル距離において平均 35.2% 改善し, また残響を含む演奏に対する分析合成精度の低下を回避できる事が確認された.

CiNii Books

researchmap
複数楽器混合モデルのパラメータ推定と楽器名同定への応用

糸山克寿, 後藤真孝, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第81回音楽情報科学研究会 2009-MUS-81 ( 13 ) 1 - 6 2009年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：情報処理学会

本報告では，音源分離に適用可能な音モデルである，調波・非調波統合モデルを用いた複数楽器混合モデルのパラメータ推定とその楽器名同定への応用について述べる．観測パワースペクトルに適合する複数楽器混合モデルのパラメータは変分法に基づくベイズ推論を用いて推定する．調波・非調波統合モデルのパラメータ分布は楽器によって異なるため，楽器間相対重みが最大となる楽器を選択することで楽器名が同定される．楽器音データベース中から選択した 10 楽器に対する評価実験で，平均認識率 81.6% を得た．

CiNii Books

researchmap
多重奏楽曲の楽器音量バランス変化による音楽ジャンルシフト

糸山克寿, 後藤真孝, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第81回音楽情報科学研究会 2009-MUS-81 ( 3 ) 1 - 6 2009年7月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：情報処理学会

本報告では，楽曲の楽器パート音量操作によってユーザがクエリをカスタマイズすることが可能な類似楽曲検索手法を提案する．楽曲の雰囲気やジャンルは楽曲を構成する楽器およびその音量バランスと強く関係する，という仮説に基づく．楽曲の音響信号を楽譜に基づいて楽器パートへと分離し，その分離信号の音量を操作することで楽曲の音響的特徴を変化させる．楽曲の音響特徴はガウス混合分布で表現され，楽曲間の類似性を分布間の Earth Movers Distance で定義する．実験により，歌声，ギター，ドラムスパートの音量を操作した際にジャンルシフトが起こることを示す．

CiNii Books

researchmap
Parameter Estimation for Harmonic and Inharmonic Models by Using Timbre Feature Distributions

Katsutoshi Itoyama, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, HiroshiG.Okuno

情報処理学会論文誌 50 ( 7 ) 1757 - 1767 2009年7月

　詳細を見る

記述言語：英語

We describe an improved way of estimating parameters for an integrated weighted-mixture model consisting of both harmonic and inharmonic tone models. Our final goal is to build an instrument equalizer (music remixer) that enables a user to change the volume of parts of polyphonic sound mixtures. To realize the instrument equalizer, musical signals must be separated into each musical instrument part. We have developed a score-informed sound source separation method using the integrated model. A remaining but critical problem is to find a way to deal with timbre varieties caused by various performance styles and instrument bodies because our method used template sounds to represent their timbre. Template sounds are generated from a MIDI tone generator based on an aligned score. Difference of instrument bodies between mixed signals and template sounds causes timbre difference and decreases separation performance. To solve this problem, we train probabilistic distributions of timbre features using various sounds to reduce template dependency. By adding a new constraint of maximizing the likelihood of timbre features extracted from each tone model, we can estimate model parameters that express the timbre more accurately. Experimental results show that separation performance improved from 4.89 to 8.48 dB.We describe an improved way of estimating parameters for an integrated weighted-mixture model consisting of both harmonic and inharmonic tone models. Our final goal is to build an instrument equalizer (music remixer) that enables a user to change the volume of parts of polyphonic sound mixtures. To realize the instrument equalizer, musical signals must be separated into each musical instrument part. We have developed a score-informed sound source separation method using the integrated model. A remaining but critical problem is to find a way to deal with timbre varieties caused by various performance styles and instrument bodies because our method used template sounds to represent their timbre. Template sounds are generated from a MIDI tone generator based on an aligned score. Difference of instrument bodies between mixed signals and template sounds causes timbre difference and decreases separation performance. To solve this problem, we train probabilistic distributions of timbre features using various sounds to reduce template dependency. By adding a new constraint of maximizing the likelihood of timbre features extracted from each tone model, we can estimate model parameters that express the timbre more accurately. Experimental results show that separation performance improved from 4.89 to 8.48 dB.

CiNii Books

researchmap
連続発音中の音色変化に着目した未学習譜面上への演奏信号生成

安良岡直希, 安部武宏, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

情報処理学会第71回全国大会 71 ( 4R-1 ) 217 - 218 2009年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

J-GLOBAL

researchmap
音色特徴量に基づく調波・非調波統合モデルによる楽器音モーフィング

安部武宏, 糸山克寿, 高橋徹, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第71回全国大会 71 ( 4R-2 ) 219 - 220 2009年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

J-GLOBAL

researchmap
Probabilistic Classification of Monophonic Instrument Playing Techniques

前澤陽, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

情報処理学会第71回全国大会 71 ( 4R-3 ) 221 - 222 2009年3月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

researchmap
A Music Retrieval Approach from Alternative Genres of Query by Adjusting Instrument Volume

王凱平, 糸山克寿, 後藤真孝, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第71回全国大会 71 ( 5R-5 ) 239 - 240 2009年3月

　詳細を見る

記述言語：英語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

researchmap
ベース音高確率とクロマベクトルの相関を考慮した和音進行認識

高野秀樹, 須見康平, 糸山克寿, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第71回全国大会 71 ( 5R-6 ) 241 - 242 2009年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

J-GLOBAL

researchmap
西洋古典歌唱における発声時の頭部、頸部、胸部の姿勢変化

鈴木茉莉緒, 進矢正宏, 高橋徹, 糸山克寿, 奥乃博, 小田伸午

京都体育学会 2009年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
音色の音高依存性を考慮した楽器音の音高操作手法 (特集音楽情報処理)

安部武宏, 糸山克寿, 吉井和佳

情報処理学会論文誌論文誌ジャーナル 50 ( 3 ) 1054 - 1066 2009年3月

　詳細を見る

記述言語：日本語出版者・発行元：情報処理学会

CiNii Books

researchmap
音響信号と音楽的制約を統合したバイオリンの演奏弦系列の推定

前澤陽, 糸山克寿, 高橋徹, 尾形哲也, 奥乃博

情報処理学会研究報告(CD-ROM) 2009 ( 2 ) 2009年

　詳細を見る

J-GLOBAL

researchmap
楽器音イコライザによる音色の類似度に基づく楽曲検索システム

糸山克寿, 後藤真孝, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第76回音楽情報科学研究会 2008 ( 78 (2008-MUS-076) ) 143 - 148 2008年7月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，音楽音響信号中の楽器パートごとの音量を操作することを可能とするオーディオプレーヤー，楽器音イコライザについて述べる．Query-by-Example に基づく音楽情報検索システムを利用する際，多様な検索結果を得るためには検索のクエリとなる楽曲を複数用意する必要があるが，楽器音イコライザを用いて楽曲中の楽器パートの音量を操作しそれをクエリとすることで，一つの楽曲から多様な検索結果を得ることができる．音量操作のためには音楽音響信号はあらかじめ楽器パートごとに分離されている必要がある．分離には，調波・非調波統合モデルと呼ぶ，調波音と非調波音の両方を表現可能な音モデルを用いる．分離におけるパラメータ推定の精度を向上させるために，多数の楽器音を用いてモデルパラメータの事前分布を学習させる．

CiNii Books

J-GLOBAL

researchmap
音高による音色変化を考慮した楽器音の音高・音長操作手法

安部武宏, 糸山克寿, 吉井和佳, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第76回音楽情報科学研究会 2008 ( 78 (2008-MUS-76) ) 155 - 160 2008年7月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）出版者・発行元：一般社団法人情報処理学会

本稿では，ある音高・音長をもつ楽器音を音色の特徴を歪ませることなく任意の音高・音長へ操作する手法について述べる．我々は音色の聴感上の差に関する音響心理学的知見に基づき，楽器音のスペクトログラム上での音色特徴量として(i) 倍音ピーク間の相対強度，（ii) 非調波成分の分布，（iii) 時間方向エンべロープの 3 つを定義する．これら音色特徴量の分析には糸山らの調波・非調波統合モデルを用いる．音高操作時には，音高に対する特徴量 (i) (ii) の分布を三次関数でモデル化し，所望の音高における特徴量の値を予測することで音高依存性を考慮する．音長操作時には，特徴量 (iii) の時間的変化がゆるやかな区間のみを伸縮させることで，楽器音の立ち上がりと立ち下がりを保存する．32 種類の楽器に対して音高操作を試みたところ，音高依存性を考慮しない場合と比べて合成音と実際の楽器音との MFCC 距離が 32.31％減少した．

CiNii Books

J-GLOBAL

researchmap
楽器固有の音響的特徴を考慮した楽器音の音高操作手法

安部武宏, 糸山克寿, 吉井和佳, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第70回全国大会 70 ( 2X-7 ) 437 - 438 2008年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

J-GLOBAL

researchmap
複数楽器個体による事前分布を用いた調波・非調波統合モデルのパラメータ推定

糸山克寿, 後藤真孝, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第70回全国大会 70 ( 2X-6 ) 435 - 436 2008年3月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

J-GLOBAL

researchmap
音楽と映像の調和度計算モデルを用いたクロスメディア検索

斎藤博己, 糸山克寿, 吉井和佳, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第70回全国大会 70 ( 4X-4 ) 465 - 466 2008年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

J-GLOBAL

researchmap
ベース音高を考慮したポピュラー音楽に対する和音進行認識

須見康平, 糸山克寿, 吉井和佳, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第70回全国大会 70 ( 2X-5 ) 433 - 434 2008年3月

　詳細を見る

記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

CiNii Books

J-GLOBAL

researchmap
デモンストレーション：若手による研究紹介Ｖ

浜中雅俊, 西村明, 高江洲弘, 平井重行, 糸山克寿, 吉野祥之, 梶原祥平, 釘本望美, 勝本道哲, 中野倫靖, 伊藤直樹, 中村俊介, 長澤槙子, 柴田光太郎

情報処理学会第71回音楽情報科学研究会 2007 ( 81 (2007-MUS-071) ) 127 - 136 2007年8月

　詳細を見る

記述言語：日本語掲載種別：講演資料等（セミナー，チュートリアル，講習，講義他）出版者・発行元：一般社団法人情報処理学会

本デモセッションでは，音楽情報処理の研究分野における若手研究者のさらなる発展に向けて，若手による研究事例をデモンストレーション形式で紹介する．Toward further progresses of young researchers in the field of music information processing, we introduce case studies of demonstrations.

CiNii Books

researchmap
音色特徴量分布の利用による調波・非調波統合モデルのパラメータ推定

糸山克寿, 後藤真孝, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第71回音楽情報科学研究会 2007 ( 81 (2008-MUS-071) ) 161 - 166 2007年8月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定

糸山克寿, 後藤真孝, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第70回音楽情報科学研究会 2007 ( 37 (2007-MUS-070) ) 81 - 88 2007年5月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
楽譜情報を用いたNMFによる音楽音響信号の音源分離

糸山克寿, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第69回全国大会 ( 2N-1 ) 159 - 160 2007年3月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap
デモンストレーション：若手による研究紹介IV

浜中雅俊, 竹川佳成, 岩井憲一, 高橋直也, 中野倫靖, 大石康智, 糸山克寿, 北原鉄朗, 吉井和佳, 橋本周司, 中野倫靖, 後藤真孝, 平賀譲, 大石康智, 伊藤克亘, 武田一哉, 糸山克寿, 奥乃博, 北原鉄朗, 吉井和佳

情報処理学会第67回音楽情報科学研究会 2006 ( 113 (2007-MUS-067) ) 9 - 14 2006年10月

　詳細を見る

記述言語：日本語掲載種別：講演資料等（セミナー，チュートリアル，講習，講義他）出版者・発行元：一般社団法人情報処理学会

本デモセッションでは，音楽情報処理の研究分野における若手研究者のさらなる発展に向けて，若手による研究事例をデモンストレーション形式で紹介する．

CiNii Books

researchmap
多重奏中特定パートの自動採譜における複数特徴量の自動重み付け

糸山克寿, 北原鉄朗, 駒谷和範, 尾形哲也, 奥乃博

情報処理学会第68回全国大会 ( 2L-4 ) 169 - 170 2006年3月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL

researchmap

▼全件表示

産業財産権

マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム

中臺一博, 段雄啓, 糸山克寿, 西田健次

　詳細を見る

出願人：本田技研工業株式会社

出願番号：特願2019-034898 出願日：2019年2月

公開番号：特開2020-141232 公開日：2020年9月

researchmap
音源定位装置、音源定位方法、およびプログラム

中臺一博, 正木俊伍, 小島諒介, 杉山治, 糸山克寿, 西田健次

　詳細を見る

出願人：本田技研工業株式会社

出願番号：特願2019-034717 出願日：2019年2月

公開番号：特開2020-141222 公開日：2020年9月

researchmap
キャプション生成装置、キャプション生成方法、およびプログラム

中臺一博, 岩月道生, 糸山克寿, 西田健次

　詳細を見る

出願人：本田技研工業株式会社

出願番号：特願2019-034979 出願日：2019年2月

公開番号：特開2020-140050 公開日：2020年9月

researchmap
音源分離装置、音源分離方法、およびプログラム

中臺一博, 日下湧太, 糸山克寿, 西田健次

　詳細を見る

出願人：本田技研工業株式会社

出願番号：特願2019-034713 出願日：2019年2月

公開番号：特開2020-140041 公開日：2020年9月

researchmap
音響信号処理装置、音響信号処理方法及びプログラム

糸山克寿, 中臺一博

　詳細を見る

出願人：本田技研工業株式会社

出願番号：特願2018-165504 出願日：2018年9月

公開番号：特開2020-039057 公開日：2020年3月

researchmap
目的音響信号復元システム及び方法

坂東宜昭, 吉井和佳, 糸山克寿, 奥乃博

　詳細を見る

出願人：国立大学法人京都大学

出願番号：特願2018-519566 出願日：2017年5月

researchmap
歌声信号分離方法及びシステム

池宮由楽, 吉井和佳, 糸山克寿

　詳細を見る

出願人：国立大学法人京都大学

出願番号：特願2015-034339 出願日：2015年2月

公開番号：特開2016-156938 公開日：2016年9月

researchmap

▼全件表示

共同研究・競争的資金等の研究課題

動的環境における非同期分散マイクアレイの時空間キャリブレーション

研究課題/領域番号：23K11160 2023年4月 - 2026年3月

日本学術振興会科学研究費助成事業基盤研究(C)

糸山克寿

　詳細を見る

配分額：4550000円（直接経費：3500000円、間接経費：1050000円）

researchmap
非同期分散マイクアレイにおけるキャリブレーションフリーモデルの研究

研究課題/領域番号：19K12017 2019年4月 - 2022年3月

日本学術振興会科学研究費助成事業基盤研究(C) 基盤研究(C)

糸山克寿

　詳細を見る

担当区分：研究代表者

配分額：3900000円（直接経費：3000000円、間接経費：900000円）

本研究課題では，キャリブレーション（マイクロホンやマイクロホンアレイのサンプリング周波数や位置のずれを精密な測定により事前に補正すること）を行わずに非同期分散マイクアレイ（複数のマイクロホンを同期させて用いるデバイスであるマイクロホンアレイに対して，独立した複数のマイクロホンをあたかもマイクロホンアレイであるかのように扱う）に対して音源定位や音源分離などのアレイ信号処理を実現することを目指す．具体的に，令和3年度は以下について取り組んだ．
・複数のマイクロホンアレイと複数の音源の位置・向き・時間オフセットなどを同時に推定するための，複数目的関数の統合について検討した．従来手法である2つの目的関数を順番に最適化する手法に対して，一方の目的関数中の項を変形してもう一方の目的関数に組み込むことで，目的関数を統合する手法を提案した．
・2次元および3次元空間でのシミュレーション実験で推定精度向上と計算時間低減について確認した．統合した目的関数を用いた手法は，従来手法と同程度のキャリブレーション性能をもち，かつ少ない計算量での最適化が行えることが明らかになった．一方で，統合した目的関数では好ましくない解（全てのマイクロホンアレイと音源の位置が一点に集まる）への収束が起こり得ることも明らかになった．
これらの手法に基づいて，様々な前提条件がセンサアレイ構築に対して寄与する度合いを調査することで，アレイ信号処理の適用範囲が広がることが期待される．

researchmap
音声による種の識別システムを用いた鳥類モニタリング手法の開発

研究課題/領域番号：16K16222 2016年4月 - 2019年3月

日本学術振興会科学研究費助成事業若手研究(B) 若手研究(B)

藤田素子, 奥乃博, 糸山克寿, 鈴木麗璽, 丸山晃央

　詳細を見る

担当区分：連携研究者

配分額：3380000円（直接経費：2600000円、間接経費：780000円）

録音データからの機械的な種の識別システムは、①さえずりの検出、②さえずりの識別の2段階から構成されている。①の過程において、当初想定していた2チャンネルでの録音では解析時の検出率が低いといった問題がでてきた。その大きな理由は、同時にさえずっている複数の個体を分離できないことにあった。本研究課題では録音チャンネルを8つに増やし、ロボット聴覚ソフトウェアHARKを用いて解析を進めた。福井県およびインドネシアの森林において8チャンネルで録音したデータを解析したところ、同時にさえずっている個体の分離が可能であることが明らかになり、精度の高い識別のための基礎的な知見が得られた。

researchmap
混合音に対する複数同時発話認識のための統一的ベイズアプローチ

研究課題/領域番号：15K12063 2015年4月 - 2017年3月

日本学術振興会科学研究費助成事業挑戦的萌芽研究挑戦的萌芽研究

吉井和佳, 河原達也, 持橋大地, 糸山克寿

　詳細を見る

担当区分：研究分担者

配分額：3640000円（直接経費：2800000円、間接経費：840000円）

本研究では、音源分離を確率的に統合した同時発話音声認識を行う手法を提案した。音源分離により復元される音声信号には不確実性が存在するため、音声信号の事後分布を考慮することで音声認識との統合を行う。これにより、復元すべき音声を一意に定めることなく混合音から直接認識結果を得ることが可能となった。また、音の重畳過程と音源モデルを内包する統合モデルにより、高精度な音源分離を行う手法を考案した。具体的には、重畳過程・音源モデルに対して、混合モデル (LDA) および因子モデル (NMF) のそれぞれのモデル化を行うことで、各モデルの音源分離性能を比較評価した。

researchmap
ロボット聴覚の実環境理解に向けた多面的展開

研究課題/領域番号：24220006 2012年5月 - 2017年3月

日本学術振興会科学研究費助成事業基盤研究(S) 基盤研究(S)

奥乃博, 中臺一博, 公文誠, 糸山克寿, 吉井和佳, 佐々木洋子, 昆陽雅司, 合原一究, 鈴木麗璽, 加賀美聡, 田所諭

　詳細を見る

配分額：218140000円（直接経費：167800000円、間接経費：50340000円）

本研究では，ロボット聴覚ソフトHARKの「聞き分ける技術」を基に，自然環境・災害現場でも通用するように，豊富な機能拡充・高性能化と応用に取り組んだ．HARKはWindows版提供により9万件弱のダウンロードがあった．多人数インタラクション，音楽共演ロボットの可能性を示し， iGSVD-MUSICの開発によるUAV用音源定位の頑健化，索状ロボット用に姿勢推定・音声強調の開発により，レスキューロボットへの音利用の可能性を示し，さらに，カエルの合唱の解明，野鳥の鳴交解析のためのHARKBirdの開発と実地検証により音響生態学への可能性を実証し，ロボット聴覚の多面的展開のための基礎技術が確立できた．

researchmap
統計的機械学習による音楽情景分析と音楽的要素のディレクションの研究

研究課題/領域番号：24700168 2012年4月 - 2015年3月

日本学術振興会科学研究費助成事業若手研究(B) 若手研究(B)

糸山克寿

　詳細を見る

担当区分：研究代表者

配分額：4420000円（直接経費：3400000円、間接経費：1020000円）

本研究では，以下を達成した．(1)ノンパラメトリックベイズ法に基づく音楽音響信号の分析手法, (2) ベイズ推定に基づく和音の認識，(3)音楽音響信号からのバイオリン運指推定，(4)仮想楽器音源パラメータを推定，(5)ギター演奏者の習熟度に応じたタブ譜自動生成，(6)歌い方の特徴を抽出し歌手の歌い方のライブラリを作成，(7) 歌声と伴奏を分離し，歌声にビブラートやこぶしなどの歌唱表現を付与する音楽編集システムを開発，(8) 音響信号に対する残響抑圧，(9) 反復的な和音・音高推定方法の開発．

researchmap
ロボット聴覚の実環境理解に向けた多面的展開

研究課題/領域番号：24240035 2012年

日本学術振興会科学研究費助成事業基盤研究(A) 基盤研究(A)

奥乃博, 加賀美聡, 糸山克寿, 公文誠, 中臺一博

　詳細を見る

担当区分：研究分担者

配分額：21060000円（直接経費：16200000円、間接経費：4860000円）

音は画像と比べ拡散性が強いので,ロボット聴覚による音環境理解は,画像だけでは捉えきれない環境でも理解できる一方,広域から得られる情報の活用方法が課題となる.本研究課題では,既開発のロボット聴覚を基に,実環境音環境理解が可能な安全安心のためのロボット聴覚技術の多面的展開を目的とする.
具体的には,
WP1:多様なマイクロフォンコンフィグレーションへの展開,HARK-16の性能向上や分散設置された複数のマイクロホンアレイの同期方法,
WP2:室内から屋外への展開,室内での音響マップ作成から無人飛行機による空中からの音の取得と音源定位,
WP3:音声から楽音・環境音を含めた音一般への展開,特にノンパラメトリックベイズ信号処理,音光変換による動物音響学,楽器演奏音からの楽器音実時間分離,環境音の擬音語認識,
に取り組むことになっていた.研究開始から辞退までの2ヶ月間で,実験装置の準備と,無人ヘリコプタの使用の詳細化,無人ヘリコプタ搭載用のマルチチャネルAD装置の設計,特に,非同期分散マイクの処理を高性能化するための時間情報付き音響データ転送方式の設計を行った.また,
HARK-Binauralの洗練化,移動音源を対象とした音源定位のベイズ手法の開発,ベイズ手法による突発音や反射音を抑制したMUSIC(Multiple Signal Classification)法の開発,音源の活動状況と音源分離とを同時に推定するノンパラメトリックベイズ手法によるIVA法の開発,楽器音の音モデルのゆらぎを許容する多重演奏曲の楽器音分離法の開発,バンドパスフィルタを用いたカエルホタルの高機能化などに取り組んだ.

researchmap
音楽音響信号の音源分離における統合的理論の構築とその応用

研究課題/領域番号：08J02757 2008年 - 2010年

日本学術振興会科学研究費助成事業特別研究員奨励費特別研究員奨励費

糸山克寿

　詳細を見る

担当区分：研究代表者

配分額：1800000円（直接経費：1800000円）

本年度は,音源分離と楽器名同定の同時処理,および音源分離の応用としての類似楽曲検索システムに関する研究に取り組み,論文を発表した.
1.複数楽器混合モデルのパラメータ推定と楽器名同定への応用複雑な音楽音響信号中の楽器音を認識し,信号からその構成要素である楽器音や歌声を分離することは,近年の音楽情報処理における重要な要素技術である.混合音の音楽音響信号および楽曲中の各単音の音高と発音区間を入力として,各単音の分離音響信号と楽器名同定結果を出力する問題に取り組んだ.2～3楽器音の混合音に対して楽器音を分離しそれぞれの楽器名を同定する実験を行ったところ,2音の混合に対する平均音源同定正解率は72.1%,3音に対しては54.8%であった.音源分離性能は2音,3音のそれぞれに対して平均対数スペクトル距離が3.12,3.65であった.さらに,楽器名同定の正解によって音源分離性能が向上することを確認した.
2.楽器音イコライザによる音色の類似度に基づく楽曲検索システム類似楽曲検索とは,ユーザが指定した楽曲をクエリとして与え,楽曲を類似性に基づいてランキングする検索手法である.楽器音量バランスを操作したクエリ楽曲を用いて類似楽曲検索を行い,検索結果のジャンルからクエリ楽曲のジャンルシフトを調査した.楽器音量バランスとジャンルシフトとの間には合理的な関係があり,音楽ジャンルの典型的なイメージと整合していることが確認できた.ボーカルパートとドラムスパートでは,分離音と原音で同じ傾向のジャンルシフトが確認されたが,ギターパートでは異なっていた.

researchmap
音環境理解に基づくロボット聴覚の構築

研究課題/領域番号：19100003 2007年 - 2011年

日本学術振興会科学研究費助成事業基盤研究(S) 基盤研究(S)

奥乃博, 尾形哲也, 駒谷和範, 高橋徹, 白松俊, 中臺一博, 北原鉄朗, 糸山克寿, 浅野太, 浅野太

　詳細を見る

担当区分：研究分担者

配分額：119340000円（直接経費：91800000円、間接経費：27540000円）

音環境理解の主要機能である混合音の音源定位・分離・認識技術を開発し,ロボット聴覚ソフトウエアHARKとして公開し,国内外で複数の講習会を実施した. HARKを応用し,複数話者同時発話を認識する聖徳太子ロボット,ユーザの割込発話を許容する対話処理などを開発し,その有効性を実証した.さらに,多重奏音楽演奏から書くパート演奏を聞き分ける技術,実時間楽譜追跡機能を開発し,人と共演をする音楽ロボットなどに応用した。

researchmap

▼全件表示