2026/03/27 更新

写真a

リ シェン
李 勝
LI SHENG
所属
工学院 助教
職名
助教
連絡先
メールアドレス
通称等の別名
李 勝
プロフィール

Sheng LI received his BS and ME degrees in 2006 and 2009 from Nanjing University, Nanjing, China, and his Ph.D. from Kyoto University, Kyoto, Japan, in 2016. From 2009 to 2012, he worked at the joint lab of the Chinese University Hong Kong and Shenzhen City, researching speech technology-assisted language learning. From 2016 to 2017, he worked as a researcher at Kyoto University, studying speech recognition systems for humanoid robots. From 2017 to Feb.2025, he worked for the National Institute of Information and Communications Technology, Kyoto, Japan, as a researcher working on speech recognition. In March 2025, he joined the Institute of Science Tokyo as an assistant professor working on speech recognition. He served as a workshop/special session co-organizer and session chair in interspeech2020, coling2022, odyssey2022, ACM Multimedia Asia2023/2024, RO-MAN2025, and ICASSP2024. He is a member of the Acoustic Society of Japan (ASJ), the International Speech Communication Association (ISCA), and a senior member of IEEE. He is now a member of the Speech, Language, and Audio (SLA) Technical Committee for APSIPA. He is also a member of the Applied Signal Processing Systems Technical Committee (ASPS TC) of the IEEE Signal Processing Society (SPS).

Research interest:
次世代音声翻訳・音声認識・合成処理技術の研究開発

セキュリティ対応の音声処理

ロボット聴覚

https://search.star.titech.ac.jp/titech-ss/pursuer.act?event=outside&key_t2r2Rid=CTT100930321&lang=en

https://educ.titech.ac.jp/ict/faculty/  (教員名:ら行)

https://youtu.be/pP6YtlSVqlM

外部リンク

学位

  • 博士(情報学) ( 2016年3月   京都大学 )

研究キーワード

  • 音声認識/翻訳

  • メディア処理技術を用いた語学学習支援(CALL)

  • マルチモーダル音声処理

  • セキュリティ対応の音声処理

  • 大規模な言語モデル (音声、テキスト)

研究分野

  • 情報通信 / 知覚情報処理

学歴

  • 京都大学   大学院   情報学研究科知能情報学専攻博士後期課程

    2012年10月 - 2016年3月

      詳細を見る

  • 南京大学   中国科学院,香港中文大学,南京大学連携項目課程   修士

    2007年9月 - 2009年7月

      詳細を見る

  • 南京大学 (旧国立中央大学(1949年南京大学と改称), 中国C7難関大学, CSRank2025≒京都大学)   工学院   計算機科学コース (理学)

    2002年7月 - 2006年7月

      詳細を見る

経歴

  • RIKEN Visiting Scientist

    2025年10月

      詳細を見る

  • 東京科学大学   助教

    2025年3月 - 現在

      詳細を見る

    国名:日本国

    researchmap

  • Eindhoven University of Technology (TU/e), visiting assistant professor

    2024年11月

      詳細を見る

    国名:オランダ王国

    researchmap

  • 南洋理工大学   visiting researcher

    2024年2月 - 2024年3月

      詳細を見る

    国名:シンガポール共和国

    researchmap

  • 京都大学   修士課程アドバイザー

    2021年12月 - 2023年3月

      詳細を見る

  • 国立研究開発法人情報通信研究機構 (NICT)   先進的音声技術研究室(ASTL)   テニュアトラック 研究員

    2020年 - 2025年2月

      詳細を見る

  • Oxford University   Computer science department   visiting researcher

    2019年4月 - 2019年5月

      詳細を見る

  • 国立研究開発法人情報通信研究機構 (NICT)   先進的音声技術研究室(ASTL)   研究員

    2017年 - 2019年

      詳細を見る

  • 京都大学 音声メディア研究室   研究員

    2016年4月 - 2016年12月

      詳細を見る

  • Sogou/Sohuピン音入力方法[株,中国北京市]   研究員

    2012年4月 - 2012年9月

      詳細を見る

  • 香港中文大学 深セン市 joint 研究所 [中国広東省深セン市]   研究員 (computer-assisted language learning)

    2009年7月 - 2012年4月

      詳細を見る

▼全件表示

所属学協会

  • APNNS (Asia Pacific Neural Network Society)

    2023年12月 - 現在

      詳細を見る

  • ACM (Association for Computing Machinery)

      詳細を見る

  • IEEE/IEEE-SPS/IEEE-RAS

      詳細を見る

  • ISCA (International Speech Communication Association)

      詳細を見る

  • ASJ (日本音響学会)

      詳細を見る

  • SIG-CSLP (Chinese Spoken Language Processing)

      詳細を見る

  • APSIPA (Asia Pacific Signal and Information Processing Association)

      詳細を見る

▼全件表示

委員歴

  • JSAI   Co-organizer of OS  

    2026年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • IEEE ICASSP2026   meta reviewer  

    2026年1月   

      詳細を見る

    団体区分:学協会

    researchmap

  • APSIPA   Speech, Language, and Audio (SLA) Technical Committee (till 2026)  

    2026年   

      詳細を見る

    団体区分:学協会

    researchmap

  • IEEE IROS2025   session chair  

    2025年10月   

      詳細を見る

    団体区分:学協会

    researchmap

  • IEEE RO-MAN2025   Co-organizer of special session  

    2025年9月   

      詳細を見る

    団体区分:学協会

    researchmap

  • IEEE   senior member  

    2025年4月 - 現在   

      詳細を見る

    団体区分:学協会

    researchmap

  • IEEE Signal Processing Society (SPS)   Applied Signal Processing Systems Technical Committee (ASPS TC)  

    2025年1月 - 2027年1月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Co-organizing ACM Multimedia Asia 2024 workshop: Multimodal, Multilingual and Multitask Modeling Technologies for Oriental Languages (M3Oriental)   Co-organizer  

    2024年12月   

      詳細を見る

  • Session Chair of DASFAA2024  

    2024年7月   

      詳細を見る

  • Publicity Chair of ACM Multimedia Asia 2024  

    2024年6月 - 2024年12月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Session Chair of IEEE-ICASSP2024  

    2024年4月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Co-organizing ACM Multimedia Asia 2023 workshop: Multimodal, Multilingual and Multitask Modeling Technologies for Oriental Languages (M3Oriental)  

    2023年12月   

      詳細を見る

  • Session Chair of ICANN 2023  

    2023年9月   

      詳細を見る

  • Area Chair of APSIPA ASC 2023  

    2023年7月   

      詳細を見る

  • Area Chair of EMNLP 2023  

    2023年7月   

      詳細を見る

  • Co-organizing Coling2022 workshop: when creative ai meets conversational ai (cai + cai = cai^2)  

    2022年10月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Session Chair for Speaker Odyssey2022 (Evaluation and Benchmarking Session)  

    2022年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Session Chair for INTERSPEECH2020 (Topics of ASR I)  

    2020年10月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Co-organizing INTERSPEECH2020 SLIMTS (Spoken Language Interaction for Mobile Transportation System) workshop  

    2020年10月   

      詳細を見る

    団体区分:学協会

    researchmap

▼全件表示

論文

▼全件表示

書籍等出版物

  • Voices of the Himalayas: Investigation of Speech Recognition Technology for the Tibetan Language

    Sheng Li( 担当: 単著)

    2023年2月  ( ISBN:9784904020289

     詳細を見る

  • Bridging Eurasia: Multilingual Speech Recognition for Silkroad

    Sheng Li( 担当: 単著)

    2023年1月  ( ISBN:9784904020296

     詳細を見る

  • Phantom in the Opera: The Vulnerabilities of Speech-based Artificial Intelligence Systems

    Sheng Li( 担当: 単著)

    2022年11月  ( ISBN:9784904020265

     詳細を見る

  • Automatic speech recognition: Speech-to-Speech Translation

    X. Lu, S. Li, M. Fujimoto( 担当: 共著 範囲: Chapter 3.3.2: From Shallow to Deep and Very Deep. Chapter 3.3.3: End-to-End and CTC models.)

    Springer Singapore  2020年 

     詳細を見る

MISC

  • Evaluating Tibetan ASR with Segmented Word Error Rate: Beyond Character-Level Metrics

    Jacob Moore, Sheng Li, Paula Lauren

    TechRxiv   2026年2月

     詳細を見る

  • End-to-end Acoustic-linguistic Emotion and Intent Recognition Enhanced by Semi-supervised Learning.

    Zhao Ren, Rathi Adarshi Rammohan, Kevin Scheck, Sheng Li, Tanja Schultz

    2025年12月

  • Emotional Text-To-Speech Based on Mutual-Information-Guided Emotion-Timbre Disentanglement

    Jianing Yang, Sheng Li, Takahiro Shinozaki, Yuki Saito, Hiroshi Saruwatari

    arXiv   2025年10月

     詳細を見る

    記述言語:英語  

    DOI: 10.48550/arXiv.2510.01722

    researchmap

  • Language-Aware Prompt Tuning for Parameter-Efficient Seamless Language Expansion in Multilingual ASR

    Hongli Yang, Sheng Li, Hao Huang, Ayiduosi Tuohan, Yizhou Peng

    arxiv   2025年7月

     詳細を見る

    記述言語:英語  

    DOI: 10.48550/arXiv.2506.21577

    researchmap

  • Adapting Whisper for Parameter-efficient Code-Switching Speech Recognition via Soft Prompt Tuning

    Hongli Yang, Yizhou Peng, Hao Huang, Sheng Li

    2025年7月

     詳細を見る

    記述言語:英語  

    DOI: 10.48550/arXiv.2506.21576

    researchmap

  • Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation

    Haowei Lou, Hye-young Paik, Sheng Li, Wen Hu, Lina Yao

    arXiv preprint arXiv:2504.08274   2025年4月

     詳細を見る

    記述言語:英語  

    researchmap

  • Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition

    Zhengdong Yang, Qianying Liu, Sheng Li, Fei Cheng, Chenhui Chu

    arXiv   2025年1月

     詳細を見る

    記述言語:英語  

    DOI: 10.48550/arXiv.2501.17615

    researchmap

  • Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding

    Jiliang Hu, Zuchao Li, Mengjia Shen, Haojun Ai, Sheng Li, Jun Zhang

    arXiv   2025年1月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(国際会議)  

    DOI: 10.48550/arXiv.2501.07329

    researchmap

  • Multi-Prototype  Network with Swin Transformer for Open Set Recognition

    Jun Wang, Haiyan Yang, Sheng Li, Di Zhou, Xingwei Chen, Juncheng Li, Yufeng Hua, Jun Shi

    SSRN   2025年

     詳細を見る

    記述言語:英語   掲載種別:記事・総説・解説・論説等(学術雑誌)  

    DOI: 10.2139/ssrn.5134636

    researchmap

  • A Unified Speech LLM for Diarization and Speech Recognition in Multilingual Conversations

    Phurich Saengthong, Boonnithi Jiaramaneepini, Sheng Li, Manabu Okumura, Takahiro Shinozaki

    arXiv   2025年

  • Towards Emotion Co-regulation with LLM-powered Socially Assistive Robots: Integrating LLM Prompts and Robotic Behaviors to Support Parent-Neurodivergent Child Dyads

    Jing Li, Felix Schijve, Sheng Li, Yuye Yang, Jun Hu, Emilia Barakova

    arXiv   2025年

     詳細を見る

    記述言語:英語  

    DOI: 10.48550/arXiv.2507.10427

    researchmap

  • Multi-Prototype  Network with Swin Transformer for Open Set Recognition

    Jun Wang, Haiyan Yang, Sheng Li, Di Zhou, Xingwei Chen, Juncheng Li, Yufeng Hua, Jun Shi

    SSRN   2025年

     詳細を見る

    記述言語:英語  

    DOI: 10.2139/ssrn.5134636

    researchmap

  • Benchmarking Japanese Speech Recognition on ASR-LLM Setups with Multi-Pass Augmented Generative Error Correction

    Yuka Ko, Sheng Li, Chao-Han Huck Yang, Tatsuya Kawahara

    arXiv   2024年12月

     詳細を見る

    記述言語:英語  

    DOI: 10.48550/arXiv.2408.16180

    researchmap

  • Extracting Spatiotemporal Data from Gradients with Large Language Models

    Lele Zheng, Yang Cao, Renhe Jiang, Kenjiro Taura, Yulong Shen, Sheng Li, Masatoshi Yoshikawa

    arXiv   2024年10月

     詳細を見る

    記述言語:英語  

    DOI: 10.48550/arXiv.2410.16121

    researchmap

  • Investigating Effective Speaker Property Privacy Protection in Federated Learning for Speech Emotion Recognition

    Chao Tan, Sheng Li, Yang Cao, Zhao Ren, Tanja Schultz

    arXiv   2024年10月

     詳細を見る

    記述言語:英語  

    DOI: 10.48550/arXiv.2410.13221

    researchmap

  • Enhancing Privacy of Spatiotemporal Federated Learning against Gradient Inversion Attacks

    Lele Zheng, Yang Cao, Renhe Jiang, Kenjiro Taura, Yulong Shen, Sheng Li, Masatoshi Yoshikawa

    arXiv   2024年7月

     詳細を見る

    記述言語:英語  

    DOI: 10.48550/arXiv.2407.08529

    researchmap

  • MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction

    Wangjin Zhou, Zhengdong Yang, Chenhui Chu, Sheng Li, Raj Dabre, Yi Zhao, Tatsuya Kawahara

    2024年1月

     詳細を見る

    記述言語:英語   掲載種別:研究発表ペーパー・要旨(国際会議)  

    DOI: 10.48550/arXiv.2401.13249

    researchmap

  • End-to-End Speech-to-Speech Translation toolkit

    Wangjin Zhou, Zhengdong Yang, Chenhui Chu, Sheng Li

    ACM Multimedia Asia 2023 workshop released tookit   2023年12月

     詳細を見る

  • FedCPC: An Effective Federated Contrastive Learning Method for Privacy Preserving Early-Stage Alzheimer's Speech Detection

    Wenqing Wei, Zhengdong Yang, Yuan Gao, Jiyi Li, Chenhui Chu, Shogo Okada, Sheng Li

    2023年11月

     詳細を見る

    担当区分:最終著者, 責任著者   記述言語:英語  

    DOI: 10.48550/arXiv.2311.13043

    researchmap

  • LE-SSL-MOS: Self-Supervised Learning MOS Prediction with Listener Enhancement

    Zili Qi, Xinhui Hu, Wangjin Zhou, Sheng Li, Hao Wu, Jian Lu, Xinkang Xu

    2023年11月

  • Reprogramming Self-supervised Learning-based Speech Representations for Speaker Anonymization

    Xiaojiao Chen, Sheng Li, Jiyi Li, Hao Huang, Yang Cao, Liang He

    2023年11月

  • GhostVec: A New Threat to Speaker Privacy of End-to-End Speech Recognition System

    Xiaojiao Chen, Sheng Li, Jiyi Li, Hao Huang, Yang Cao, Liang He

    2023年11月

  • Towards Speech Dialogue Translation Mediating Speakers of Different Languages

    Shuichiro Shimizu, Chenhui Chu, Sheng Li, Sadao Kurohashi

    arXiv:2305.09210   2023年5月

     詳細を見る

    記述言語:英語  

    researchmap

  • Robust Voice Activity Detection Using an Auditory-Inspired Masked Modulation Encoder Based Convolutional Attention Network

    Nan LI, Longbiao Wang, Meng Ge, Masashi Unoki, Sheng Li, Jianwu Dang

    2023年

     詳細を見る

    記述言語:英語  

    DOI: 10.2139/ssrn.4557926

    researchmap

  • Speech-text based multi-modal training with bidirectional attention for improved speech recognition

    Yuhang Yang, Haihua Xu, Hao Huang, Eng Siong Chng, Sheng Li

    arXiv:2211.00325   2022年10月

     詳細を見る

  • Tendency-and-Attention-Informed Deep Learning for ENSO Forecasts

    Shen Qiao, Cuicui Zhang, Xuefeng Zhang, Kai Zhang, Hao Shi, Sheng Li, Hao Wei

    2022年6月

     詳細を見る

    出版者・発行元:Research Square Platform LLC  

    Abstract

    Deep learning has been acknowledged as an increasingly important technology for ENSO forecasts. The most cutting-edge deep learning algorithm is developed based on Convolutional Neural Network (CNN), which can achieve a multi-year (about 17-month-lead) forecast and has conquered the ‘spring forecast barrier’ problem. However, this group of methods are still challenged by several critical issues. First, they usually utilize the global sea surface temperature (SST) fields as inputs without considering the specific contributions of variant oceanic regions in ENSO forecasts. Consequently, they cannot effectively investigate the role of the ‘teleconnection’ mechanism among different oceans (Indian, Pacific, and Atlantic Oceans) and different ocean parts (the tropic and non-tropic regions) especially in the forecast of extreme ENSO events. Second, existing methods mainly utilize the discrete monthly SST fields for Deep Learning for ENSO Forecasts ENSO forecasts without investigating the rate-of-changes between adjacent months, which also provides important information to the prediction of variation tendency. To solve these problems, this paper develops a Tendency-and-Attention-Informed Deep Residual Network (TA-DRN) for multi-year ENSO forecasts. The contributions of different oceanic regions can be learned by a spatial attention module while the variation tendency of adjacent previous and current months can be interpreted by the first-and-second order of differences of SST fields. Through informed by these two modules, the performance of TA-DRN can be improved significantly, especially in predicting extreme El Niño and La Niña events.

    DOI: 10.21203/rs.3.rs-1733575/v1

    researchmap

    その他リンク: https://www.researchsquare.com/article/rs-1733575/v1.html

  • Fusion of Self-supervised Learned Models for MOS Prediction

    Zhengdong Yang, Wangjin Zhou, Chenhui Chu, Sheng Li, Raj Dabre, Raphael Rubino, Yi Zhao

    CoRR abs/2204.04855   2022年4月

     詳細を見る

    担当区分:責任著者  

    researchmap

  • Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition.

    Qianying Liu, Yuhang Yang, Zhuo Gong, Sheng Li, Chenchen Ding, Nobuaki Minematsu, Hao Huang, Fei Cheng, Sadao Kurohashi

    abs/2204.03855   2022年4月

     詳細を見る

    担当区分:責任著者  

    researchmap

  • Voice-Indistinguishability: Protecting Voiceprint in Privacy-Preserving Speech Data Release

    Yaowei Han, Sheng Li, Yang Cao, Qiang Ma, Masatoshi Yoshikawa

    CoRR abs/2004.07442   2020年6月

     詳細を見る

    担当区分:筆頭著者  

    researchmap

  • Deep progressive multi-scale attention for acoustic event classification

    Xugang Lu, Peng Shen, Sheng Li, Yu Tsao, Hisashi Kawai

    CoRR abs/1912.12011   2019年4月

     詳細を見る

    担当区分:筆頭著者  

    researchmap

▼全件表示

講演・口頭発表等

  • 大規模言語モデルの統合による音声認識システムの改善 招待

    李 勝

    NICT Open House 2024  2024年6月 

     詳細を見る

    開催年月日: 2024年6月

    記述言語:日本語  

    researchmap

  • Diversity-driven Semi-supervised Ensemble DNN Acoustic Model Training (音声)

    LI Sheng, LU Xugang, SAKAI Shinsuke, KAWAHARA Tatsuya

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報  2016年8月  電子情報通信学会

     詳細を見る

    開催年月日: 2016年8月

    記述言語:英語  

    researchmap

  • Discriminative Data Selection from Multiple ASR Systems' Hypotheses for Unsupervised Acoustic Model Training (音声) -- (第17回音声言語シンポジウム)

    LI SHENG, AKITA YUYA, KAWAHARA TATSUYA

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報  2015年12月  電子情報通信学会

     詳細を見る

    開催年月日: 2015年12月

    記述言語:英語  

    researchmap

  • 相互情報量最小化による感情・音色の分離に基づく感情的音声合成,

    楊家寧, 李勝, 篠崎 隆宏, 齋藤佑樹, 猿渡洋

    日本音響学会研究発表会講演論文集, 秋季  2025年10月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • RAG-Boost: Retrieval-Augmented Generation Enhanced Speech Recognition in LLM-based Spoken Dialogue Systems

    王鵬程, 李勝, 篠崎隆宏

    日本音響学会研究発表会講演論文集, 秋季  2025年10月 

     詳細を見る

  • System Description for the CN-Celeb Speaker Recognition Challenge 2022

    Guangxing Li, Wangjin Zhou, Sheng Li, Yi Zhao, Hao Huang, Jichen Yang

    CNSRC (the CN-Celeb Speaker Recognition Challenge), Speaker Odyssey 2022  2022年6月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • Study on Relationship Between Speakers' Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-Wise Attentional Neural Network

    Li Kai, Xugang Lu, Masato Akagi, Jianwu Dang, Sheng Li, Unoki Masashi

    信学技報  2022年8月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • 異言語話者の対話を仲介する音声対話翻訳

    清水 周一郎, 褚 晨翚, 李 勝, 黒橋 禎夫

    言語処理学会第 29 回年次大会(NLP2023)  2023年3月 

     詳細を見る

    記述言語:日本語   会議種別:口頭発表(一般)  

    researchmap

  • Towards Security-aware Speech Recognition System, 招待

    Sheng Li

    NECTEC-NICT joint seminar  2023年8月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(招待・特別)  

    researchmap

  • Cross-lingual Mapping for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition

    Zhengdong Yang, Qianying Liu, Sheng Li, Chenhui Chu, Fei Cheng, Sadao Kurohashi

    ASJ 2023 autumn  2023年9月 

     詳細を見る

    記述言語:英語   会議種別:ポスター発表  

    researchmap

  • Correction while Recognition: Combining Pretrained Language Model for Taiwan-accented Speech Recognition 招待

    Sheng Li

    Joint Seminar with NECTEC Language Understand Group  2023年11月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(招待・特別)  

    researchmap

  • System Description for the Voiceprivacy Challenge 2022

    Xiaojiao Chen, Guangxing Li, Wangjin Zhou, Sheng Li, Yang Cao, Hao Huang, Yi Zhao

    Voiceprivacy Challenge 2022  2022年9月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • VoicePrivacy Challenge: System description

    X. Chen, G. Li, H. Huang, W. Zhou, Y. Cao, S. Li, Y. Zhao

    VoicePrivacy 2022 Challenge Workshop (Interspeech2022)  2022年9月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • Domain and Language Adaptation of Large-scale Pretrained Model for Speech Recognition of Low-resource Language

    Kak Soky, Sheng Li, Chenhui Chu, Tatsuya Kawahara

    IEICE Tech. Rep. (信学技報)  2022年12月 

     詳細を見る

  • Self-Supervised Learning MOS Prediction with Listener Enhancement 招待

    Sheng Li

    VoiceMOS mini workshop  2023年11月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(招待・特別)  

    researchmap

  • Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition 招待

    Zhengdong Yang

    ICT-innovation 2023 (Kyoto Univ.)  2024年2月 

     詳細を見る

    記述言語:英語   会議種別:公開講演,セミナー,チュートリアル,講習,講義等  

    researchmap

  • Investigating effective methods for combining large language model with speech recognition system

    李 勝, 楊 正東, 周 汪勁, 褚 晨翚, 河井 恒

    日本音響学会第151回(2024年春季)研究発表会  2024年3月 

     詳細を見る

    記述言語:英語   会議種別:ポスター発表  

    researchmap

  • Combining Large Language Model with Speech Recognition System in Low-resource Settings

    李 勝, 楊 正東, 周 汪勁, 褚 晨翚, Chen Chen, Chng Eng Siong, 河井 恒

    言語処理学会第30回年次大会  2024年3月 

     詳細を見る

    会議種別:ポスター発表  

    researchmap

  • Enhancing Multi-Step Reasoning in Language Models with Synthetic Math Data Augmentation (HP_Fighters team)

    Jieqing Mei, Jiyi Li, Qianying Liu, Sheng Li

    NLP2025 ワークショップ:大規模言語モデルのファインチューニング技術と評価  2025年3月 

     詳細を見る

    記述言語:日本語   会議種別:口頭発表(一般)  

    researchmap

  • 大規模言語モデルを用いた英語学習者発話のCEFR-Jレベル推定

    隆宏篠﨑, 秋太朗佐藤, 李勝

    CEFR-J 2025国際シンポジウム  2025年3月 

     詳細を見る

    記述言語:日本語   会議種別:口頭発表(一般)  

    researchmap

  • The System Description for VoiceMOS Challenge 2022 (main/ood tasks)

    2022年 

     詳細を見る

  • Application of the RFID based audio service in regional navigation system

    S. Li, C. Li

    Bulletin of Advanced Technology Research  2009年 

     詳細を見る

  • The Phoneme-level Articulator Dynamics for 3D Pronunciation Animation for Chinese

    S. Li, K. Luo, L. Wang

    Bulletin of Advanced Technology Research  2011年 

     詳細を見る

  • Phoneme-level articulatory animation in pronunciation training using EMA data

    李 勝

    Speech Synthesis Lab., Tsinghua University, host: Prof. Zhiyong Wu.  2012年 

     詳細を見る

  • Vocal Tract Length Normalization for Chinese Spontaneous Speech Recogntion

    李 勝

    Technical-report.(Kyoto university)  2013年 

     詳細を見る

  • Multi-lingual transformer training for Khmer automatic speech recognition

    K. Soky, S. Li, T. Kawahara, S. Seng

    Interspeech 2020 Satellite Workshop (SLIMTS2020). (abstract paper) 

     詳細を見る

  • Voice-Indistinguishability: Protecting Voiceprint in Privacy-Preserving Speech Data Release

    Y. Han, S. Li, Y. Cao, Q. Ma, M. Yoshikawa

    Interspeech 2020 Satellite Workshop (SLIMTS2020). (abstract paper)(invited report) 

     詳細を見る

  • Automatic Transcription of Chinese Spoken Lectures

    S. Li, M. Mimura, T. Kawahara

    Acoustical Society of Japan, autumn  2013年 

     詳細を見る

  • DNN-based Acoustic Modeling and Decoding for Chinese Spontaneous Speech Recogntion with HTK

    李 勝

    Technical-report.(Kyoto university)  2014年 

     詳細を見る

  • Lightly-supervised training and confidence estimation by using CRF classifiers,

    李 勝

    Speech and Cognition Lab., Tianjin University, host: Prof. Jianwu Dang and Prof. Kiyoshi Honda.  2014年 

     詳細を見る

  • Effective combination of multiple ASR hypotheses with CRF-based classifiers

    S. Li, Y. Akita, T. Kawahara

    Acoustical Society of Japan, autumn  2015年 

     詳細を見る

  • Discriminative data selection from multiple ASR systems' hypotheses for unsupervised acoustic model training

    S. Li, Y. Akita, T. Kawahara

    IPSJ SIG-SLP-109-8  2015年 

     詳細を見る

  • Data Selection Assisted by Caption to Improve Acoustic Modeling for Lecture Transcription

    S. Li, Y. Akita, T. Kawahara

    Acoustical Society of Japan, spring  2014年 

     詳細を見る

  • Classifier-based data selection for lightly-supervised training of acoustic model for lecture transcription

    S. Li, Y. Akita, T. Kawahara

    IPSJ SIG-SLP-102-4  2014年 

     詳細を見る

  • Unsupervised Training of Deep Neural Network Acoustic Models for Lecture Transcriptions

    S. Li, Y. Akita, T. Kawahara

    Acoustical Society of Japan, autumn  2014年 

     詳細を見る

  • Incorporating divergences from hypotheses of multiple ASR systems to improve unsupervised acoustic model training

    S. Li, Y. Akita, T. Kawahara

    Acoustical Society of Japan  2015年 

     詳細を見る

  • Diversity-driven Semi-supervised Ensemble DNN Acoustic Model Training

    S. Li, X. Lu, S. Sakai, T. Kawahara

    Acoustical Society of Japan, autumn  2016年 

     詳細を見る

  • Very deep convolutional residual network acoustic models for Japanese lecture transcription

    S. Li, X. Lu, P. Shen, H. Kawai

    Acoustical Society of Japan, autumn  2017年 

     詳細を見る

  • cGAN-classifier: Conditional Generative Adversarial Nets for Classification

    P. Shen, X. Lu, S. Li, H. Kawai

    Acoustical Society of Japan, autumn  2017年 

     詳細を見る

  • CTC 音響モデルのための knowledge distillation 方式の検討

    R.Takashima, S. Li, H. Kawai

    Acoustical Society of Japan, spring  2018年 

     詳細を見る

  • Short utterance-based spoken language identification

    P. Shen, X. Lu, S. Li, H. Kawai

    Acoustical Society of Japan, autumn  2018年 

     詳細を見る

  • Training CTC and LFMMI-based TDNN with CNTK

    李 勝

    NICT internal report  2018年 

     詳細を見る

  • CTC音響モデルのためのシーケンスレベル知識蒸留法の検討

    高島 遼一, 李 勝, 河井 恒

    IPSJ SIG-SLP  2018年 

     詳細を見る

  • An Empirical Comparison of Sequence Training Methods for the Very Deep Time-delay Neural Network

    S. Li, X. Lu, R.Takashima, P. Shen, H. Kawai

    Acoustical Society of Japan, autumn  2018年 

     詳細を見る

  • Improving CTC-based acoustic model with very deep residual neural network

    S. Li, X. Lu, R.Takashima, P. Shen, H. Kawai

    Acoustical Society of Japan, spring  2018年 

     詳細を見る

  • End-to-end音声認識技術の研究

    李 勝

    情報通信フェア2019  2019年9月 

     詳細を見る

  • End-to-End Articulatory Attribute Modeling for Low-resource Multilingual Speech Recognition

    S. Li, C. Ding, X. Lu, P. Shen and H. Kawai,

    Acoustical Society of Japan, spring  2020年 

     詳細を見る

    会議種別:口頭発表(一般)  

    researchmap

  • Joint Training End-to-End Systems for Speech and Speaker Recognition with Speaker Attributes,

    S. Li, X. Lu, R. Dabre, P. Shen and H. Kawai,

    Acoustical Society of Japan, spring  2020年 

     詳細を見る

    会議種別:口頭発表(一般)  

    researchmap

  • Improvement of x-vector for short utterance spoken language identification,

    P. Shen, X. Lu, K. Sugiura, S. Li, H. Kawai,

    Acoustical Society of Japan, spring  2020年 

     詳細を見る

    会議種別:口頭発表(一般)  

    researchmap

  • Investigation of multi-domain training for speech recognition,

    P. Shen, X. Lu, S. Li, H. Kawai

    Acoustical Society of Japan, spring  2019年3月 

     詳細を見る

  • Voice-Indistinguishability: Protecting Voiceprint in Privacy-Preserving Speech Data Release 招待

    Y. Han, S. Li, Y. Cao, Q. Ma, M. Yoshikawa

    INTERSPEECH 2020 Satellite Workshop (SLIMTS2020) (invited report)  2020年10月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(招待・特別)  

    researchmap

  • A Mixture of Character and Word End-to-End System for Keyword Spotting 招待

    H. Zhang, S. Ueno, M. Mimura, S. Li, W. Zhang, T. Kawahara

    INTERSPEECH 2020 Satellite Workshop (SLIMTS2020)(full paper)  2020年9月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(招待・特別)  

    researchmap

  • Investigation of Effectively Synthesizing Code-switched Speech Using Highly Imbalanced Mix-lingual Data and mask embedding,

    S. Guo, L. Wang, S. Li, J. Zhang, C. Gong, Y. Wang, J. Dang, K. Honda

    INTERSPEECH 2020 Satellite Workshop (SLIMTS2020).  2020年9月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • Multi-lingual transformer training for Khmer automatic speech recognition, 招待

    K. Soky, S. Li, T. Kawahara, S. Seng

    INTERSPEECH 2020 Satellite Workshop (SLIMTS2020).  2020年9月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(招待・特別)  

    researchmap

  • System Description for Voice Privacy Challenge (Kyoto Team).

    Y. Han, S. Li, Y. Cao, M. Yoshikawa

    In special session of INTERSPEECH2020 (VoicePrivacy challenge 2020)  2020年9月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • Description of End-to-End Dialect Identification System (accepted in INTERSPEECH2021)

    Ding Wang, Shuaishuai Ye, Xinhui Hu, Sheng Li, Xinkang Xu

    In special session of INTERSPEECH2021 (OLR2020 challenge)  2021年9月 

     詳細を見る

    記述言語:英語   会議種別:ポスター発表  

    researchmap

  • Adversarial Attack and Defense on Deep Neural Network-based Voice Processing Systems: An Overview

    Xiaojiao Chen, Sheng Li, Hao Huang

    NCMMSC2021  2021年10月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • System description of Alzheimer's disease early detection (Silk-road team, short speech track)

    Wenqing Wei, Rui Wong, Sheng Li, Yachao Guo, Hao Huang

    Alzheimer's disease detection challenge (NCMMSC2021)  2021年10月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • System description of joint speech and accent recognition (published in APSIPA ASC, 2021)

    Y. Peng, J. Zhang, H. Zhang, H. Xu, H. Huang, S. Li, E.S. Chng

    in Challenge of Interspeech2020 Accented English Speech Recognition, AESR, 2020.  2021年12月 

     詳細を見る

    記述言語:英語   会議種別:ポスター発表  

    researchmap

  • End-to-End Speech Translation with Cross-lingual Transfer Learning

    S Shimizu, C Chu, S Li, S Kurohashi

    NLP2021  2021年 

     詳細を見る

  • Comparison of End-to-End Models for Joint Speaker and Speech Recognition

    K Soky, S Li, M Mimura, C Chu, T Kawahara

    IEICE-SP  2021年 

     詳細を見る

  • The RoyalFlush(NICT) System Description for AP21-OLR Challenge 招待

    Ding Wang, Shuaishuai Ye, Xinhui Hu, Sheng Li

    AP21-OLR Challenge  2022年1月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(招待・特別)  

    researchmap

  • Multilingual Retrieval-Augmented Generation Enhanced LLM-based Speech Recognition

    王 鵬程, 李 勝, 篠崎 隆宏

    日本音響学会第155回(2026年春季)研究発表会  2026年3月 

     詳細を見る

    会議種別:口頭発表(一般)  

    researchmap

  • 指示再構成手法に基づく言語モデルベース音声合成のスタイル制御

    Zhu Shiao, Li Sheng, 篠崎 隆宏

    日本音響学会第155回(2026年春季)研究発表会  2026年3月 

     詳細を見る

    会議種別:口頭発表(一般)  

    researchmap

  • 音声認識および音声翻訳における生成的誤り訂正のための多言語ベンチマーク

    Zhengdong Yang, Zhen Wan, Sheng Li, Chao-Han Huck Yang, Chenhui Chu

    言語処理学会 第32回年次大会  2026年3月 

     詳細を見る

▼全件表示

産業財産権

  • 学習方法

    李勝, ルーシュガン, 高島遼一, 沈鵬, 河井恒

     詳細を見る

    出願人:国立研究開発法人情報通信研究機構

    出願番号:特願2017-236626  出願日:2017年12月

    公開番号:特開2019-105899  公開日:2019年6月

    特許番号/登録番号:特許6979203  登録日:2021年11月 

    権利者:国立研究開発法人情報通信研究機構

    researchmap

  • 推論器および推論器の学習方法

    李勝, ルーシュガン, 河井恒

     詳細を見る

    出願番号:特願2020-059962 

    特許番号/登録番号:特許7423056  登録日:2024年1月 

    researchmap

  • 時系列情報の学習システム、方法および ニューラルネットワークモデル

    高島 遼一, 李 勝, 河井 恒

     詳細を見る

    出願番号:特願2018-044134 

    特許番号/登録番号:特許7070894  登録日:2022年5月 

    権利者:国立研究開発法人情報通信研究機構

    researchmap

  • 音声認識システム、音声認識方法、学習済モデル

    李勝, シュガンルー・, 高島遼一, 沈鵬, 河井恒

     詳細を見る

    出願番号:特願2018-044491 

    特許番号/登録番号:特許7109771  登録日:2022年7月 

    権利者:国立研究開発法人情報通信研究機構

    researchmap

  • 識別器、学習済モデル、学習方法

    李勝, ルーシュガン, 高島遼一, 沈鵬, 河井恒

     詳細を見る

    出願番号:特願2018-142418 

    特許番号/登録番号:特許7209330  登録日:2023年1月 

    権利者:国立研究開発法人情報通信研究機構

    researchmap

  • 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム

    沈鵬, ルーシュガン, 李勝, 河井恒

     詳細を見る

    出願番号:特願2019-086005 

    特許番号/登録番号:特許7282363  登録日:2023年5月 

    researchmap

  • 推論器、推論プログラムおよび学習方法

    李 勝, ルー・シュガン, 丁 塵辰, 河原 達也, 河井 恒

     詳細を見る

    出願番号:特願2019-163555 

    特許番号/登録番号:特許7385900  登録日:2023年11月 

    researchmap

▼全件表示

Works(作品等)

  • HSoftmax: Hierachical Softmax (https://github.com/Derek-Gong/hsoftmax/)

    Zhuo Gong, Qianying Liu, Sheng Li, Zhengdong Yang, Yuhang Yang

    2020年

     詳細を見る

    作品分類:ソフトウェア  

    researchmap

  • https://openslr.org/158/

     詳細を見る

  • very deep residual time-delay neural network (TDNN) with LFMMI objective implemented with MS-CNTK

     詳細を見る

  • Julius decoder with EESEN CTC acoustic model

     詳細を見る

  • Julius decoder with Kaldi acoustic model

     詳細を見る

  • Julius decoder with Kaldi feature extractor

     詳細を見る

  • VTLN for Julius/HTK acoustic model

     詳細を見る

  • Julius for speech foundation models

    https, github.com/halspeech/julius-speech-foundation-model

     詳細を見る

  • foundation models for Tibetan language

     詳細を見る

  • online speech recognition module for Erica the human robot

     詳細を見る

▼全件表示

受賞

  • 2025年度助成

    2026年3月   電気通信普及財団  

     詳細を見る

  • 工学院共通経費による顕彰及び研究助成

    2025年11月   東京科学大学  

     詳細を見る

  • Next Generation Star

    2025年10月   IEEE IROS2025   https://youtu.be/pP6YtlSVqlM

     詳細を見る

  • IES SYPA Award

    2025年10月   IEEE IROS2025  

    Sheng Li

     詳細を見る

  • best reviewer

    2025年8月   IEEE RO-MAN2025  

    Sheng Li

     詳細を見る

  • task1: speech recognition error correction using LLM

    2024年12月   SLT2024 grand challenge LLM GER  

     詳細を見る

  • top2 in one track

    2023年12月   ICASSP2024 ICMC-ASR (In-Car Multi-Channel Automatic Speech Recognition) Challenge  

     詳細を見る

  • 1st place in one track in ASRU2023 special session: VoiceMOS challenge

    2023年12月  

     詳細を見る

  • IEEE-SPS grant for IEEE-ICASSP2023 oral presentation (Co-supervised PhD student Qianying Liu)

    2023年5月   IEEE signal processing society  

     詳細を見る

  • 1st place in 6 indexes (total 16) of Main/OOD tracks in INTERSPEECH2022 special session: VoiceMOS challenge

    2022年  

     詳細を見る

  • 3rd/4th place in constrained/unconstrained resource multilingual ASR tracks of OLR2021 challenge

    2021年12月   Oriental language recognition challenge 2021  

     詳細を見る

  • Supervised student (Soky Kak) got best student paper nomination

    2021年11月   O-COCOSDA2021  

     詳細を見る

  • 成績優秀表彰優秀賞(団体)

    2021年6月   国立研究開発法人情報通信研究機構 (NICT)  

     詳細を見る

  • Travel Grant

    2020年9月   ISCA   Singing Voice Extraction with Attention based Spectrograms Fusion

    Supervised student Hao Shi

     詳細を見る

  • Travel Grant

    2020年9月   ISCA   Staged Knowledge Distillation for End-to-End Dysarthric Speech Recognition and Speech Attribute Transcription

    supervised student Yuqin Lin

     詳細を見る

  • ICME 2020 best student paper nomination, selected as journal paper in IEEE Trans Multimedia (TMM)

    2020年7月  

     詳細を見る

  • 2020年度 国際展開ファンド (新しい提案得点 top1)

    2020年5月   国立研究開発法人情報通信研究機構 (NICT)  

     詳細を見る

  • テニュアトラック研究者として助成金を獲得 (2019年度はわずか3名)

    2019年   情報通信研究機構  

     詳細を見る

  • 第34回 テレコムシステム技術学生賞

    2018年   電気通信普及財団  

    李 勝

     詳細を見る

  • 2012-2016 入学料・授業料の全部免除

    2016年3月   京都大学  

     詳細を見る

  • Paper nominated as ACM/IEEE Trans. Audio, Speech \& Language Process. cover

    2016年  

    李 勝

     詳細を見る

  • ポートランド,Interspeech会議へIBM 旅行補助賞金

    2012年   IBM Research  

    李 勝

     詳細を見る

  • 京都大学推薦国費留学生特別配置入学

    2012年   日本文部科学省  

    李 勝

     詳細を見る

  • 職員優秀賞

    2011年   中国科学院  

    李 勝

     詳細を見る

  • 香港青年起業家プログラムの創造的な企画賞

    2011年  

    李 勝

     詳細を見る

  • 勵志奨学金

    2004年   南京大学  

    李 勝

     詳細を見る

  • 香港陳蔭川財団大学新入生優秀者奨学金

    2002年  

    李 勝

     詳細を見る

  • 化学オリンピック二等賞,生物学オリンピック三等賞

    2002年   中国江蘇省  

    李 勝

     詳細を見る

▼全件表示

共同研究・競争的資金等の研究課題

  • 大規模言語モデル強化

    2024年4月

    東北大学―NICTマッチング研究 

      詳細を見る

    担当区分:研究代表者 

    researchmap

  • 意図を的確に伝える音声対話翻訳の基盤技術の創出

    2023年4月 - 2028年4月

    日本学術振興会(JSPS)  科学研究費助成事業(KAKEN)  基盤研究(B)

      詳細を見る

    担当区分:研究分担者 

    researchmap

  • M3OLR: Towards Effective Multilingual, Multimodal and Multitask Oriental Low-resourced Language Speech Recognition

    2023年4月 - 2026年4月

    日本学術振興会(JSPS)  科学研究費助成事業(KAKEN)  Grant-in-Aid for Scientific Research (C)

      詳細を見る

    担当区分:研究代表者 

    researchmap

  • 自動話者認識における「なりすまし」の探知

    2023年4月 - 2024年4月

    ICT Virtual Organization of ASEAN Institutes and NICT (ASEAN IVO) 

      詳細を見る

    担当区分:研究分担者 

    researchmap

  • Bridging Eurasia from Sea -- Multilingual Speech Recognition for Maritime Silkroad

    2022年 - 2024年

    NICT international funding 

      詳細を見る

    担当区分:研究代表者 

    researchmap

  • Phantom in the Opera -- the Vulnerabilities of Speech Interface for Robotic Dialogue System

    2021年4月 - 2023年4月

    日本学術振興会(JSPS)  科学研究費助成事業(KAKEN)  若手研究

    李 勝

      詳細を見る

    担当区分:研究代表者 

    researchmap

  • Advanced Multilingual End-to-End Speech Recognition

    2020年4月 - 2022年4月

    国立研究開発法人情報通信研究機構 (NICT)  NICT tenure-track start-up funding 

    李 勝

      詳細を見る

    担当区分:研究代表者 

    researchmap

  • Bridging Eurasia -- Multilingual Speech Recognition for Silkroad

    2020年4月 - 2022年4月

    国立研究開発法人情報通信研究機構 (NICT)  NICT international funding 

    李 勝

      詳細を見る

    担当区分:研究代表者 

    researchmap

  • Speaker De-identification with Provable Privacy in Speech Data Release

    2020年4月 - 2021年4月

    NII  Open Collaborative Research 

      詳細を見る

    担当区分:連携研究者 

    researchmap

  • Next generation multilingual End-to-End speech recognition (from G30 to G200)

    2019年10月 - 2021年3月

    独立行政法人 日本学術振興会  科学研究費助成事業(KAKEN)  研究活動スタート支援

    李 勝

      詳細を見る

    担当区分:研究代表者  資金種別:競争的資金

    researchmap

▼全件表示

その他

  • 論文誌査読

     詳細を見る

    [1] IEEE/ACM Trans. Audio, Speech \& Language Process.
    [2] Computer Speech and Language
    [3] Speech Communication
    [4] IEICE transactions, letters
    [5] APSIPA transactions
    [6] Applied Acoustics
    [7] Transactions on Asian and Low-Resource Language Information Processing (TALLIP)
    [8] Digital Signal Processing
    [9] behavior information and technology
    [10] EURASIP Journal on Audio, Speech, and Music Processing

    researchmap

  • 国際会議査読

     詳細を見る

    [1] ICASSP-2021/2022/2023/2024/2025/2026 (meta reviewer), INTERSPEECH-2015/2018/2019/2020/2021/2022/2023/2024/2025, SLT-2022/2024, ASRU-2023/2025
    [2] APSIPA-2019/2020/2021/2022/2023/2024/2025, IJCNN-2023/2024/2026, ICONIP2023
    [3] BC_VCC-2020 (Blizzard Challenge and Voice Conversion Challenge 2020)
    [4] ACL-2017/2018/2020/2021/2022/2023/2024/2025/2026, EACL-2020/2022/2026(loresmt), NAACL-HLT-2016/2018/2019/2021
    [5] IJCNLP-2017, EMNLP-IJCNLP-2019, EMNLP-2020/2021/2022, AACL-IJCNLP-2020/2022/2023/2025, COLING-2018/2022, SIGDIAL-2024
    [6] NLP-2022/2023/2024, IALP-2023/2024
    [7] AAAI-2019, ICLR-2021/2024, NeurIPS-2022/2023, ICML-2023/2024
    [8] IROS-2019/2025, Ubiquitous Robots (UR)-2020, IEEE-ROMAN 2023/2025
    [9] ICME-2020/2021/2022/2023(main+workshop)/2024, ACM Multimedia 2021/2022/2023, ACM Multimedia Asia 2023, MMM 2023
    [10] PAKDD-2023, DASFAA-2024, ACM ICMR 2024

    researchmap