2025/10/02 更新

写真a

コバヤシ リョウヘイ
小林 諒平
KOBAYASHI RYOHEI
所属
総合研究院 スーパーコンピューティング研究センター 准教授
職名
准教授
プロフィール

2011年上智大学理工学部電気電子工学科卒業.2016年東京工業大学大学院情報理工学研究科博士課程修了.博士(工学).同年筑波大学計算科学研究センター助教.2024年東京科学大学総合研究院スーパーコンピューティング研究センター准教授,現在に至る.併任として,2021年7月より理化学研究所 計算科学研究センター(R-CCS)プロセッサ研究チームの客員研究員を務める.高性能計算のため FPGA の利活用技術や GPU コンピューティングについての研究に従事.自身の研究室として AC2(Advanced Computing ACceleration)Laboratory を主宰し,アクセラレータ起点の大規模並列計算の研究開発を推進している.HPC in Asia Poster Award(ISC 2018)や IEICE コンピュータシステム研究会 優秀若手講演賞(2015)を受賞.学会活動としては,HPC Asia 2026 Proceedings Chair,IEEE Cluster 2025 Publicity Co-Chair 等の委員を務める.情報処理学会,電子情報通信学会,ACM,IEEE各会員.

外部リンク

学位

  • 博士(工学) ( 2016年3月   東京工業大学 )

  • 修士(工学) ( 2013年3月   東京工業大学 )

研究キーワード

  • 演算加速器

  • FPGA

  • GPU

  • 並列アプリケーションの高速化

  • リコンフィギャラブルコンピューティングシステム

研究分野

  • 情報通信 / 高性能計算

  • 情報通信 / 計算機システム

学歴

  • 東京工業大学   大学院情報理工学研究科   計算工学専攻 博士課程

    2013年4月 - 2016年3月

      詳細を見る

    国名: 日本国

    researchmap

  • 東京工業大学   大学院情報理工学研究科   計算工学専攻 修士課程

    2011年4月 - 2013年3月

      詳細を見る

    国名: 日本国

    researchmap

  • 上智大学   理工学部   電気電子工学科

    2007年4月 - 2011年3月

      詳細を見る

    国名: 日本国

    researchmap

経歴

  • 東京科学大学   総合研究院 スーパーコンピューティング研究センター   准教授

    2024年10月 - 現在

      詳細を見る

  • 理化学研究所 計算科学研究センター   プロセッサ研究チーム   客員研究員

    2021年7月 - 現在

      詳細を見る

  • 筑波大学   計算科学研究センター   助教

    2016年4月 - 2024年9月

      詳細を見る

    国名:日本国

    researchmap

所属学協会

  • Institute of Electrical and Electronics Engineers

    2020年5月 - 現在

      詳細を見る

  • Association for Computing Machinery

    2017年11月 - 現在

      詳細を見る

  • 電子情報通信学会

    2014年4月 - 現在

      詳細を見る

  • 情報処理学会

    2011年4月 - 現在

      詳細を見る

委員歴

  • SC25   Program Committee Member  

    2025年3月 - 2025年11月   

      詳細を見る

    団体区分:学協会

    researchmap

  • xSIG 2025   Program Committee Member  

    2025年3月 - 2025年8月   

      詳細を見る

    団体区分:学協会

    researchmap

  • FPL 2025 (35th International Conference on Field Programmable Logic & Applications)   Program Committee Member  

    2025年2月 - 2025年9月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Euro-PAR 2025: 31st International European Conference on Parallel and Distributed Computing   Program Committee Member  

    2025年2月 - 2025年8月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 32nd Reconfigurable Architectures Workshop (RAW 2025)   Program Committee Member  

    2024年11月 - 2025年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • CCGRID2025: The 25th IEEE International Symposium on Cluster, Cloud, and Internet Computing   Program Committee Member  

    2024年10月 - 2025年5月   

      詳細を見る

    団体区分:学協会

    researchmap

  • COOL Chips 28   Program Committee Vice Chair  

    2024年9月 - 2025年4月   

      詳細を見る

    団体区分:学協会

    researchmap

  • SCA/HPCAsia 2026   Proceedings Chair  

    2024年8月 - 2026年1月   

      詳細を見る

    団体区分:学協会

    researchmap

  • IEEE Cluster 2025   Publicity Co-Chair  

    2024年8月 - 2025年9月   

      詳細を見る

    団体区分:学協会

    researchmap

  • SupercomputingAsia 2025   Program Committee Member  

    2024年8月 - 2025年3月   

      詳細を見る

  • International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies (HEART 2025)   Program Committee Member  

    2024年7月 - 2025年5月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 『Special Section on Low-Power and High-Speed Chips and Systems』小特集編集委員会   編集幹事  

    2024年5月 - 2026年6月   

      詳細を見る

  • 情報処理学会   ハイパフォーマンスコンピューティング研究運営委員会 幹事  

    2024年4月 - 2028年5月   

      詳細を見る

  • 革新的ハイパフォーマンス・コンピューティング・インフラ (HPCI)   学際共同研究WG委員  

    2024年4月 - 2026年3月   

      詳細を見る

    団体区分:学協会

    researchmap

  • FPL 2024 (34th International Conference on Field Programmable Logic & Applications)   Program Committee Member  

    2024年4月 - 2024年9月   

      詳細を見る

  • ICPP2024   Program Committee Member  

    2024年4月 - 2024年8月   

      詳細を見る

  • xSIG 2024   Program Committee Member  

    2024年4月 - 2024年8月   

      詳細を見る

  • Euro-PAR 2024: 30th International European Conference on Parallel and Distributed Computing   Program Committee Member  

    2024年3月 - 2024年8月   

      詳細を見る

  • 学際大規模情報基盤共同利用・共同研究拠点 (JHPCN)   共同研究課題審査委員会委員  

    2024年1月 - 2025年12月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 2nd Workshop on FPGA Technologies for Adaptive Computing (FTAC 2024)   Program Committee Member  

    2024年1月 - 2024年6月   

      詳細を見る

  • 『Special Section on Forefront Computing』小特集編集委員会   編集幹事  

    2023年11月 - 2026年1月   

      詳細を見る

    任 期: 2023年11月15日 ~2025年1月1日(特集号発行まで)

    researchmap

  • International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies (HEART 2024)   Program Committee Member  

    2023年11月 - 2024年6月   

      詳細を見る

  • ICS 2024: International Conference on Supercomputing 2024   Web Liaison  

    2023年7月 - 2024年6月   

      詳細を見る

  • COOL Chips 27   Program Committee Vice Chair  

    2023年7月 - 2024年4月   

      詳細を見る

  • 電子情報通信学会   ISSソサイエティ誌編集幹事  

    2023年6月 - 2025年6月   

      詳細を見る

  • 電子情報通信学会   コンピュータシステム研究専門委員会 幹事  

    2023年6月 - 2025年6月   

      詳細を見る

  • IEEE Cluster 2024   Digital Chair  

    2023年6月 - 2024年9月   

      詳細を見る

  • IEEE RTCSA/NVMSA2023   Poster Chair  

    2023年6月 - 2023年9月   

      詳細を見る

  • アダプティブコンピューティング研究推進体 (ACRi)   広報イベントWG 副グループ長  

    2023年4月 - 2026年3月   

      詳細を見る

  • FPT’23   Program Committee Member  

    2023年4月 - 2023年12月   

      詳細を見る

  • CANDAR2023 CSA   Program Committee Member  

    2023年4月 - 2023年11月   

      詳細を見る

  • CANDAR2023   Program Committee Member  

    2023年4月 - 2023年11月   

      詳細を見る

  • Open Accelerated Computing Summit 2023   Review Committee Member  

    2023年4月 - 2023年10月   

      詳細を見る

  • 『Low-Power and High-Speed Chips』小特集編集委員会   編集幹事  

    2023年3月 - 2024年6月   

      詳細を見る

  • xSIG 2023   Program Committee Member  

    2023年1月 - 2023年8月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Summer United Workshops on Parallel, Distributed and Cooperative Processing (SWoPP)   実行委員  

    2022年12月 - 2026年12月   

      詳細を見る

  • FPL 2023 (33rd International Conference on Field Programmable Logic & Applications)   Program Committee Member  

    2022年12月 - 2023年9月   

      詳細を見る

  • Summer United Workshops on Parallel, Distributed and Cooperative Processing (SWoPP)   組織委員 (オブザーバ)  

    2022年11月 - 2023年12月   

      詳細を見る

  • International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies (HEART 2023)   Program Committee Member  

    2022年11月 - 2023年6月   

      詳細を見る

  • COOL Chips 26   Program Committee Vice Chair  

    2022年9月 - 2023年4月   

      詳細を見る

  • HPC Asia 2023   Proceedings Chair  

    2022年5月 - 2023年3月   

      詳細を見る

    団体区分:学協会

    researchmap

  • FPT’23   Publication Chair  

    2022年4月 - 2023年12月   

      詳細を見る

  • CANDAR2022   Program Committee Member  

    2022年4月 - 2022年11月   

      詳細を見る

  • CANDAR2022 CSA   Program Committee Member  

    2022年3月 - 2022年11月   

      詳細を見る

  • FPL 2022 (32nd International Conference on Field Programmable Logic & Applications)   Publicity Co-chair  

    2022年2月 - 2022年9月   

      詳細を見る

    団体区分:学協会

    researchmap

  • xSIG 2022   Program Committee Member  

    2022年2月 - 2022年7月   

      詳細を見る

    団体区分:学協会

    researchmap

  • FPL 2022 (32nd International Conference on Field Programmable Logic & Applications)   Program Committee Member  

    2022年1月 - 2022年9月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 『Special Section on Forefront Computing』小特集編集委員会   編集委員  

    2021年11月 - 2023年12月   

      詳細を見る

  • International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies (HEART 2022)   Publication Chair  

    2021年8月 - 2022年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Summer United Workshops on Parallel, Distributed and Cooperative Processing (SWoPP)   組織委員長  

    2021年7月 - 2022年10月   

      詳細を見る

    団体区分:学協会

    researchmap

  • COOL Chips 25   Program Committee Vice Chair  

    2021年7月 - 2022年4月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 電子情報通信学会   英文論文誌編集委員  

    2021年6月 - 2025年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 電子情報通信学会   ISSソサイエティ誌編集委員  

    2021年6月 - 2025年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 電子情報通信学会   コンピュータシステム研究専門委員会 幹事補佐  

    2021年6月 - 2023年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • FPGA for HPC Workshop 2021 (HPC FPGA 2021)   Program Committee Member  

    2021年6月 - 2021年9月   

      詳細を見る

    団体区分:学協会

    researchmap

  • FPGA for HPC Workshop 2021 (HPC FPGA 2021)   Organizing Deputy Co-Chairs  

    2021年6月 - 2021年9月   

      詳細を見る

    団体区分:学協会

    researchmap

  • International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies (HEART 2021)   Publication Chair  

    2021年5月 - 2021年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 情報処理学会   ハイパフォーマンスコンピューティング研究運営委員会 運営委員  

    2021年4月 - 2024年3月   

      詳細を見る

  • CANDAR 2021   Program Committee Member  

    2021年4月 - 2021年11月   

      詳細を見る

    団体区分:学協会

    researchmap

  • CANDAR2021 CSA   Program Committee Member  

    2021年4月 - 2021年11月   

      詳細を見る

    団体区分:学協会

    researchmap

  • FPGA Technologies for Adaptive Computing (IEEE MCSoC 2021 Special Session)   Program Committee Member  

    2021年1月 - 2021年12月   

      詳細を見る

  • HPC Asia 2022   Digital Chair  

    2020年12月 - 2022年1月   

      詳細を見る

    団体区分:学協会

    researchmap

  • xSIG 2021   Program Committee Member  

    2020年12月 - 2021年7月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Summer United Workshops on Parallel, Distributed and Cooperative Processing (SWoPP)   組織副委員長  

    2020年8月 - 2021年7月   

      詳細を見る

    団体区分:学協会

    researchmap

  • COOL Chips 24   Program Committee Member  

    2020年8月 - 2021年4月   

      詳細を見る

    団体区分:学協会

    researchmap

  • CANDAR 2020   Program Committee Member  

    2020年4月 - 2020年11月   

      詳細を見る

    団体区分:学協会

    researchmap

  • CANDAR2020 CSA   Program Committee Member  

    2020年3月 - 2020年11月   

      詳細を見る

    団体区分:学協会

    researchmap

  • IEEE Cluster 2020   Registration Chair  

    2020年2月 - 2020年9月   

      詳細を見る

    団体区分:学協会

    researchmap

  • xSIG 2020   Program Committee Member  

    2020年1月 - 2020年7月   

      詳細を見る

    団体区分:学協会

    researchmap

  • SC20   Program Committee Member  

    2019年10月 - 2020年11月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Summer United Workshops on Parallel, Distributed and Cooperative Processing (SWoPP)   組織委員(懇親会担当)  

    2019年7月 - 2020年7月   

      詳細を見る

    団体区分:学協会

    researchmap

  • COOL Chips 23   Program Committee Member  

    2019年7月 - 2020年4月   

      詳細を見る

    団体区分:学協会

    researchmap

  • FPT'19   Program Committee Member  

    2019年5月 - 2019年12月   

      詳細を見る

    団体区分:学協会

    researchmap

  • CANDAR2019 CSA   Program Committee Member  

    2019年4月 - 2019年11月   

      詳細を見る

    団体区分:学協会

    researchmap

  • xSIG 2019   Program Committee Member  

    2019年1月 - 2019年5月   

      詳細を見る

    団体区分:学協会

    researchmap

  • COOL Chips 22   Program Committee Member  

    2018年12月 - 2019年4月   

      詳細を見る

    団体区分:学協会

    researchmap

  • ICPP2019   Publicity Chair  

    2018年6月 - 2019年8月   

      詳細を見る

    団体区分:学協会

    researchmap

  • FPT'18   Program Committee Member  

    2018年6月 - 2018年12月   

      詳細を見る

    団体区分:学協会

    researchmap

  • CANDAR2018 CSA   Program Committee Member  

    2018年4月 - 2018年11月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Summer United Workshops on Parallel, Distributed and Cooperative Processing (SWoPP)   実行委員  

    2018年1月 - 2021年7月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 電子情報通信学会   リコンフィギャラブルシステム研究専門委員会 専門委員  

    2017年6月 - 2029年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 電子情報通信学会   コンピュータシステム研究専門委員会 専門委員  

    2017年6月 - 2022年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • International Symposium on Computing and Networking (CANDAR2017)   Program Committee Member  

    2017年4月 - 2017年11月   

      詳細を見る

    団体区分:学協会

    researchmap

▼全件表示

論文

  • CXLメモリプール実験システムの初期評価

    遠藤 敏夫, 坂本 龍一, 野村 哲弘, 小林 諒平, 大辻 弘貴, 加藤 純, 古藤 明音, 三輪 真弘

    研究報告ハイパフォーマンスコンピューティング(HPC)   2025-HPC-200 ( 24 )   1 - 7   2025年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)   出版者・発行元:情報処理学会  

    HPC・クラウドシステムでは,ノードごとに大容量メモリを固定割り当てするため,導入コストや消費電力の増大が深刻な課題となっている.その解決策の一つとして,Compute Express Link (CXL) 2.0規格に基づくメモリプールシステムが注目されており,それによって複数ノード間でメモリ資源を効率的に共有・柔軟に割り当てるアプローチが可能になる.本研究では,H3社製Falcon C5022モジュールを用いて1TiBのCXLメモリプールを構築し,Intel Granite Rapids CPU搭載サーバ上で実機性能評価を実施した.具体的には,Intel Memory Latency Checker v3.11によるメモリアクセスレイテンシ測定とSTREAMベンチマークによるバンド幅評価を行い,その結果をもとにCXLメモリプール技術の性能特性を定量的に明らかにした.最後に,得られた知見を踏まえ,CXLメモリプールの最適設計や運用に向けた実用的な指針について議論する.

    researchmap

  • Accelerating Deep Learning Inference with a Parallel FPGA System 査読

    Takumi Suzuki, Ryohei Kobayashi, Norihisa Fujita, Taisuke Boku

    Proceedings of the 15th International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies   49 - 56   2025年5月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ACM  

    Deep learning has experienced rapid growth in applications such as image recognition and natural language processing, resulting in increasingly complex models that require more processing power and energy. While GPUs are widely used for training due to their highly parallel computing power and wide memory bandwidth, FPGAs offer a compelling alternative for inference tasks where stable, low-latency performance is essential. FPGAs allow for fine-grained hardware tuning and dedicated pipeline implementations, which can be leveraged to build multi-FPGA systems that seamlessly fuse computation and communication for Convolutional Neural Network (CNN) acceleration. However, existing multi-FPGA approaches typically require advanced hardware knowledge and are often implemented as dedicated systems, creating significant barriers for general-purpose application developers accustomed to high-level programming environments such as MPI with the host CPU. In this study, we propose a multi-FPGA-based deep learning inference accelerator that operates at the OpenCL abstraction level, enabling software engineers without extensive hardware expertise to partition and deploy CNN models, such as ResNet-50, across multiple FPGAs. Our approach combines both model and data parallelism to achieve high throughput while maintaining controlled latency. Experimental results show that our design increases throughput by a factor of 12 with only a 1.9-fold increase in latency compared to a baseline. This work paves the way for more accessible FPGA-based acceleration solutions for deep learning inference in real-world applications.

    DOI: 10.1145/3728179.3728186

    researchmap

  • イタレーションレベルApproximate Computing手法の提案と予備評価

    和田康孝, 小林諒平, 森江善之, 坂本龍一

    研究報告ハイパフォーマンスコンピューティング(HPC)   2025-HPC-199 ( 6 )   1 - 5   2025年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)   出版者・発行元:情報処理学会  

    演算精度を変更することにより,演算性能・消費電力・演算結果の正確さの間でトレードオフを最適化するApproximate Computing(AC)手法は,消費電力などの制約下において限界を超えた性能を得るために有望な手段の一つである.HPCアプリケーションのように演算精度に対して敏感なアプリケーションにおいてACの効果を得るためには,アプリケーション全体で統一した演算精度を用いるのではなく,アプリケーションの要素ごとに細粒度に演算精度を調整し,きめ細やかに最適化を施す必要がある.本稿では,HPCアプリケーションに特徴的な時間発展ループ等の構造を利用してACを適用するイタレーションレベルAC手法について述べ,その予備的な評価結果について紹介する.

    researchmap

  • Evaluation of Trade-Off Between Compression Ratio and Hardware Cost for Adaptive Bandwidth Compression Hardware Platform 査読 国際共著 国際誌

    Tomohiro Ueno, Kaito Kitazume, Masato Kiyama, Kazutomo Yoshii, Kento Sato, Norihisa Fujita, Ryohei Kobayashi, Taisuke Boku, Kentaro Sano

    2025 IEEE Symposium on Low-Power and High-Speed Chips and Systems (COOL CHIPS)   1 - 6   2025年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    Hardware-based, high-throughput data compression is a promising approach to reduce data movement costs in largescale systems and networks, thereby improving overall performance and power efficiency. However, since a data compression algorithm is only effective if it is suitable for the characteristics of the target data, data compression hardware with a fixed algorithm is unrealistic for use in general-purpose environments. To address this challenge, we have been researching adaptive bandwidth compression (ABC) hardware that flexibly provides an effective algorithm depending on the input data. This paper presents the design and the Chisel-based implementation of the ABC hardware platform for encoding compressed data and generating output blocks, as well as introducing a quantization parameter to reduce the circuit area. Our evaluation shows that the proposed quantization parameter can not only reduce the hardware cost, but also control the trade-off between the effective compression ratio and the hardware cost. In addition, based on the evaluation results, we discuss the design optimization of the ABC hardware platform.

    DOI: 10.1109/coolchips65488.2025.11018561

    researchmap

  • 並列FPGA間通信フレームワークCIRCUSへのフロー制御の実装と評価

    北爪開人, 藤田典久, 小林諒平, 朴泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2025-HPC-198 ( 58 )   1 - 9   2025年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    researchmap

  • 高スループット非同期集団通信の性能モデル化に向けた予備評価

    森江善之, 和田康孝, 小林諒平, 坂本龍一, 南里豪志

    研究報告ハイパフォーマンスコンピューティング(HPC)   2025-HPC-198 ( 49 )   1 - 6   2025年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    researchmap

  • GPU演算加速による一般相対論的輻射磁気流体シミュレーションコードの性能評価

    小林諒平, 高橋博之, 額田彰, 朝比奈雄太, 朴泰祐, 大須賀健

    研究報告ハイパフォーマンスコンピューティング(HPC)   2025-HPC-198 ( 60 )   1 - 8   2025年3月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    researchmap

  • Accelerating General Relativistic Radiation Magnetohydrodynamic Simulations with GPUs 査読

    Ryohei Kobayashi, Hiroyuki R. Takahashi, Akira Nukada, Yuta Asahina, Taisuke Boku, Ken Ohsuga

    Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region   72 - 79   2025年2月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ACM  

    DOI: 10.1145/3712031.3712032

    researchmap

  • CHARM-SYCL & IRIS: A Tool Chain for Performance Portability on Extremely Heterogeneous Systems. 査読 国際共著

    Norihisa Fujita, Beau Johnston, Narasinga Rao Miniskar, Ryohei Kobayashi, Mohammad Alaul, Haque Monil, Keita Teranishi, Seyong Lee, Jeffrey S. Vetter, Taisuke Boku

    2024 IEEE 20th International Conference on e-Science (e-Science)   1 - 10   2024年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/e-Science62913.2024.10678717

    researchmap

    その他リンク: https://dblp.uni-trier.de/rec/conf/eScience/2024

  • 適応型帯域圧縮ハードウェアプラットフォームのChisel実装と評価

    北爪開人, 上野知洋, 吉井一友, 木山真人, 藤田典久, 小林諒平, 佐野健太郎, 朴 泰祐

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   124 ( 188 )   41 - 46   2024年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    researchmap

  • Using SYCLomatic to Migrate CUDA Code to oneAPI Adapting NVIDIA GPU. 査読

    Wentao Liang, Norihisa Fujita, Ryohei Kobayashi, Taisuke Boku

    2024 IEEE International Conference on Cluster Computing Workshops (CLUSTER Workshops)   192 - 193   2024年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/CLUSTERWorkshops61563.2024.00054

    researchmap

    その他リンク: https://dblp.uni-trier.de/rec/conf/cluster/2024w

  • Preliminary Performance Evaluation of Grace-Hopper GH200. 査読

    Toshihiro Hanawa, Kengo Nakajima, Yohei Miki, Takashi Shimokawabe, Kazuya Yamazaki, Shinji Sumimoto, Osamu Tatebe, Taisuke Boku, Daisuke Takahashi, Akira Nukada, Norihisa Fujita, Ryohei Kobayashi, Hiroto Tadano, Akira Naruse

    CLUSTER Workshops   184 - 185   2024年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/CLUSTERWorkshops61563.2024.00050

    researchmap

    その他リンク: https://dblp.uni-trier.de/rec/conf/cluster/2024w

  • Preliminary Evaluation of Kyokko for Inter-FPGA Communication Framework CIRCUS. 査読

    Kaito Kitazume, Norihisa Fujita, Ryohei Kobayashi, Taisuke Boku

    2024 IEEE International Conference on Cluster Computing Workshops (CLUSTER Workshops)   194 - 195   2024年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/CLUSTERWorkshops61563.2024.00055

    researchmap

    その他リンク: https://dblp.uni-trier.de/rec/conf/cluster/2024w

  • Improving Performance on Replica-Exchange Molecular Dynamics Simulations by Optimizing GPU Core Utilization 査読

    Boku, Taisuke, Sugita, Masatake, Kobayashi, Ryohei, Furuya, Shinnosuke, Fujie, Takuya, Ohue, Masahito, Akiyama, Yutaka

    ICPP '24: Proceedings of the 53rd International Conference on Parallel Processing   1082 - 1091   2024年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    While GPUs are the main players of the accelerating devices on high performance computing systems, their performance depends on how to utilize a numerous number of cores in parallel on each device. Typically, a loop structure with a number of iterations is assigned to a device to utilize their cores to map calculations in iterations so that there must be enough count of iterations to fill the thousands of GPU cores in the high-end GPUs.

    In the advanced GPU represented by NVIDIA H100, several techniques, such as Multi-Process Service (MPS) or Multi-Instance GPU (MIG), which divides GPU cores to be mapped to the multiple user processes, are provided to enhance the core utilization even in a case with a small degree of parallelism. We apply MPS to a practical Molecular Dynamics (MD) simulation with AMBER software for improving the efficiency of GPU core utilization to save the computation resources. The critical issue here is to analyze the core utilization and overhead when running multiple processes on a GPU device as well as the multi-GPU and multi-node parallel execution for overall performance improvement.

    In this paper, we introduce a method to apply MPS for AMBER to simulate the membrane permeation process of a drug candidate peptide by a two-dimensional replica-exchange method on an advanced supercomputer with NVIDIA H100. We applied several optimizations on parameter settings with NVIDIA H100 and V100 GPUs investigating their performance behavior. Finally, we found that the GPU core utilization improves up to twice compared with a simple process assignment method to maximize the GPU utilization efficiency.

    DOI: 10.1145/3673038.3673097

    researchmap

  • 多様な環境におけるマルチ・タスク・ミニベンチマークの評価とPerformance Portability 国際共著

    藤田, 典久, Beau, Johnston, 小林, 諒平, Mohammad, Alaul, Haque Monil, Narasinga, Rao Miniskar, Keita, Teranishi, Seyong, Lee, Jeffrey, S. Vetter, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2024-HPC-195 ( 3 )   1 - 10   2024年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    HPC システムの多様性が増してきているため,アプリケーションの可搬性は多様なシステムを利用する上で重要な課題となっている.本稿では,複数の演算加速装置を統一的に扱えるプログラミング環境である CHARM-SYCL をアプリケーションの可搬性を実現するための開発環境として提案する.CHARM-SYCL は単一のコードから複数の演算加速装置に対応するカーネルを生成できるのに加えて,ORNL で開発されている IRIS ライブラリをバックエンドとして利用できる.IRIS は高性能なスケジューラを持ち計算タスクを複数の演算加速装置上で実行でき,CHARM-SYCL と IRIS を組み合わせることで高いアプリケーションの可搬性を実現する.本稿では,モンテカルロ法シミュレーションのベンチマークコードに CHARM-SYCL 開発環境を適用し,提案するシステムによって高いアプリケーションの可搬性が実現できていることを示す.

    researchmap

  • GH200の予備性能評価

    塙, 敏博, 建部, 修見, 中島, 研吾, 朴, 泰祐, 三木, 洋平, 下川辺, 隆史, 山崎, 一哉, 住元, 真司, 高橋, 大介, 額田, 彰, 藤田, 典久, 小林, 諒平, 多田野, 寛人, 田浦, 健次朗, 細川, 颯介, 髙橋, 淳一郎, 成瀬, 彰

    研究報告ハイパフォーマンスコンピューティング(HPC)   2024-HPC-195 ( 4 )   1 - 11   2024年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    最先端共同 HPC 基盤施設 (JCAHPC) では,2025 年 1 月に稼働開始する Miyabi の導入準備を進めている.1,120 ノードの Miyabi-G 計算ノードには,GH200 Grace-Hopper Superchip が搭載され,国内のスパコンとして初めて GH200 が導入される.本稿では,GH200実験 システムを用いて各種の予備性能評価を実施したので,その結果を報告する.

    researchmap

  • GPU・FPGA連携による高性能計算

    小林, 諒平

    DAシンポジウム2024論文集   2024   293 - 293   2024年8月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    スーパーコンピュータに対する要求性能と利用可能な電力容量の制限,昨今の脱炭素化への動向などから,スーパーコンピュータの電力効率の向上は喫緊の課題であり,その解として演算加速装置(アクセラレータ)の利活用が高性能計算分野の主流となりつつある.現在最も多用されているアクセラレータは GPU(Graphics Processing Unit)であるが,これによる効率的な計算には極めて大量かつ均一性の高い空間並列性,均一なメモリアクセス,比較的少ない並列通信データ量など,様々な制約が存在するため,GPU だけではアプリケーションを十分に演算加速し切れない場合がある.そこで,GPU では非効率となる演算を加速させるハードウェアを FPGA(Field Programmable Gate Array)に実装し,GPU と FPGA の双方の計算デバイスを相補的に活用することによってアプリケーション全体の性能を向上させるアプローチをこれまで試みてきた.本講演では,GPU・FPGA 連携のためのデータ転送技術やプログラミングモデル,GPU と FPGA を併用することによる宇宙物理アプリケーションの高速化事例について紹介する.

    researchmap

  • ラベルの出現頻度に着目したFPGAを用いた正規パス問合せの提案

    溝谷, 祐大, 小林, 諒平, 藤田, 典久, 朴, 泰祐, 天笠, 俊之

    第16回データ工学と情報マネジメントに関するフォーラム(DEIM2024)   1 - 8   2024年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    近年,グラフ分析は盛んに行われており,グラフから様々な情報が取得されている.グラフ分析の中でも, ユーザが望むデータを取得するための手法として,正規パス問合せ (RPQ) が存在する.RPQ とはエッジにラベルが貼 られたグラフデータを対象とした問合せであり,指定されたラベルの並びを持つパスがグラフ中に存在するかどうか を探索し,存在する場合そのパスの始点・終点ノードを結果としてユーザに返す処理である.ここで課題となるのが, RPQ 評価の計算時間である.近年,データ分析において対象データの大規模化を受けてから,RPQ の対象となるグラ フも大規模化が予想されており,現実世界に存在するような多種多様かつ大規模なグラフに対しては,実行に多大な 時間を要することが想定される.そのような大規模なデータを処理するために FPGA (Field Programmable Gate Array) などのハードウェアアクセラレータの利用が注目されている.FPGA とは任意の回路をプログラミングによって繰り 返し実装可能なハードウェアチップである.FPGA を用いた RPQ の高速化の既存研究では,FPGA の回路規模をすべ て有効に利用できない場合が存在することや,複数 FPGA への拡張が困難といった課題点が存在する.そこで本研究 では複数カーネルを利用して並列に RPQ 処理を行う手法を提案する.複数カーネルを用いることで,各カーネルが FPGA 内部で独立した回路として実装され並列動作が可能なため,FPGA の回路をより有効に活用できることや,今 後複数 FPGA への手法の拡張が容易になることが利点として挙げられる.提案手法では,複数カーネルを用いた手法 を実装するためにラベルの出現頻度に着目した.出現頻度が低いラベルをレアラベルを定義し,グラフとクエリをレ アラベルを用いて分割することで,複数カーネルを用いた RPQ 処理が可能となる.評価実験では,レアラベルと定義 するラベルの個数,クエリ中に出現するレアラベルの個数が多いときに RPQ 評価に要する時間が短くなることを確認 した.また,一定の条件のもとで比較手法である,三浦らの手法よりも高速に RPQ 評価を行えることも確認した.

    researchmap

  • Using Intel oneAPI for multi-hybrid acceleration programming with GPU and FPGA coupling 査読

    Liang, Wentao, Fujita, Norihisa, Kobayashi, Ryohei, Boku, Taisuke

    Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region Workshops (HPCAsia '24 Workshops)   69 - 76   2024年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    Intel oneAPI is a programming framework that accepts various accelerators such as GPUs, FPGAs, and multi-core CPUs, with a focus on HPC applications. Users can apply their code written in a single language, DPC++, to this heterogeneous programming environment. However, in practice, it is not easy to apply to different accelerators, especially for non-Intel devices such as NVIDIA and AMD GPUs. We have successfully constructed a oneAPI environment set to utilize the single DPC++ programming to handle true multi-hetero acceleration including NVIDIA GPU and Intel FPGA simultaneously. In this paper, we will show how this is done and what kind of applications can be targeted.

    DOI: 10.1145/3636480.3637220

    researchmap

  • Using Intel oneAPI for multi-hybrid acceleration programming with GPU and FPGA coupling

    Liang, Wentao, Fujita, Norihisa, Kobayashi, Ryohei, Boku, Taisuke

    研究報告ハイパフォーマンスコンピューティング(HPC)   2023-HPC-192 ( 16 )   1 - 7   2023年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    Intel oneAPI is a programming framework that accepts various accelerators such as GPUs, FPGAs, and multi-core CPUs, with a focus on HPC applications. Users can apply their code written in a single language, DPC++, to this heterogeneous programming environment. However, in practice, it is not easy to apply to different accelerators, especially for non-Intel devices such as NVIDIA and AMD GPUs. We have successfully constructed a oneAPI environment set to utilize the single DPC++ programming to handle true multi-hetero acceleration including NVIDIA GPU and Intel FPGA simultaneously. In this paper, we will show how this is done and what kind of applications can be targeted.

    researchmap

  • CHARM-SYCL: New Unified Programming Environment for Multiple Accelerator Types 査読 国際共著

    Fujita, Norihisa, Johnston, Beau, Kobayashi, Ryohei, Teranishi, Keita, Lee, Seyong, Boku, Taisuke, Vetter, Jeffrey S

    SC-W '23: Proceedings of the SC '23 Workshops of The International Conference on High Performance Computing, Network, Storage, and Analysis   1651 - 1661   2023年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    Addressing performance portability across diverse accelerator architectures has emerged as a major challenge in the development of application and programming systems for high-performance computing environments. Although recent programming systems that focus on performance portability have significantly improved productivity in an effort to meet this challenge, the problem becomes notably more complex when compute nodes are equipped with multiple accelerator types—each with unique performance attributes, optimal data layout, and binary formats. To navigate the intricacies of multi-accelerator programming, we propose CHARM-SYCL as an extension of our CHARM multi-accelerator execution environment [27]. This environment will combine our SYCL-based performance-portability programming front end with a back end for extremely heterogeneous architectures as implemented with the IRIS runtime from Oak Ridge National Laboratory. Our preliminary evaluation indicates potential productivity boost and reasonable performance compared to vendor-specific programming system and runtimes.

    DOI: 10.1145/3624062.3624244

    researchmap

  • OpenACC単一記述によるGPU+FPGA複合デバイス処理システム 査読 国際共著

    綱島, 隆太, 小林, 諒平, 藤田, 典久, 朴, 泰祐, Lee, Seyong, Vetter, Jeffrey S, 村井, 均, 中尾, 昌広, 辻, 美和子, 佐藤, 三久

    情報処理学会論文誌コンピューティングシステム(ACS)   16 ( 2 )   1 - 15   2023年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    近年の高性能コンピューティング(HPC)では,アクセラレータとしてGPUとともにFPGAにも注目が集まっている.両デバイスの特性が大きく異なることから,我々は両者を融合して利用することで,複合的なシミュレーションに対し,より効率的な演算加速が行えると考えている.しかし,共通した表現によるGPUとFPGAのコード記述をユーザが容易に行える実用的な言語処理系は存在していない.また,現在のGPU市場をほぼカバーしているNVIDIA社製GPUについては,多くのアプリケーションはCUDAやOpenACCなどで記述されているが,コードの一部をFPGAに移植する際にこれらの言語を用いることはできない.FPGAを対象としたOpenACC処理系については一部の研究用コンパイラが存在するだけである.また,それぞれのアクセラレータを独立にプログラムすることができても,それらを結合するプログラミングフレームワークを提供する必要がある.そこで我々は,CAMP(Cooperative Acceleration by Multi-device Programming)というコンセプトの下,OpenACCを用いて,両アクセラレータを統一的にプログラミング可能な言語処理系を開発している.本論文では,宇宙物理分野の実アプリケーションを用いた本システムの評価について述べる.この評価ではGPUのみの手法に比べ,本手法が最大約10倍の高速化を達成した.

    researchmap

  • Performance improvement by enhancing spatial parallelism on FPGA for HPC applications. 査読

    Yuka Sano, Taisuke Boku, Mitsuhisa Sato, Miwako Tsuji, Norihisa Fujita, Ryohei Kobayashi

    2023 IEEE International Conference on Cluster Computing Workshops (CLUSTER Workshops)   58 - 59   2023年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/CLUSTERWorkshops61457.2023.00024

    researchmap

    その他リンク: https://dblp.uni-trier.de/rec/conf/cluster/2023w

  • Castと通信の並列実行のための予備実験

    森江, 善之, 和田, 康孝, 小林, 諒平, 坂本, 龍一

    研究報告ハイパフォーマンスコンピューティング(HPC)   2023-HPC-191 ( 14 )   1 - 6   2023年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    現在,HPC システムで Approximate Computing(AC)を適用することはコンピュータシステムの消費電力や実効性能のトレードオフを行う上で重要である.さらに HPC システムにおけるデータ転送に関してはそのデータ精度がメッセージの総量を決めるため,データ精度を削減する AC のデータ転送への適用の効果は高くなり,特にメッセージサイズが大きい通信が頻発するアプリケーションではより重要となる.この AC をデータ転送へ適用する上で,Cast 処理と通信のオーバラップ実行による性能向上技術の確立が事前に必要となる.これは,Cast 処理と通信のオーバラップを行う方法が確立すれば,データを分割することで Cast 処理と通信を並行実行してパイプライン転送する手法が利用可能となるからである.このデータ転送手法の実現することでさらなる通信性能向上や消費電力削減が可能となる.そこで,本稿では Cast 処理と通信のオーバラップ実行を効果的に行う要件を調査する予備実験を行った.この実験結果から Cast 処理と通信のオーバラップ実行をするには通信プロトコルの選択が影響することが分かった.また,通信プロトコルのうち Rendezvous プロトコルはそのままでは Cast 処理と通信がオーバラップ実行されないことあることが分かった.この状況に対応するためには通信処理を進捗するための通信スレッドを利用するか,メインスレッドにて MPI_Test() などの通信関数を定期的に呼び出すことで通信処理を進捗させることが出来ると分かった.

    researchmap

  • 細粒度なApproximate Computing適用に向けた演算精度変更による影響の評価

    和田, 康孝, 森江, 善之, 小林, 諒平, 坂本, 龍一

    研究報告ハイパフォーマンスコンピューティング(HPC)   2023-HPC-191 ( 13 )   1 - 7   2023年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    本質的に高い演算精度を要求する HPC アプリケーションに対して Approximate Computing 技術を適用し,演算精度と実行性能,および消費電力等の間でトレードオフを最適化するためには,アプリケーション内のタスクやデータそれぞれの特性に応じて,演算精度制御の度合いを最適化する必要がある.本稿では,複数のベンチマークにおいて動的に演算精度を変更した際の実行性能および演算結果への影響を評価し,HPC アプリケーションに対する細粒度な Approximate Computing 技術の適用に向けた検討を行う.

    researchmap

  • OpenACC Unified Programming Environment for Multi-hybrid Acceleration with GPU and FPGA 査読 国際共著

    Boku, Taisuke, Tsunashima, Ryuta, Kobayashi, Ryohei, Fujita, Norihisa, Lee, Seyong, Vetter, Jeffrey S, Murai, Hitoshi, Nakao, Masahiro, Tsuji, Miwako, Sato, Mitsuhisa

    ISC High Performance 2023: High Performance Computing   13999   662 - 674   2023年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer Nature Switzerland  

    Accelerated computing in HPC such as with GPU, plays a central role in HPC nowadays. However, in some complicated applications with partially different performance behavior is hard to solve with a single type of accelerator where GPU is not the perfect solution in these cases. We are developing a framework and transpiler allowing the users to program the codes with a single notation of OpenACC to be compiled for multi-hybrid accelerators, named MHOAT (Multi-Hybrid OpenACC Translator) for HPC applications. MHOAT parses the original code with directives to identify the target accelerating devices, currently supporting NVIDIA GPU and Intel FPGA, dispatching these specific partial codes to background compilers such as NVIDIA HPC SDK for GPU and OpenARC research compiler for FPGA, then assembles binaries for the final object with FPGA bitstream file. In this paper, we present the concept, design, implementation, and performance evaluation of a practical astrophysics simulation code where we successfully enhanced the performance up to 10 times faster than the GPU-only solution.

    DOI: 10.1007/978-3-031-40843-4_49

    researchmap

  • NVIDIA H100 GPUにおけるグラフニューラルネットワークの学習精度と実行性能評価

    小林, 諒平, 藤田, 典久, 朴, 泰祐, 天笠, 俊之

    研究報告ハイパフォーマンスコンピューティング(HPC)   2023-HPC-190 ( 17 )   1 - 8   2023年7月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    今日の情報化社会を支えるグラフ構造データを分析する手法としてグラフニューラルネットワーク (GNN) が深層学習の発展に伴い注目を集めており,近年におけるデータの大規模化や機械学習アプリケーションの多様化から GNN の学習精度の向上および学習時間の短縮を実現する手法の確立が望まれている.本稿では,NVIDIA 社が現在提供する最新型 GPU である NVIDIA H100 GPUを 用いて実施した,代表的なグラフデータおよび GNN 実装間における学習時間と精度の推移評価について報告する.評価実験により,NVIDIA H100 GPU 上で動作させた GNN モデルは,NVIDIA Tesla V100 GPU で動作させた場合と比較し,1.6~1.7 倍高速に学習を実行することが確認された.

    researchmap

  • SYCLに基づく複数の演算加速装置を統一的に扱えるプログラミング手法の提案 国際共著

    藤田, 典久, 小林, 諒平, Beau, Johnston, Narasinga, Rao Miniskar, Seyong, Lee, Keita, Teranishi, Jeffrer, S. Vetter, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2023-HPC-190 ( 1 )   1 - 13   2023年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    異なる特性を持つ複数のアクセラレータを適材適所的に用いることを我々は CHARM (Cooperative Heterogeneous Acceleration with Reconfigurable Multidevices) コンセプトと呼んでいる.CHARM においては,複数種類のアクセラレータを利用するために,アクセラレータ毎に複数の言語を使い分け,さらにそれらを組み合わせて複数種類デバイスを効率的に動作させるプログラミングが求められるが,このようなプログラムを記述するのは容易ではない.本研究では,CHARM プログラミングが抱える問題を解決するために,複数の演算加速装置を統一的に扱える SYCL に基づく処理系 “CHARM-SYCL” の提案を行う.CHARM-SYCL のランタイムは Oak Ridge NationalLaboratory で開発されているタスクランタイムシステムである IRIS をサポートし,IRIS を用いて複数種類デバイスの対応を実現する.本原稿では,CHARM-SYCL の実装の詳細および性能評価について報告する.

    researchmap

  • Pegasusビッグメモリスーパコンピュータの性能評価

    建部, 修見, 平賀, 弘平, 前田, 宗則, 藤田, 典久, 小林, 諒平, 額田, 彰

    研究報告ハイパフォーマンスコンピューティング(HPC)   2023-HPC-190 ( 7 )   1 - 12   2023年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    Pegasus は筑波大学計算科学研究センターに 2022 年 12 月に導入され,2023 年 4 月より本運用を開始したスーパコンピュータである.Intel,NVIDIA の最新 CPU,GPU をいち早く導入し,6.5 PFlops の演算性能をもつ.大容量データの解析,大規模 AI を推進するため,不揮発性メモリを大規模に導入した.各計算ノードでは 2 TiB の大容量メモリが利用可能であり,またその領域は超高速ストレージとしても利用可能である.本研究報告では Pegasus の概要を述べるとともに,性能について報告する.

    researchmap

  • 輻射輸送シミュレーションのためのFPGAとGPUによるスクラッチパッドメモリの効率と有効性の分析

    古川, 和輝, 山口, 佳樹, 横野, 智也, 吉川, 耕司, 藤田, 典久, 小林, 諒平, 安倍, 牧人, 朴, 泰祐, 梅村, 雅之

    IEICE-RECONF2023-6   123 ( 71 )   29 - 34   2023年6月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    宇宙輻射輸送シミュレーションコードに含まれる ART(Authentic Radiation Transfer) スキームは,高計算量かつメモリ律速であり,アクセラレータによる演算加速が期待されている.本研究では、ART スキーム特有のスクラッチパッドメモリ機構を考案し,PRISM (PRefetchable and Instantly accessible Scratchpad Memory) と名付けた.この PRISM を FPGA と GPU それぞれに実装し,オリジナルの実装と比較した結果,シミュレーション空間が小さい場合は FPGA が高速で,最大 1.8 倍,大きい場合は GPU が高速で,最大 5.4 倍の演算高速化が達成された.

    researchmap

  • HPC利用に向けたFPGA間シリアル通信コントローラKyokkoのIntel FPGAへの実装

    北爪, 開人, 藤田, 典久, 小林, 諒平, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2023-HPC-189 ( 4 )   1 - 9   2023年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    高性能計算における演算加速装置として FPGA (Field-Programmable Gate Array) が注目されている.高位合成や高速な光インターフェースを備えた FPGA ボードの登場など FPGA の有用性が高まる一方で,高性能計算における FPGA を用いた並列計算を行うための環境は未だ発展途上である.これらの一環として,筑波大学計算科学研究センターでは複数の FPGA 上で並列計算を行うために,OpenCL を用いた高位合成によって FPGA 間の高速通信を可能とするフレームワーク CIRCUS (Communication Integrated Reconfigurable CompUting System) を開発しているが,現状の CIRCUS にはフロー制御が未実装であるという課題がある.この問題は,通信部で用いている FPGA 間通信プロトコルにフロー制御がないことが原因であるため,本研究では通信部をフロー制御を含むプロトコルに置き換え,この問題を解決する.本稿では CIRCUS の通信部を置き換える通信プロトコルとして,オープンソースな通信プロトコルである Kyokko の性能評価を行う.最大で 1 ポートあたり 100Gbps の通信が可能な Intel Stratix 10 GX H-tlie を搭載した FPGA ボードである Bittware 520N 上に Kyokko を実装し,バンド幅やレイテンシ,フロー制御について評価する.実験の結果,Kyokko は 99.98% を超える高い効率と理論性能に近いバンド幅を示した.また,データの送受信にかかるレイテンシは,チャンネルボンディングしない場合は約 170ns,4 チャンネルボンディングの場合は約 180ns であり,高速であった.フロー制御のレイテンシは,チャンネルボンディングしない場合では約 310ns,4 チャンネルボンディングの場合では約 320ns であり,これらから NFC メッセージを受信した際の処理は極めて高速であることが分かった.

    researchmap

  • Implementation and Performance Evaluation of Memory System Using Addressable Cache for HPC Applications on HBM2 Equipped FPGAs 査読

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke

    Euro-Par 2022: Parallel Processing Workshops   13835   121 - 132   2023年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer Nature Switzerland  

    When we apply field programmable gate arrays (FPGAs) as HPC accelerators, their memory bandwidth presents a significant challenge because it is not comparable to those of other HPC accelerators. In this paper, we propose a memory system for HBM2-equipped FPGAs and HPC applications that uses block RAMs as an addressable cache implemented between HBM2 and an application. This architecture enables data transfer between HBM2 and the cache bulk and allows an application to utilize fast random access on BRAMs. This study demonstrates the implementation and performance evaluation of our new memory system for HPC and HBM2 on an FPGA. Furthermore, we describe the API that can be used to control this system from the host. We implement RISC-V cores in an FPGA as controllers to realize fine-grain data transfer control and to prevent overheads derived from the PCI Express bus. The proposed system is implemented on eight memory channels and achieves 102.7 GB/s of the bandwidth. It overcomes the memory bandwidth of conventional FPGA boards with four channels of DDR4 memory despite using only 8 of 32 channels of the HBM2.

    DOI: 10.1007/978-3-031-31209-0_9

    researchmap

  • Accelerating Radiative Transfer Simulation on NVIDIA GPUs with OpenACC 査読

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    PDCAT 2022: Parallel and Distributed Computing, Applications and Technologies   13798   344 - 358   2023年4月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer Nature Switzerland  

    To accelerate multiphysics applications, making use of not only GPUs but also FPGAs has been emerging. Multiphysics applications are simulations involving multiple physical models and multiple simultaneous physical phenomena. Operations with different performance characteristics appear in the simulation, making the acceleration of simulation speed using only GPUs difficult. Therefore, we aim to improve the overall performance of the application by using FPGAs to accelerate operations with characteristics which cause lower GPU efficiency. However, the application is currently implemented through multilingual programming, where the computation kernel running on the GPU is written in CUDA and the computation kernel running on the FPGA is written in OpenCL. This method imposes a heavy burden on programmers; therefore, we are currently working on a programming environment that enables to use both accelerators in a GPU–FPGA equipped high-performance computing (HPC) cluster system with OpenACC. To this end, we port the entire code only with OpenACC from the CUDA-OpenCL mixture. On this basis, this study quantitatively investigates the performance of the OpenACC GPU implementation compared to the CUDA implementation for ARGOT, a radiative transfer simulation code for fundamental astrophysics which is a multiphysics application. We observe that the OpenACC implementation achieves performance and scalability comparable to the CUDA implementation on the Cygnus supercomputer equipped with NVIDIA V100 GPUs.

    DOI: 10.1007/978-3-031-29927-8_27

    researchmap

  • FPGA間通信フレームワークCIRCUSを利用した複数FPGAによるグラフ幅優先探索の提案

    溝谷, 祐大, 小林, 諒平, 藤田, 典久, 朴, 泰祐, 天笠, 俊之

    第15回データ工学と情報マネジメントに関するフォーラム (DEIM 2023)   2023年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    グラフ構造は,様々なデータをノードとエッジで表したデータ構造のことであり,我々の身の回りの多種多様なデータの関係性を表すのに有用である.グラフの分析は盛んに行われており,グラフから様々な情報が取得されている.グラフの分析アルゴリズムの中でも,幅優先探索は最も広く使われているアルゴリズムである.幅優先探索とはグラフ探索アルゴリズムの一種であり,デジタル回路のテスト・検証,道路ネットワークの解析など,幅広い分野で応用されている.しかし,近年グラフの大規模化によって,幅優先探索に多大な計算コストが必要となることが多い.また,不規則なメモリアクセスが多くなるためメモリ帯域を有効に利用できないといった問題がある.ここで我々は FPGA に着目した.FPGA とは,任意の回路をプログラミングによって繰り返し実装可能なハードウェアチップである.その性能上の特徴は各回路の並列性を利用した並列度の高い処理が可能なことである.また,FPGAでは外部通信用光リンクを利用できる.この外部通信用光リンクは FPGA 上の回路と直接接続されているため超低レイテンシで他の FPGA と通信することが可能となる.この特徴を活用する技術として FPGA 間通信フレームワーク,CIRCUS がある.本研究では,CIRCUS を利用し,複数 FPGA を使い幅優先探索を実装する.

    researchmap

  • FPGA高位合成における演算性能向上のための空間並列性記述に関する研究

    佐野, 由佳, 小林, 諒平, 藤田, 典久, 朴, 泰祐, 佐藤, 三久

    研究報告ハイパフォーマンスコンピューティング(HPC)   2023-HPC-188 ( 22 )   1 - 10   2023年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    今日の高性能計算システムでは,高い演算性能とメモリバンド幅を有する GPU (Graphic Processing Unit) が高性能計算向けアプリケーションの演算加速装置として積極的に導入されている.しかし,GPU による演算加速は,GPU が持つ数多くのコアを活用し,かつそれらが SIMD (Single Instruction Multiple Data) 的な均質な処理が行われた時に性能を発揮するように構築されているため,並列度の低い計算や条件分岐などの複雑な処理を必要とする演算,通信が頻発するアプリケーションではその演算性能を十全に発揮することはできない.そこで,その GPU にとって不適合な演算を,回路の再構成によってアプリケーションに特化した演算パイプラインやメモリシステムを柔軟に構築できる FPGA (Field-Programmable Gate Array) にオフロードする手法が注目を集めている.現在の GPU プログラミング環境では,OpenACC に代表される指示文によるユーザフレンドリーなプログラミング環境が存在するが,FPGA プログラミング環境では,指示文を利用したプログラミング環境の完成度は高いとは言えない.そのため,我々は理化学研究所計算科学研究センター (R-CCS) と筑波大学計算科学研究センター (CCS) との共同研究により,Omni OpenACC コンパイラを FPGA プログラミング環境向けに改良する研究を進めている.本研究では,コンパイラによる演算性能最適化の手法を検討する材料として,高位合成を用いた FPGA プログラミングの演算性能向上手法について評価・検討する.具体的には,OpenCL によって記述された CG (Conjugate Gradient) 法のコードに対し,パイプライン化,Loop Unrolling,複数カーネル同時実行等,演算要素数を増やすための各種手法を試す.そして,ループの Unroll 数,同時実行するカーネル数を変化させ,FLOPS 数と BRAM (Block Random Access Memory) の使用率を評価する.FPGA の高速化は基本的にパイプライン処理によって得られるが,このクロックサイクル内の演算数を増加させ,同時に BRAM 使用量への影響等を調べ,性能最適化のための方策を探る.ただし,FPGA では Loop Unrolling の深さや,使用演算器数,メモリ使用量によって動作周波数が変化し,それらの間に複雑なトレードオフが存在するため,一概に同時実行演算数を増やすことが性能向上に資するとは限らない.今回実装した Intel Stratix10 FPGA 上での CG 法のコードでは,1 つのカーネルで Loop Unrolling を 8 回行った場合に最も高性能になることが判明した.また,2 つのカーネルで Loop Unrolling を 8 回行った場合に,動作周波数との関係で性能が最高になったが,メモリ使用量が大きく増大してしまった.他アプリケーションとの同 FPGA 上への同時実装のためにはメモリ使用量を抑える必要があり,そういう場合は 2 つのカーネルで Loop Unrolling を 4 回行った場合が最も高性能になることがわかった.

    researchmap

  • Implementation and Performance Evaluation of Collective Communications Using CIRCUS on Multiple FPGAs 査読

    Kikuchi, Kohei, Fujita, Norihisa, Kobayashi, Ryohei, Boku, Taisuke

    HPC Asia '23 Workshops: Proceedings of the HPC Asia 2023 Workshops   15 - 23   2023年2月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    In the high-performance computing domain, Field Programmable Gate Array (FPGA) is a novel accelerator that exhibits high flexibility and performance characteristics distinct from other accelerators such as the Graphics Processing Unit (GPU). Recent advanced high-end FPGA is equipped with multiple channels of high speed optical link up to 100Gbps performance for each. This is a crucial feature when we construct PC clusters with FPGAs as accelerators, however it is not easy to utilize from user kernels because this feature is implemented in low level and simple direct communication between neighboring FPGAs.

    In order to provide the communication feature between FPGAs for accelerated PC clusters, we developed a communication system named CIRCUS which implies a user-friendly API from OpenCL and is equipped with routing function over multi-hop communication on multi-dimensional torus network of FPGAs. However, current CIRCUS only provides a point-to-point communication between source and destination FPGAs. In ordinary parallel processing environment such as MPI, the user program the message passing with various collective communication functions for parallel algorithm, for instance Allreduce, Allgather, etc. In this paper, we implement the collective communication function over CIRCUS for user-friendly programming of ordinary parallel algorithms on FPGAs. As the first target, we implement Allreduce function which is the most essential and important function. The paper describes the CIRCUS system briefly followed by the design, implementation and preliminary performance evaluation on Intel Stratix10 FPGAs.

    DOI: 10.1145/3581576.3581602

    researchmap

  • GPU–FPGA-accelerated Radiative Transfer Simulation with Inter-FPGA Communication 査読

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    HPC Asia '23: Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region   117 - 125   2023年2月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    The complementary use of graphics processing units (GPUs) and field programmable gate arrays (FPGAs) is a major topic of interest in the high-performance computing (HPC) field. GPU–FPGA-accelerated computing is an effective tool for multiphysics simulations, which encompass multiple physical models and simultaneous physical phenomena. Because the constituent operations in multiphysics simulations exhibit varying characteristics, accelerating these operations solely using GPUs is often challenging. Hence, FPGAs are frequently implemented for this purpose. The objective of the present study was to further improve application performance by employing both GPUs and FPGAs in a complementary manner. Recently, this approach has been applied to the radiative transfer simulation code for astrophysics known as ARGOT, with evaluation results quantitatively demonstrating the resulting improvement in performance. However, the evaluation results in question came from the use of a single node equipped with both a GPU and FPGA. In this study, we extended the GPU–FPGA-accelerated ARGOT code to operate on multiple nodes using the message passing interface (MPI) and an FPGA-to-FPGA communication technology scheme called Communication Integrated Reconfigurable CompUting System (CIRCUS). We evaluated the performance of the ARGOT code with multiple GPUs and FPGAs under weak scaling conditions, and found it to achieve up to 12.8x speedup compared to the GPU-only execution.

    DOI: 10.1145/3578178.3578231

    researchmap

  • Cygnus - World First Multihybrid Accelerated Cluster with GPU and FPGA Coupling 査読

    Boku, Taisuke, Fujita, Norihisa, Kobayashi, Ryohei, Tatebe, Osamu

    ICPP Workshops '22: Workshop Proceedings of the 51st International Conference on Parallel Processing   ( 8 )   1 - 8   2023年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    In this paper, we describe the concept, system architecture, supporting system software, and applications on our world-first supercomputer with multihybrid accelerators using GPU and FPGA coupling, named Cygnus, which runs at Center for Computational Sciences, University of Tsukuba. A special group of 32 nodes is configured as a multihybrid accelerated computing system named Albireo part although Cygnus is constructed with over 80 computation nodes as a GPU-accelerated PC cluster. Each node of the Albireo part is equipped with four NVIDIA V100 GPU cards and two Intel Stratix10 FPGA cards in addition to two sockets of Intel Xeon Gold CPU where all nodes are connected by four lanes of InfiniBand HDR100 interconnection HCA in the full bisection bandwidth of NVIDIA HDR200 switches. Beside this ordinary interconnection network, all FPGA cards in Albireo part are connected by a special 2-Dimensional Torus network with direct optical links on each FPGA for constructing a very high throughput and low latency of FPGA-centric interconnection network.

    To the best of our knowledge, Cygnus is the world’s first production-level PC cluster to realize multihybrid acceleration with the GPU and FPGA combination. Unlike other GPU-accelerated clusters, users can program parallel codes where each process exploits both or either of the GPU and/or FPGA devices based on the characteristics of their applications. We developed various supporting system software such as inter-FPGA network routing system, DMA engine for GPU-FPGA direct communication managed by FPGA, and multihybrid accelerated programming framework because the programming method of such a complicated system has not been standardized. Further, we developed the first real application on Cygnus for fundamental astrophysics simulation to fully utilize GPU and FPGA together for very efficient acceleration.

    We describe the overall concept and construction of the Cygnus cluster with a brief introduction of the several underlying hardware and software research studies that have already been published. We summarize how such a concept of GPU/FPGA coworking will usher in a new era of accelerated supercomputing.

    DOI: 10.1145/3547276.3548629

    researchmap

  • Data Transfer API and its Performance Model for Rank-Level Approximate Computing on HPC Systems 査読

    Morie, Yoshiyuki, Wada, Yasutaka, Kobayashi, Ryohei, Sakamoto, Ryuichi

    International Journal of Networking and Computing   13 ( 1 )   48 - 61   2023年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:IJNC Editorial Committee  

    The application of approximate computing (AC) in optimizing tradeoffs among performance, power consumption, and accuracy of computation results can be improved by adjusting data precision in applications. The importance of AC has increased over the years as it is used to maximize performance even with limited power budget and hardware resources in high performance computing (HPC) systems that require more precise computations. To apply AC for HPC applications effectively, we must consider the character of each message passing interface (MPI) rank in an application and optimize it by adjusting its data precision. This rank-level AC ensures that ranks and threads in an application run with data precision and perform data transfer while converting the precision of target data. In this paper, we have proposed and evaluated data pack/unpack application programming interfaces (APIs), which are applicable for standard MPI programs run on HPC systems, for converting the precision of target data. The proposed APIs enable us to express data transfer among ranks with different precisions. In addition, we have also developed a reasonable performance model to select an appropriate data transfer API for maximizing performance with rank-level AC based on performance evaluation with various HPC systems.

    DOI: 10.15803/ijnc.13.1_48

    researchmap

  • An FPGA-based Accelerator for Regular Path Queries over Edge-labeled Graphs 査読

    Miura, Kento, Kobayashi, Ryohei, Amagasa, Toshiyuki, Kitagawa, Hiroyuki, Fujita, Norihisa, Boku, Taisuke

    2022 IEEE International Conference on Big Data (Big Data)   415 - 422   2022年12月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Edge-labeled directed graphs are commonly used to represent various information in different applications, such as social networks, knowledge graphs, etc., and regular path queries (RPQs) allow us to extract pairs of nodes that are reachable from one to another through a labeled path matching with the query pattern represented as a regular expression. It is useful for us to extract complicated or semantically meaningful information from a graph, but it gives rise to a challenge when dealing with large graphs. This is due to the long execution time caused by the explosive growth of intermediate results, but, on the other hand, some applications require fast query executions. To address this problem, we propose an FPGA-based RPQ accelerator. The idea is to exploit FPGA’s parallelism in traversing the target graph and matching the regular path expression in parallel with the pipeline manner. To validate the performance of the proposed method, we conducted a set of experiments. From the results, we observed that the proposed method achieves shorter elapsed times for RPQs against social graphs extracted from the real world, up to three orders of magnitude compared with baseline methods.

    DOI: 10.1109/BigData55660.2022.10020406

    researchmap

  • 並列FPGA環境における通信システムCIRCUSを用いた集団通信の実装と性能評価

    菊池, 航平, 藤田, 典久, 小林, 諒平, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2022-HPC-187 ( 7 )   1 - 8   2022年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,新たな HPC アクセラレータとして FPGA (Field Programmable Gate Array) が注目されている.FPGA は高速なシリアル I/O インタフェースを備えており,直接インタフェースを通じて FPGA 間の通信を行うことができる.直接通信により高い通信バンド幅を低レイテンシで扱うことができる特長は FPGA のみのものであり,問題規模の拡大や性能向上のために FPGA を並列化して用いようとする場合に大きな威力を発揮することが期待される.筑波大学計算科学研究センターでは並列 FPGA 実行を行う HPC アプリケーションの開発をサポートするため,FPGA 間通信フレームワーク CIRCUS (Communication Integrated Reconfigurable CompUting System) を開発している.CIRCUS は FPGA ネットワークにおけるルータ機能と通信 API を提供しており,OpenCL のプログラムから FPGA 間通信の記述を可能にする.しかし現状で CIRCUS が対応している通信パターンは 1 対 1 通信のみであり,通信ライブラリとして広く用いられている MPI にあるような集団通信は実装されていない.本研究の目的は,CIRCUS の上で動作する,高性能でユーザフレンドリーな集団通信APIを,並列 FPGA を利用する HPC ユーザに提供することである.この目的を実現するために,本稿では CIRCUS を用いた Allreduce 通信の設計・実装を行う.実装は 4 つの FPGA 上で正常に動作するが,CIRCUS 通信にフロー制御機能がないため性能が低下していることが分かった.この問題を回避するためには複雑なプログラミングが必要であり,余分なオーバヘッドを避けられない.この問題を解決するために,FPGA 間通信コントローラをフロー制御対応のものに置き換えることを計画している.

    researchmap

  • An Open-source FPGA Library for Data Sorting 査読

    Kobayashi, Ryohei, Miura, Kento, Fujita, Norihisa, Boku, Taisuke, Amagasa, Toshiyuki

    IPSJ Journal of Information Processing   30 ( No. 0 )   766 - 777   2022年10月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人 情報処理学会  

    Field-programmable gate arrays (FPGAs) have garnered significant interest in research on high-performance computing because their flexibility enables the building of application-specific computation pipelines and data supply systems. In addition to the flexibility, toolchains for the development of FPGAs in OpenCL have been developed and offered by FPGA vendors that reduce the programming effort required. However, the high level of abstraction in the OpenCL-based development approach is a disadvantage, making it difficult to perform fine-grained performance tuning. In this paper, we present one of the methodologies to achieve both the reduction of FPGA programming cost and the provision of high performance. We focus on data sorting, which is a basic arithmetic operation, and we introduce a sorting library that can be used with the OpenCL programming model for FPGAs. Our sorting library has so far only supported integer data, but in this paper, we propose a new method that supports floating-point data. It consumes at least twice as many hardware resources compared to the merge sort restructured for the OpenCL programming model for FPGAs. However, its operating frequency is 1.08x higher and its sorting throughput is three orders of magnitude greater than the baseline. The source code of our sorting library is open source, and it can be used by application developers around the world.

    DOI: 10.2197/ipsjjip.30.766

    researchmap

  • Performance Evaluation of Data Transfer API for Rank Level Approximate Computing on HPC Systems 査読

    Morie, Yoshiyuki, Wada, Yasutaka, Kobayashi, Ryohei, Sakamoto, Ryuichi

    2022 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW)   445 - 448   2022年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Approximate computing (AC) has attracted much attention to optimize tradeoffs among performance, power con-sumption, and computation results accuracy by adjusting data precision in applications. Even on HPC systems, AC is demanded to maximize performance under the limited power budget and hardware resources. To apply AC for HPC applications, we need to consider the character of each MPI rank in an application and optimize it with its appropriate data precision. However, we also need to perform data transfer while converting the precision of the target data. This paper proposes data pack/unpack APIs, which are applicable for standard MPI programs for HPC systems, for converting the data precision of the target data, and shows its performance evaluation. We can express data transfer among ranks with different data precision with the proposed APIs. The performance evaluation reveals the break-even point to apply AC for HPC applications from the perspective of data transfer volume.

    DOI: 10.1109/IPDPSW55747.2022.00082

    researchmap

    その他リンク: https://dblp.uni-trier.de/rec/conf/ipps/2022w

  • 並列化に伴うデータ空間の分割とそれによるアクセスパターンの変化がもたらすHBMの振る舞い調査

    瀬口, 知洋, 中井, 榛希, 山口, 佳樹, 藤田, 典久, 小林, 諒平, 朴, 泰祐

    IEICE-CPSY2022-15   IEICE-122 ( 133 )   83 - 88   2022年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    アプリケーションの要求に合わせて演算回路を電気的に再構成可能な Field Programmable Gate Array (FPGA) は,グルー・ロジックの代用品および試作用デバイスとして誕生以来発展を続けている.半導体製造技術およびパッケージング技術などの進化に伴いその演算性能および機能を大きく改善させてきた.また,高位合成採用などによる統合開発環境の熟成とそれによる設計の簡素化は FPGA の導入コストを大きく下げることに成功し,FPGA は情報システムに広く採用されるに至っている.以上より FPGA は,GPU や AI チップなどと同様に多くの注目を集めるデバイスとして,また,演算性能向上や消費電力対性能の改善など,導入に対して得られる効果を十分に期待できるデバイスとして認知され始めている.そして近年,高性能計算分野において帯域幅の大きなメモリ(High Bandwidth Memory: HBM) を同一パッケージ内に採用した FPGA 製品が増加しており,それは低価格帯の組み込み系 FPGA 製品にも広がりつつある.一方,HBM を採用して一日の長である GPU 分野において,HBM の実効アクセス性能に対する議論が始まりつつある.そこで本報告では,FPGA における高位記述と HBM 利用との組みあわせについて整理し,今後の FPGA 設計・開発における問題提起を通して効率的な演算加速の可能性について議論する.

    researchmap

  • GPU・FPGA複合型演算加速クラスタを用いた宇宙輻射輸送コードARGOTの多ノード並列化

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    研究報告ハイパフォーマンスコンピューティング(HPC)   2022-HPC-185 ( 1 )   1 - 6   2022年7月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや複数の同時発生する物理現象を含むシミュレーションであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速が困難な場合がある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.我々はこれまで宇宙輻射輸送シミュレーションコード ARGOT にそのコンセプトを適用し,その結果得られる性能向上を評価することによって,両デバイスを併用する有用性を定量的に示してきた.しかし,これまで実現してきた GPU-FPGA 連携の演算加速は,GPU と FPGA の両デバイスが搭載された単一ノードのみの利用を前提としていた.本研究では,単一ノードの利用を前提とした GPU・FPGA 連携 ARGOT コードを,MPI および FPGA 間通信技術である CIRCUS(Communication Integrated Reconfigurable CompUting System)を用いて複数ノードで動作するように拡張し,その実装方法について報告する.

    researchmap

  • Performance Evaluation on GPU-FPGA Accelerated Computing Considering Interconnections between Accelerators 査読

    Sano, Yuka, Kobayashi, Ryohei, Fujita, Norihisa, Boku, Taisuke

    The Proceedings of the 12th International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies (HEART 2022)   10 - 16   2022年6月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    Graphic processing units (GPUs) are often equipped with HPC systems as accelerators because of their high computing capability. GPUs are powerful computing devices; however, they operate inefficiently on applications that employ partially poor parallelism, non-regular computation, or frequent inter-node communication. To address these shortcomings of GPUs, field-programmable gate arrays (FPGA) have been emerging in the HPC domain because their reconfigurable capabilities enable the construction of application-specific pipelined hardware and memory systems. Several studies have focused on improving overall application performance by combining GPUs and FPGAs, and the platforms for achieving this have adopted the approach of hosting these two devices on a single compute node; however, the inevitability of this approach has not been discussed.

    In this study, we evaluated it quantitatively using an astrophysics application that performs radiative transfer to simulate the early-stage universe after the Big Bang. The application runs on a compute node equipped with a GPU and an FPGA, and the GPU and FPGA computation kernels are launched from a single CPU (process) in the application. We modified the code to enable the launch of the GPU and FPGA computation kernels from separate message-passing interface (MPI) processes. Each MPI process was assigned to two compute nodes to run the application, which were equipped only with a GPU and FPGA, respectively, and the execution performance of the application was compared against that of the original GPU-FPGA accelerated application. The results revealed that the performance degradation compared to the original GPU-FPGA accelerated application was approximately 2 ∼ 3 %, thereby demonstrating quantitatively that even if both devices are mounted on different compute nodes, this is acceptable in practical use depending on the characteristics of the application.

    DOI: 10.1145/3535044.3535046

    researchmap

  • ノードを跨いだGPU・FPGA複合型演算加速による宇宙物理シミュレーションの実装と評価

    佐野, 由佳, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2022-HPC-184 ( 6 )   1 - 7   2022年5月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年の高性能計算システムでは,高い演算性能とメモリバンド幅を有する GPU (Graphic Processing Unit) が演算加速装置として積極的に導入されている.しかし,全てのアプリケーションが GPU に適合するということではなく,並列性がコア数に対して不足していたり条件分岐が発生したりするような,GPU にとって不適合な演算が部分的に含まれるアプリケーションではその演算性能を十全に発揮することはできない.そこで,その GPU にとって不適合な演算をアプリケーションに特化した演算パイプラインやメモリシステムを柔軟に構築できるFPGA (Field-programmable Gate Array) にオフロードし,GPU と FPGA を相補的に活用することによってアプリケーション全体の性能を向上させるアプローチが試みられている.GPU と FPGA を併用してアプリケーションを実行する研究事例は幾つか存在し,そのためのプラットフォームとしては,両デバイスを同一の計算ノードに搭載するシステムがこれまで用いられてきた.ただし,その構成の必然性については詳細に検討されていないのが現状である.そこで本研究では,GPU と FPGA を併用して初期宇宙の天体形成をシミュレートする宇宙物理アプリケーションを用いて,両方のデバイスが同じ計算機に接続される必要性を定量的に評価した.既存のコードに対して MPI (Message Passing Interface) を用いて再実装を行い,GPU と FPGA が分離した構成で動作するように修正を施した.そして,GPU と FPGA が同じ計算機に接続された構成と,GPU と FPGA が分離した構成において,アプリケーションの性能評価を行った.性能評価より,GPU と FPGA が分離した構成でアプリケーションを実行した場合は,GPU と FPGA が同じ計算機に接続された構成でアプリケーションを実行した場合と比較して,2~3 [%] の性能低下に抑えられた.以上より,GPU と FPGA を協調計算に用いる場合,アプリケーションの特性次第では,GPU と FPGA が異なる計算機に接続されている環境においても高速に協調計算が可能であることが定量的に明らかになった.

    researchmap

  • oneAPIを用いたGPU・FPGA混載ノードにおける宇宙物理シミュレーションコードARGOTの実装

    柏野, 隆太, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2022-HPC-183 ( 12 )   1 - 9   2022年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    GPU(Graphics Processing Unit)は,HPC 分野において最も広く用いられているアクセラレータの一つである.しかし,マルチフィジックスに基づく科学計算では単一のシミュレーションの中に多様なワークロードが出現し,GPU のみを用いた高速化では不十分である.我々は,このような複雑な物理シミュレーションを対象として,GPU と FPGA(Field Programmable Gate Array)の併用による高速化を目指し,CHARM(Cooperative Heterogeneous Acceleration by Reconfigurable Multidevices)というコンセプトの下,ハードウェア,プログラミングシステム,そしてアプリケーション開発をおこなっている.ここでの大きな課題は,これら複数のデバイスをどのようにプログラムするかである.近年注目されている Intel 社によって提案された oneAPI は,SYCL をベースにした DPC++ による単一言語プラットフォームを提供し,複数のデバイス間における連携プログラミングが可能である.本稿では,GPU と FPGA を用いた宇宙物理シミュレーションコード ARGOT を oneAPI によって実装し,その性能評価について報告する.本研究の特徴は,oneAPI をその一般的な利用方法とは異なり,DPC++ のみを用いた開発ではなく既存の CUDA や OpenCL によるプログラム部分コードを組み合わせるためのフレームワークとして用いている点である.結果として,oneAPI を用いることで,DPC++ によるプログラミングだけでなく,CUDA や OpenCL など他の言語で記述された既存のソースコードを再利用して,複数のデバイスが協調するプログラムを実装することができることがわかった.

    researchmap

  • GPUクラスタを用いた宇宙輻射輸送コードARGOTのOpenACC実装と性能評価

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    研究報告ハイパフォーマンスコンピューティング(HPC)   2022-HPC-183 ( 17 )   1 - 8   2022年3月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや複数の同時発生する物理現象を含むシミュレーションであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速が困難な場合がある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.しかし,その実装方式は GPU で動作する計算カーネルを CUDA にて,FPGA で動作する計算カーネルを OpenCL にて記述するというような複数のプログラミング言語を用いたマルチリンガルプログラミングであり,そのようなプログラミングモデルはプログラマに多大な負担を強いるため,よりユーザビリティの高い GPU-FPGA 連携を実現するプログラミング環境が必要となる.そのことを踏まえ,本研究ではユーザビリティの高い GPU-FPGA 連携の実現を見据えた予備評価として,初期宇宙における天体形成をシミュレーションする ARGOT コードを OpenACC によって実装し,OpenMP ベースの CPU 実装および CUDA ベースの GPU 実装との 1 ノード利用時の性能評価を実施した.その結果,CUDA ベースの GPU 実装と遜色ない性能を達成することが明らかとなったため,本稿では,GPU クラスタを対象に,その OpenACC 実装をマルチノード・マルチ GPU 化し,その性能評価について報告する.

    researchmap

  • HBM2 搭載 FPGA のための Addressable Cache を用いた HPC 向けメモリシステムの性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2022-HPC-183 ( 9 )   1 - 10   2022年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    高性能計算の分野で Field Programmable Gate Array (FPGA) が新たなるアクセラレータとして注目されている.他のアクセラレータと比較して,FPGA は外部メモリ帯域が弱いという弱点があり,HPC における FPGA 利用の障壁のひとつである.最新の高性能 FPGA では,High Bandwidth Memory 2 (HBM2) を搭載する FPGA があり,これを使うことで HPC における FPGA 利用が広がると考えられる.しかしながら,FPGA は固定機能としてのメモリネットワークやキャッシュを持たず,HBM2 の性能を発揮できるメモリ回路を別途開発しなければならない問題がある.本稿では,我々が研究開発している HPC 向け HBM2 メモリシステムの実装と性能評価を示す.また,本システムを扱うための API の設計と実装についても報告を行う.FPGA は自律動作できるアクセラレータであり,本システムを扱う API はこの特徴を活かしたものである.

    researchmap

  • OpenACCによる宇宙物理シミュレーションのGPU+FPGA協調計算の実装 国際共著

    綱島, 隆太, 小林, 諒平, 藤田, 典久, 朴, 泰祐, Lee, Seyong, Vetter, Jeffrey S, 村井, 均, 中尾, 昌広, 辻, 美和子, 佐藤, 三久

    研究報告ハイパフォーマンスコンピューティング(HPC)   2022-HPC-183 ( 11 )   1 - 9   2022年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年 HPC 分野では,アクセラレータとして GPU や FPGA が注目されている.特に FPGA は GPU の苦手な処理でも性能を発揮することが期待されており,我々は両者を統合した次世代スーパーコンピュータの研究を行っている.しかし,GPU と FPGA を組み合わせたプログラミングでは,標準的な手法や言語が存在していない.HPC における GPU のシェアは現状では NVIDIA 社によるものが支配的であるため,主に GPU の処理は CUDA で記述されている.一方で,FPGA では高位合成技術により,ハードウェア記述言語に代わって,OpenCL の使用が可能になっている.これら二つを組み合わせてプログラミングを行うことはアプリケーションプログラマーにとって多大な負担となる.また,OpenCL では GPU のプログラミングも行うことができるが,既存のアプリケーションの多くはすでに CUDA で書かれているか,CPU 版しか存在しないため,OpenCL に書き直すには相当の負担が掛かる.仮にコードを別の言語で書き直すのであれば,より汎用性や抽象度の高い記述を行うことが理想である.そこで,我々はCAMP(Cooperative Acceleration by Multi-device Programming)というコンセプトの下,ディレクティブ形式の API である OpenACC を用いて両アクセラレータのプログラミングを統一的に行う環境である MHOAT(Multi-Hybrid OpenACC Translator)を開発している.本稿では,宇宙物理分野の実アプリケーションである ARGOT コードを対象に,MHOAT による GPU と FPGA の混合演算加速の実装について述べる.

    researchmap

  • Multi-hetero Acceleration by GPU and FPGA for Astrophysics Simulation on oneAPI Environment 査読

    Kashino, Ryuta, Kobayashi, Ryohei, Fujita, Norihisa, Boku, Taisuke

    HPCAsia2022: International Conference on High Performance Computing in Asia-Pacific Region   84 - 93   2022年1月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    GPU (Graphics Processing Unit) computing is one of the most popular accelerating methods for various high-performance computing applications. For scientific computations based on multi-physical phenomena, however, a single device solution on a GPU is insufficient, where the single timescale or degree of parallelism is not simply supported by a simple GPU-only solution. We have been researching a combination of a GPU and FPGA (Field Programmable Gate Array) for such complex physical simulations. The most challenging issue is how to program these multiple devices using a single code.

    OneAPI, recently provided by Intel, is a programming paradigm supporting such a solution on a single language platform using DPC++ based on SYCL 2020. However, there are no practical applications utilizing its full features or supporting heterogeneous multi-device programming to demonstrate its potential capability. In this study, we present the implementation and performance evaluation of our astrophysics code ARGOT used to apply the oneAPI solution with a GPU and an FPGA. To realize our concept of Cooperative Heterogeneous Acceleration by Reconfigurable Multidevices, also known as CHARM, as a type of next-generation accelerated supercomputing for complex multi-physical simulations, this study was conducted on our multi-heterogeneous accelerated cluster machine running at the University of Tsukuba.

    Through the research, we found that current oneAPI framework is effective not only for its typical programming by DPC++ but also for utilizing traditionally developed applications coded by several other languages such as CUDA or OpenCL to support multiple types of accelerators. As an example of real application, we successfully implemented and executed an early stage universe simulation by fundamental astrophysics code to utilize both GPU and FPGA effectively. In this paper, we demonstrate the actual procedure for this method to program multi-device acceleration over oneAPI.

    DOI: 10.1145/3492805.3492817

    researchmap

  • An Efficient RTL Buffering Scheme for an FPGA-Accelerated Simulation of Diffuse Radiative Transfer 査読

    Furukawa, Kazuki, Yokono, Tomoya, Yamaguchi, Yoshiki, Yoshikawa, Kohji, Fujita, Norihisa, Kobayashi, Ryohei, Boku, Taisuke, Umemura, Masayuki

    2021 International Conference on Field-Programmable Technology (ICFPT)   1 - 9   2021年12月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    This paper proposes the efficient buffering approach for implementing radiative transfer equations to bridge the performance gap between processing elements and HBM memory bandwidth. The radiation transfer equation originally focuses on the fundamental physics process in astrophysics. Besides, it has become the focus of a lot of attention in recent years because of the wealth of applications such as medical bioimaging. However, the acceleration requires a complicated memory access pattern with low latency, and the earlier studies unveil conventional memory access based on software control has no aptitude for this computation. Thus, this article introduced an HBM FPGA and proposed an application-specific buffering mechanism called PRISM (PRefetchable and Instantly accessible Scratchpad Memory) to efficiently bridge the computational unit and the HBM. The proposed approach was evaluated on a XILINX Alveo U280 FPGA, and the experimental results are also discussed.

    DOI: 10.1109/ICFPT52863.2021.9609944

    researchmap

  • HBM2 Memory System for HPC Applications on an FPGA 査読

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke

    Proceedings of 2021 IEEE International Conference on Cluster Computing (CLUSTER)   783 - 786   2021年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    Field Programmable Gate Arrays (FPGAs) have been targeted as a new accelerator of the HPC field. This is because the barrier to using FPGAs has been gradually lowered due to the widespread use of high-level synthesis (HLS) technology. In addition, the bandwidth of external memory in FPGAs is much lower than that of other accelerators widely used in HPC, such as NVIDIA V100 GPUs. However, the latest FPGAs can use High Bandwidth Memory 2 (HBM2), which has a memory bandwidth of up to 512GB/s. Therefore, we believe FPGAs will be a viable option for speeding up applications. However, unlike CPUs and GPUs, FPGAs do not have caches and memory networks to exploit the full potential of HBM2, which may limit the efficiency of the application. In this paper, we propose a memory system for HBM2 and HPC applications. We show the prototype implementation of the system and evaluate its performance. We also demonstrate the use of the proposed system from an application developed in High-Level Synthesis (HLS) written in C++.

    DOI: 10.1109/Cluster48925.2021.00116

    researchmap

  • 演算精度の動的制御によるApproximate Computingの実現に向けた予備評価

    和田, 康孝, 小林, 諒平, 坂本, 龍一, 森江, 善之

    研究報告ハイパフォーマンスコンピューティング(HPC)   2021-HPC-181 ( 2 )   1 - 6   2021年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    演算精度と実行性能あるいは消費電力等とのトレードオフを最適化する Approximate Computing 技術が浸透し始めている.Approximate Computing 技術を活用することで,アプリケーションを実行する際に,必要十分な精度の演算結果を得つつも,実行性能の最大化や消費電力の削減を可能とすることができる.今後さらにその効果を拡大させるためには,GPGPU や FPGA などのアクセラレータを搭載したシステムや,構成が異なるノードを複数台接続することで構成されるシステムなど,様々な状況に即して Approximate Computing を適用する必要がある.特に,アプリケーション実行時に,アプリケーションの構造やシステムの状況に応じて,動的に演算精度を調整することが重要となると考えられる.このような背景から,本稿では,アプリケーション実行時に動的に演算精度を変更・調整することを想定し,これをアプリケーションのレベルで適用した際の実行性能と演算結果への影響・トレードオフを評価する.

    J-GLOBAL

    researchmap

  • HBM-FPGA によるDiffuse Photon の大規模輻射輸送計算と課題

    古川, 和輝, 横野, 智也, 山口, 佳樹, 吉川, 耕司, 藤田, 典久, 小林, 諒平, 朴, 泰祐, 梅村, 雅之

    情報科学技術フォーラム講演論文集   1   27 - 32   2021年8月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    HBM-FPGAを利用した宇宙輻射輸送シミュレーションARGOT(Accelerated Radiative transfer on Grids using Oct-Tree/筑波大学計算科学研究センター)の演算加速について議論する.本シミュレーションは,HBM などの大規模・高帯域なメモリを利用しても、メモリ帯域幅がボトルネックとなり十分な加速が難しいことが知られる.そこで本研究では,メモリアクセス効率を高めるため,演算バッファに細粒度なデータフロー制御を組み込むことでメモリアクセス数の削減を図り,飛躍的な演算速度の向上を目指している.本報告では,等方性拡散する各光線が直線的に進行する性質に着目し演算空間を三角錐型に分割するとともにその更新順序を最適化することで,高効率なストリーム演算が実現可能であることを示す.

    researchmap

  • oneAPIを用いたGPU・FPGA混載ノードにおけるヘテロ演算加速プログラム開発

    柏野, 隆太, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2021-HPC-180 ( 8 )   1 - 9   2021年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,メモリバンド幅と空間並列性基づく演算性能に優れた GPU とパイプライン並列性による演算性能と通信性能に優れた FPGA を相補的に活用することでアプリケーション全体の性能向上を目指している.このコンセプトを CHARM(Cooperative Heterogeneous Acceleration with Reconfigurable Multidevices)と呼んでおり,多様な HPC ワークロードに対して効果的に働くことが期待できる.しかしながら,一般に GPU と FPGA は異なるプログラム開発環境で開発されるアクセラレータであり,開発ユーザーにとって負担が大きい.そのため,開発の複雑さを解決する統一的な開発環境が必要である.この問題に対して,Intel 社により提供される oneAPI 開発環境が有効に働くことが期待できる.oneAPI は,異なるアクセラレーター間において統一的な言語および各オフローディングモジュールを統合的に実行する API を提供する.本稿では,NVIDIA GPU 及び Intel FPGA の 2 つのアクセラレータをターゲットとして,oneAPI を用いたヘテロ演算加速プログラムを開発する手法について報告する.

    researchmap

  • FPGAにおけるHPCアプリケーション向けHBM2メモリシステムの提案と実装

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2021-HPC-180 ( 27 )   1 - 9   2021年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    高性能計算の分野で Field Programmable Gate Array (FPGA) が新たなるアクセラレータとして注目されている.近年,高位合成 (High Level Synthesis: HLS) 開発環境が発展しておきており,C や C++ といった言語を用いた開発が可能になりつつある.FPGA は外部メモリ帯域が弱いという課題があり FPGA を HPC で利用する際の障壁となることがあったが,High Bandwidth Memory 2 (HBM2) を搭載した FPGA チップがベンダーからリリースされ始めており,最大で 512GB/s のメモリ帯域を有する.しかしながら,FPGA には,キャッシュやメモリネットワークといったメモリを利用するための機能はなく,HBM2 を FPGA で利用する際の課題の一つである.本稿では,HPC アプリケーションに適する HBM2 メモリシステムの提案と実装を行い性能評価について報告を行う.また,高位合成で記述したカーネルから提案システムが扱えることを示す.

    researchmap

  • FPGA向け浮動小数点数型ソーティングライブラリの提案と実装

    小林, 諒平, 三浦, 賢人, 藤田, 典久, 朴, 泰祐, 天笠, 俊之

    IEICE-CPSY2021-8   IEICE-121 ( 116 )   43 - 48   2021年7月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々はこれまで基本的な算術演算であるデータのソートに着目し,FPGA (Field-Programmable Gate Array) のプログラミングモデルであるOpenCLで使用可能なソーティングライブラリを開発している.本稿では,浮動小数点数型データに対応する機構の提案および実装について報告する.提案するソーティングライブラリは、3つのハードウェアソートアルゴリズムを組み合わせて構築され,OpenCLプログラミングモデル用に再実装したマージソートアルゴリズムと比較した結果,全体のハードウェアリソースを2倍以上消費する一方で,3桁以上のソート性能を達成した.

    researchmap

  • コンパクション処理を活用した正規パス問合わせアクセラレータのFPGA実装

    小林, 諒平, 三浦賢人, 藤田典久, 朴泰祐, 天笠俊之

    IEICE-RECONF2021-12   IEICE-121 ( 59 )   62 - 67   2021年6月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    グラフ構造は身の回りの様々なデータを表すのに効果的なデータ構造である.ビッグデータ分析などの普及に伴い,現在では様々な分野においてグラフ構造データが用いられている.そのようなグラフ構造データからユーザの望むデータを抽出する方法の一つとして,指定されたエッジの並びをもつパスをグラフ内から探索し,そのパスの始点・終点ノードを返す正規パス問合わせ(RPQ)が存在する.本研究では,RPQ評価をパイプライン的に処理するための手法とそのFPGA実装を提案する.実装したRPQアクセラレータの性能を評価したところ,比較手法と比べ最大で約3桁の高速化を達成した.また本研究では,より大規模なグラフを扱えるようにする拡張手法を提案しており,それが実機で正しく動作することを確認した.

    researchmap

  • A Sorting Library for FPGA Implementation in OpenCL Programming 査読

    Kobayashi, Ryohei, Miura, Kento, Fujita, Norihisa, Boku, Taisuke, Amagasa, Toshiyuki

    Proceedings of the 11th International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies (HEART '21).   ( 10 )   1 - 6   2021年6月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    In this study, we focus on data sorting, which is a basic arithmetic operation, and we present a sorting library that can be used with the OpenCL programming model for field-programmable gate arrays (FPGAs). Our sorting library is built by combining three hardware sorting algorithms. It consumes more than twice the overall hardware resources compared to the merge sort restructured for the OpenCL programming model for FPGAs. However, its operating frequency is 1.09x higher and its sorting throughput is three orders of magnitude greater than the baseline.

    DOI: 10.1145/3468044.3468054

    researchmap

  • HBM2メモリを持つFPGAボードの性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2021-HPC-178 ( 6 )   1 - 8   2021年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,高位合成(High Level Synthesis: HLS)と呼ばれる技術が発展してきており,Field Programmable Gate Array(FPGA)開発の障壁が低下しつつある.しかしながら,FPGA の持つメモリ帯域は他のアクセラレータと比べて低く,HPC 分野で FPGA を利用する際の障壁となることがあった.しかし,High Bandwidth Memory 2(HBM2)を搭載した FPGA チップがベンダーからリリースされ始めており,最大で 512GB/s のメモリ帯域を有する.依然として,Graphics Processing Unit(GPU)のアクセラレータと比べると,1/4 倍性能の開きがあるものの,性能が一桁以上違うという状況からは改善しつつある.本稿では,Intel Stratix10 FPGA に搭載された HBM2 メモリの性能評価および HPC アプリケーションに適用する手法について述べる.

    researchmap

  • FPGA/GPU協調によるネットワーク型不正侵入検知システムの構築

    菊地, 駿太, 池上, 努, Akram, ben Ahmed, 工藤, 知宏, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    電子情報通信学会技術研究報告 コンピュータシステム   120 ( 338 )   113 - 118   2021年1月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,CPUの性能向上が鈍化していることなどにより,複数種類のプロセッサを組み合わせて処理を行うヘテロジーニアスコンピューティングが注目されている.
    既存の研究は,CPUとGPUやFPGAなどのコプロセッサの協調処理に関するものがほとんどであった.
    本研究では,FPGAとGPUの協調処理によるネットワーク型不正侵入検知システム(NIDS)を構築する。FPGA上に簡素なプリフィルタを実装し、100Gbpsを超える大量のトラフィックから10%程度の怪しいパケットを抽出する。抽出されたパケットはGPU上で、NIDSの定義に従って様々な長さの文字列に対する完全なマッチングを行う。FPGAからGPUへのパケットの送信にはCPUを介さない低レイテンシの直接転送機構を活用し、効率的なシステムを実現する。

    researchmap

  • Performance Evaluation of OpenCL-Enabled Inter-FPGA Optical Link Communication Framework CIRCUS and SMI 査読

    Kashino, Ryuta, Kobayashi, Ryohei, Fujita, Norihisa, Boku, Taisuke

    HPC Asia 2021: The International Conference on High Performance Computing in Asia-Pacific Region   23 - 31   2021年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    In recent years, Field Programmable Gate Array (FPGAs) have attracted much attention as accelerators in the research area of HighPerformance Computing (HPC). One of the strong features of current FPGA devices is their ability to achieve high-bandwidth communication performance with direct optical links to construct multi-FPGA platforms as well as their adjustability. However, FPGA programming is not easily performed on user applications. By more user-friendly programming environments, FPGAs can be applied to various HPC applications on multi-FPGA platforms. Of the several studies aimed at realizing high-level synthesis to utilize the FPGA communication feature, we focus on two systems: Communication Integrated Recongurable CompUting System (CIRCUS) and Streaming Message Interface (SMI) which are available on an Intel FPGA with direct optical links with a peak performance of 40 ∼ 100 Gbps. In both systems, a user can access the optical link in OpenCL kernels where high-level programming for HPC applications is possible. In this paper, we introduce them for practical cases and compare their implementations and performance in real systems. In conclusion, we evaluated that the CIRCUS system for single point-to-point communication achieves a bandwidth of up to 90 Gbps with a 100-Gbps optical link using OpenCL code. It is 2.7 times faster than the SMI system implemented on the same platform, and we also confirmed that the broadcast data transfer among four FPGAs using CIRCUS is up to 31 Gbps of bandwidth which is 5.3 times faster compared to that achieved using SMI. In addition, we determined the main cause of the performance bottleneck on SMI when it is applied to a 100-Gbps platform and compared it with the CIRCUS implementation.

    DOI: 10.1145/3432261.3432266

    researchmap

  • OpenCL-enabled Parallel Raytracing for Astrophysical Application on Multiple FPGAs with Optical Links 査読

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    2020 IEEE/ACM International Workshop on Heterogeneous High-performance Reconfigurable Computing (H2RC)   48 - 55   2020年12月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/H2RC51942.2020.00011

    Web of Science

    researchmap

  • Multi-Hybrid Accelerated Simulation by GPU and FPGA on Radiative Transfer Simulation in Astrophysics 査読

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    IPSJ Journal of Information Processing   28 ( 0 )   1073 - 1089   2020年12月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人 情報処理学会  

    Field-programmable gate arrays (FPGAs) have garnered significant interest in research on high-performance computing because their computation and communication capabilities have drastically improved in recent years due to advances in semiconductor integration technologies that rely on Moore's Law. In addition to improving FPGA performance, toolchains for the development of FPGAs in OpenCL have been developed and offered by FPGA vendors that reduce the programming effort required. These improvements reveal the possibility of implementing a concept to enable on-the-fly offloading computation at which CPUs/GPUs perform poorly to FPGAs while performing low-latency data movement. We think that this concept is key to improving the performance of heterogeneous supercomputers using accelerators such as the GPU. In this paper, we propose a GPU-FPGA-accelerated simulation based on the concept and show our implementation with CUDA and OpenCL mixed programming for the proposed method. The results of experiments show that our proposed method can always achieve a better performance than GPU-based implementation and we believe that realizing GPU-FPGA-accelerated simulation is the most significant

    DOI: 10.2197/ipsjjip.28.1073

    researchmap

  • OpenACCとOpenCLの混合記述によるGPU-FPGAデバイス間連携

    小林, 諒平, 藤田, 典久, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2020-HPC-177 ( 12 )   1 - 7   2020年12月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや複数の同時発生する物理現象を含むシミュレーションであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速が困難な場合がある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.しかし,その実装方式は GPU で動作する計算カーネルを CUDA にて,FPGA で動作する計算カーネルを OpenCL にて記述するというような複数のプログラミング言語を用いたマルチリンガルプログラミングであり,そのようなプログラミングモデルはプログラマに多大な負担を強いるため,よりユーザビリティの高い GPU-FPGA 連携を実現するプログラミング環境が必要となる.そのことを踏まえ,本稿ではユーザビリティの高い GPU-FPGA 連携の実現を見据えた予備評価として,CUDA より抽象度を引き上げたプログラミングモデルである OpenACC と OpenCL の組み合わせにより GPU と FPGA の両演算加速デバイスを連携させ,性能向上を目指す枠組みを示す.

    researchmap

  • OpenACCによるGPUデバイスメモリ管理についての考察

    渡邉, 孔英, 菊池, 航平, 柏野, 隆太, 綱島, 隆太, 藤田, 典久, 小林, 諒平, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2020-HPC-177 ( 13 )   1 - 9   2020年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    アプリケーションの GPU 化によって高速化を図るとき,CPU メモリと GPU メモリの間のデータ移動管理が必要になる.OpenACC で記述されたプログラムを PGI コンパイラでコンパイルするとき,データ移動の管理は自動的に行わせるか,プログラマが記述するかを選択することができる.本研究では,両方の方法によるデータ移動管理とその性能について,実験を行って比較および考察した.その結果,データアクセスのパターンによっては,データ移動管理を自動的に行わせる方がデータ転送を削減でき,高速化に役立つ場合があることがわかった.

    J-GLOBAL

    researchmap

  • OpenCLプログラミングを用いた並列FPGA処理システムの性能評価 査読

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 上野, 知洋, 佐野, 健太郎, 朴, 泰祐

    情報処理学会論文誌コンピューティングシステム(ACS)   13 ( 3 )   13 - 28   2020年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    再構成可能なハードウェアの1つにField Programmable Gate Array(FPGA)がある.我々は,FPGAが持つ強力な外部通信機構に注目している.FPGA開発は低レベルな記述が必要でありコストが高かったが,高位合成(High Level Synthesys,HLS)の技術によって解消されつつある.我々はCommunication Integrated Reconfigurable CompUting System(CIRCUS)というFPGA間通信フレームワークを提唱している.CIRCUSシステムを用いることで,通信と演算が一体となったパイプラインをOpenCLで記述できる.筑波大学計算科学研究センターでは1ノードあたり2 FPGAボードを搭載するスーパコンピュータCygnusを運用しており,本論文ではCygnus上でCIRCUSシステムの設計と実装について述べ,また,CIRCUSの通信性能の評価を行う.

    J-GLOBAL

    researchmap

  • Toward OpenACC-enabled GPU-FPGA Accelerated Computing

    Norihisa Fujita, Ryohei Kobayashi, Yoshiki Yamaguchi, Kohji Yoshikawa, Makito Abe, Masayuki Umemura

    Proceedings - IEEE International Conference on Cluster Computing, ICCC   2020-   422 - 423   2020年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Institute of Electrical and Electronics Engineers Inc.  

    DOI: 10.1109/CLUSTER49012.2020.00060

    Scopus

    researchmap

  • 再結合光子の輻射輸送大規模計算に向けたHBM-FPGA実装への考察

    古川, 和輝, 横野, 智也, 山口, 佳樹, 吉川, 耕司, 藤田, 典久, 小林, 諒平, 朴, 泰祐, 梅村, 雅之

    情報科学技術フォーラム講演論文集   1   21 - 26   2020年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    筑波大学計算科学研究センターのプロジェクトに,宇宙輻射輸送シミュレーションを利用した天体現象の解明がある.このシミュレーションは、星および星間媒質からのエネルギー演算により構成されるARGOT (Accelerated Radiative transfer on Grids using Oct-Tree) 法を用いて演算を行う.後者の演算スキーム,ART (Authentic Radiation Transfer) は,ランダムメモリアクセスが可能なことから FPGA 実装による飛躍的な速度向上が期待されているが,GPU実装を大きく超える高速化は実現されていない。そこで本研究では,演算方式の見直しを含め,メモリシステムを含めた演算加速部の高速化について議論する.

    researchmap

  • FPGAに組み込まれたHBMの効率的な利用とその考察

    古川, 和輝, 横野, 智也, 山口, 佳樹, 吉川, 耕司, 藤田, 典久, 小林, 諒平, 朴, 泰祐, 梅村, 雅之

    電子情報通信学会技術研究報告 (信学技報)   120 ( 168 )   30 - 35   2020年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    複数の FPGA を用いた演算加速が高性能計算において期待される中,AiS (Accelerators in Switch) という 一概念に注目が集まっている.AiS は,各 FPGA を繋ぐ通信機構の中にアプリケーション特化の演算機構を組みこ み,通信 × 演算の密結合型機構の実現とそれによるシステム性能の向上を提案している.筑波大学計算科学研究セン ターでは,宇宙輻射輸送シミュレーションコード ARGOT (Accelerated Radiative transfer on Grids using Oct-Tree) を開発 し,これに AiS を応用することで,シミュレーションシステムの高速化を目指す研究が進められている.本研究では, ARGOT のうち ART (Authentic Radiation Transfer) スキームを FPGA で高速化することを提案する.ART は3次元格 子空間を扱うため,これに由来するランダムに近いメモリアクセス制御は FPGA による解決を期待できる.一方,演 算時に発生する膨大なメッシュデータのメモリアクセスについては,FPGA 内の BRAM 等に保存することが難しく, 性能低下の原因となっていた.そこで本稿では HBM (High Bandwidth Memory) に着目し,これを用いた ART スキー ムの実装について提案する.まず,Xilinx Alveo U280 における HBM のメモリアクセス性能について議論する.続け て,HBM からメッシュデータを読み出す場合の SPM (Scratchpad Memory) として On-chip RAM(BRAM・URAM)を 用いることを想定し,メモリアクセスがボトルネックとならない SPM へのアクセス率の検証と,外部メモリへのアク セス回数を減らすための工夫に関して議論を行う.

    researchmap

  • Stratix 10 FPGAを用いたray-tracing法による輻射輸送計算の高速化

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    研究報告ハイパフォーマンスコンピューティング(HPC)   2020-HPC-175 ( 8 )   1 - 10   2020年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々はこれまでの研究で,宇宙輻射輸送問題で用いられる Authentic Radiative Transfer(ART)法を Arria 10 FPGA 上に実装し性能評価を行ってきた.本稿では,ART 法を最新の Intel Field Programmable Gate Array(FPGA)である Stratix 10 FPGA 向けに最適化し,性能評価を行う.また,我々が提唱している FPGA 間通信フレームワークである Communication Integrated Reconfigurable CompUting System(CIRCUS)を用いて並列計算を実現し,複数 FPGA を用いる際の性能評価も行う.

    researchmap

  • Accelerating Radiative Transfer Simulation with GPU-FPGA Cooperative Computation 査読

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    2020 IEEE 31st International Conference on Application-specific Systems, Architectures and Processors (ASAP)   9 - 16   2020年7月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Field-programmable gate arrays (FPGAs) have garnered significant interest in research on high-performance computing. This is ascribed to the drastic improvement in their computational and communication capabilities in recent years owing to advances in semiconductor integration technologies that rely on Moore’s Law. In addition to these performance improvements, toolchains for the development of FPGAs in OpenCL have been offered by FPGA vendors to reduce the programming effort required. These improvements suggest the possibility of implementing the concept of enabling on-the-fly offloading computation at which CPUs/GPUs perform poorly relative to FPGAs while performing low-latency data transfers. We consider this concept to be of key importance to improve the performance of heterogeneous supercomputers that employ accelerators such as a GPU. In this study, we propose GPU–FPGAaccelerated simulation based on this concept and demonstrate the implementation of the proposed method with CUDA and OpenCL mixed programming. The experimental results showed that our proposed method can increase the performance by up to 17.4× compared with GPU-based implementation. This performance is stil

    DOI: 10.1109/ASAP49362.2020.00011

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/asap/asap2020.html#KobayashiFYBYAU20

  • Performance Evaluation of Pipelined Communication Combined with Computation in OpenCL Programming on FPGA 査読

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Ueno, Tomohiro, Sano, Kentaro, Boku, Taisuke

    2020 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW)   450 - 459   2020年7月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    In recent years, much High Performance Computing (HPC) researchers attract to utilize Field Programmable Gate Arrays (FPGAs) for HPC applications. We can use FPGAs for communication as well as computation thanks to FPGA’s I/O capabilities. HPC scientists cannot utilize FPGAs for their applications because of the difficulty of the FPGA development, however High Level Synthesis (HLS) allows them to use with appropriate costs. In this study, we propose a Communication Integrated Reconfigurable CompUting System (CIRCUS) to enable us to utilize high-speed interconnection of FPGAS from OpenCL. CIRCUS makes a fused single pipeline combining the computation and the communication, which hides the communication latency by completely overlapping them. In this paper, we present the detail of the implementation and the evaluation result using two benchmarks: pingpong benchmark and allreduce benchmark.

    DOI: 10.1109/IPDPSW50202.2020.00083

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ipps/ipdps2020w.html#FujitaKYUSB20

  • OpenCL対応FPGA間光リンク接続フレームワークCIRCUSとSMIの性能評価

    柏野, 隆太, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2020-HPC-175 ( 16 )   1 - 8   2020年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,高性能分野において FPGA に対する期待が高まっている.高位合成により開発の障壁が低下し,強力な通信性能をもつことが可能な FPGA は従来のシステムでは高速化できない種類のアプリケーションに対しても効果的に働く可能性がある.これらの FPGA の特徴を最大限に活用するためには,FPGA に特化した通信フレームワークが必要となる.既にこの研究は行われており,筑波大学から CIRCUS,チューリッヒ工科大学から SMI が提案されている.いずれも 40~100Gbps の光リンクを OpenCL から利用可能とするもので,今後の FPGA の HPC 利用において重要なパーツとなると考えられる.本報告では,この 2 つの手法,CIRCUS と SMI について実機性能評価を行い,その特性を比較する.

    researchmap

  • 宇宙幅射輸送コードARGOTのOpenACCによるGPU実装

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    研究報告ハイパフォーマンスコンピューティング(HPC)   2020-HPC-175 ( 7 )   1 - 7   2020年7月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや複数の同時発生する物理現象を含むシミュレーションであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速が困難な場合がある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.しかし,その実装方式は GPU で動作する計算カーネルを CUDA にて,FPGA で動作する計算カーネルを OpenCL にて記述するというような複数のプログラミング言語を用いたマルチリンガルプログラミングであり,そのようなプログラミングモデルはプログラマに多大な負担を強いるため,よりユーザビリティの高い GPU-FPGA 連携を実現するプログラミング環境が必要となる.そのことを踏まえ,本稿ではユーザビリティの高い GPU-FPGA 連携の実現を見据えた予備評価として,初期宇宙における天体形成をシミュレーションするプログラムを OpenACC によって実装し,OpenMP ベースの CPU 実装および CUDA ベースの GPU 実装との性能評価を行う.

    researchmap

  • 高位合成を用いたFPGA間通信機構の設計と性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 上野, 知洋, 佐野, 健太郎, 朴, 泰祐

    計算工学講演会論文集 Proceedings of the Conference on Computational Engineering and Science / 日本計算工学会 編   25   6p   2020年6月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)   出版者・発行元:日本計算工学会  

    researchmap

  • 再構成可能システムとGPUによる多重複合型演算加速

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    計算工学講演会論文集 Proceedings of the Conference on Computational Engineering and Science / 日本計算工学会 編   25   6p   2020年6月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)   出版者・発行元:日本計算工学会  

    Field-programmable gate arrays (FPGAs) have garnered significant interest in research on high performance computing because their computation and communication capabilities have drastically improved in recent years due to advances in semiconductor integration technologies that rely on Moore’s Law. In addition to improving FPGA performance, toolchains for the development of FPGAs in OpenCL have been developed and offered by FPGA vendors that reduce the programming effort required. These improvements reveal the possibility of implementing a concept to enable on-the-fly offloading computation at which CPUs/GPUs perform poorly to FPGAs while performing low-latency data movement. We think that this concept is k-ey to improving the performance of heterogeneous supercomputers using accelerators such as the GPU. In this paper, we propose a GPU-FPGA-accelerated simulation based on the concept and show our implementa- tion with OpenCL-enabled GPU–FPGA DMA method. The results of experiments show that our proposed method can always achieve better performance than GPU-based implementation and we believe that real- izing GPU–FPGA-accelerated simulation is the most significant difference be

    researchmap

  • スーパーコンピュータCygnus上におけるFPGA間パイプライン通信の性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 上野, 知洋, 佐野, 健太郎, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2020-HPC-173 ( 24 )   1 - 11   2020年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    再構成可能なハードウェアの一つに Field Programmable Gate Array (FPGA) がある.我々は,FPGA が持つ協力な外部通信機構に注目している.FPGA 開発は低レベルな記述が必要でありコストが高かったが,高位合成 (High Level Synthesys, HLS) の技術によって解消されつつある.我々は Communication Integrated Reconfigurable CompUting System (CIRCUS) という FPGA 間通信フレームワークを提唱している.CIRUCS システムを用いることで,通信と演算が一体となったパイプラインを OpenCL で記述できる.筑波大学計算科学研究センターでは 1 ノードあたり 2 FPGA ボードを搭載するスーパーコンピュータ Cygnus を運用しており,本稿では Cygnus 上で CIRCUS の通信性能の評価を行い報告する.

    J-GLOBAL

    researchmap

  • GPU・FPGA複合演算加速による宇宙輻射輸送コードARGOTの性能評価

    小林, 諒平, 藤田, 典久, 中道, 安祐未, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    研究報告ハイパフォーマンスコンピューティング(HPC)   2020-HPC-173 ( 8 )   1 - 11   2020年3月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや複数の同時発生する物理現象を含むシミュレーションであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速が困難な場合がある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.本稿では,マルチフィジックスの例である,宇宙輻射輸送シミュレーションコード ARGOT を対象にする.ARGOT は,点光源と空間に分散した光源の 2 種類の輻射輸送問題を含む.ARGOT 法の演算には既に ARGOT プログラムに実装されている GPU カーネルを用いることで,主要演算部分を GPU と FPGA に適材適所的に機能分散して ARGOT コードを最適化する.また,GPU-FPGA 間のデータ転送には,これまでに提案してきた OpenCL から制御可能な GPU-FPGA 間 DMA 転送を利用する.提案手法を評価したところ,GPU と FPGA に適材適所的に機能分散した ARGOT コードは,そうでない ARGOT コードと比較して最大 10.4 倍の性能向上を達成できた.

    researchmap

  • OpenCL-enabled GPU-FPGA Accelerated Computing with Inter-FPGA Communication 査読

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Nakamichi, Ayumi, Boku, Taisuke

    Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region Workshops   17 - 20   2020年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1145/3373271.3373275

    Web of Science

    researchmap

  • OpenCL対応GPU・FPGAデバイス間連携機構による宇宙輻射輸送コードの演算加速

    小林, 諒平, 藤田, 典久, 中道, 安祐未, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    研究報告ハイパフォーマンスコンピューティング(HPC)   2019-HPC-172 ( 8 )   1 - 9   2019年12月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA (Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや復数の同時発生する物理現象を含むシミュレーショシであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速させづらいことがある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.本稿では,マルチフィジックスの例である,宇宙輻射輸送シミュレーションコード ARGOT を対象にする.ARGOT は,点光源と空間に分散した光源の 2 種類の輻射輸送問題を含む.ARGOT 法の演算には既に ARGOT プログラムに実装されている GPU カーネルを用いることで,主要演算部分を GPU と FPGA に適材適所的に機能分散して ARGOT コードを最適化する.また,GPU-FPGA 間のデータ転送には,これまでに提案してきた OpenCL から制御可能な GPU-FPGA 間 DMA 転迭を利用する.提案手法を評価したところ,GPU と FPGA に適材適所的に機能分散した ARGOT コードは,そうでない ARGOT コードと比較して最大 3 倍の性能向上を達成できた.

    researchmap

  • GPU-FPGA協調プログラミングを実現するコンパイラの開発 国際共著

    綱島, 隆太, 小林, 諒平, 藤田, 典久, 中道, 安祐未, 朴, 泰祐, Lee, Seyong, Vetter, Jeffrey, 村井, 均, 佐藤, 三久

    研究報告ハイパフォーマンスコンピューティング(HPC)   2019-HPC-172 ( 11 )   1 - 10   2019年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,高性能コンピューティング(HPC : High Performance Computing)分野におけるトップレベルのマシンには,アクセラレータを搭載した大規模計算クラスタが多く含まれている.高い演算性能とメモリバンド幅を有する Graphics Processing Unit(GPU)がアクセラレータとして主に用いられているが,条件分岐が頻出する処理や多数の演算コアを活用できないような並列性の小さい処理といった GPU の不得手する演算は依然として存在し,それが性能向上の妨げとなっている.このような問題に対し,任意の論理回路をプログラム可能な集積回路である Field Programmable Gate Array(FPGA)に,GPU が不得手とする処理を実行する回路を実装し,それを FPGA に適宜にオフロードすることによってアプリケーション全体の性能を向上させるアプローチを我々は試みている.しかしながら,GPU と FPGA の演算カーネルは,それぞれ CUDA と OpenCL といった異なるプログラミング言語で開発する必要があり,このようなマルチリンガルプログラミングは,ユーザーにとって多大な負担となる.そこで本研究では,GPU と FPGA が搭載された計算機システム上にて,両アクセラレータの統合的な制御を可能にする OpenACC を用いたプログラミング環境について検討する.本報告では,OpenACC を用いて記述された一つのプログラムを GPU 用,FPGA 用コンパイラそれぞれに向けたファイルに分割するソース to ソースコンパイラを開発し,最終的にこれらをリンクした単一の実行ファイルにより,両アクセラレータの連携が実現できるか検証を行った.その結果,開発したコンパイラによって,統一したアプリケーションプログラミングインターフェイス(API)で書かれた一つのプログラムから,CPU,GPU,FPGA で連携して演算を行う単一の実行ファイルが生成され,両アクセラレータの連携が実現できることが確認された.

    J-GLOBAL

    researchmap

  • 再構成可能なハードウェアを用いた演算と通信を融合する手法の提案と性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2019-HPC-171 ( 6 )   1 - 9   2019年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,高性能計算の分野で再構成可能なハードウェアである Field Programmable Gate Array (FPGA) が次世代の演算加速装置として注目されている.FPGAを高性能計算で用いる際の障壁は開発の困難さであったが,高位合成手法の発展に伴いこの問題は解決しつつある.最新の FPGA は最大で 100Gbps×4の通信性能を有しており,我々はその強力な通信性能に注目している.FPGA の絶対性能は他のアクセラレータよりも低いが,FPGA が持つ演算能力と通信能力を組み合わせることでより広い範囲の問題に FPGA が適用できると考えている.本研究の目的は,高位合成で記述された FPGA アプリケーションから通信機構を操作し並列処理システムを実現することである.通信のスループットやレイテンシだけでなく,通信と演算を一体化したパイプラインが FPGA 内に構築される点も評価を行い,高位合成で記述した FPGA アプリケーションで並列計算が可能なことを示す.我々は FPGA 間で直接通信を行う環境として CoE というシステムを開発しており,バンド幅は最大で 90.7Gbps を達成し,最小レイテンシは 429.2ns であった.また,パイプライン評価においても,良好な結果が得られ,通信と演算を一体化したパイプラインを構築できていることを確認した.

    researchmap

  • Parallel Processing on FPGA Combining Computation and Communication in OpenCL Programming 査読

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke

    2019 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW)   479 - 488   2019年7月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    In recent years, Field Programmable Gate Array (FPGA) has been a topic of interest in High Performance Computing (HPC) research. Although the biggest problem in utilizing FPGAs for HPC applications is in the difficulty of developing FPGAs, this problem is being solved by High Level Synthesis (HLS). We focus on very high-performance inter-FPGA communication capabilities. The absolute floating-point performance of an FPGA is lower than that of other common accelerators such as GPUs. However, we consider that we can apply FPGAs to a wide variety of HPC applications if we can combine computations and communications on an FPGA. The purpose of this paper is to implement a parallel processing system running applications implemented by HLS combining computations and communications in FPGAs. We propose the Channel over Ethernet (CoE) system that connects multiple FPGAs directly for OpenCL parallel programming. "Channel"' is one of the new extensions provided by the Intel OpenCL environment. They are ordinally used for intra-kernel communication inside an FPGA, but we extend them to external communication through the CoE system. In this paper, we introduce two benchmarks as demonstration of the CoE system. We achieved 29.77 Gbps in throughput (approximately 75% of the theoretical peak of 40Gbps) and 950 ns in latency on our system using the pingpong benchmark, which was implemented on Intel Arria10 FPGA. In addition, we evaluated the Himeno benchmark which is a sort of 3D-Computational Fluid Dynamics (CFD) on the system, and we achieved 23689MFLOPS with 4 FPGAs on a problem of size M. We also notice strong scalability, with a 3.93 times speedup compared to a single FPGA run, on the same problem size.

    DOI: 10.1109/IPDPSW.2019.00089

    researchmap

  • 宇宙輻射輸送コードにおけるOpenCLによるFPGA演算加速最適化 査読

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    情報処理学会論文誌コンピューティングシステム(ACS)   12 ( 3 )   64 - 75   2019年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    近年,High Performance Computing(HPC)におけるチャレンジの中の一つに,高い性能と低い消費電力を持つField Programmable Gate Array(FPGA)技術をどのようにして次世代のスーパーコンピュータに用いるかという問題がある.Graphics Processing Unit(GPU)がHPCにおけるアクセラレータとして最も広く用いられているが,均一な大量の並列計算が必要であり,これが性能上のボトルネックとなる場合がある.一方で,FPGAは再構成回路による柔軟さと効率さを持っており,様々な問題に適応できる可能性を持つ.しかしながら,ハードウェアの動作を記述することは複雑であり,アプリケーションの開発者がFPGA回路を実装することは容易ではない.近年のFPGAにおける開発環境の進歩により,OpenCL言語を用いた高位合成(HLS: High Level Synthesis)開発環境が一般的になってきている.我々のこれまでのOpenCLを用いたカーネル記述の経験より,FPGA向けにアプリケーション記述する際は“co-design”に基づくアグレッシブなプログラミング戦略が高い性能を達成するうえで必要であることが分かっている.本研究では,宇宙輻射輸送を解くプログラムで用いられているアルゴリズムであるAuthentic Radiation Transfer(ART)法をOpenCLで記述してFPGA向けに最適化を行う.OpenCLで記述されたアプリケーションに対してco-designに基づくFPGA向け最適化を適用し,CPU,GPU,FPGA間での性能比較を行った.マルチコアCPU実装と比べて最大4.9倍の高速化が達成され,GPU実装との比較ではGPUと同程度の性能を達成した.FPGA実装の性能はGPUと同程度であるが,FPGAの方が通信オーバヘッドはGPUと比べると小さく,並列計算を行う際の性能はGPUの性能を超えられると考えられることから,今後,並列FPGA計算の実装を行う予定である.

    researchmap

  • OpenCL対応FPGA間通信機能によるGPU・FPGA複合型演算加速

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 中道, 安祐未, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2019-HPC-170 ( 5 )   1 - 9   2019年7月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU,FPGA といった異なるハードウェアを搭載するシステム上では,各デバイスで実行される演算をどのようにプログラミングし,全デバイスを協調動作させるかが重要な課題となる.そこで本稿では,OpenCL コードから制御可能な FPGA 間通信技術と GPU-FPGA 間 DMA 転送技術を融合した,複数ノード上における GPU-FPGA 間連携子法を提案する.GPU-FPGA 間 DMA 転送は,GPU デバイスのグローバルメモリを PCIe アドレス空間にマップし,アドレスマップの結果をベースに OpenCL カーネル内で作成したディスクリプタを最終的に FPGA 内の PCIe DMA コントローラに書き込むことによって実現される.また,FPGA 間通信は,Verilog HDL で実装された Ethernet 通信を実行するハードウェアと,そのハードウェアの制御モジュール(OpenCL カーネル)を I/O Channel で接続することによって構成されているシステムで実現される.この提案手法を用いて,ノードを跨いだ GPU 同士の pingpong ベンチマークを実装し,それが正しく動作していることを認した.

    researchmap

  • GPU・FPGA複合演算加速による輻射流体シミュレーションコードARGOTの実装

    中道, 安祐未, 藤田, 典久, 小林, 諒平, 朴, 泰祐, 吉川, 耕司, 梅村, 雅之

    研究報告ハイパフォーマンスコンピューティング(HPC)   2019-HPC-170 ( 22 )   1 - 5   2019年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,高性能コンピューティング (HPC:High Performance Computing) の分野において,アクセラレータを搭載した大規模計算クラスタが主流の 1 つとなっている.アクセラレータには,主に Graphics Processing Unit (GPU) が用いられているが,HPC 分野では処理の柔軟性や電力効率の高さから Field Programmable Gate Array (FPGA) が注目されつつある.そこで,GPU が不得意な計算を FPGA に行わせる GPU+FPGA の複合システムにより実アプリケーションのさらなる高性能化を目指す.前回の発表では,GPUとFPGA の両方を搭載した計算機で GPU+FPGA のハイブリッドアクセラレーションを実現するプログラムの開発手法と環境について議論した.GPU・FPGA の両デバイスを協調する方法を確立したため,本研究では,その方法を用いて輻射流体シミュレーションコード ARGOT の実装を行う.従来は CPU・GPU を用いて高速化が行われていたが,アルゴリズムの特性より,本研究では FPGA を用いた方がより高速化できるアルゴリズムに対して OpenCL による実装を用いたソースコードを組み込んだ.実装にはまだ至ってはいないが,実装に対する議論を行う.

    researchmap

  • GPU-FPGA Heterogeneous Computing with OpenCL-Enabled Direct Memory Access 査読

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Nakamichi, Ayumi, Boku, Taisuke

    2019 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW)   489 - 498   2019年7月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    Field-programmable gate arrays (FPGAs) have garnered significant interest in research on high-performance computing because their computation and communication capabilities have drastically improved in recent years due to advances in semiconductor integration technologies that rely on Moore's Law. In addition to improving FPGA performance, toolchains for the development of FPGAs in OpenCL have been developed and offered by FPGA vendors that reduce the programming effort required. These improvements reveal the possibility of implementing a concept to enable on-the-fly offloading computation at which CPUs/GPUs perform poorly to FPGAs while performing low-latency data movement. We think that this concept is key to improving the performance of heterogeneous supercomputers using accelerators such as the GPU. In this paper, we propose an OpenCL-enabled data movement method to directly access the global memory of the GPU and show how to implement cooperative GPU-FPGA computation using it. The results of experiments show that our proposed method can achieve a latency of 0.59 μs and a data transfer rate as high as 7.0 GB/s between the GPU and the FPGA, thus confirming that it is effective at realizing high-performance cooperative GPU-FPGA computation.

    DOI: 10.1109/IPDPSW.2019.00090

    researchmap

  • GPU-FPGA協調計算を記述するためのプログラミング環境に関する研究

    綱島, 隆太, 小林, 諒平, 藤田, 典久, 中道, 安祐未, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2019-HPC-169 ( 10 )   1 - 9   2019年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,高性能コンピューティング (HPC : High Performance Computing) 分野におけるトップレベルのマシンには,アクセラレータを搭載した大規模計算クラスタが多く含まれている.高い演算性能とメモリバンド幅を有する Graphics Processing Unit (GPU) がアクセラレータとして主に用いられているが,条件分岐が頻出する処理や多数の演算コアが利用できないような並列性の小さい処理といった GPU の不得手する演算は依然として存在し,それが性能向上の妨げとなっている.このような問題に対し,任意の論理回路をプログラム可能な集積回路である Field Programmable Gate Array (FPGA) に,GPU が不得手とする処理を実行する回路を実装し,それを FPGA に適宜にオフロードすることによってアプリケーション全体の性能を向上させるアプローチを我々は試みている.しかしながら,GPU と FPGA の演算カーネルは,それぞれ CUDA と OpenCL といった異なるプログラミング言語で開発する必要があり,このようなマルチリンガルプログラミングは,ユーザーにとって多大な負担となる.そこで本研究では,GPU と FPGA が搭載された計算機システム上にて,両アクセラレータの統合的な制御を可能にする OpenACC を用いたプログラミング環境について検討する.本報告では,OpenACC により記述された別々の GPU 向け,FPGA 向けファイルをコンパイル時にリンクすることで両アクセラレータの連携が可能か検証を行った.その結果,OpenACC による記述のみで GPU-FPGA 協調計算が実現可能であることを確認した.

    J-GLOBAL

    researchmap

  • 高位設計と低位設計の違いとFPGA演算性能の関係について

    横野, 智也, 山口, 佳樹, 藤田, 典久, 小林, 諒平, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    情報処理学会第81回全国大会講演論文集   2019年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    FPGA1チップの回路規模が100 万システムゲートを超えた現在,その全ての動作を把握し,RTL(Register Transfer Level)設計により完全な最適化を達成するのは困難になりつつある.そこで,高位記述言語によるHLS(High Level Synthesis) 設計に注目が集まっている.Intel社のIntel SDK for OpenCL,Xilinx 社のVivado HLS およびSDAccel などHLS 設計・開発環境は整いつつある.ここで,データセンターのような多くのユーザが利用しかつ複数のFPGA が並列に動作する環境において,RTL設計のみを唯一の選択肢とし続けることはユーザビリティの点から現実的ではない.一方,高性能演算と言う観点で設計手法をみたとき,HLS 設計のみを選択肢とするのは,現時点では時期尚早と考えられる.そこで本論文では,HDL 設計とHLS 設計の現状を等距離から評価し議論することで,次世代のヘテロジニアス高性能計算およびそこにFPGA が存在する可能性について検討する.

    researchmap

  • GPU・FPGA混載ノードにおけるヘテロ演算加速プログラム環境に関する研究

    中道, 安祐未, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2019-HPC-168 ( 10 )   1 - 7   2019年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,高性能コンピューティング (HPC : High Performance Computing) の分野において,アクセラレータを搭載した大規模計算クラスタが主流の 1 つとなっている.アクセラレータには,主に Graphics Processing Unit (GPU) が用いられているが,HPC 分野では処理の柔軟性や電力効率の高さから Field Programmable Gate Array (FPGA) が注目されつつある.そこで,GPU が不得意な計算を FPGA に行わせる GPU + FPGA の複合システムにより実アプリケーションのさらなる高性能化を目指す.本研究では,GPU と FPGA の両方を搭載した計算機で GPU + FPGA のハイブリッドアクセラレーションを実現するプログラムの開発手法と環境について議論する.

    researchmap

  • 異デバイス間でのPCIe通信を実現するOpenCL対応FPGAモジュールの提案と検証

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐

    IEICE-RECONF2018-63   IEICE-118 ( 432 )   107 - 112   2019年1月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,高い演算性能とメモリバンド幅を有する GPU (Graphics Processing Unit) に演算通信性能に優れている FPGA (Field Programmable Gate Array) を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU,FPGA といった異なるハードウェアを搭載するシステム上では,各デバイスで実行される演算をどのようにプログラミングし,全デバイスを協調動作させるかが重要な課題となる.そこで本稿では,OpenCL コードから制御可能なデバイス間データ転送について提案する.GPU デバイスメモリの PCIe アドレスマッピング結果をベースに作成されたディスクリプタを FPGA に送信し,FPGA 内の PCIe DMA コントローラに書き込むことによって,GPU デバイスのグローバルメモリと FPGA デバイスの外部メモリ間で CPU を介さずにデータ転送を実現する.通信レイテンシと通信バンド幅の観点から提案手法を評価した結果,従来手法と比較して,通信レイテンシの面では最大 33.3 倍の性能差,通信バンド幅の面では最大 2.0 倍の性能差が確認された.

    researchmap

  • OpenCL-enabled high performance direct memory access for GPU-FPGA cooperative computation 査読

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke

    Proceedings of the HPC Asia 2019 Workshops   6 - 9   2019年1月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    Field programmable gate arrays (FPGAs) have gained attention in high-performance computing (HPC) research because their computation and communication capabilities have dramatically improved in recent years as a result of improvements to semiconductor integration technologies that depend on Moore's Law. In addition to FPGA performance improvements, OpenCL-based FPGA development toolchains have been developed and offered by FPGA vendors, which reduces the programming effort required as compared to the past. These improvements reveal the possibilities of realizing a concept to enable on-the-fly offloading computation at which CPUs/GPUs perform poorly to FPGAs while performing low-latency data movement. We think that this concept is one of the keys to more improve the performance of modern heterogeneous supercomputers using accelerators like GPUs. In this paper, we propose a high-performance GPU-FPGA data communication using OpenCL and Verilog HDL mixed programming in order to make both devices smoothly work together. OpenCL is used to program application algorithms and data movement control when Verilog HDL is used to implement low-level components for memory copies between the two devices. Experimental results using toy programs showed that our proposed method achieves a latency of 0.6 $\mu$s and as much as 6.9 GB/s between the GPU and the FPGA, thus confirming that the proposed method is effective at realizing the high-performance GPU-FPGA cooperative computation.

    DOI: 10.1145/3317576.3317581

    researchmap

  • OpenCLとVerilog HDLの混合記述によるGPU-FPGAデバイス間連携

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2018-HPC-167 ( 11 )   1 - 10   2018年12月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,高い演算性能とメモリバンド幅を有する GPU (Graphics Processing Unit) に演算通信性能に優れている FPGA (Field Programmable Gate Array) を連携させ,双方を相補的に利用する GPU - FPGA 複合システムに関する研究を進めている.GPU,FPGA といった異なるハードウェアを搭載するシステム上では,各デバイスで実行される演算をどのようにプログラミングし,全デバイスを協調動作させるかが重要な課題となる.そこで本稿では,GPU プログラミングと FPGA プログラミングの連携を効率的に行うためのデバイス間データ転送について提案する.GPU デバイスメモリの PCIe アドレスマッピング結果をベースに作成されたディスクリプタを FPGA に送信し,FPGA 内の PCIe DMA コントローラに書き込むことによって,GPU デバイスのグローバルメモリと FPGA デバイスの外部メモリ間で CPU を介さずにデータ転送を実現する.通信レイテンシと通信バンド幅の観点から提案手法を評価した結果,従来手法と比較して,通信レイテンシの面では最大で 83 倍の性能差,通信バンド幅の面では最大で 2.4 倍の性能差が確認された.

    researchmap

  • OpenCLによるFPGA上の演算と通信を融合した並列処理システムの実装及び性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2018-HPC-167 ( 9 )   1 - 9   2018年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,高性能計算の分野で再構成可能なハードウェアである Field Programmable Gate Array (FPGA) が次世代の演算加速装置として注目されている.FPGA を高性能計算で用いる際の障壁は開発の困難さであったが,高位合成手法の発展に伴いこの問題は解決しつつある.最新の FPGA は最大で 100 Gbps × 4 の通信性能を有しており,我々はその強力な通信性能に注目している.FPGA の絶対性能は他のアクセラレータよりも低いが,FPGA が持つ演算能力と通信能力を組み合わせることでより広い範囲の問題に FPGA が適用できると考えている.本研究の目的は,高位合成で記述された FPGA アプリケーションから通信機構を操作し並列処理システムを実現することである.通信のスループットやレイテンシだけでなく,姫野ベンチマークを用いた性能評価を行い,高位合成で記述した FPGA アプリケーションで並列計算が可能なことを示す.我々は FPGA 間で直接通信を行う環境として Channel over Ethernet (CoE) というシステムを開発しており,バンド幅は最大で 7.13 Gbps を達成し,4 バイト通信時のレイテンシは 980 ns であった.姫野ベンチマークで,問題サイズ M を 4 FPGA で実行する場合に 22659 MFLOPS の性能が得られ,4 FPGA 時に 1 FPGA 時と比べて 3.6 1倍という良好な Strong Scaling の結果が得られた.

    researchmap

  • FPGAによる宇宙輻射輸送シミュレーションの演算加速

    横野, 智也, 藤田, 典久, 山口, 佳樹, 大畠, 佑真, 小林, 諒平, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    IEICE-RECONF2018-25   118 ( 215 )   35 - 40   2018年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々はこれまで,アクセラレータ間を密結合し低レイテンシで通信を行うTCA(Tightly Coupled Accelerators) と呼ばれるアーキテクチャを提案し,FPGA(Field Programmable Gate Array) を用いたTCA 実装としてPEACH2(PCI Ecpress Adaptive Communication Hub Ver.2) の開発を行ってきた.これらの研究を基に現在,TCAの概念をより進めたアーキテクチャとしてAiS(Accelerators in Switch) というコンセプトの研究を進めている.AiSは通信機構の中にアプリケーションに特化した演算機構を組み込み,FPGA 内での演算機構と通信機構のより強い連携を実現する次世代の並列演算加速機構である.本稿では,AiS の実現に向けた評価として,宇宙輻射輸送シミュレーションであるARGOT (Accelerated Radiative transfer on Grids using Oct-Tree) の中で用いられるART (Authentic Radiation Transfer) 法を異なるFPGA(Xilinx/Intel) に実装し,その評価を行う.これは当該シミュレーションがGPU のような加速機構により高速化される部分とそうでない部分をほぼ等しく含んでいるため,GPU とは異なるアーキテクチャとの協調計算が求められるためである.ART 法をFPGA に実装した際,CPU と比較し両デバイスともに高速化を実現した.

    researchmap

  • GPU-FPGA複合システムにおけるデバイス間連携機構

    小林, 諒平, 阿部, 昂之, 藤田, 典久, 山口, 佳樹, 朴, 泰祐

    研究報告ハイパフォーマンスコンピューティング(HPC)   2018-HPC-165 ( 26 )   1 - 8   2018年7月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,高い演算性能とメモリバンド幅を有する GPU (Graphics Processing Unit) に演算通信性能に優れている FPGA (Field Programmable Gate Array) を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU,FPGA といった異なるハードウェアを搭載するシステム上では,各デバイスで実行される演算をどのようにプログラミングし,全デバイスを協調動作させるかが重要な課題となる.そこで本稿では,GPU プログラミングと FPGA プログラミングの連携を効率的に行うためのデバイス間データ転送について提案する.GPU デバイスメモリの PCIe アドレスマッピング結果をベースに作成されたディスクリプタを FPGA に送信し,FPGA 内の PCIe DMA コントローラに書き込むことによって,GPU デバイスのグローバルメモリと FPGA デバイスの内蔵メモリ間で CPU を介さずにデータ転送を実現する.通信レイテンシと通信バンド幅の観点から提案手法を評価した結果,従来手法と比較して,通信レイテンシの面では最大で 8.4 倍の性能差,通信バンド幅の面では最大で 3.7 倍の性能差が確認された.

    researchmap

  • 並列FPGAシステムにおけるOpenCLを用いた宇宙輻射輸送コードの演算加速

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    研究報告ハイパフォーマンスコンピューティング(HPC)   2018-HPC-165 ( 27 )   1 - 8   2018年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年注目されている High Performance Computing (HPC) における挑戦の一つに,どのようにして Field Programable Gate Array (FPGA) 技術を用いて,高い性能と低い低消費電力を次世代スーパーコンピュータシステムで達成するかというものがある.従来手法ではソフトウェアの開発者が Hardware Description Language (HDL) を用いて FPGA 回路を開発することは困難であったが,近年の FPGA における開発環境の進歩により,高位合成の利用が一般的になりつつあり,HDL の記述なしに FPGA 開発が可能になりつつある.本研究では,初期宇宙の研究に重要な輻射輸送を解くプログラム Accelerated Radiative transfer on Grids using Oct-Tree (ARGOT) で用いられているアルゴリズムである Authentic Radiation Transfer (ART) 法を OpenCL で記述して FPGA 向けに最適化を行い,また,今後の展望として,ART 法の計算をどのようにして複数 FPGA で並列計算を行うかについて述べる.これまでの研究では,FPGA 内の Block RAM (BRAM) に収まる大きさの問題しか解けず,ARGOT で実際に計算したい問題サイズに対応できなかったが,大容量の DDR メモリを併用することで実用的な問題サイズを FPGA で解けるようになった.CPU,GPU,FPGA 間での性能比較を行い,CPU と比べて 6.9 倍の高速化が達成され,GPU との比較では GPU と同程度の性能を達成した.FPGA 実装の性能は GPU と同程度であるが,自ら通信機構を操作できる FPGA の方が通信オーバーヘッドは GPU と比べると小さく,並列計算を行う際の性能は GPU の性能を超えられると考えられ,今後,並列 FPGA 計算の実装を行う予定である.

    researchmap

  • Accelerating Space Radiative Transfer on FPGA using OpenCL 査読

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Oobata, Yuma, Boku, Taisuke, Abe, Makito, Yoshikawa, Kohji, Umemura, Masayuki

    HEART 2018 Proceedings of the 9th International Symposium on Highly-Efficient Accelerators and Reconfigurable Technologies Article No. 6   6:1 - 6:7   2018年6月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ACM  

    One of the recent challenges faced by High-Performance Computing (HPC) is how to apply Field-Programmable Gate Array (FPGA) technology to accelerate a next-generation supercomputer as an efficient method of achieving high performance and low power consumption. Graphics Processing Unit (GPU) is the most commonly used accelerator for HPC supported by regularly executed high degree of parallel operations which causes performance bottleneck in some cases. On the other hand, there are great opportunities to flexibly and efficiently utilize FPGAs in logic circuits to fit various computing situations. However, it is not easy for application developers to implement FPGA logic circuits for their applications and algorithms, which generally require complicated hardware logic descriptions. Because of the progress made in the FPGA development environment in recent years, the High-Level Synthesis (HLS) development environment using the OpenCL language has become popular. Based on our experience describing kernels using OpenCL, we found that a more aggressive programming strategy is necessary to realize true high performance based on a "codesign" concept to implement the necessary features and operations to fit the target application in an FPGA design. In this paper, we optimize the Authentic Radiation Transfer (ART) method on an FPGA using OpenCL. We also discuss a method to parallelize its computation in an FPGA and a method to optimize the OpenCL code on FPGAs. Using a codesigned method for the optimized programming of a specific application with OpenCL for an FPGA, we achieved a performance that is 6.9 times faster than that of a CPU implementation using OpenMP, and almost the same performance as a GPU implementation using CUDA. The ART code should work on a larger configuration with multiple FPGAs requiring interconnections between them. Considering the current advanced FPGAs with interconnection features, we believe that their parallelized implementation with multiple FPGAs will achieve a higher performance than GPU.

    DOI: 10.1145/3241793.3241799

    CiNii Research

    researchmap

  • 複数のFPGAによる分散ソーティングの実現に向けた予備評価

    小林, 諒平, 藤田, 典久, 大畠, 佑真, 山口, 佳樹, 朴, 泰祐

    電子情報通信学会技術研究報告 : 信学技報   118 ( 63 )   65 - 70   2018年5月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)   出版者・発行元:電子情報通信学会  

    researchmap

  • ArchHDL: A novel hardware RTL modeling and high-speed simulation environment 査読

    Shimpei Sato, Ryohei Kobayashi, Kenji Kise

    IEICE Transactions on Information and Systems   E101D ( 2 )   344 - 353   2018年2月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Institute of Electronics, Information and Communication, Engineers, IEICE  

    DOI: 10.1587/transinf.2017RCP0012

    Scopus

    researchmap

  • 宇宙輻射輸送計算におけるHDL設計とOpenCL設計の比較

    横野, 智也, 藤田, 典久, 山口, 佳樹, 大畠, 佑真, 小林, 諒平, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)   2018-HPC-163 ( 24 )   1 - 8   2018年2月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    半導体の高集積化は,FPGA の大規模化 ・ 高機能化 ・ 低価格化をもたらし,組み込みシステム用途だけでなく高性能計算用途においても導入が検討されるようになった.しかし,FPGA 開発はハードウェア記述言語 (HDL : Hardware Description Language) による設計が主流であり,FPGA の利用可能性は開発の困難さによって大きく制約を受けている.FPGA の高性能計算応用を考えたとき,C 言語や OpenCL 言語を初めとする高位記述による設計が考えられるが,開発効率などの定性的な議論はあるものの,演算性能を定量的に比較した報告は少ない.そこで本論文では,宇宙輻射輸送計算をベンチマークに,高位記述設計 (OpenCL 言語による HLS 設計) と低位記述設計 (Verilog HDL による RTL 設計) とを比較し,高性能計算応用からみた FPGA の利用可能性と演算性能について議論する.具体的には,原始銀河形成シミュレーションにおいて再結合光子の輻射輸送を解く ART (Authentic Radiation Transfer) 法を FPGA に実装し,その演算性能について比較を行った.細かな演算回路の調整や外部インタフェースを含むシステムとしての設計を除くと,XILINX 社と Intel 社という利用デバイスの違いがあるものの,記述方法によらず同程度の性能を得ることができることを確認できた.

    researchmap

  • OpenCL-ready high speed FPGA network for reconfigurable high performance computing 査読

    Ryohei Kobayashi, Yuma Oobata, Norihisa Fujita, Yoshiki Yamaguchi, Taisuke Boku

    ACM International Conference Proceeding Series   192 - 201   2018年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    DOI: 10.1145/3149457.3149479

    Scopus

    researchmap

  • OpenCLを用いたFPGAによる宇宙輻射輸送シミュレーションの演算加速

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 大畠, 佑真, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)   2017-HPC-161 ( 12 )   1 - 9   2017年9月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々はこれまで,アクセラレータ間を密結合し低レイテンシで通信を行う TCA (Tightly Coupled Accelerators) と呼ばれるアーキテクチャを提案し,FPGA (Field Programmable Gate Array) を用いた TCA 実装として PEACH2 (PCI Express Adaptive Communication Hub Ver. 2) の開発を行ってきた.これらの研究を基に現在,TCA の概念をより進めたアーキテクチャとして AiS (Accelerators in Switch) というコンセプトの研究を進めている.AiS は通信機構の中にアプリケーションに特化した演算機構を組み込み,FPGA 内での演算機構と通信機構のより強い連携を実現する次世代の並列演算加速機構である.これまでにも PEACH 2 に対して演算機構を組み込む研究は行われてきたが,PEACH 2 は Verilog HDL (Hardware Description Language) によって全体が記述されており,AiS における演算部についても Verilog HDL を用いて記述しなければならず,開発コストが高く,FPGA の専門家でなければその開発ができないという問題があった.近年の FPGA 開発環境の進歩により,より一般的な環境で AiS を実現できるようになり,さらに通信性能についても 40 Gbps,100 Gbps といった高速な通信機構を扱え,また,ソフトウェアで用いられている言語から回路を合成する高位合成と呼ばれる技術が普及してきた.Intel FPGA では OpenCL を用いた高位合成処理系があり,OpenCL 言語からの回路の生成だけでなく,OpenCL API を用いた FPGA の制御が可能となるが,CPU や GPU 向けに記述 ・ 最適化された OpenCL コードをそのまま用いても性能がでないことがわかっており,FPGA 向けの最適化をどう行うかが課題となる.本稿では Intel FPGA 向け高位合成開発環境である Intel FPGA SDK for OpenCL を用いて,宇宙輻射輸送シミュレーションコード ARGOT の中で用いられている ART 法を FPGA 向けに最適化を行う.ART 法を FPGA に実装するにあたって,どのように FPGA 内部で並列演算を行うか,どのような FPGA 向け最適化を行うかについて述べる.Intel Arria 10 FPGA を用いて性能評価を行い,CPU 実装と比べて 14.6 倍の高速化が得られ,その実装は 63 % の回路リソースを利用し動作周波数は 236.11 MHz であった.

    researchmap

  • OpenCLとVerilog HDLの混合記述によるFPGA間Ethernet接続

    大畠, 佑真, 小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐

    情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)   2017年7月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    researchmap

  • A High Performance FPGA-Based Sorting Accelerator with a Data Compression Mechanism 査読

    Ryohei Kobayashi, Kenji Kise

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E100D ( 5 )   1003 - 1015   2017年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.1587/transinf.2016EDP7383

    Web of Science

    researchmap

  • 高位合成によるFPGAの高性能計算へ適用 査読

    大畠, 佑真, 藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集   2017年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    researchmap

  • OpenCLとVerilog HDLの混合記述によるFPGAプログラミング

    藤田, 典久, 大畠, 佑真, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)   2017-HPC-158 ( 16 )   1 - 9   2017年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は GPU に代表されるアクセラレータを持つ PC クラスタにおいて,アクセラレータ同士のノード間通信性能を向上させる機構として,TCA (Tightly Coupled Accelerators) と呼ばれるコンセプトを提案してきた.また,そのプロトタイプ実装を FPGA (Field Programmable Gate Array) を用いて行うことにより,演算加速と通信の融合だけでなく,アプリケーションに特化した演算機能を通信機構内に組み込むという新コンセプトとして Accelerator in Switch を提唱している.近年,FPGA のハードウェアおよび開発環境の進歩により,より一般的な環境で Accelerator in Switch を実現できるようになってきた.ハードウェア面では 40Gb / 100Gb Ethernet のような高速な外部リンクが搭載され,また FPGA 開発に用いられる言語として C 言語,C++ 言語,OpenCL 言語などを利用可能な,高位合成と呼ばれる手法が広まりつつある.これらの背景の下,Accelerator in Switch をアプリケーションユーザにまで広める環境が固まりつつある.本稿では,Accelerator in Switch において,OpenCL では記述できない機能を補完するために Verilog HDL 記述を平行して用い,OpenCL と Verilog HDL を併用してプログラミングする方法について検討を行う.通信機構などの外部ペリフェラルと OpenCL を接続する方法の検討や,メモリアクセスやコアとなる演算を Verilog HDL で代替し,ライブラリすることで,より高性能 ・ 高効率な回路実装を目指す.一例として,内積計算をライブラリ化したところ,混合記述を行ったプログラムで理論ピーク性能の約 90% の実効性能を達成し,OpenCL のみで記述したプログラムの性能を上回った.また,外部ペリフェラルの操作として,ボード上に搭載されているハードウェアの制御を OpenCL から行えることを確認した.

    researchmap

  • A High-speed Verilog HDL Simulation Method using a Lightweight Translator 査読

    Kobayashi, Ryohei, Misono, Tomohiro, Kise, Kenji

    ACM SIGARCH Computer Architecture News - HEART '16   44 ( 4 )   26 - 31   2016年9月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Designing with Hardware Description Languages (HDLs) is still the de facto standard way to develop FPGA-based custom computing systems, and RTL simulation is an important step in ensuring that the designed hardware behavior meets the design specification. In this paper, we propose a new high-speed Verilog HDL simulation method. It is based on two previously proposed techniques: ArchHDL and Pyverilog. ArchHDL is used as a simulation engine in the method because the RTL simulation provided by ArchHDL can be parallelized with OpenMP. We use Pyverilog to develop a code translator to convert Verilog HDL source code into ArchHDL code, and due to this, the translator can be realized and its implementation is lightweight. We compare the proposed method with Synopsys VCS, and the experimental results show that the RTL simulation behavior and speed are same as that of Synopsys VCS and up to 5.8x better respectively.

    DOI: 10.1145/3039902.3039908

    researchmap

  • Effective Parallel Simulation of ArchHDL under Manycore Environment 査読

    Tomohiro Misono, Ryohei Kobayashi, Shimpei Sato, Kenji Kise

    Proceedings - 2015 3rd International Symposium on Computing and Networking, CANDAR 2015   140 - 146   2016年3月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Institute of Electrical and Electronics Engineers Inc.  

    DOI: 10.1109/CANDAR.2015.93

    Scopus

    researchmap

  • 世界最速のFPGAソーティングアクセラレータの初期検討

    臼井, 琢真, 眞下, 達, 松田, 裕貴, 小林, 諒平, 吉瀬, 謙二

    第78回全国大会講演論文集   2016 ( 1 )   149 - 150   2016年3月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    ソーティングはデータベース,画像処理,データ圧縮といった様々なアプリケーションに使用されている非常に重要な計算カーネルである.このため様々な高速化手法が提案されており,中にはFPGAを用いたものが存在する.FPGAはユーザーが自由に内部構成を設計できるLSIであるため,アプリケーションに特化した演算回路やデータ供給機構を実装することにより,CPUやGPUと比較して高い演算性能を持つアクセラレータを作成できる可能性を持つ.本稿では,FPGAを用いた世界最速のソーティングアクセラレータの実現に向けたアプローチを検討する.

    researchmap

  • Frix: Feasible and Reconfigurable IBM PC Compatible SoC

    Matsuda, Yuki, Ogawa, Eri, Misono, Tomohiro, Kobayashi, Ryohei, Kise, Kenji

    第78回全国大会講演論文集   2016 ( 1 )   151 - 152   2016年3月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    In order to develop high performance computer systems effectively, environments to evaluate architectural ideas are required.In these purpose, software based simulators are often used, but they have disadvantage of slow simulation speed.In order to achieve fast simulation speed, hardware environments are desired. We propose Frix (Feasible and Reconfigurable IBM PC Compatible SoC), which is an FPGA-based evaluation environment with an x86 soft processor.Frix can boot general purpose operating systems, FreeDOS and TinyCore.The source code of Frix is written in Verilog HDL, and released as open-source.In this paper, we detail the design of Frix and show how to use Frix for research and education.

    researchmap

  • SSDの並列性を引き出すI/Oスケジューラ

    奥村, 開里, 小林, 諒平, 吉瀬, 謙二

    研究報告システムソフトウェアとオペレーティング・システム(OS)   2015-OS-135 ( 14 )   1 - 8   2015年11月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,Solid State Drive(SSD) は個人用のパソコンのみならず,クラウドストレージ,データセンターなどといった幅広い範囲で使われ始めている.SSD は性能向上のために,複数チャンネル,またチャンネル毎に存在する複数のチップによって I/O の並列処理を行い性能を向上させているが,それらを考慮した SSD 用のスケジューラは OS 側に組み込まれていない.そのため本稿では,SSD の並列性を抽出することにより,レイテンシの低減,及びスループットの向上を目的とする Alleviate Conflict(AC) スケジューラを提案する.Linux に提案するスケジューラを実装し,SSD に対する様々な I/O リクエストパターンを用いて,SSD の帯域幅とレイテンシを評価した.その結果,Web サーバに近い I/O アクセスパターンにおいては,提案した I/O スケジューラは,Linux カーネルで標準的に使用されている Noop スケジューラ,Deadline スケジューラ,CFQ スケジューラそれぞれと比較し,Noop スケジューラからは帯域幅 4%の向上,レイテンシは 15%の低減,Deadline スケジューラからは帯域幅 7%の向上,レイテンシは 7%の低減,CFQ スケジューラからは帯域幅 34%の向上,レイテンシは 40%の低減を達成した.

    researchmap

  • FPGAを用いた世界最速のソーティングハードウェアの実現に向けた試み

    小林, 諒平, 吉瀬, 謙二

    IEICE-RECONF2015-12   115 ( 109 )   65 - 70   2015年6月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    ソーティングはデータベース,画像処理,データ圧縮といった様々なアプリケーションで必要とされる非常に重要な計算カーネルであり,FPGAを用いた様々な高速化の手法が研究されている.FPGAを用いたアクセラレータは,アプリケーションに特化した演算パイプラインとデータ供給機構を実現する回路をFPGA上に実装することにより,CPUやGPUと比較して高い演算性能を達成できる.本稿では,FPGAを用いた世界最速のソーティングハードウェアの実現に向けたアプローチを紹介し,関連研究と比較して我々の現状のシステムの位置づけを議論する.そしてソーティングハードウェアの高速化手法と性能モデルから,関連研究のシステムの約半分のハードウェア量でほぼ同等の性能を達成できる構成を導き出した.

    researchmap

  • FPGAベースのソーティングアクセラレータの設計と実装

    小林, 諒平, 吉瀬, 謙二

    IEICE-CPSY2015-5   115 ( 7 )   25 - 30   2015年4月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    ソーティングはデータベース,画像処理,データ圧縮といった様々なアプリケーションで必要とされる,非常に重要な計算カーネルであり,様々な高速化の手法が研究されている.我々は,FPGAを用いて高速にソーティングを実行するアクセラレータを提案する.FPGAを用いたアクセラレータは,アプリケーションに特化した演算パイプラインとデータ供給機構を実現する回路をFPGA上に実装することにより,CPUやGPUと比較して高い演算性能を達成できる.提案するFPGAアクセラレータはソーティングネットワーク,マージソートツリーという2つの手法を採用している.本稿では,提案したソーティングアクセラレータの設計と実装について詳細に述べる.提案したハードウェアを評価したところ,3.4GHzで動作するIntel Core i7-4770と比較して最大10.06倍の高速化を達成した.

    researchmap

  • Ultra High-speed FPGA Accelerator for Sorting Application

    Kobayashi, Ryohei, Kise, Kenji

    第77回全国大会講演論文集   2015 ( 1 )   25 - 26   2015年3月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    FPGA accelerators can obtain higher computation performance and better power efficiency than CPUs and GPUs, because designers can implement circuits that realize application-specific pipelined hardware and data supply system. In this paper, we propose an approach of sorting acceleration by using a large FPGA. Sorting is an extremely important computation kernel that has been tried to be accelerated in lots of fields. We design and implement the proposed FPGA accelerator, and then evaluate its performance by comparing with a modern desktop computer. From this evaluation, we show how sorting is accelerated.

    researchmap

  • USB3.0接続の手軽で高速なFPGAアクセラレータの設計と実装

    臼井, 琢真, 小林, 諒平, 吉瀬, 謙二

    IEICE-RECONF2014-78   114 ( 428 )   205 - 210   2015年1月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    FPGAを用いたアクセラレータは,アプリケーションに特化した演算パイプラインとデータ供給機構を実現する回路をFPGA上に実装することにより,CPUやGPUと比較して高い演算能力や電力効率を達成できる.本稿では, 汎用性が高く高速なインターフェイスであるUSB3.0を採用した,手軽で高速なFPGAアクセラレータを提案する.FPGAで高速化させる実用的なアプリケーションとしてソーティングを選択し,高速にソーティングできるFPGAアクセラレータの設計と実装を行った.提案するFPGAアクセラレータのポータビリティを示すために,デスクトップPCやラップトップPCといった様々な計算機環境で評価した.その結果,提案するFPGAアクセラレータは,3.5GHzで動作するIntel Corei7-3770K,1.83GHzで動作するIntel Corei3-4010Uと比較してそれぞれ1.28倍,2.60倍のソーティングの速度向上を達成し、提案するFPGAアクセラレータは高いポータビリティを有していることを示した.

    researchmap

  • Reconfigurable IBM PC Compatible SoC for Computer Architecture Education and Research 査読

    Eri Ogawa, Yuki Matsuda, Tomohiro Misono, Ryohei Kobayashi, Kenji Kise

    2015 IEEE 9TH INTERNATIONAL SYMPOSIUM ON EMBEDDED MULTICORE/MANYCORE SYSTEMS-ON-CHIP (MCSOC)   65 - 72   2015年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/MCSoC.2015.35

    Web of Science

    researchmap

  • FACE: Fast and Customizable Sorting Accelerator for Heterogeneous Many-core Systems 査読

    Ryohei Kobayashi, Kenji Kise

    2015 IEEE 9TH INTERNATIONAL SYMPOSIUM ON EMBEDDED MULTICORE/MANYCORE SYSTEMS-ON-CHIP (MCSOC)   49 - 56   2015年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/MCSoC.2015.40

    Web of Science

    researchmap

  • A challenge of portable and high-speed FPGA accelerator 査読

    Takuma Usui, Ryohei Kobayashi, Kenji Kise

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   9040   383 - 392   2015年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer Verlag  

    DOI: 10.1007/978-3-319-16214-0_34

    Scopus

    researchmap

  • 3bOS: A flexible and lightweight embedded OS operated using only 3 buttons 査読 国際共著

    ImmanuelV, Encarnacion, Kobayashi, Ryohei, Kise, Kenji

    組込みシステムシンポジウム2014論文集   2014   126 - 131   2014年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    An embedded system we developed, the MieruEMB system, is used as an educational kit for learning implementation skills and knowledge regarding embedded systems. In this paper we present 3bOS, a simple and easily customizable embedded OS, running on the MieruEMB system. 3bOS comes with a three-button interface and a built-in file explorer for FAT file systems. 3bOS is capable of running ELF executables, providing approximately 400 KB of memory for an application. It can also support basic graphics functions. This embedded OS is written in C, and just consists of around 800 lines of the code. Because of its simplicity, users can easily understand how this embedded OS runs on the MieruEMB system, and can easily modify this embedded OS if they want. We show the design, the implementation, and the features of 3bOS, and conclude that 3bOS is usable for educational purposes.

    researchmap

  • FPGAの消費電力を削減するHDLコーディング手法の検討

    Kobayashi, Ryohei, Kise, Kenji

    第76回全国大会講演論文集   2014 ( 1 )   25 - 26   2014年3月

     詳細を見る

    担当区分:責任著者   記述言語:英語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    The advantages of using FPGAs (Field Programmable Gate Arrays) are to change design easily, low respin costs and speeding up development time. However to get these benefits, the FPGA has disadvantages: higher power consumption, larger silicon areas and lower operating speeds compared with the ASIC. In particular, higher power consumption not only requires higher packaging costs, shortens chip life-times, expensive cooling systems, but also decreases system reliability. Therefore, it is truly important to reduce FPGA s power consumption. In this paper, we compare HDL (Hardware Description Language) coding styles, which have already been proposed to reduce power consumption for FPGAs, and seek a more effective way than those.

    researchmap

  • 多数の小容量FPGAを用いたスケーラブルなステンシル計算機 査読

    小林, 諒平, 吉瀬, 謙二

    情報処理学会論文誌コンピューティングシステム(ACS)   6 ( 4 )   1 - 13   2013年10月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    ステンシル計算は科学技術計算における重要な計算カーネルの1つであり,地震シミュレーション,デジタル信号処理,流体計算など様々な分野で利用されている.我々は,多数の小容量FPGAを用いて2次元ステンシル計算を効率的に実行するアーキテクチャを提案・実装した.このシステム開発は段階的に行った.まず,複数FPGAノードのステンシル計算の挙動を模倣するサイクルアキュレートなソフトウェアシミュレータをC++で開発した.そのシミュレータをベースにして演算回路をVerilog HDLで記述し,FPGAアレーに実装した.実装した回路は正常に動作し,演算性能,スケーラビリティ,電力消費の評価から,アーキテクチャの正当性を示すことができた.100ノードのFPGAアレーの電力量あたりの演算性能は約0.6GFlop/sWであり,一般的なGPUと比較して,約3.8倍の電力効率を達成した.

    researchmap

  • 多数の小容量FPGAを用いたスケーラブルなステンシル計算機の開発 査読

    小林, 諒平, 高前田(山崎), 伸也, 吉瀬, 謙二

    先進的計算基盤システムシンポジウム論文集   2013   179 - 187   2013年5月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    ステンシル計算は科学技術計算において重要な計算カーネルの1つであり,地震シミュレーション,デジタル信号処理,流体計算など様々な分野で利用されている.我々は,2次元ステンシル計算を効率的に実行するアーキテクチャを提案し,複数の小容量FPGAを用いて提案アーキテクチャを実装した.システムは段階的に開発を行った.まず,複数のFPGAノード上でステンシル計算を実行するサイクルアキュレートなソフトウェアシミュレータを開発した.そのシミュレータをもとに,演算回路をVerilog HDLで記述し,演算回路をFPGAアレー上に実装した.実装した回路は正常に動作し,演算性能,スケーラビリティ,電力消費の評価から,アーキテクチャの正当性を示すことができた.100ノードFPGAアレーの電力量あたりの演算性能は約0.6GFlop/sWであり,一般的なGPUと比較して,約3.8倍の電力効率が得られた.

    researchmap

  • Design of Synchronization Mechanism to Conquer the Clock Oscillator Variation for High Performance Stencil Computation Accelerator

    Kobayashi, Ryohei, Takamaeda-Yamazaki, Shinya, Kise, Kenji

    第75回全国大会講演論文集   2013 ( 1 )   133 - 134   2013年3月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    Stencil computation is one of the typical scientific computing kernels. It is applied diverse areas as Earthquake simulation, seismic imaging for the oil and gas exploration industry. We have proposed the effective stencil computation method and the architecture by employing multiple small FPGAs with 2Dmech topology. However, as we implemented stencil computation accelerator, we realized that the accelerator does not stable operate because clock oscillator variation occurs. This variation occurs because each FPGA node which composes the accelerator has unique clock domain. In this paper, we evaluate clock oscillator variation quantitatively and describe design of synchronization mechanism to conquer the variation to operate the accelerator successfully.

    CiNii Books

    researchmap

  • メッシュ接続FPGAアレーを用いた高性能ステンシル計算機の設計と実装

    小林, 諒平, 高前田(山崎), 伸也, 吉瀬, 謙二

    IEICE-RECONF2012-88   112 ( 377 )   159 - 164   2013年1月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    我々は,多数のFPGAを用いたステンシル計算のアクセラレータを開発しており,小容量のFPGAを複数2次元メッシュ状に接続したシステムアーキテクチャを採用している.システムの実装を進めるにつれて,FPGAノード数を増加させた場合に,システムが正しい計算結果を出力しない不具合が発見された.その原因として,各FPGAノードのクロック周期のばらつきが挙げられる.本稿では,各FPGAノードのクロック周期のずれを定量的に評価し,ステンシル計算機を長時間,安定して動作させるための機構の設計とその実装について述べる.

    researchmap

  • メッシュ接続FPGAアレーにおける高性能ステンシル計算 査読

    小林, 諒平, 佐野, 伸太郎, 高前田(山崎), 伸也, 吉瀬, 謙二

    先進的計算基盤システムシンポジウム論文集   2012   142 - 149   2012年5月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    FPGAは高い性能を達成するカスタムのハードウェアアクセラレータを容易に構築する事を可能にする注目すべきデバイスである.本稿では,科学技術計算において重要な計算カーネルの1つであるステンシル計算のための,多数の小規模FPGAを用いたスケーラブルな計算手法を提案する.本稿では2Dメッシュ型に接続された複数のFPGAで構成されるステンシル計算システムのアーキテクチャとその初期実装について述べる.隣接するFPGA間の通信オーバーヘッドを削減するために各FPGAにおける計算順序を調整することで,高い通信と計算のオーバーラップ率を実現する.まず,単一FPGAの性能を評価したところ,0.16GHzで動作する場合には2.37Wの消費電力で2.24GFlop/sの性能を達成することを確認した.また1個のFPGAの結果を元に,256個のFPGAで構成するシステムの性能および電力あたりの性能を見積もったところ,全体で573GFlop/sの性能を0.94GFlop/sWの電力あたりの性能で実現できることがわかった.

    researchmap

  • メッシュ接続FPGAアレーにおけるステンシル計算の検討

    小林, 諒平, 佐野, 伸太郎, 高前田(山崎), 伸也, 吉瀬, 謙二

    第74回全国大会講演論文集   2012 ( 1 )   107 - 108   2012年3月

     詳細を見る

    担当区分:責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    近年,FPGAの有する専用のハードウェアを柔軟に構成できるという性質から,FPGAを科学計算のアクセラレータとして用いる研究が盛んに行われている.本研究ではメッシュ接続のFPGAアレーを用いて,科学技術計算において重要な計算カーネルの一つであるステンシル計算に対する検討を行った.

    researchmap

  • Towards a Low-Power Accelerator of Many FPGAs for Stencil Computations 査読

    Ryohei Kobayashi, Shinya Takamaeda-Yamazaki, Kenji Kise

    2012 THIRD INTERNATIONAL CONFERENCE ON NETWORKING AND COMPUTING (ICNC 2012)   343 - 349   2012年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/ICNC.2012.67

    Web of Science

    researchmap

▼全件表示

書籍等出版物

  • Interface 2017年2月号 緊急特集 本家ARMのIoTワールド入門

    Kobayashi,Ryohei( 担当: 分担執筆 範囲: 計算力時代到来...スパコン技術研究コーナ ソート専用コンピュータ最前線)

    CQ出版社  2017年2月 

     詳細を見る

    記述言語:日本語   著書種別:学術書

    researchmap

  • Interface 2016年12月号 IoT&スパコン!ラズパイ時代の自分用コンピュータ作り

    Kobayashi,Ryohei( 担当: 分担執筆 範囲: 第6章 ビッグデータ時代にますます重要!ハードウェア・データ処理に挑戦)

    CQ出版社  2016年12月 

     詳細を見る

    記述言語:日本語   著書種別:学術書

    researchmap

  • Interface 2016年12月号 IoT&スパコン!ラズパイ時代の自分用コンピュータ作り

    Kobayashi,Ryohei( 担当: 分担執筆 範囲: 第6章 Appendix 2 基本演算の高速化が重要!ハードウェア並列ソート・アルゴリズム)

    CQ出版社  2016年12月 

     詳細を見る

    記述言語:日本語   著書種別:学術書

    researchmap

講演・口頭発表等

  • これからのHPC研究に向けて 招待

    小林 諒平

    第201回ハイパフォーマンスコンピューティング研究発表会  2025年9月  情報処理学会 ハイパフォーマンスコンピューティング(HPC)研究会

     詳細を見る

    開催年月日: 2025年9月

    記述言語:日本語   会議種別:シンポジウム・ワークショップ パネル(指名)  

    開催地:金沢商工会議所   国名:日本国  

    researchmap

  • 【SWEST/ACRi 共同企画セッション】FPGAが変えるスーパーコンピューティングの世界 招待

    小林 諒平

    第27回 組込みシステム技術に関するサマーワークショップ(SWEST27)  2025年8月  SWEST 実行委員会

     詳細を見る

    開催年月日: 2025年8月

    記述言語:日本語   会議種別:口頭発表(招待・特別)  

    開催地:下呂温泉 水明館   国名:日本国  

    やわらかいハードウェアとして知られるFPGAは,その何にでもなれる特性 (用途に応じて論理回路構成を柔軟に変更できるリコンフィギュラブル性) により,スーパーコンピュータをはじめとした高性能計算 (HPC: High performance computing) システムに搭載する演算加速装置 (アクセラレータ) としても活用されています.しかしFPGAはGPUやCPUとは異なるプログラミングモデルや演算性能・リソース制約があることから全てのアプリケーションに万能ではなく,アプリケーションの並列性や演算パターン,問題サイズの特性を見極め,最適なアクセラレータ選択と回路設計を行うことが重要です.本セッションでは,これまでの研究で得られた知見を基にアプリケーション特性に応じたFPGA導入の実践的手法を解説し,聴講者が自身のアプリケーションへのFPGA適用イメージを深められる場を提供します.

    researchmap

  • HPC研究の過去とこれから ーAI/量子時代のHPC研究ー 招待

    小林 諒平

    2025年並列/分散/協調処理に関するサマー・ワークショップ(SWoPP 2025)  2025年8月 

     詳細を見る

    開催年月日: 2025年8月

    記述言語:日本語   会議種別:シンポジウム・ワークショップ パネル(指名)  

    国名:日本国  

    本SWoPP2025において、HPC研究会は200回記念を迎えます。そこで、過去の研究会を振り返り、AI/量子時代に必要とされるHPC研究の展望をパネリストとともに議論します。特に若い世代が興味を持って担っていくHPC分野の課題について議論します。パネリストには、過去のHPC研究会関係者に加え、若い世代も招待して議論します。

    researchmap

  • CXLメモリプール実験システムの初期評価

    遠藤 敏夫, 坂本 龍一, 野村 哲弘, 小林 諒平, 大辻 弘貴, 加藤 純, 古藤 明音, 三輪 真弘

    第200回ハイパフォーマンスコンピューティング研究発表会(SWoPP2025)  2025年8月 

     詳細を見る

    開催年月日: 2025年8月

    記述言語:日本語   会議種別:口頭発表(一般)  

    国名:日本国  

    HPC・クラウドシステムでは,ノードごとに大容量メモリを固定割り当てするため,導入コストや消費電力の増大が深刻な課題となっている.その解決策の一つとして,Compute Express Link (CXL) 2.0規格に基づくメモリプールシステムが注目されており,それによって複数ノード間でメモリ資源を効率的に共有・柔軟に割り当てるアプローチが可能になる.本研究では,H3社製Falcon C5022モジュールを用いて1TiBのCXLメモリプールを構築し,Intel Granite Rapids CPU搭載サーバ上で実機性能評価を実施した.具体的には,Intel Memory Latency Checker v3.11によるメモリアクセスレイテンシ測定とSTREAMベンチマークによるバンド幅評価を行い,その結果をもとにCXLメモリプール技術の性能特性を定量的に明らかにした.最後に,得られた知見を踏まえ,CXLメモリプールの最適設計や運用に向けた実用的な指針について議論する.

    researchmap

  • Accelerating Deep Learning Inference with a Parallel FPGA System 国際会議

    HEART '25: Proceedings of the 15th International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies  2025年5月 

     詳細を見る

    開催年月日: 2025年5月

    記述言語:英語   会議種別:口頭発表(一般)  

    国名:日本国  

    Deep learning has experienced rapid growth in applications such as image recognition and natural language processing, resulting in increasingly complex models that require more processing power and energy. While GPUs are widely used for training due to their highly parallel computing power and wide memory bandwidth, FPGAs offer a compelling alternative for inference tasks where stable, low-latency performance is essential. FPGAs allow for fine-grained hardware tuning and dedicated pipeline implementations, which can be leveraged to build multi-FPGA systems that seamlessly fuse computation and communication for Convolutional Neural Network (CNN) acceleration. However, existing multi-FPGA approaches typically require advanced hardware knowledge and are often implemented as dedicated systems, creating significant barriers for general-purpose application developers accustomed to high-level programming environments such as MPI with the host CPU. In this study, we propose a multi-FPGA-based deep learning inference accelerator that operates at the OpenCL abstraction level, enabling software engineers without extensive hardware expertise to partition and deploy CNN models, such as ResNet-50, across multiple FPGAs. Our approach combines both model and data parallelism to achieve high throughput while maintaining controlled latency. Experimental results show that our design increases throughput by a factor of 12 with only a 1.9-fold increase in latency compared to a baseline. This work paves the way for more accessible FPGA-based acceleration solutions for deep learning inference in real-world applications.

    researchmap

  • イタレーションレベルApproximate Computing手法の提案と予備評価

    和田康孝, 小林諒平, 森江善之, 坂本龍一

    第199回ハイパフォーマンスコンピューティング研究発表会  2025年5月 

     詳細を見る

    開催年月日: 2025年5月

    記述言語:日本語   会議種別:口頭発表(一般)  

    演算精度を変更することにより,演算性能・消費電力・演算結果の正確さの間でトレードオフを最適化するApproximate Computing(AC)手法は,消費電力などの制約下において限界を超えた性能を得るために有望な手段の一つである.HPCアプリケーションのように演算精度に対して敏感なアプリケーションにおいてACの効果を得るためには,アプリケーション全体で統一した演算精度を用いるのではなく,アプリケーションの要素ごとに細粒度に演算精度を調整し,きめ細やかに最適化を施す必要がある.本稿では,HPCアプリケーションに特徴的な時間発展ループ等の構造を利用してACを適用するイタレーションレベルAC手法について述べ,その予備的な評価結果について紹介する.

    researchmap

  • Evaluation of Trade-off between Compression Ratio and Hardware Cost for Adaptive Bandwidth Compression Hardware Platform 国際会議

    Tomohiro Ueno, Kaito Kitazume, Masato Kiyama, Kazutomo Yoshii, Kento Sato, Norihisa Fujita, Ryohei Kobayashi, Taisuke Boku, Kentaro Sano

    IEEE Symposium on Low-Power and High-Speed Chips and Systems (COOL Chips 28)  2025年4月 

     詳細を見る

    開催年月日: 2025年4月

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • 高スループット非同期集団通信の性能モデル化に向けた予備評価

    森江善之, 和田康孝, 小林諒平, 坂本龍一, 南里豪志

    第198回ハイパフォーマンスコンピューティング・第14回量子ソフトウェア合同研究発表会  2025年3月 

     詳細を見る

    開催年月日: 2025年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    researchmap

  • 並列FPGA間通信フレームワークCIRCUSへのフロー制御の実装と評価

    北爪開人, 藤田典久, 小林諒平, 朴泰祐

    第198回ハイパフォーマンスコンピューティング・第14回量子ソフトウェア合同研究発表会  2025年3月 

     詳細を見る

    開催年月日: 2025年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    researchmap

  • GPU演算加速による一般相対論的輻射磁気流体シミュレーションコードの性能評価

    小林諒平, 高橋博之, 額田彰, 朝比奈雄太, 朴泰祐, 大須賀健

    第198回ハイパフォーマンスコンピューティング・第14回量子ソフトウェア合同研究発表会  2025年3月 

     詳細を見る

    開催年月日: 2025年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    researchmap

  • Accelerating General Relativistic Radiation Magnetohydrodynamic Simulations with GPUs 国際会議

    Ryohei Kobayashi, Hiroyuki R. Takahashi, Akira Nukada, Yuta Asahina, Taisuke Boku, Ken Ohsuga

    HPC Asia 2025: International Conference on High Performance Computing in Asia-Pacific Region  2025年2月 

     詳細を見る

    開催年月日: 2025年2月

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • 「富岳」Next時代のアクセラレータに向けた自動チューニング技術 招待

    小林 諒平

    第16回 自動チューニング技術の現状と応用に関するシンポジウム(ATTA2024)  2024年12月 

     詳細を見る

    開催年月日: 2024年12月

    記述言語:日本語   会議種別:シンポジウム・ワークショップ パネル(指名)  

    researchmap

  • Preliminary Evaluation of Kyokko for Inter-FPGA Communication Framework CIRCUS 国際会議

    Kaito Kitazume, Norihisa Fujita, Ryohei Kobayashi, Taisuke Boku

    IEEE Cluster 2024  2024年9月 

     詳細を見る

    開催年月日: 2024年9月

    記述言語:英語   会議種別:ポスター発表  

    researchmap

  • Preliminary Performance Evaluation of Grace-Hopper GH200 国際会議

    Toshihiro Hanawa, Kengo Nakajima, Yohei Miki, Takashi Shimokawabe, Kazuya Yamazaki, Shinji Sumimoto, Osamu Tatebe, Taisuke Boku, Daisuke Takahashi, Akira Nukada, Norihisa Fujita, Ryohei Kobayashi, Hiroto Tadano, Akira Naruse

    IEEE Cluster 2024  2024年9月 

     詳細を見る

    開催年月日: 2024年9月

    記述言語:英語   会議種別:ポスター発表  

    researchmap

  • Using SYCLomatic to Migrate CUDA Code to oneAPI Adapting NVIDIA GPU 国際会議

    Wentao Liang, Norihisa Fujita, Ryohei Kobayashi, Taisuke Boku

    IEEE Cluster 2024  2024年9月 

     詳細を見る

    開催年月日: 2024年9月

    記述言語:英語   会議種別:ポスター発表  

    researchmap

  • 適応型帯域圧縮ハードウェアプラットフォームのChisel実装と評価

    北爪開人, 上野知洋, 吉井一友, 木山真人, 藤田典久, 小林諒平, 佐野健太郎, 朴 泰祐

    2024年9月リコンフィギャラブルシステム研究会  2024年9月 

     詳細を見る

    開催年月日: 2024年9月

    記述言語:日本語   会議種別:口頭発表(一般)  

    researchmap

  • CHARM-SYCL & IRIS: A Tool Chain for Performance Portability on Extremely Heterogeneous Systems 国際会議

    Norihisa Fujita, Beau Johnston, Narasinga Rao Miniskar, Ryohei Kobayashi, Mohammad Alaul, Haque Monil, Keita Teranishi, Seyong Lee, Jeffrey S. Vetter, Taisuke Boku

    20th IEEE International Conference on e-Science 2024  2024年9月 

     詳細を見る

    開催年月日: 2024年9月

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • GPU・FPGA連携による高性能計算 招待

    小林, 諒平

    DAシンポジウム2024 −システムとLSIの設計技術−  2024年8月 

     詳細を見る

    開催年月日: 2024年8月

    記述言語:日本語   会議種別:口頭発表(招待・特別)  

    スーパーコンピュータに対する要求性能と利用可能な電力容量の制限,昨今の脱炭素化への動向などから,スーパーコンピュータの電力効率の向上は喫緊の課題であり,その解として演算加速装置(アクセラレータ)の利活用が高性能計算分野の主流となりつつある.現在最も多用されているアクセラレータは GPU(Graphics Processing Unit)であるが,これによる効率的な計算には極めて大量かつ均一性の高い空間並列性,均一なメモリアクセス,比較的少ない並列通信データ量など,様々な制約が存在するため,GPU だけではアプリケーションを十分に演算加速し切れない場合がある.そこで,GPU では非効率となる演算を加速させるハードウェアを FPGA(Field Programmable Gate Array)に実装し,GPU と FPGA の双方の計算デバイスを相補的に活用することによってアプリケーション全体の性能を向上させるアプローチをこれまで試みてきた.本講演では,GPU・FPGA 連携のためのデータ転送技術やプログラミングモデル,GPU と FPGA を併用することによる宇宙物理アプリケーションの高速化事例について紹介する.

    researchmap

  • Improving Performance on Replica-Exchange Molecular Dynamics Simulations by Optimizing GPU Core Utilization 国際会議

    Boku, Taisuke, Sugita, Masatake, Kobayashi, Ryohei, Furuya, Shinnosuke, Fujie, Takuya, Ohue, Masahito, Akiyama, Yutaka

    The 53rd International Conference on Parallel Processing (ICPP 2024)  2024年8月 

     詳細を見る

    開催年月日: 2024年8月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Gotland  

    While GPUs are the main players of the accelerating devices on high performance computing systems, their performance depends on how to utilize a numerous number of cores in parallel on each device. Typically, a loop structure with a number of iterations is assigned to a device to utilize their cores to map calculations in iterations so that there must be enough count of iterations to fill the thousands of GPU cores in the high-end GPUs. In the advanced GPU represented by NVIDIA H100, several techniques, such as Multi-Process Service (MPS) or Multi-Instance GPU (MIG), which divides GPU cores to be mapped to the multiple user processes, are provided to enhance the core utilization even in a case with a small degree of parallelism. We apply MPS to a practical Molecular Dynamics (MD) simulation with AMBER software for improving the efficiency of GPU core utilization to save the computation resources. The critical issue here is to analyze the core utilization and overhead when running multiple processes on a GPU device as well as the multi-GPU and multi-node parallel execution for overall performance improvement. In this paper, we introduce a method to apply MPS for AMBER to simulate the membrane permeation process of a drug candidate peptide by a two-dimensional replica-exchange method on an advanced supercomputer with NVIDIA H100. We applied several optimizations on parameter settings with NVIDIA H100 and V100 GPUs investigating their performance behavior. Finally, we found that the GPU core utilization improves up to twice compared with a simple process assignment method to maximize the GPU utilization efficiency.

    researchmap

  • GH200の予備性能評価

    塙, 敏博, 建部, 修見, 中島, 研吾, 朴, 泰祐, 三木, 洋平, 下川辺, 隆史, 山崎, 一哉, 住元, 真司, 高橋, 大介, 額田, 彰, 藤田, 典久, 小林, 諒平, 多田野, 寛人, 田浦, 健次朗, 細川, 颯介, 髙橋, 淳一郎, 成瀬, 彰

    第195回ハイパフォーマンスコンピューティング研究発表会(SWoPP2024)  2024年8月 

     詳細を見る

    開催年月日: 2024年8月

    記述言語:日本語   会議種別:口頭発表(一般)  

    最先端共同 HPC 基盤施設 (JCAHPC) では,2025 年 1 月に稼働開始する Miyabi の導入準備を進めている.1,120 ノードの Miyabi-G 計算ノードには,GH200 Grace-Hopper Superchip が搭載され,国内のスパコンとして初めて GH200 が導入される.本稿では,GH200実験 システムを用いて各種の予備性能評価を実施したので,その結果を報告する.

    researchmap

  • 多様な環境におけるマルチ・タスク・ミニベンチマークの評価とPerformance Portability

    藤田, 典久, Beau, Johnston, 小林, 諒平, Mohammad, Alaul, Haque Monil, Narasinga, Rao Miniskar, Keita, Teranishi, Seyong, Lee, Jeffrey, S. Vetter, 朴, 泰祐

    第195回ハイパフォーマンスコンピューティング研究発表会(SWoPP2024)  2024年8月 

     詳細を見る

    開催年月日: 2024年8月

    記述言語:日本語   会議種別:口頭発表(一般)  

    HPC システムの多様性が増してきているため,アプリケーションの可搬性は多様なシステムを利用する上で重要な課題となっている.本稿では,複数の演算加速装置を統一的に扱えるプログラミング環境である CHARM-SYCL をアプリケーションの可搬性を実現するための開発環境として提案する.CHARM-SYCL は単一のコードから複数の演算加速装置に対応するカーネルを生成できるのに加えて,ORNL で開発されている IRIS ライブラリをバックエンドとして利用できる.IRIS は高性能なスケジューラを持ち計算タスクを複数の演算加速装置上で実行でき,CHARM-SYCL と IRIS を組み合わせることで高いアプリケーションの可搬性を実現する.本稿では,モンテカルロ法シミュレーションのベンチマークコードに CHARM-SYCL 開発環境を適用し,提案するシステムによって高いアプリケーションの可搬性が実現できていることを示す.

    researchmap

  • 次世代スパコンに期待すること 招待

    小林, 諒平

    2024年並列/分散/協調処理に関するサマー・ワークショップ(SWoPP 2024)  2024年8月 

     詳細を見る

    開催年月日: 2024年8月

    記述言語:日本語   会議種別:シンポジウム・ワークショップ パネル(指名)  

    このBOFではHPC分野の若手の方に登壇いただき、日本のHPC業界のこれからを担う若手研究者から見た次世代スパコンのあるべき姿についてパネルディスカッションを行う。

    researchmap

  • Preliminary Evaluation of Flow Control on the Inter-FPGA Communication Framework CIRCUS 国際会議

    Kitazume, Kaito, Fujita, Norihisa, Kobayashi, Ryohei, Boku, Taisuke

    2nd Workshop on FPGA Technologies for Adaptive Computing (FTAC 2024)  2024年6月 

     詳細を見る

    開催年月日: 2024年6月

    記述言語:英語   会議種別:口頭発表(一般)  

    —Field-Programmable Gate Arrays (FPGAs) are gaining attention as computational acceleration devices in the field of high-performance computing. The usefulness of FPGAs has increased due to the appearance of FPGA boards with highspeed optical interfaces and high-level synthesis. On the other hands, the environment for using FPGAs in parallel computing for high-performance computing is still under development. As part of these efforts, the Center for Computational Sciences at the University of Tsukuba is developing a framework called CIRCUS (Communication Integrated Reconfigurable CompUting System). This framework aims to enable fast communication between multiple FPGAs using OpenCL-based high-level synthesis. However, a current challenge with CIRCUS is the lack of flow control implementation. The issue arises from the lack of flow control in the FPGA communication protocol used within the communication module. To solve this problem, our research focuses on replacing the communication module with a protocol that includes flow control. In this paper, we evaluate the performance of the open-source communication controller Kyokko as a replacement for CIRCUS’s communication module. We implement Kyokko on an Intel Stratix 10 GX H-tile FPGA board (BittWare 520N), which supports communication speeds of up to 100 Gbps per port.

    researchmap

  • Accelerating Deep Learning Inference with Multiple FPGAs 国際会議

    Suzuki, Takumi, Kobayashi, Ryohei, Fujita, Norihisa, Boku, Taisuke

    2nd Workshop on FPGA Technologies for Adaptive Computing (FTAC 2024)  2024年6月 

     詳細を見る

    開催年月日: 2024年6月

    記述言語:英語   会議種別:口頭発表(一般)  

    The demand for fast and power-efficient deep learning solutions is growing. In response, methods for partitioning and implementing deep learning inference models across multiple FPGAs are gaining traction. This research aims to partition and implement deep learning inference models across multiple FPGAs within the Cygnus supercomputer. We use OpenCL as the programming language, implement the ResNet-50 model, and perform 8-bit quantization of type int. Currently, progress has been made in implementing the quantized ResNet-50 model on a single FPGA within the PPX server. The performance is about 1,600 times slower than that observed in related research. Therefore, future plans include increasing the speed of a single FPGA and partitioning the model across multiple FPGAs.

    researchmap

  • Unified Programming Environment for Multiple Accelerator Types with Programming, Performance and Compiler Portability 国際会議

    Fujita, Norihisa, Johnston, Beau, Kobayashi, Ryohei, Teranishi, Keita, Lee, Seyong, Boku, Taisuke, Vetter, Jeffrey S

    ISC High Performance 2024  2024年5月 

     詳細を見る

    開催年月日: 2024年5月

    記述言語:英語   会議種別:ポスター発表  

    Ensuring performance portability across a range of accelerator architectures presents a significant challenge when developing application and programming systems for high-performance computing (HPC) environments. This challenge becomes even more pronounced within computing nodes that incorporate multiple accelerator types. Each of these accelerators is distinguished by its specific performance attributes, optimal data layouts, programming interfaces, and program binaries. Navigating the complexity of multi-accelerator programming has motivated us to create the CHARM (Cooperative Heterogeneous Acceleration with Reconfigurable Multidevices) framework, which transparently selects the suitable computations for each accelerator in a given HPC system. CHARM-SYCL [1] is a unified programming environment based on the concept for multiple accelerator types to attach the diversity problem in HPC systems. We can use SYCL as the single programming environment and create portable applications that are compatible with many accelerator types in a single executable binary file. The CHARM-SYCL runtime uses the IRIS framework [2] as a backend for accelerators. It is a task-based runtime system developed at ORNL to support multiple accelerator types. IRIS uniformly supports many accelerators and has an internal scheduler to dynamically distribute compute tasks to multiple devices according to the scheduling policy specified by the application. Our goal is realizing the portability of the accelerator programming environment. We aim for three types of probabilities: programming portability, performance portability, compiler portability. In this poster, we will demonstrate the unification and portability for multiple accelerator types of our proposed programming environment. References [1] Norihisa Fujita, Beau Johnston, Ryohei Kobayashi, Keita Teranishi, Seyong Lee, Taisuke Boku, and Jeffrey S. Vetter. 2023. CHARM-SYCL: New Unified Programming Environment for Multiple Accelerator Types. In Workshops of The International Conference on High Performance Computing, Network, Storage, and Analysis (SC-W 2023), November 12–17, 2023, Denver, CO, USA. ACM, New York, NY, USA, 11 pages. https://doi.org/10.1145/3624062.3624244 [2] Jungwon Kim, Seyong Lee, Beau Johnston, and Jeffrey S. Vetter. 2021. IRIS: A Portable Runtime System Exploiting Multiple Heterogeneous Programming Systems. In Proceedings of the 25th IEEE High Performance Extreme Computing Conference(HPEC’21).1–8. https://doi.org/10.1109/HPEC49654.2021.9622873

    researchmap

  • ラベルの出現頻度に着目したFPGAを用いた正規パス問合せの提案

    溝谷, 祐大, 小林, 諒平, 藤田, 典久, 朴, 泰祐, 天笠, 俊之

    第16回データ工学と情報マネジメントに関するフォーラム(DEIM2024)  2024年2月 

     詳細を見る

    開催年月日: 2024年2月 - 2024年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    近年,グラフ分析は盛んに行われており,グラフから様々な情報が取得されている.グラフ分析の中でも, ユーザが望むデータを取得するための手法として,正規パス問合せ (RPQ) が存在する.RPQ とはエッジにラベルが貼 られたグラフデータを対象とした問合せであり,指定されたラベルの並びを持つパスがグラフ中に存在するかどうか を探索し,存在する場合そのパスの始点・終点ノードを結果としてユーザに返す処理である.ここで課題となるのが, RPQ 評価の計算時間である.近年,データ分析において対象データの大規模化を受けてから,RPQ の対象となるグラ フも大規模化が予想されており,現実世界に存在するような多種多様かつ大規模なグラフに対しては,実行に多大な 時間を要することが想定される.そのような大規模なデータを処理するために FPGA (Field Programmable Gate Array) などのハードウェアアクセラレータの利用が注目されている.FPGA とは任意の回路をプログラミングによって繰り 返し実装可能なハードウェアチップである.FPGA を用いた RPQ の高速化の既存研究では,FPGA の回路規模をすべ て有効に利用できない場合が存在することや,複数 FPGA への拡張が困難といった課題点が存在する.そこで本研究 では複数カーネルを利用して並列に RPQ 処理を行う手法を提案する.複数カーネルを用いることで,各カーネルが FPGA 内部で独立した回路として実装され並列動作が可能なため,FPGA の回路をより有効に活用できることや,今 後複数 FPGA への手法の拡張が容易になることが利点として挙げられる.提案手法では,複数カーネルを用いた手法 を実装するためにラベルの出現頻度に着目した.出現頻度が低いラベルをレアラベルを定義し,グラフとクエリをレ アラベルを用いて分割することで,複数カーネルを用いた RPQ 処理が可能となる.評価実験では,レアラベルと定義 するラベルの個数,クエリ中に出現するレアラベルの個数が多いときに RPQ 評価に要する時間が短くなることを確認 した.また,一定の条件のもとで比較手法である,三浦らの手法よりも高速に RPQ 評価を行えることも確認した.

    researchmap

  • Unified Programming Environment for Multiple Accelerator Types with Portability 国際会議

    Fujita, Norihisa, Johnston, Beau, Kobayashi, Ryohei, Teranishi, Keita, Lee, Seyong, Boku, Taisuke, Vetter, Jeffrey

    The 6th R-CCS International Symposium  2024年1月 

     詳細を見る

    開催年月日: 2024年1月

    記述言語:英語   会議種別:ポスター発表  

    Ensuring performance portability across a range of accelerator architectures presents a significant challenge when developing application and programming systems for high performance computing (HPC) environments. This challenge becomes even more pronounced within computing nodes that incorporate multiple accelerator types. Each of these accelerators is distinguished by its specific performance attributes, optimal data layouts, programming interfaces, and program binaries. Navigating the complexity of multi-accelerator programming has motivated us to create the CHARM (Cooperative Heterogeneous Acceleration with Reconfigurable Multidevices) framework, which transparently selects the suitable computations for each accelerator in a given HPC system. CHARM-SYCL is a unified programming environment based on the concept for multiple accelerator types to attach the diversity problem in HPC systems. We can use SYCL as the single programming environment and create portable applications that are compatible with many accelerator types in a single executable binary file. The CHARM-SYCL runtime uses the IRIS framework as a backend for accelerators. It is a task-based runtime system developed at ORNL to support multiple accelerator types. IRIS uniformly supports many accelerators and has an internal scheduler to dynamically distribute compute tasks to multiple devices according to the scheduling policy specified by the application. Unlike other operating systems, Linux has a distribution culture. Under the circumstances, it is difficult for us to run the same binary on different distributions because they have different versions of the Linux kernels, compilers, and libraries. In addition to the differences in the distributions, different systems usually have different configurations because of the differences in the system, such as the type of CPUs or accelerators. This forces users to compile and install the CHARM-SYCL compiler on individual systems to avoid compatibility problems. This process will be a very troublesome task for computer scientists because they are not computer professionals. We want to make the installation process as simple as possible. To solve this problem, we propose the compiler portable mode of the CHARM-SYCL compiler. It is a special configuration mode at compile time of the compiler. It maximizes the compatibility and allows us to run the compiler on the major Linux distributions used in HPC systems with the same binary. In this poster, we will demonstrate the unification and portability for multiple accelerator types of our proposed system.

    researchmap

  • Enhancing spatial parallelism on loop structure for FPGA 国際会議

    Sano, Yuka, Boku, Taisuke, Fujita, Norihisa, Kobayashi, Ryohei, Sato, Mitsuhisa, Tsuji, Miwako

    HPC Asia 2024  2024年1月 

     詳細を見る

    開催年月日: 2024年1月

    記述言語:英語   会議種別:ポスター発表  

    In today's HPC systems, GPUs with high computational performance and memory bandwidth are the leading players. However, GPU-based acceleration is designed to excel when utilizing many computation cores and performing SIMD/STMD manner. One of the alternative solutions is FPGA (Field Programmable Gate Array). Currently, it is available to program FPGA devices in high-level language. However, the programmer needs high optimization skills to exploit its potential performance. To solve this problem, we have been developing an OpenACC-ready compiler for FPGA. This research has been performed based on Omni OpenACC compiler in collaboration with the Center for Computational Sciences at the University of Tsukuba (CCS) and RIKEN Center for Computational Science (R-CCS). In this study, we evaluate and examine high-level synthesis-based FPGA programming techniques towards the compiler-based performance optimization. We try various techniques to increase the number of computational elements by spatial parallelism, such as pipelining, loop unrolling, and simultaneous execution of multiple kernels. Here we target the CG (Conjugate Gradient) method code for matrix calculation described in OpenCL. Based on the optimization methods obtained in this research, we are implementing the functionality to generate OpenCL code from OpenACC using the Omni OpenACC compiler. This feature will provide existing FPGA programmers with a more straightforward programming environment than OpenCL. Additionally, the programming approach of adding directives to sequential code is expected to reduce the amount of code and development time. Furthermore, FPGA acceleration efforts are expected to expand to applications that have been reluctant to use FPGA-based acceleration until now.

    researchmap

  • Using Intel oneAPI for multi-hybrid acceleration programming with GPU and FPGA coupling 国際会議

    Liang, Wentao, Fujita, Norihisa, Kobayashi, Ryohei, Boku, Taisuke

    International Workshop on Intel eXtreme Performance Users Group (IXPUG)  2024年1月 

     詳細を見る

    開催年月日: 2024年1月

    記述言語:英語   会議種別:ポスター発表  

    Intel oneAPI is a programming framework that accepts various accelerators such as GPUs, FPGAs, and multi-core CPUs, with a focus on HPC applications. Users can apply their code written in a single language, DPC++, to this heterogeneous programming environment. However, in practice, it is not easy to apply to different accelerators, especially for non-Intel devices such as NVIDIA and AMD GPUs. We have successfully constructed a oneAPI environment set to utilize the single DPC++ programming to handle true multi-hetero acceleration including NVIDIA GPU and Intel FPGA simultaneously. In this paper, we will show how this is done and what kind of applications can be targeted.

    researchmap

  • Using Intel oneAPI for multi-hybrid acceleration programming with GPU and FPGA coupling

    Liang, Wentao, Fujita, Norihisa, Kobayashi, Ryohei, Boku, Taisuke

    第247回システム・アーキテクチャ・第192回ハイパフォーマンスコンピューティング合同研究発表会  2023年12月 

     詳細を見る

    開催年月日: 2023年12月

    記述言語:英語   会議種別:口頭発表(一般)  

    Intel oneAPI is a programming framework that accepts various accelerators such as GPUs, FPGAs, and multi-core CPUs, with a focus on HPC applications. Users can apply their code written in a single language, DPC++, to this heterogeneous programming environment. However, in practice, it is not easy to apply to different accelerators, especially for non-Intel devices such as NVIDIA and AMD GPUs. We have successfully constructed a oneAPI environment set to utilize the single DPC++ programming to handle true multi-hetero acceleration including NVIDIA GPU and Intel FPGA simultaneously. In this paper, we will show how this is done and what kind of applications can be targeted.

    researchmap

  • グラフニューラルネットワークにおけるHPC最前線 招待

    小林, 諒平

    液体・ガラスへのデータ駆動アプローチ ~ グラフニューラルネットワークとその周辺 ~ 

     詳細を見る

    開催年月日: 2023年11月

    researchmap

  • CHARM-SYCL: New Unified Programming Environment for Multiple Accelerator Types 国際会議

    Fujita, Norihisa, Johnston, Beau, Kobayashi, Ryohei, Teranishi, Keita, Lee, Seyong, Boku, Taisuke, Vetter, Jeffrey S

    RSDHA: 3rd Workshop on Redefining Scalability for Diversely Heterogeneous Architectures 

     詳細を見る

    開催年月日: 2023年11月

    Addressing performance portability across diverse accelerator architectures has emerged as a major challenge in the development of application and programming systems for high-performance computing environments. Although recent programming systems that focus on performance portability have significantly improved productivity in an effort to meet this challenge, the problem becomes notably more complex when compute nodes are equipped with multiple accelerator types—each with unique performance attributes, optimal data layout, and binary formats. To navigate the intricacies of multi-accelerator programming, we propose CHARM-SYCL as an extension of our CHARM multi-accelerator execution environment [27]. This environment will combine our SYCL-based performance-portability programming front end with a back end for extremely heterogeneous architectures as implemented with the IRIS runtime from Oak Ridge National Laboratory. Our preliminary evaluation indicates potential productivity boost and reasonable performance compared to vendor-specific programming system and runtimes.

    researchmap

  • Performance improvement by enhancing spatial parallelism on FPGA for HPC applications 国際会議

    Sano, Yuka, Boku, Taisuke, Sato, Mitsuhisa, Tsuji, Miwako, Fujita, Norihisa, Kobayashi, Ryohei

    IEEE Cluster 2023 

     詳細を見る

    開催年月日: 2023年10月 - 2023年11月

    In today’s HPC systems, GPUs with high computational performance and memory bandwidth under relatively low power consumption are the leading players. However, GPU-based acceleration is designed to excel when utilizing many computation cores and performing SIMD/STMD manner of synchronized computation over a large number of uniform data array elements. Therefore, it may not fully exploit its computational performance in calculations with low parallelism, complex operations involving conditional branching, or parallel applications with frequent inter-node communication to interrupt continuous computing on GPU devices. One of the alternative solutions for accelerated computing is FPGA (Field Programmable Gate Array), especially with recent advancements in devices containing a large number of logic elements, high memory bandwidth, and even multiple channels of high-speed optical interconnection interfaces, reaching up to 100 Gbps for each. The performance of an FPGA is based on pipeline parallelism, enabling the computation stream to continue even with conditional branches.

    researchmap

  • Castと通信の並列実行のための予備実験

    森江, 善之, 和田, 康孝, 小林, 諒平, 坂本, 龍一

    第191回ハイパフォーマンスコンピューティング研究発表会 

     詳細を見る

    開催年月日: 2023年9月

    現在,HPC システムで Approximate Computing(AC)を適用することはコンピュータシステムの消費電力や実効性能のトレードオフを行う上で重要である.さらに HPC システムにおけるデータ転送に関してはそのデータ精度がメッセージの総量を決めるため,データ精度を削減する AC のデータ転送への適用の効果は高くなり,特にメッセージサイズが大きい通信が頻発するアプリケーションではより重要となる.この AC をデータ転送へ適用する上で,Cast 処理と通信のオーバラップ実行による性能向上技術の確立が事前に必要となる.これは,Cast 処理と通信のオーバラップを行う方法が確立すれば,データを分割することで Cast 処理と通信を並行実行してパイプライン転送する手法が利用可能となるからである.このデータ転送手法の実現することでさらなる通信性能向上や消費電力削減が可能となる.そこで,本稿では Cast 処理と通信のオーバラップ実行を効果的に行う要件を調査する予備実験を行った.この実験結果から Cast 処理と通信のオーバラップ実行をするには通信プロトコルの選択が影響することが分かった.また,通信プロトコルのうち Rendezvous プロトコルはそのままでは Cast 処理と通信がオーバラップ実行されないことあることが分かった.この状況に対応するためには通信処理を進捗するための通信スレッドを利用するか,メインスレッドにて MPI_Test() などの通信関数を定期的に呼び出すことで通信処理を進捗させることが出来ると分かった.

    researchmap

  • 細粒度なApproximate Computing適用に向けた演算精度変更による影響の評価

    和田, 康孝, 森江, 善之, 小林, 諒平, 坂本, 龍一

    第191回ハイパフォーマンスコンピューティング研究発表会 

     詳細を見る

    開催年月日: 2023年9月

    本質的に高い演算精度を要求する HPC アプリケーションに対して Approximate Computing 技術を適用し,演算精度と実行性能,および消費電力等の間でトレードオフを最適化するためには,アプリケーション内のタスクやデータそれぞれの特性に応じて,演算精度制御の度合いを最適化する必要がある.本稿では,複数のベンチマークにおいて動的に演算精度を変更した際の実行性能および演算結果への影響を評価し,HPC アプリケーションに対する細粒度な Approximate Computing 技術の適用に向けた検討を行う.

    researchmap

  • Pegasusビッグメモリスーパコンピュータの性能評価

    建部, 修見, 平賀, 弘平, 前田, 宗則, 藤田, 典久, 小林, 諒平, 額田, 彰

    第190回ハイパフォーマンスコンピューティング研究発表会(SWoPP2023) 

     詳細を見る

    開催年月日: 2023年8月

    Pegasus は筑波大学計算科学研究センターに 2022 年 12 月に導入され,2023 年 4 月より本運用を開始したスーパコンピュータである.Intel,NVIDIA の最新 CPU,GPU をいち早く導入し,6.5 PFlops の演算性能をもつ.大容量データの解析,大規模 AI を推進するため,不揮発性メモリを大規模に導入した.各計算ノードでは 2 TiB の大容量メモリが利用可能であり,またその領域は超高速ストレージとしても利用可能である.本研究報告では Pegasus の概要を述べるとともに,性能について報告する.

    researchmap

  • NVIDIA H100 GPUにおけるグラフニューラルネットワークの学習精度と実行性能評価

    小林, 諒平, 藤田, 典久, 朴, 泰祐, 天笠, 俊之

    第190回ハイパフォーマンスコンピューティング研究発表会(SWoPP2023) 

     詳細を見る

    開催年月日: 2023年8月

    今日の情報化社会を支えるグラフ構造データを分析する手法としてグラフニューラルネットワーク (GNN) が深層学習の発展に伴い注目を集めており,近年におけるデータの大規模化や機械学習アプリケーションの多様化から GNN の学習精度の向上および学習時間の短縮を実現する手法の確立が望まれている.本稿では,NVIDIA 社が現在提供する最新型 GPU である NVIDIA H100 GPUを 用いて実施した,代表的なグラフデータおよび GNN 実装間における学習時間と精度の推移評価について報告する.評価実験により,NVIDIA H100 GPU 上で動作させた GNN モデルは,NVIDIA Tesla V100 GPU で動作させた場合と比較し,1.6~1.7 倍高速に学習を実行することが確認された.

    researchmap

  • SYCLに基づく複数の演算加速装置を統一的に扱えるプログラミング手法の提案

    藤田, 典久, 小林, 諒平, Beau, Johnston, Narasinga, Rao Miniskar, Seyong, Lee, Keita, Teranishi, Jeffrey, S. Vetter, 朴, 泰祐

    第190回ハイパフォーマンスコンピューティング研究発表会(SWoPP2023) 

     詳細を見る

    開催年月日: 2023年8月

    異なる特性を持つ複数のアクセラレータを適材適所的に用いることを我々は CHARM (Cooperative Heterogeneous Acceleration with Reconfigurable Multidevices) コンセプトと呼んでいる.CHARM においては,複数種類のアクセラレータを利用するために,アクセラレータ毎に複数の言語を使い分け,さらにそれらを組み合わせて複数種類デバイスを効率的に動作させるプログラミングが求められるが,このようなプログラムを記述するのは容易ではない.本研究では,CHARM プログラミングが抱える問題を解決するために,複数の演算加速装置を統一的に扱える SYCL に基づく処理系 “CHARM-SYCL” の提案を行う.CHARM-SYCL のランタイムは Oak Ridge NationalLaboratory で開発されているタスクランタイムシステムである IRIS をサポートし,IRIS を用いて複数種類デバイスの対応を実現する.本原稿では,CHARM-SYCL の実装の詳細および性能評価について報告する.

    researchmap

  • Accelerating astrophysics simulation with GPUs and FPGAs 招待 国際会議

    Kobayashi, Ryohei

    ADAC (Accelerated Data Analytics and Computing Institute) ~ Applications Working Group Monthly Seminar ~ 

     詳細を見る

    開催年月日: 2023年6月

    The use of graphic processing units (GPUs) has become very popular owing to their good peak performance and high memory bandwidth; however, they do not work well for applications that employ partially poor parallelism or frequent inter-node communication. Field-programmable gate arrays (FPGAs) have garnered significant interest in high-performance computing research as their computational and communication capabilities have drastically improved in recent years. GPU-FPGA coupling could be ideal for Multiphysics problems where various computations are included within a simulation and difficult to accelerate by GPU alone. Currently, researchers at the University of Tsukuba are conducting research and development on an approach to holistic acceleration of applications in HPC cluster systems equipped with GPUs and FPGAs, making full use of both accelerators. This talk will present the outline of the programming environment, implementation, and performance evaluation of a GPU-FPGA-accelerated application for astrophysics simulations.

    researchmap

  • 輻射輸送シミュレーションのためのFPGAとGPUによるスクラッチパッドメモリの効率と有効性の分析

    古川, 和輝, 山口, 佳樹, 横野, 智也, 吉川, 耕司, 藤田, 典久, 小林, 諒平, 安倍, 牧人, 朴, 泰祐, 梅村, 雅之

    IEICE-RECONF2023-6 

     詳細を見る

    開催年月日: 2023年6月

    宇宙輻射輸送シミュレーションコードに含まれる ART(Authentic Radiation Transfer) スキームは,高計算量かつメモリ律速であり,アクセラレータによる演算加速が期待されている.本研究では、ART スキーム特有のスクラッチパッドメモリ機構を考案し,PRISM (PRefetchable and Instantly accessible Scratchpad Memory) と名付けた.この PRISM を FPGA と GPU それぞれに実装し,オリジナルの実装と比較した結果,シミュレーション空間が小さい場合は FPGA が高速で,最大 1.8 倍,大きい場合は GPU が高速で,最大 5.4 倍の演算高速化が達成された.

    researchmap

  • OpenACC Unified Programming Environment for Multi-hybrid Acceleration with GPU and FPGA 国際会議

    Boku, Taisuke, Tsunashima, Ryuta, Kobayashi, Ryohei, Fujita, Norihisa, Lee, Seyong, Vetter, Jeffrey S, Murai, Hitoshi, Nakao, Masahiro, Tsuji, Miwako, Sato, Mitsuhisa

    2023 WORKSHOP: HPC ON HETEROGENEOUS HARDWARE (H3) 

     詳細を見る

    開催年月日: 2023年5月

    Accelerated computing in HPC such as with GPU, plays a central role in HPC nowadays. However, in some complicated applications with partially different performance behavior is hard to solve with a single type of accelerator where GPU is not the perfect solution in these cases. We are developing a framework and transpiler allowing the users to program the codes with a single notation of OpenACC to be compiled for multi-hybrid accelerators, named MHOAT (Multi-Hybrid OpenACC Translator) for HPC applications. MHOAT parses the original code with directives to identify the target accelerating devices, currently supporting NVIDIA GPU and Intel FPGA, dispatching these specific partial codes to background compilers such as NVIDIA HPC SDK for GPU and OpenARC research compiler for FPGA, then assembles binaries for the final object with FPGA bitstream file. In this paper, we present the concept, design, implementation, and performance evaluation of a practical astrophysics simulation code where we successfully enhanced the performance up to 10 times faster than the GPU-only solution.

    researchmap

  • HPC利用に向けたFPGA間シリアル通信コントローラKyokkoのIntel FPGAへの実装

    北爪, 開人, 藤田, 典久, 小林, 諒平, 朴, 泰祐

    第189回ハイパフォーマンスコンピューティング研究発表会 

     詳細を見る

    開催年月日: 2023年5月

    高性能計算における演算加速装置として FPGA (Field-Programmable Gate Array) が注目されている.高位合成や高速な光インターフェースを備えた FPGA ボードの登場など FPGA の有用性が高まる一方で,高性能計算における FPGA を用いた並列計算を行うための環境は未だ発展途上である.これらの一環として,筑波大学計算科学研究センターでは複数の FPGA 上で並列計算を行うために,OpenCL を用いた高位合成によって FPGA 間の高速通信を可能とするフレームワーク CIRCUS (Communication Integrated Reconfigurable CompUting System) を開発しているが,現状の CIRCUS にはフロー制御が未実装であるという課題がある.この問題は,通信部で用いている FPGA 間通信プロトコルにフロー制御がないことが原因であるため,本研究では通信部をフロー制御を含むプロトコルに置き換え,この問題を解決する.本稿では CIRCUS の通信部を置き換える通信プロトコルとして,オープンソースな通信プロトコルである Kyokko の性能評価を行う.最大で 1 ポートあたり 100Gbps の通信が可能な Intel Stratix 10 GX H-tlie を搭載した FPGA ボードである Bittware 520N 上に Kyokko を実装し,バンド幅やレイテンシ,フロー制御について評価する.実験の結果,Kyokko は 99.98% を超える高い効率と理論性能に近いバンド幅を示した.また,データの送受信にかかるレイテンシは,チャンネルボンディングしない場合は約 170ns,4 チャンネルボンディングの場合は約 180ns であり,高速であった.フロー制御のレイテンシは,チャンネルボンディングしない場合では約 310ns,4 チャンネルボンディングの場合では約 320ns であり,これらから NFC メッセージを受信した際の処理は極めて高速であることが分かった.

    researchmap

  • FPGA高位合成における演算性能向上のための空間並列性記述に関する研究

    佐野, 由佳, 小林, 諒平, 藤田, 典久, 朴, 泰祐, 佐藤, 三久

    第188回ハイパフォーマンスコンピューティング研究発表会 

     詳細を見る

    開催年月日: 2023年3月

    今日の高性能計算システムでは,高い演算性能とメモリバンド幅を有する GPU (Graphic Processing Unit) が高性能計算向けアプリケーションの演算加速装置として積極的に導入されている.しかし,GPU による演算加速は,GPU が持つ数多くのコアを活用し,かつそれらが SIMD (Single Instruction Multiple Data) 的な均質な処理が行われた時に性能を発揮するように構築されているため,並列度の低い計算や条件分岐などの複雑な処理を必要とする演算,通信が頻発するアプリケーションではその演算性能を十全に発揮することはできない.そこで,その GPU にとって不適合な演算を,回路の再構成によってアプリケーションに特化した演算パイプラインやメモリシステムを柔軟に構築できる FPGA (Field-Programmable Gate Array) にオフロードする手法が注目を集めている.現在の GPU プログラミング環境では,OpenACC に代表される指示文によるユーザフレンドリーなプログラミング環境が存在するが,FPGA プログラミング環境では,指示文を利用したプログラミング環境の完成度は高いとは言えない.そのため,我々は理化学研究所計算科学研究センター (R-CCS) と筑波大学計算科学研究センター (CCS) との共同研究により,Omni OpenACC コンパイラを FPGA プログラミング環境向けに改良する研究を進めている.本研究では,コンパイラによる演算性能最適化の手法を検討する材料として,高位合成を用いた FPGA プログラミングの演算性能向上手法について評価・検討する.具体的には,OpenCL によって記述された CG (Conjugate Gradient) 法のコードに対し,パイプライン化,Loop Unrolling,複数カーネル同時実行等,演算要素数を増やすための各種手法を試す.そして,ループの Unroll 数,同時実行するカーネル数を変化させ,FLOPS 数と BRAM (Block Random Access Memory) の使用率を評価する.FPGA の高速化は基本的にパイプライン処理によって得られるが,このクロックサイクル内の演算数を増加させ,同時に BRAM 使用量への影響等を調べ,性能最適化のための方策を探る.ただし,FPGA では Loop Unrolling の深さや,使用演算器数,メモリ使用量によって動作周波数が変化し,それらの間に複雑なトレードオフが存在するため,一概に同時実行演算数を増やすことが性能向上に資するとは限らない.今回実装した Intel Stratix10 FPGA 上での CG 法のコードでは,1 つのカーネルで Loop Unrolling を 8 回行った場合に最も高性能になることが判明した.また,2 つのカーネルで Loop Unrolling を 8 回行った場合に,動作周波数との関係で性能が最高になったが,メモリ使用量が大きく増大してしまった.他アプリケーションとの同 FPGA 上への同時実装のためにはメモリ使用量を抑える必要があり,そういう場合は 2 つのカーネルで Loop Unrolling を 4 回行った場合が最も高性能になることがわかった.

    researchmap

  • FPGA間通信フレームワークCIRCUSを利用した複数FPGAによるグラフ幅優先探索の提案

    溝谷, 祐大, 小林, 諒平, 藤田, 典久, 朴, 泰祐, 天笠, 俊之

    第15回データ工学と情報マネジメントに関するフォーラム (DEIM 2023) 

     詳細を見る

    開催年月日: 2023年3月

    グラフ構造は,様々なデータをノードとエッジで表したデータ構造のことであり,我々の身の回りの多種多様なデータの関係性を表すのに有用である.グラフの分析は盛んに行われており,グラフから様々な情報が取得されている.グラフの分析アルゴリズムの中でも,幅優先探索は最も広く使われているアルゴリズムである.幅優先探索とはグラフ探索アルゴリズムの一種であり,デジタル回路のテスト・検証,道路ネットワークの解析など,幅広い分野で応用されている.しかし,近年グラフの大規模化によって,幅優先探索に多大な計算コストが必要となることが多い.また,不規則なメモリアクセスが多くなるためメモリ帯域を有効に利用できないといった問題がある.ここで我々は FPGA に着目した.FPGA とは,任意の回路をプログラミングによって繰り返し実装可能なハードウェアチップである.その性能上の特徴は各回路の並列性を利用した並列度の高い処理が可能なことである.また,FPGAでは外部通信用光リンクを利用できる.この外部通信用光リンクは FPGA 上の回路と直接接続されているため超低レイテンシで他の FPGA と通信することが可能となる.この特徴を活用する技術として FPGA 間通信フレームワーク,CIRCUS がある.本研究では,CIRCUS を利用し,複数 FPGA を使い幅優先探索を実装する.

    researchmap

  • GPU–FPGA-accelerated Radiative Transfer Simulation with Inter-FPGA Communication 国際会議

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    HPC Asia '23: International Conference on High Performance Computing in Asia-Pacific Region 

     詳細を見る

    開催年月日: 2023年2月 - 2023年3月

    The complementary use of graphics processing units (GPUs) and field programmable gate arrays (FPGAs) is a major topic of interest in the high-performance computing (HPC) field. GPU–FPGA-accelerated computing is an effective tool for multiphysics simulations, which encompass multiple physical models and simultaneous physical phenomena. Because the constituent operations in multiphysics simulations exhibit varying characteristics, accelerating these operations solely using GPUs is often challenging. Hence, FPGAs are frequently implemented for this purpose. The objective of the present study was to further improve application performance by employing both GPUs and FPGAs in a complementary manner. Recently, this approach has been applied to the radiative transfer simulation code for astrophysics known as ARGOT, with evaluation results quantitatively demonstrating the resulting improvement in performance. However, the evaluation results in question came from the use of a single node equipped with both a GPU and FPGA. In this study, we extended the GPU–FPGA-accelerated ARGOT code to operate on multiple nodes using the message passing interface (MPI) and an FPGA-to-FPGA communication technology scheme called Communication Integrated Reconfigurable CompUting System (CIRCUS). We evaluated the performance of the ARGOT code with multiple GPUs and FPGAs under weak scaling conditions, and found it to achieve up to 12.8x speedup compared to the GPU-only execution.

    researchmap

  • Implementation and Performance Evaluation of Collective Communications Using CIRCUS on Multiple FPGAs 国際会議

    Kikuchi, Kohei, Fujita, Norihisa, Kobayashi, Ryohei, Boku, Taisuke

    International Workshop on Intel eXtreme Performance Users Group (IXPUG) co-located with HPC Asia 2023 

     詳細を見る

    開催年月日: 2023年2月

    In the high-performance computing domain, Field Programmable Gate Array (FPGA) is a novel accelerator that exhibits high flexibility and performance characteristics distinct from other accelerators such as the Graphics Processing Unit (GPU). Recent advanced high-end FPGA is equipped with multiple channels of high speed optical link up to 100Gbps performance for each. This is a crucial feature when we construct PC clusters with FPGAs as accelerators, however it is not easy to utilize from user kernels because this feature is implemented in low level and simple direct communication between neighboring FPGAs. In order to provide the communication feature between FPGAs for accelerated PC clusters, we developed a communication system named CIRCUS which implies a user-friendly API from OpenCL and is equipped with routing function over multi-hop communication on multi-dimensional torus network of FPGAs. However, current CIRCUS only provides a point-to-point communication between source and destination FPGAs. In ordinary parallel processing environment such as MPI, the user program the message passing with various collective communication functions for parallel algorithm, for instance Allreduce, Allgather, etc. In this paper, we implement the collective communication function over CIRCUS for user-friendly programming of ordinary parallel algorithms on FPGAs. As the first target, we implement Allreduce function which is the most essential and important function. The paper describes the CIRCUS system briefly followed by the design, implementation and preliminary performance evaluation on Intel Stratix10 FPGAs.

    researchmap

  • An FPGA-based Accelerator for Regular Path Queries over Edge-labeled Graphs 国際会議

    Miura, Kento, Kobayashi, Ryohei, Amagasa, Toshiyuki, Kitagawa, Hiroyuki, Fujita, Norihisa, Boku, Taisuke

    2022 IEEE International Conference on Big Data (Big Data)  2022年12月 

     詳細を見る

    開催年月日: 2022年12月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Osaka  

    Edge-labeled directed graphs are commonly used to represent various information in different applications, such as social networks, knowledge graphs, etc., and regular path queries (RPQs) allow us to extract pairs of nodes that are reachable from one to another through a labeled path matching with the query pattern represented as a regular expression. It is useful for us to extract complicated or semantically meaningful information from a graph, but it gives rise to a challenge when dealing with large graphs. This is due to the long execution time caused by the explosive growth of intermediate results, but, on the other hand, some applications require fast query executions. To address this problem, we propose an FPGA-based RPQ accelerator. The idea is to exploit FPGA’s parallelism in traversing the target graph and matching the regular path expression in parallel with the pipeline manner. To validate the performance of the proposed method, we conducted a set of experiments. From the results, we observed that the proposed method achieves shorter elapsed times for RPQs against social graphs extracted from the real world, up to three orders of magnitude compared with baseline methods.

    researchmap

  • Accelerating Radiative Transfer Simulation on NVIDIA GPUs with OpenACC 国際会議

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    The 23rd International Conference on Parallel and Distributed Computing, Applications and Technologies (PDCAT’22) 

     詳細を見る

    開催年月日: 2022年12月

    開催地:Sendai  

    To accelerate multiphysics applications, making use of not only GPUs but also FPGAs has been emerging. Multiphysics applications are simulations involving multiple physical models and multiple simultaneous physical phenomena. Operations with different performance characteristics appear in the simulation, making the acceleration of simulation speed using only GPUs difficult. Therefore, we aim to improve the overall performance of the application by using FPGAs to accelerate operations with characteristics which cause lower GPU efficiency. However, the application is currently implemented through multilingual programming, where the computation kernel running on the GPU is written in CUDA and the computation kernel running on the FPGA is written in OpenCL. This method imposes a heavy burden on programmers; therefore, we are currently working on a programming environment that enables to use both accelerators in a GPU–FPGA equipped high-performance computing (HPC) cluster system with OpenACC. To this end, we port the entire code only with OpenACC from the CUDA-OpenCL mixture. On this basis, this study quantitatively investigates the performance of the OpenACC GPU implementation compared to the CUDA implementation for ARGOT, a radiative transfer simulation code for fundamental astrophysics which is a multiphysics application. We observe that the OpenACC implementation achieves performance and scalability comparable to the CUDA implementation on the Cygnus supercomputer equipped with NVIDIA V100 GPUs.

    researchmap

  • 並列FPGA環境における通信システムCIRCUSを用いた集団通信の実装と性能評価

    菊池, 航平, 藤田, 典久, 小林, 諒平, 朴, 泰祐

    第187回ハイパフォーマンスコンピューティング研究発表会  2022年12月 

     詳細を見る

    開催年月日: 2022年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    近年,新たな HPC アクセラレータとして FPGA (Field Programmable Gate Array) が注目されている.FPGA は高速なシリアル I/O インタフェースを備えており,直接インタフェースを通じて FPGA 間の通信を行うことができる.直接通信により高い通信バンド幅を低レイテンシで扱うことができる特長は FPGA のみのものであり,問題規模の拡大や性能向上のために FPGA を並列化して用いようとする場合に大きな威力を発揮することが期待される.筑波大学計算科学研究センターでは並列 FPGA 実行を行う HPC アプリケーションの開発をサポートするため,FPGA 間通信フレームワーク CIRCUS (Communication Integrated Reconfigurable CompUting System) を開発している.CIRCUS は FPGA ネットワークにおけるルータ機能と通信 API を提供しており,OpenCL のプログラムから FPGA 間通信の記述を可能にする.しかし現状で CIRCUS が対応している通信パターンは 1 対 1 通信のみであり,通信ライブラリとして広く用いられている MPI にあるような集団通信は実装されていない.本研究の目的は,CIRCUS の上で動作する,高性能でユーザフレンドリーな集団通信APIを,並列 FPGA を利用する HPC ユーザに提供することである.この目的を実現するために,本稿では CIRCUS を用いた Allreduce 通信の設計・実装を行う.実装は 4 つの FPGA 上で正常に動作するが,CIRCUS 通信にフロー制御機能がないため性能が低下していることが分かった.この問題を回避するためには複雑なプログラミングが必要であり,余分なオーバヘッドを避けられない.この問題を解決するために,FPGA 間通信コントローラをフロー制御対応のものに置き換えることを計画している.

    researchmap

  • Cygnus - World First Multihybrid Accelerated Cluster with GPU and FPGA Coupling 国際会議

    Boku, Taisuke, Fujita, Norihisa, Kobayashi, Ryohei, Tatebe, Osamu

    2nd International Workshop on Deployment and Use of Accelerators (DUAC) - co-located with the 51st International Conference on Parallel Processing -  2022年8月  DUAC2022 Organization Committee

     詳細を見る

    開催年月日: 2022年8月 - 2022年9月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Bordeaux  

    In this paper, we describe the concept, system architecture, supporting system software, and applications on our world-first supercomputer with multihybrid accelerators using GPU and FPGA coupling, named Cygnus, which runs at Center for Computational Sciences, University of Tsukuba. A special group of 32 nodes is configured as a multihybrid accelerated computing system named Albireo part although Cygnus is constructed with over 80 computation nodes as a GPU-accelerated PC cluster. Each node of the Albireo part is equipped with four NVIDIA V100 GPU cards and two Intel Stratix10 FPGA cards in addition to two sockets of Intel Xeon Gold CPU where all nodes are connected by four lanes of InfiniBand HDR100 interconnection HCA in the full bisection bandwidth of NVIDIA HDR200 switches. Beside this ordinary interconnection network, all FPGA cards in Albireo part are connected by a special 2-Dimensional Torus network with direct optical links on each FPGA for constructing a very high throughput and low latency of FPGA-centric interconnection network. To the best of our knowledge, Cygnus is the world’s first production-level PC cluster to realize multihybrid acceleration with the GPU and FPGA combination. Unlike other GPU-accelerated clusters, users can program parallel codes where each process exploits both or either of the GPU and/or FPGA devices based on the characteristics of their applications. We developed various supporting system software such as inter-FPGA network routing system, DMA engine for GPU-FPGA direct communication managed by FPGA, and multihybrid accelerated programming framework because the programming method of such a complicated system has not been standardized. Further, we developed the first real application on Cygnus for fundamental astrophysics simulation to fully utilize GPU and FPGA together for very efficient acceleration. We describe the overall concept and construction of the Cygnus cluster with a brief introduction of the several underlying hardware and software research studies that have already been published. We summarize how such a concept of GPU/FPGA coworking will usher in a new era of accelerated supercomputing.

    researchmap

  • OpenACC-Enabled GPU-FPGA Accelerated Computing for Astrophysics Simulation 招待 国際会議

    Kobayashi, Ryohei

    OpenACC and Hackathons Asia-Pacific Summit 2022  2022年8月 

     詳細を見る

    開催年月日: 2022年8月

    記述言語:英語   会議種別:口頭発表(一般)  

    There are a variety of accelerators available to the high performance computing (HPC) community. The use of graphic processing units (GPUs) has become very popular owing to their good peak performance and high memory bandwidth; however, they do not work well for applications that employ partially poor parallelism or frequent inter-node communication. Field-programmable gate arrays (FPGAs) have garnered significant interest in high-performance computing research as their computational and communication capabilities have drastically improved in recent years. GPU-FPGA coupling could be ideal for Multiphysics problems where various computations are included within a simulation and difficult to accelerate by GPU alone. Currently, researchers at the University of Tsukuba are working on a programming environment that enables the use of both accelerators in a GPU-FPGA-equipped HPC cluster system with OpenACC. This talk will present the outline of the programming environment, implementation, and performance evaluation of a GPU-FPGA-accelerated application for astrophysics simulations.

    researchmap

  • Implementation and Performance Evaluation of Memory System Using Addressable Cache for HPC Applications on HBM2 Equipped FPGAs 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke

    HeteroPar 2022: Twentieth International Workshop on Algorithms, Models and Tools for Parallel Computing on Heterogeneous Platforms 

     詳細を見る

    開催年月日: 2022年8月

    When we apply field programmable gate arrays (FPGAs) as HPC accelerators, their memory bandwidth presents a significant challenge because it is not comparable to those of other HPC accelerators. In this paper, we propose a memory system for HBM2-equipped FPGAs and HPC applications that uses block RAMs as an addressable cache implemented between HBM2 and an application. This architecture enables data transfer between HBM2 and the cache bulk and allows an application to utilize fast random access on BRAMs. This study demonstrates the implementation and performance evaluation of our new memory system for HPC and HBM2 on an FPGA. Furthermore, we describe the API that can be used to control this system from the host. We implement RISC-V cores in an FPGA as controllers to realize fine-grain data transfer control and to prevent overheads derived from the PCI Express bus. The proposed system is implemented on eight memory channels and achieves 102.7 GB/s of the bandwidth. It overcomes the memory bandwidth of conventional FPGA boards with four channels of DDR4 memory despite using only 8 of 32 channels of the HBM2.

    researchmap

  • GPU・FPGA複合型演算加速クラスタを用いた宇宙輻射輸送コードARGOTの多ノード並列化

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    第185回ハイパフォーマンスコンピューティング研究発表会(SWoPP2022)  2022年7月 

     詳細を見る

    開催年月日: 2022年7月

    記述言語:日本語   会議種別:口頭発表(一般)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや複数の同時発生する物理現象を含むシミュレーションであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速が困難な場合がある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.我々はこれまで宇宙輻射輸送シミュレーションコード ARGOT にそのコンセプトを適用し,その結果得られる性能向上を評価することによって,両デバイスを併用する有用性を定量的に示してきた.しかし,これまで実現してきた GPU-FPGA 連携の演算加速は,GPU と FPGA の両デバイスが搭載された単一ノードのみの利用を前提としていた.本研究では,単一ノードの利用を前提とした GPU・FPGA 連携 ARGOT コードを,MPI および FPGA 間通信技術である CIRCUS(Communication Integrated Reconfigurable CompUting System)を用いて複数ノードで動作するように拡張し,その実装方法について報告する.

    researchmap

  • 並列化に伴うデータ空間の分割とそれによるアクセスパターンの変化がもたらすHBMの振る舞い調査

    瀬口, 知洋, 中井, 榛希, 山口, 佳樹, 藤田, 典久, 小林, 諒平, 朴, 泰祐

    SWoPP2022: 並列/分散/協調システムとディペンダブルコンピューティングおよび一般  2022年7月 

     詳細を見る

    開催年月日: 2022年7月

    記述言語:日本語   会議種別:口頭発表(一般)  

    アプリケーションの要求に合わせて演算回路を電気的に再構成可能な Field Programmable Gate Array (FPGA) は,グルー・ロジックの代用品および試作用デバイスとして誕生以来発展を続けている.半導体製造技術およびパッケージング技術などの進化に伴いその演算性能および機能を大きく改善させてきた.また,高位合成採用などによる統合開発環境の熟成とそれによる設計の簡素化は FPGA の導入コストを大きく下げることに成功し,FPGA は情報システムに広く採用されるに至っている.以上より FPGA は,GPU や AI チップなどと同様に多くの注目を集めるデバイスとして,また,演算性能向上や消費電力対性能の改善など,導入に対して得られる効果を十分に期待できるデバイスとして認知され始めている.そして近年,高性能計算分野において帯域幅の大きなメモリ(High Bandwidth Memory: HBM) を同一パッケージ内に採用した FPGA 製品が増加しており,それは低価格帯の組み込み系 FPGA 製品にも広がりつつある.一方,HBM を採用して一日の長である GPU 分野において,HBM の実効アクセス性能に対する議論が始まりつつある.そこで本報告では,FPGA における高位記述と HBM 利用との組みあわせについて整理し,今後の FPGA 設計・開発における問題提起を通して効率的な演算加速の可能性について議論する.

    researchmap

  • Performance Evaluation on GPU-FPGA Accelerated Computing Considering Interconnections between Accelerators 国際会議

    Sano, Yuka, Kobayashi, Ryohei, Fujita, Norihisa, Boku, Taisuke

    HEART2022: International Symposium on Highly-Efficient Accelerators and Reconfigurable Technologies  2022年6月  HEART2022 Organization Committee

     詳細を見る

    開催年月日: 2022年6月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Center for Computational Sciences, University of Tsukuba.  

    Graphic processing units (GPUs) are often equipped with HPC systems as accelerators because of their high computing capability. GPUs are powerful computing devices; however, they operate inefficiently on applications that employ partially poor parallelism, non-regular computation, or frequent inter-node communication. To address these shortcomings of GPUs, field-programmable gate arrays (FPGA) have been emerging in the HPC domain because their reconfigurable capabilities enable the construction of application-specific pipelined hardware and memory systems. Several studies have focused on improving overall application performance by combining GPUs and FPGAs, and the platforms for achieving this have adopted the approach of hosting these two devices on a single compute node; however, the inevitability of this approach has not been discussed. In this study, we evaluated it quantitatively using an astrophysics application that performs radiative transfer to simulate the early-stage universe after the Big Bang. The application runs on a compute node equipped with a GPU and an FPGA, and the GPU and FPGA computation kernels are launched from a single CPU (process) in the application. We modified the code to enable the launch of the GPU and FPGA computation kernels from separate message-passing interface (MPI) processes. Each MPI process was assigned to two compute nodes to run the application, which were equipped only with a GPU and FPGA, respectively, and the execution performance of the application was compared against that of the original GPU-FPGA accelerated application. The results revealed that the performance degradation compared to the original GPU-FPGA accelerated application was approximately 2 ∼ 3 %, thereby demonstrating quantitatively that even if both devices are mounted on different compute nodes, this is acceptable in practical use depending on the characteristics of the application.

    researchmap

  • Performance Evaluation of Data Transfer API for Rank Level Approximate Computing on HPC Systems 国際会議

    Morie, Yoshiyuki, Wada, Yasutaka, Kobayashi, Ryohei, Sakamoto, Ryuichi

    24th Workshop on Advances in Parallel and Distributed Computational Models  2022年5月 

     詳細を見る

    開催年月日: 2022年5月

    記述言語:英語   会議種別:口頭発表(一般)  

    Approximate computing (AC) has attracted much attention to optimize tradeoffs among performance, power con-sumption, and computation results accuracy by adjusting data precision in applications. Even on HPC systems, AC is demanded to maximize performance under the limited power budget and hardware resources. To apply AC for HPC applications, we need to consider the character of each MPI rank in an application and optimize it with its appropriate data precision. However, we also need to perform data transfer while converting the precision of the target data. This paper proposes data pack/unpack APIs, which are applicable for standard MPI programs for HPC systems, for converting the data precision of the target data, and shows its performance evaluation. We can express data transfer among ranks with different data precision with the proposed APIs. The performance evaluation reveals the break-even point to apply AC for HPC applications from the perspective of data transfer volume.

    researchmap

  • 第2回ACRi討論会:若手研究者の本音 ~FPGA業界の良いとこ/悪いとこ~ 招待

    小林, 諒平

    第2回ACRi討論会:若手研究者の本音 ~FPGA業界の良いとこ/悪いとこ~  2022年5月 

     詳細を見る

    開催年月日: 2022年5月

    記述言語:日本語   会議種別:シンポジウム・ワークショップ パネル(指名)  

    researchmap

  • ノードを跨いだGPU・FPGA複合型演算加速による宇宙物理シミュレーションの実装と評価

    佐野, 由佳, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    第184回ハイパフォーマンスコンピューティング研究発表会  2022年5月 

     詳細を見る

    開催年月日: 2022年5月

    記述言語:日本語   会議種別:口頭発表(一般)  

    近年の高性能計算システムでは,高い演算性能とメモリバンド幅を有する GPU (Graphic Processing Unit) が演算加速装置として積極的に導入されている.しかし,全てのアプリケーションが GPU に適合するということではなく,並列性がコア数に対して不足していたり条件分岐が発生したりするような,GPU にとって不適合な演算が部分的に含まれるアプリケーションではその演算性能を十全に発揮することはできない.そこで,その GPU にとって不適合な演算をアプリケーションに特化した演算パイプラインやメモリシステムを柔軟に構築できるFPGA (Field-programmable Gate Array) にオフロードし,GPU と FPGA を相補的に活用することによってアプリケーション全体の性能を向上させるアプローチが試みられている.GPU と FPGA を併用してアプリケーションを実行する研究事例は幾つか存在し,そのためのプラットフォームとしては,両デバイスを同一の計算ノードに搭載するシステムがこれまで用いられてきた.ただし,その構成の必然性については詳細に検討されていないのが現状である.そこで本研究では,GPU と FPGA を併用して初期宇宙の天体形成をシミュレートする宇宙物理アプリケーションを用いて,両方のデバイスが同じ計算機に接続される必要性を定量的に評価した.既存のコードに対して MPI (Message Passing Interface) を用いて再実装を行い,GPU と FPGA が分離した構成で動作するように修正を施した.そして,GPU と FPGA が同じ計算機に接続された構成と,GPU と FPGA が分離した構成において,アプリケーションの性能評価を行った.性能評価より,GPU と FPGA が分離した構成でアプリケーションを実行した場合は,GPU と FPGA が同じ計算機に接続された構成でアプリケーションを実行した場合と比較して,2~3 [%] の性能低下に抑えられた.以上より,GPU と FPGA を協調計算に用いる場合,アプリケーションの特性次第では,GPU と FPGA が異なる計算機に接続されている環境においても高速に協調計算が可能であることが定量的に明らかになった.

    researchmap

  • oneAPIを用いたGPU・FPGA混載ノードにおける宇宙物理シミュレーションコードARGOTの実装

    柏野, 隆太, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    第183回ハイパフォーマンスコンピューティング研究発表会  2022年3月 

     詳細を見る

    開催年月日: 2022年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    GPU(Graphics Processing Unit)は,HPC 分野において最も広く用いられているアクセラレータの一つである.しかし,マルチフィジックスに基づく科学計算では単一のシミュレーションの中に多様なワークロードが出現し,GPU のみを用いた高速化では不十分である.我々は,このような複雑な物理シミュレーションを対象として,GPU と FPGA(Field Programmable Gate Array)の併用による高速化を目指し,CHARM(Cooperative Heterogeneous Acceleration by Reconfigurable Multidevices)というコンセプトの下,ハードウェア,プログラミングシステム,そしてアプリケーション開発をおこなっている.ここでの大きな課題は,これら複数のデバイスをどのようにプログラムするかである.近年注目されている Intel 社によって提案された oneAPI は,SYCL をベースにした DPC++ による単一言語プラットフォームを提供し,複数のデバイス間における連携プログラミングが可能である.本稿では,GPU と FPGA を用いた宇宙物理シミュレーションコード ARGOT を oneAPI によって実装し,その性能評価について報告する.本研究の特徴は,oneAPI をその一般的な利用方法とは異なり,DPC++ のみを用いた開発ではなく既存の CUDA や OpenCL によるプログラム部分コードを組み合わせるためのフレームワークとして用いている点である.結果として,oneAPI を用いることで,DPC++ によるプログラミングだけでなく,CUDA や OpenCL など他の言語で記述された既存のソースコードを再利用して,複数のデバイスが協調するプログラムを実装することができることがわかった.

    researchmap

  • OpenACCによる宇宙物理シミュレーションのGPU+FPGA協調計算の実装

    綱島, 隆太, 小林, 諒平, 藤田, 典久, 朴, 泰祐, Lee, Seyong, Vetter, Jeffrey S, 村井, 均, 中尾, 昌広, 辻, 美和子, 佐藤, 三久

    第183回ハイパフォーマンスコンピューティング研究発表会  2022年3月 

     詳細を見る

    開催年月日: 2022年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    近年 HPC 分野では,アクセラレータとして GPU や FPGA が注目されている.特に FPGA は GPU の苦手な処理でも性能を発揮することが期待されており,我々は両者を統合した次世代スーパーコンピュータの研究を行っている.しかし,GPU と FPGA を組み合わせたプログラミングでは,標準的な手法や言語が存在していない.HPC における GPU のシェアは現状では NVIDIA 社によるものが支配的であるため,主に GPU の処理は CUDA で記述されている.一方で,FPGA では高位合成技術により,ハードウェア記述言語に代わって,OpenCL の使用が可能になっている.これら二つを組み合わせてプログラミングを行うことはアプリケーションプログラマーにとって多大な負担となる.また,OpenCL では GPU のプログラミングも行うことができるが,既存のアプリケーションの多くはすでに CUDA で書かれているか,CPU 版しか存在しないため,OpenCL に書き直すには相当の負担が掛かる.仮にコードを別の言語で書き直すのであれば,より汎用性や抽象度の高い記述を行うことが理想である.そこで,我々はCAMP(Cooperative Acceleration by Multi-device Programming)というコンセプトの下,ディレクティブ形式の API である OpenACC を用いて両アクセラレータのプログラミングを統一的に行う環境である MHOAT(Multi-Hybrid OpenACC Translator)を開発している.本稿では,宇宙物理分野の実アプリケーションである ARGOT コードを対象に,MHOAT による GPU と FPGA の混合演算加速の実装について述べる.

    researchmap

  • HBM2 搭載 FPGA のための Addressable Cache を用いた HPC 向けメモリシステムの性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    第183回ハイパフォーマンスコンピューティング研究発表会  2022年3月 

     詳細を見る

    開催年月日: 2022年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    高性能計算の分野で Field Programmable Gate Array (FPGA) が新たなるアクセラレータとして注目されている.他のアクセラレータと比較して,FPGA は外部メモリ帯域が弱いという弱点があり,HPC における FPGA 利用の障壁のひとつである.最新の高性能 FPGA では,High Bandwidth Memory 2 (HBM2) を搭載する FPGA があり,これを使うことで HPC における FPGA 利用が広がると考えられる.しかしながら,FPGA は固定機能としてのメモリネットワークやキャッシュを持たず,HBM2 の性能を発揮できるメモリ回路を別途開発しなければならない問題がある.本稿では,我々が研究開発している HPC 向け HBM2 メモリシステムの実装と性能評価を示す.また,本システムを扱うための API の設計と実装についても報告を行う.FPGA は自律動作できるアクセラレータであり,本システムを扱う API はこの特徴を活かしたものである.

    researchmap

  • GPUクラスタを用いた宇宙輻射輸送コードARGOTのOpenACC実装と性能評価

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    第183回ハイパフォーマンスコンピューティング研究発表会  2022年3月 

     詳細を見る

    開催年月日: 2022年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや複数の同時発生する物理現象を含むシミュレーションであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速が困難な場合がある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.しかし,その実装方式は GPU で動作する計算カーネルを CUDA にて,FPGA で動作する計算カーネルを OpenCL にて記述するというような複数のプログラミング言語を用いたマルチリンガルプログラミングであり,そのようなプログラミングモデルはプログラマに多大な負担を強いるため,よりユーザビリティの高い GPU-FPGA 連携を実現するプログラミング環境が必要となる.そのことを踏まえ,本研究ではユーザビリティの高い GPU-FPGA 連携の実現を見据えた予備評価として,初期宇宙における天体形成をシミュレーションする ARGOT コードを OpenACC によって実装し,OpenMP ベースの CPU 実装および CUDA ベースの GPU 実装との 1 ノード利用時の性能評価を実施した.その結果,CUDA ベースの GPU 実装と遜色ない性能を達成することが明らかとなったため,本稿では,GPU クラスタを対象に,その OpenACC 実装をマルチノード・マルチ GPU 化し,その性能評価について報告する.

    researchmap

  • GPU and FPGA Unified Programming of Astrophysics Real Application with OpenACC 国際会議

    Tsunashima, Ryuta, Kobayashi, Ryohei, Fujita, Norihisa, Boku, Taisuke, Lee, Seyong, Vetter, Jeffrey S, Murai, Hitoshi, Nakao, Masahiro, Sato, Mitsuhisa

    The 4th R-CCS International Symposium  2022年2月 

     詳細を見る

    開催年月日: 2022年2月

    記述言語:英語   会議種別:ポスター発表  

    In recent years, the power consumption required for HPC systems especially for extremely large scale one has become a serious problem. Accelerators such as GPU are one of the popular solutions as shown in the GPU-ready systems occupancy in recent TOP500 List where 7 systems out of TOP10 are equipped with GPUs. The GPU achieves excellent parallel processing performance by high degree of SIMD-parallelism and very wide bandwidth of memory such as HBM2. However, GPU is not a perfect solution in several cases where its performance degrades by conditional branching, processing with data dependency, or processing with low data parallelism. On the other hand, the FPGA (Field Programmable Gate Array) is attracted as another accelerator solution beside GPU in recent years. The performance characteristics of FPGA is quite different from GPU and there is a room to apply it where GPU does not work efficiently. FPGA is the hardware that has different properties from GPU and CPU. FPGA can reconfigure the circuit as many times as you like. Therefore, it is possible to construct an optimum circuit for each application. Since the degree of parallelism that can be realized is overwhelmingly higher in GPU, the theoretical maximum FLPOS of FPGA is lower than GPU, but FPGA is expected to have higher performance in the cases mentioned above where GPU does not work well. In addition, today’s high-end FPGAs have a very high-speed external communication interface, which enables self-controllable communication between FPGAs over multiple computation nodes. We have been researching a combined accelerated computing platform with both GPU and FPGA under the concept called CHARM (Cooperative Heterogeneous Acceleration with Reconfigurable Multidevices), toward development of multi-hybrid accelerated system for next-generation supercomputer platform in the post-Moore era. However, mainstream programming languages do not support programming that combines GPU and FPGA. There are multiple languages used for offloading computations to the GPU, but since NVIDIA dominates the share of GPU in HPC, GPU processing is mainly described in CUDA. On the other hand, FPGAs have made it possible to use OpenCL instead of HDL (Hardware Description Languages) due to HLS (High-Level Synthesis) technology. Programming by combining these two force a heavy burden on application programmers and will slow down the growth of science research. OpenCL can also use to describe GPU programs, but many existing applications are already written in CUDA or only have a CPU version, so rewriting to OpenCL will be a considerable burden. Therefore, we are developing a programming environment for both accelerators using OpenACC under the concept of CAMP (Cooperative Acceleration by Multi-device Programming). Like OpenMP, OpenACC is an API that adds directives to CPU programs, so there is less effort for rewriting for offloading computations to the GPU and FPGA, and the burden on programmers can be greatly reduced. In the research so far, we developed MHOAT (Multi-Hybrid OpenACC Translator) that the prototype of the source-to-source OpenACC compiler using PGI compiler by NVIDIA and OpenARC supporting OpenACC for FPGA by ORNL to realize unified programming environment for CHARM by OpenACC. In this presentation, we show GPU + FPGA cooperative computing with OpenACC is possible by compiling and executing a real application ARGOT, which is a astrophysics simulation program, with MHOAT. Furthermore, as a future prospect, we are planning that the programming limitation due to the complexity of the back-end compilers of MHOAT will be eliminated by directly implementing the compilation function of OpenACC to OpenCL for GPU and FPGA in the Omni Compiler Infrastructure used for implementing MHOAT.

    researchmap

  • Efficiency and Effectiveness Analysis of a Scratchpad Memory on FPGA and GPU for Diffuse Radiation Transfer Simulation 国際会議

    FURUKAWA, Kazuki, YAMAGUCHI, Yoshiki, YOSHIKAWA, Kohji, KOBAYASHI, Ryohei, FUJITA, Norihisa, BOKU, Taisuke, UMEMURA, Masayuki

    The International Conference on High Performance Computing in Asia-Pacific Region (HPC Asia 2022)  2022年1月 

     詳細を見る

    開催年月日: 2022年1月

    記述言語:英語   会議種別:ポスター発表  

    開催地:Online  

    Radiation hydrodynamics is a fundamental scientific concept to unveil the cosmic physics process in astrophysics. The enormous computing efforts require a specialized approach accelerated by FPGAs and GPUs. Thus, this project targets implementing the ARGOT (Accelerated Radiative transfer on Grids using Oct-Tree) \cite{argot} onto them. In concrete, a part of ARGOT, the ART (Authentic Radiation Transfer) \cite{art}, was accelerated on both architectures. The ART scheme handles rays that represent radiation and progress linearly and parallelly in the simulation space. Moreover, the scheme sequentially and parallelly computes on the ray-traced meshes. The memory throughput has been the most critical factor in the ART acceleration because of complicated and enormous memory access. Therefore, this project proposed a buffering scheme for the ART available in FPGA and GPU to achieve sufficient acceleration. The efficiency and effectiveness are also discussed.

    researchmap

  • FPGA Memory System for HPC Applications using Addressable Cache 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke

    HPC Asia 2022 – International Conference on High Performance Computing in Asia‐Pacific Region  2022年1月 

     詳細を見る

    開催年月日: 2022年1月

    記述言語:英語   会議種別:ポスター発表  

    In our previous work, we implemented an astrophysics application for the early universe for a Field Programmable Gate Array (FPGA) cluster. We conducted that FPGAs can run parallel applications efficiently thanks to their high-performance direct inter-FPGA communication. However, the memory bandwidth of an FPGA is the bottleneck to implementing an HPC application on it. The FPGA board used in the work has only 4 channels of DDR4 memory (76.8GB/s), whereas other accelerators have more than 1TB/s of memory bandwidth. Intel Stratix 10 MX FPGA has High Bandwidth Memory (HBM) 2 providing up to 512GB/s of memory bandwidth. HBM2 aggregates many slow memory channels to achieve high performance. Although an FPGA does not have a sophisticated memory network, it must handle all memory channels simultaneously to obtain maximum performance from HBM2 memory. This is a big challenge for FPGAs equipping HBM2 memory. We propose a new memory system for FPGA and HPC applications using addressable caches. We believe that automatic cache system like CPUs is not suitable for HPC FPGAs. If we use an automatic cache system that consumes a lot of resources, resources for the computation are reduced. These caches have data copy controllers to transfer data between caches and memories. We describe how to copy data explicitly because these caches are not automatic. Our system also has crossbars to maximize the performance and flexibility of data transfer from and to HBM2 memory. In this poster, we show the work-in-progress implementation and the performance evaluation of the proposed memory system.

    researchmap

  • OpenACC Implementation of Radiative Transfer Simulation Code 国際会議

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    HPC Asia 2022 – International Conference on High Performance Computing in Asia‐Pacific Region  2022年1月 

     詳細を見る

    開催年月日: 2022年1月

    記述言語:英語   会議種別:ポスター発表  

    Graphics processing units (GPUs) offer good peak performance and high memory bandwidth. They have been widely used in high-performance computing (HPC) systems as accelerators. However, they are not suitable for all applications, and there are applications where they don’t efficiently work on. One of such applications is multiphysics simulation. Multiphysics is defined as the coupled processes or systems involving more than one simultaneously occurring physical fields and the studies of and knowledge about these processes and systems. Therefore, multiphysics applications perform simulations with multiple interacting physical properties and there are various computations within a simulation, and GPU-non-suited ones can be included. Because of that, accelerating simulation speed by GPU only is quite difficult and this is why we try to combine GPU and FPGA and make the FPGA cover GPU-non suited computation. We call this concept Cooperative Heterogeneous Acceleration with Reconfigurable Multidevices (CHARM) and have been working on GPU-FPGA-accelerated computation for radiative transfer simulation in astrophysics as a proof of concept. We are currently working on a programming environment that enables to use both accelerators in a GPU-FPGA equipped HPC cluster system with OpenACC. In order to realize it, we investigate performance of OpenACC-based GPU implementation of the simulation code by comparing with those of OpenMP-based CPU implementation and CUDA-based GPU implementation, and confirmed that there is almost no difference between the CUDA and OpenACC implementations.

    researchmap

  • Multi-hetero Acceleration by GPU and FPGA for Astrophysics Simulation on oneAPI Environment 国際会議

    Kashino, Ryuta, Kobayashi, Ryohei, Fujita, Norihisa, Boku, Taisuke

    HPC Asia 2022 – International Conference on High Performance Computing in Asia‐Pacific Region  2022年1月 

     詳細を見る

    開催年月日: 2022年1月

    記述言語:英語   会議種別:口頭発表(一般)  

    GPU (Graphics Processing Unit) computing is one of the most popular accelerating methods for various high-performance computing applications. For scientific computations based on multi-physical phenomena, however, a single device solution on a GPU is insufficient, where the single timescale or degree of parallelism is not simply supported by a simple GPU-only solution. We have been researching a combination of a GPU and FPGA (Field Programmable Gate Array) for such complex physical simulations. The most challenging issue is how to program these multiple devices using a single code. OneAPI, recently provided by Intel, is a programming paradigm supporting such a solution on a single language platform using DPC++ based on SYCL 2020. However, there are no practical applications utilizing its full features or supporting heterogeneous multi-device programming to demonstrate its potential capability. In this study, we present the implementation and performance evaluation of our astrophysics code ARGOT used to apply the oneAPI solution with a GPU and an FPGA. To realize our concept of Cooperative Heterogeneous Acceleration by Reconfigurable Multidevices, also known as CHARM, as a type of next-generation accelerated supercomputing for complex multi-physical simulations, this study was conducted on our multi-heterogeneous accelerated cluster machine running at the University of Tsukuba. Through the research, we found that current oneAPI framework is effective not only for its typical programming by DPC++ but also for utilizing traditionally developed applications coded by several other languages such as CUDA or OpenCL to support multiple types of accelerators. As an example of real application, we successfully implemented and executed an early stage universe simulation by fundamental astrophysics code to utilize both GPU and FPGA effectively. In this paper, we demonstrate the actual procedure for this method to program multi-device acceleration over oneAPI.

    researchmap

  • An Efficient RTL Buffering Scheme for an FPGA-Accelerated Simulation of Diffuse Radiative Transfer 国際会議

    Furukawa, Kazuki, Yokono, Tomoya, Yamaguchi, Yoshiki, Yoshikawa, Kohji, Fujita, Norihisa, Kobayashi, Ryohei, Boku, Taisuke, Umemura, Masayuki

    International Conference on Field Programmable Technology  2021年12月  FPT Steering Committee

     詳細を見る

    開催年月日: 2021年12月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Online  

    In recent decades, FPGA-based HPC systems have been in the limelight. As an FPGA-accelerated application, the Accelerated Radiative transfer on Grids using Oct-Tree (ARGOT) program has been developing as a cosmic radiative transfer simulation code at the Center for Computational Sciences in the University of Tsukuba. The ARGOT program was originally a GPU-accelerated program. However, it includes the Authentic Radiation Transfer (ART) scheme for diffuse photon, which is based on a ray-tracing method for parallel rays and accounts for more than 90% of the total computation time. After examining the aspects of the ART, it is expected that FPGA acceleration would be better than GPU. Therefore, in this paper, we focus on implementing the ART scheme on a large-scale FPGA. The prime issue of the ART on FPGA is found to be its high memory bandwidth requirement. The reason is each processing element (PE) needs large size mesh data while operating. As a result of this, Terabytes of aggregated bandwidth of external memories are required by total PEs depending on the parallel number. To achieve this demand, we first conducted a mini-benchmark to investigate the use of HBM and Xilinx HBM Subsystem on HBM-FPGA, Xilinx Alveo U280 Accelerator Card. However, the result revealed that HBM does not necessarily meet the bandwidth requirements of the ART operation. To deal with this limitation, we proposed an application-specific buffering mechanism, which is named the ``PRefetchable and Instantly accessible Scratchpad Memory'' (PRISM). We used the UltraRAM on Virtex UltraScale+ FPGA chip as this local storage system. The PRISM stores the mesh data on the triangular-prism-shaped subspace, cut out from the simulation space. In addition, to reduce routing congestion, we also devised to have it tightly connected with the ART accelerators. The evaluation result with 16 PEs shows that the PRISM reduces memory access loads to less than 10\% compared to a DMA model to HBM. We will also discuss an intermediate data storage system using DDR4 SDRAM to cope with multiple FPGA operations.

    researchmap

  • 演算精度の動的制御によるApproximate Computingの実現に向けた予備評価

    和田, 康孝, 小林, 諒平, 坂本, 龍一, 森江, 善之

    第181回ハイパフォーマンスコンピューティング研究発表会  2021年9月 

     詳細を見る

    開催年月日: 2021年9月

    記述言語:日本語   会議種別:口頭発表(一般)  

    演算精度と実行性能あるいは消費電力等とのトレードオフを最適化する Approximate Computing 技術が浸透し始めている.Approximate Computing 技術を活用することで,アプリケーションを実行する際に,必要十分な精度の演算結果を得つつも,実行性能の最大化や消費電力の削減を可能とすることができる.今後さらにその効果を拡大させるためには,GPGPU や FPGA などのアクセラレータを搭載したシステムや,構成が異なるノードを複数台接続することで構成されるシステムなど,様々な状況に即して Approximate Computing を適用する必要がある.特に,アプリケーション実行時に,アプリケーションの構造やシステムの状況に応じて,動的に演算精度を調整することが重要となると考えられる.このような背景から,本稿では,アプリケーション実行時に動的に演算精度を変更・調整することを想定し,これをアプリケーションのレベルで適用した際の実行性能と演算結果への影響・トレードオフを評価する.

    researchmap

  • HBM2 Memory System for HPC Applications on an FPGA 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke

    FPGA for HPC Workshop 2021 (HPC FPGA 2021) 

     詳細を見る

    開催年月日: 2021年9月

    Field Programmable Gate Arrays (FPGAs) have been targeted as a new accelerator of the HPC field. This is because the barrier to using FPGAs has been gradually lowered due to the widespread use of high-level synthesis (HLS) technology. In addition, the bandwidth of external memory in FPGAs is much lower than that of other accelerators widely used in HPC, such as NVIDIA V100 GPUs. However, the latest FPGAs can use High Bandwidth Memory 2 (HBM2), which has a memory bandwidth of up to 512GB/s. Therefore, we believe FPGAs will be a viable option for speeding up applications. However, unlike CPUs and GPUs, FPGAs do not have caches and memory networks to exploit the full potential of HBM2, which may limit the efficiency of the application. In this paper, we propose a memory system for HBM2 and HPC applications. We show the prototype implementation of the system and evaluate its performance. We also demonstrate the use of the proposed system from an application developed in High-Level Synthesis (HLS) written in C++.

    researchmap

  • FPGA-cluster deployment and adoption to application users 招待 国際会議

    Kobayashi, Ryohei

    FPGA for HPC Workshop 2021 (HPC FPGA 2021)  2021年9月 

     詳細を見る

    開催年月日: 2021年9月

    記述言語:英語   会議種別:シンポジウム・ワークショップ パネル(指名)  

    researchmap

  • HBM-FPGA によるDiffuse Photon の大規模輻射輸送計算と課題

    古川, 和輝, 横野, 智也, 山口, 佳樹, 吉川, 耕司, 藤田, 典久, 小林, 諒平, 朴, 泰祐, 梅村, 雅之

    第20回情報科学技術フォーラム  2021年8月  情報処理学会

     詳細を見る

    開催年月日: 2021年8月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:Online  

    HBM-FPGAを利用した宇宙輻射輸送シミュレーションARGOT(Accelerated Radiative transfer on Grids using Oct-Tree/筑波大学計算科学研究センター)の演算加速について議論する.本シミュレーションは,HBM などの大規模・高帯域なメモリを利用しても、メモリ帯域幅がボトルネックとなり十分な加速が難しいことが知られる.そこで本研究では,メモリアクセス効率を高めるため,演算バッファに細粒度なデータフロー制御を組み込むことでメモリアクセス数の削減を図り,飛躍的な演算速度の向上を目指している.本報告では,等方性拡散する各光線が直線的に進行する性質に着目し演算空間を三角錐型に分割するとともにその更新順序を最適化することで,高効率なストリーム演算が実現可能であることを示す.

    researchmap

  • oneAPIを用いたGPU・FPGA混載ノードにおけるヘテロ演算加速プログラム開発

    柏野, 隆太, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    2021年並列/分散/協調処理に関するサマー・ワークショップ (SWoPP2021)  2021年7月 

     詳細を見る

    開催年月日: 2021年7月

    記述言語:日本語   会議種別:口頭発表(一般)  

    我々は,メモリバンド幅と空間並列性基づく演算性能に優れた GPU とパイプライン並列性による演算性能と通信性能に優れた FPGA を相補的に活用することでアプリケーション全体の性能向上を目指している.このコンセプトを CHARM(Cooperative Heterogeneous Acceleration with Reconfigurable Multidevices)と呼んでおり,多様な HPC ワークロードに対して効果的に働くことが期待できる.しかしながら,一般に GPU と FPGA は異なるプログラム開発環境で開発されるアクセラレータであり,開発ユーザーにとって負担が大きい.そのため,開発の複雑さを解決する統一的な開発環境が必要である.この問題に対して,Intel 社により提供される oneAPI 開発環境が有効に働くことが期待できる.oneAPI は,異なるアクセラレーター間において統一的な言語および各オフローディングモジュールを統合的に実行する API を提供する.本稿では,NVIDIA GPU 及び Intel FPGA の 2 つのアクセラレータをターゲットとして,oneAPI を用いたヘテロ演算加速プログラムを開発する手法について報告する.

    researchmap

  • FPGAにおけるHPCアプリケーション向けHBM2メモリシステムの提案と実装

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    2021年並列/分散/協調処理に関するサマー・ワークショップ (SWoPP2021)  2021年7月 

     詳細を見る

    開催年月日: 2021年7月

    記述言語:日本語   会議種別:口頭発表(一般)  

    高性能計算の分野で Field Programmable Gate Array (FPGA) が新たなるアクセラレータとして注目されている.近年,高位合成 (High Level Synthesis: HLS) 開発環境が発展しておきており,C や C++ といった言語を用いた開発が可能になりつつある.FPGA は外部メモリ帯域が弱いという課題があり FPGA を HPC で利用する際の障壁となることがあったが,High Bandwidth Memory 2 (HBM2) を搭載した FPGA チップがベンダーからリリースされ始めており,最大で 512GB/s のメモリ帯域を有する.しかしながら,FPGA には,キャッシュやメモリネットワークといったメモリを利用するための機能はなく,HBM2 を FPGA で利用する際の課題の一つである.本稿では,HPC アプリケーションに適する HBM2 メモリシステムの提案と実装を行い性能評価について報告を行う.また,高位合成で記述したカーネルから提案システムが扱えることを示す.

    researchmap

  • FPGA向け浮動小数点数型ソーティングライブラリの提案と実装

    小林, 諒平, 三浦, 賢人, 藤田, 典久, 朴, 泰祐, 天笠, 俊之

    SWoPP2021: 並列/分散/協調システムとディペンダブルコンピューティングおよび一般  2021年7月 

     詳細を見る

    開催年月日: 2021年7月

    記述言語:日本語   会議種別:口頭発表(一般)  

    我々はこれまで基本的な算術演算であるデータのソートに着目し,FPGA (Field-Programmable Gate Array) のプログラミングモデルであるOpenCLで使用可能なソーティングライブラリを開発している.本稿では,浮動小数点数型データに対応する機構の提案および実装について報告する.提案するソーティングライブラリは、3つのハードウェアソートアルゴリズムを組み合わせて構築され,OpenCLプログラミングモデル用に再実装したマージソートアルゴリズムと比較した結果,全体のハードウェアリソースを2倍以上消費する一方で,3桁以上のソート性能を達成した.

    researchmap

  • Performance Evaluation of HBM2 on an Intel Stratix 10 MX device for HPC Applications 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke

    ISC 2021: International Supercomputing Conference 

     詳細を見る

    開催年月日: 2021年6月 - 2021年7月

    High Level Synthesis (HLS) decreases difficulties in developing FPGA hardware, which enables us to use software languages such as C, C++, and OpenCL for creating FPGA hardware logic. HLS also enables HPC application developers to implement their applications on FPGA systems. However, the memory bandwidth of an FPGA is lower than other accelerators used in the HPC area such as GPU. An FPGA board for HPC with DDR4 memory had only 76.8GB/s memory bandwidth at maximum. Recently, an FPGA chip with High bandwidth memory 2 (HBM2) is available with a 3D-stacked memory structure and many channels aggregated to obtain high bandwidth. It has up to 512GB/s of memory bandwidth in the latest Intel Stratix10. Comparing to GPU, it is still around a quarter of GPU but this ratio is much better than before. In this poster, we evaluate the performance of HBM2 in an Intel Stratix 10 MX FPGA. We implement a tester module that supports not only sequential access but also stride access which is widely used in HPC applications. In addition to the performance evaluation, we discuss how to utilize a lot of memory channels from HBM2 and propose our memory subsystem for HBM2 and HPC applications in an FPGA.

    researchmap

  • A Sorting Library for FPGA Implementation in OpenCL Programming 国際会議

    Kobayashi, Ryohei, Miura, Kento, Fujita, Norihisa, Boku, Taisuke, Amagasa, Toshiyuki

    International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies (HEART 2021)  2021年6月 

     詳細を見る

    開催年月日: 2021年6月

    記述言語:英語   会議種別:口頭発表(一般)  

    In this study, we focus on data sorting, which is a basic arithmetic operation, and we present a sorting library that can be used with the OpenCL programming model for field-programmable gate arrays (FPGAs). Our sorting library is built by combining three hardware sorting algorithms. It consumes more than twice the overall hardware resources compared to the merge sort restructured for the OpenCL programming model for FPGAs. However, its operating frequency is 1.09x higher and its sorting throughput is three orders of magnitude greater than the baseline.

    researchmap

  • コンパクション処理を活用した正規パス問合わせアクセラレータのFPGA実装

    小林, 諒平, 三浦賢人, 藤田典久, 朴泰祐, 天笠俊之

    2021年6月リコンフィギャラブルシステム研究会  2021年6月 

     詳細を見る

    開催年月日: 2021年6月

    記述言語:日本語   会議種別:口頭発表(一般)  

    グラフ構造は身の回りの様々なデータを表すのに効果的なデータ構造である.ビッグデータ分析などの普及に伴い,現在では様々な分野においてグラフ構造データが用いられている.そのようなグラフ構造データからユーザの望むデータを抽出する方法の一つとして,指定されたエッジの並びをもつパスをグラフ内から探索し,そのパスの始点・終点ノードを返す正規パス問合わせ(RPQ)が存在する.本研究では,RPQ評価をパイプライン的に処理するための手法とそのFPGA実装を提案する.実装したRPQアクセラレータの性能を評価したところ,比較手法と比べ最大で約3桁の高速化を達成した.また本研究では,より大規模なグラフを扱えるようにする拡張手法を提案しており,それが実機で正しく動作することを確認した.

    researchmap

  • HBM2メモリを持つFPGAボードの性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    第178回ハイパフォーマンスコンピューティング研究発表会  2021年3月 

     詳細を見る

    開催年月日: 2021年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    近年,高位合成(High Level Synthesis: HLS)と呼ばれる技術が発展してきており,Field Programmable Gate Array(FPGA)開発の障壁が低下しつつある.しかしながら,FPGA の持つメモリ帯域は他のアクセラレータと比べて低く,HPC 分野で FPGA を利用する際の障壁となることがあった.しかし,High Bandwidth Memory 2(HBM2)を搭載した FPGA チップがベンダーからリリースされ始めており,最大で 512GB/s のメモリ帯域を有する.依然として,Graphics Processing Unit(GPU)のアクセラレータと比べると,1/4 倍性能の開きがあるものの,性能が一桁以上違うという状況からは改善しつつある.本稿では,Intel Stratix10 FPGA に搭載された HBM2 メモリの性能評価および HPC アプリケーションに適用する手法について述べる.

    researchmap

  • Preliminary Evaluation of Multi-hybrid Acceleration for Radiative Transfer Simulation by OpenACC 国際会議

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    The 3rd R-CCS international symposium  2021年2月 

     詳細を見る

    開催年月日: 2021年2月

    記述言語:英語   会議種別:ポスター発表  

    Graphics processing units (GPUs) offer good peak performance and high memory bandwidth. They have been widely used in high-performance computing (HPC) systems as accelerators. However, they are not suitable for all applications, and there are applications where they don’t efficiently work on. One of such applications is multiphysics simulation. Multiphysics is defined as the coupled processes or systems involving more than one simultaneously occurring physical fields and the studies of and knowledge about these processes and systems. Therefore, multiphysics applications perform simulations with multiple interacting physical properties and there are various computations within a simulation, and GPU-non-suited ones can be included. Because of that, accelerating simulation speed by GPU only is quite difficult and this is why we try to combine GPU and FPGA and make the FPGA cover GPU-non suited computation. We call this concept Cooperative Heterogeneous Acceleration with Reconfigurable Multidevices (CHARM) and have been working on GPU-FPGA-accelerated computation for radiative transfer simulation in astrophysics as a proof of concept. The implementation method of GPU-FPGA-accelerated computation is a mixture of CUDA and OpenCL programming, which means that the computation kernels running on GPUs are written in CUDA and those running on FPGAs are written in OpenCL. We do not write all computation kernels in OpenCL for the following three reasons. First, since most of the existing HPC applications are CUDA-based implementations, it is very burdensome for programmers to rewrite the entire code in OpenCL. Secondly, even if OpenCL is a platform that is designed to run applications in a heterogeneous environment, in order to use both GPUs and FPGAs at the same time, it is necessary to separately compile and link the computation kernels using the OpenCL compiler for GPUs and the OpenCL compiler for FPGAs. This is essentially the same as the CUDA and OpenCL programming environments. Finally, most of the GPUs used in HPC are made by NVIDIA, and it is not hard to imagine that it is easier to maximize the performance of GPUs by using CUDA, which is a programming model that follows the GPU architecture. For these reasons, we use a mixture of CUDA and OpenCL programming. On the other hand, such a multi-lingual programming imposes a heavy burden on programmers, and therefore, a programming environment with higher usability is required. We are currently working on a programming environment that enables to use both accelerators in a GPU-FPGA equipped HPC cluster system with OpenACC. Since it is a directive-based programming model, we can specify to the compiler by directives which part of the application should be offloaded to which accelerator. In addition, Oak Ridge National Laboratory (ORNL) is developing a compiler that can write computation kernels for FPGAs as well as GPUs in OpenACC. We are currently collaborating with ORNL with the goal of realizing cooperative computation of both accelerators in a GPU-FPGA equipped HPC cluster system, and as part of this collaboration, we use the compiler being developed by ORNL to realize the high usability GPU-FPGA-accelerated computation described above. Given the above background, we implement the radiative transfer simulation code with OpenACC and evaluate the performance by comparing with those of OpenMP-based CPU implementation and CUDA-based GPU implementation. Moreover, we introduce a data transfer method between the GPU and the FPGA for realizing a highly-usable GPU-FPGA-accelerated computation. With this data transfer method, it is possible to implement GPU computation kernels in OpenACC, which are assumed to be communicated from FPGAs by the PCIe DMA.

    researchmap

  • Multi-device Programming Environment for GPU and FPGA Cooperative Acceleration 国際会議

    Tsunashima, Ryuta, Kobayashi, Ryohei, Fujita, Norihisa, Boku, Taisuke, Lee, Seyong, Vetter, Jeffrey, Murai, Hitoshi, Nakao, Masahiro, Sato, Mitsuhisa

    The 3rd R-CCS international symposium  2021年2月 

     詳細を見る

    開催年月日: 2021年2月

    記述言語:英語   会議種別:ポスター発表  

    In recent High Performance Computing (HPC), hardware acceleration is becoming common because accelerators have high performance/power ratio and flexibility to attach to the host CPU through universal bus such as PCIe. In particular, the Graphics Processing Unit (GPU) has very high parallel processing performance and high memory bandwidth so that is the most popular accelerator. However, the performance of GPU depends highly on a large degree of SIMD parallelism and has difficulty sustaining a high performance on programs with frequent branch operations or a partially low degree of parallelism even in a part of code. By contrast, Field Programmable Gate Array (FPGA) has received attention as a different type of accelerator from GPU. FPGA is the processor that can reconfigure a circuit any number of times so that can fit the target applications. The high performance of FPGA is mainly provided by a pipelined operation and optimized circuit suitable for any operation even with frequent conditional branches. We have been focusing on the flexibility of FPGA to compensate for the weakness of GPU. However, application users of the GPU and FPGA coupling system need quite programming effort by traditional programming environment. In HPC, the most popular language of GPUs is CUDA by NVIDIA. But CUDA is still difficult for application users. Therefore, OpenACC is becoming popular that is higher level abstraction framework than CUDA in recent years. On the other hand, traditional FPGA programming is used a hardware description language such as Verilog HDL and VHDL. This is burden for application users. Recently, High Level Synthesis (HLS) has become available even on high-end FPGAs so application users can code by OpenCL. Moreover, several recent studies have also enabled the OpenACC coding for use in FPGA. In this study, we propose new unified programming environment for the multi- device cooperative computation aiming at the next-generation accelerated supercomputer framework as Cooperative Acceleration by Multi-device Programming, or CAMP for short. We provide a unified programming system based on OpenACC for a platform equipped with both GPU and FPGA. To realize this concept, we have developed a programming environment called Multi-Hybrid OpenACC Translator, or MHOAT for short. we show the basic concept and prototype system of MHOAT based on the evaluation both on the coding amount and the computing performance.

    researchmap

  • Implementation and Performance Evaluation of Space Radiative Transfer Code on multiple-FPGAs 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    The 3rd R-CCS international symposium  2021年2月 

     詳細を見る

    開催年月日: 2021年2月

    記述言語:英語   会議種別:ポスター発表  

    In recent years, research on Field Programmable Gate Array (FPGA) for High performance Computing (HPC) has been widely studied. Traditionally, we have to use low-level languages such as Verilog HDL or VHDL to describe FPGA hardware. It is difficult for HPC researchers to use these languages. However, High-Level Synthesis (HLS) development environments relax this problem. We can use languages for software such as C, C++, and OpenCL for FPGA development. As an HLS development environment, we use Intel FPGA SDK for OpenCL in this study. The SDK allows us to describe FPGA hardware in OpenCL language. Moreover, The SDK has FPGA-specific extensions to the OpenCL language for optimization on an FPGA. One of the extensions is called as “channel”. It connects and transfers data between two OpenCL kernels inside an FPGA directly. As a result, transferring data using channels is much faster and efficient compared to the traditional method of using an external memory as a buffer. However, the channel extension supports only intra-FPGA communication and does not support inter-FPGA communication. Therefore, we have proposed the Communication Integrated Reconfigurable CompUting System (CIRCUS) inter-FPGA communication framework for OpenCL. It allows us to use inter-FPGA communication over channels. The Center for Computational Sciences (CCS) at the University of Tsukuba has been developing Accelerated Radiative transfer of Grids using Oct-Tree (ARGOT) program. It solves the space radiative transfer problem in the early stage of the universe. ARGOT combines two algorithms to solve the radiative problem. The ARGOT method is used to compute the radiative transfer from a point source such as a star. The Authentic Radiation Transfer (ART) method is used to compute the radiative transfer from sources diffused into space. The ART method takes approximately 90% of the computation time and is the dominant part of the ARGOT program. In this poster, we optimize the ART method for Intel Stratix 10 FPGA and apply it to the CIRCUS communication framework. We use the Pre-PACX-X (PPX) cluster for performance evaluation, which is a development platform for the future supercomputer at CCS. It has four Bittware 520N FPGA boards that equip Intel Stratix 10 FPGAs. The board has four external QSFP28 ports supporting up to 100Gbps inter-FPGA communication. We make a 2x2 2D-torus network connecting four boards by optical cables at a speed of 100Gbps. We evaluate the performance of the FPGA implementation using CIRCUS comparing to the CUDA+MPI implementation. Because the FPGA implementation is preliminary, we have a restriction about the problem size that FPGA can solve. It supports only 323 problem size per FPGA. Therefore, we evaluate the performance based on weak scaling cases with one, two, and four accelerators (GPU or FPGA). The FPGA implementation is 5.70-, 8.41-, and 10.6- times faster than that of a GPU on one, two, and four nodes, respectively. The parallelized implementation of the ART method using CIRCUS shows better efficiency than that of the CUDA implementation. The FPGA achieves parallel efficiency of 0.924 on four nodes, whereas the GPU achieved an efficiency of 0.492.

    researchmap

  • FPGA/GPU協調によるネットワーク型不正侵入検知システムの構築

    菊地, 駿太, 池上, 努, Akram, ben Ahmed, 工藤, 知宏, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    2021-01-CPSY-RECONF-VLD-ARC-SLDM  2021年1月 

     詳細を見る

    開催年月日: 2021年1月

    記述言語:日本語   会議種別:口頭発表(一般)  

    近年,CPUの性能向上が鈍化していることなどにより,複数種類のプロセッサを組み合わせて処理を行うヘテロジーニアスコンピューティングが注目されている. 既存の研究は,CPUとGPUやFPGAなどのコプロセッサの協調処理に関するものがほとんどであった. 本研究では,FPGAとGPUの協調処理によるネットワーク型不正侵入検知システム(NIDS)を構築する。FPGA上に簡素なプリフィルタを実装し、100Gbpsを超える大量のトラフィックから10%程度の怪しいパケットを抽出する。抽出されたパケットはGPU上で、NIDSの定義に従って様々な長さの文字列に対する完全なマッチングを行う。FPGAからGPUへのパケットの送信にはCPUを介さない低レイテンシの直接転送機構を活用し、効率的なシステムを実現する。

    researchmap

  • Performance Evaluation of OpenCL-Enabled Inter-FPGA Optical Link Communication Framework CIRCUS and SMI 国際会議

    Kashino, Ryuta, Kobayashi, Ryohei, Fujita, Norihisa, Boku, Taisuke

    HPC Asia 2021 (International Conference on High Performance Computing in Asia-Pacific Region)  2021年1月 

     詳細を見る

    開催年月日: 2021年1月

    記述言語:英語   会議種別:口頭発表(一般)  

    In recent years, Field Programmable Gate Array (FPGAs) have attracted much attention as accelerators in the research area of HighPerformance Computing (HPC). One of the strong features of current FPGA devices is their ability to achieve high-bandwidth communication performance with direct optical links to construct multi-FPGA platforms as well as their adjustability. However, FPGA programming is not easily performed on user applications. By more user-friendly programming environments, FPGAs can be applied to various HPC applications on multi-FPGA platforms. Of the several studies aimed at realizing high-level synthesis to utilize the FPGA communication feature, we focus on two systems: Communication Integrated Recongurable CompUting System (CIRCUS) and Streaming Message Interface (SMI) which are available on an Intel FPGA with direct optical links with a peak performance of 40 ∼ 100 Gbps. In both systems, a user can access the optical link in OpenCL kernels where high-level programming for HPC applications is possible. In this paper, we introduce them for practical cases and compare their implementations and performance in real systems. In conclusion, we evaluated that the CIRCUS system for single point-to-point communication achieves a bandwidth of up to 90 Gbps with a 100-Gbps optical link using OpenCL code. It is 2.7 times faster than the SMI system implemented on the same platform, and we also confirmed that the broadcast data transfer among four FPGAs using CIRCUS is up to 31 Gbps of bandwidth which is 5.3 times faster compared to that achieved using SMI. In addition, we determined the main cause of the performance bottleneck on SMI when it is applied to a 100-Gbps platform and compared it with the CIRCUS implementation.

    researchmap

  • OpenACCとOpenCLの混合記述によるGPU-FPGAデバイス間連携

    小林, 諒平, 藤田, 典久, 朴, 泰祐

    第177回ハイパフォーマンスコンピューティング研究発表会  2020年12月 

     詳細を見る

    開催年月日: 2020年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや複数の同時発生する物理現象を含むシミュレーションであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速が困難な場合がある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.しかし,その実装方式は GPU で動作する計算カーネルを CUDA にて,FPGA で動作する計算カーネルを OpenCL にて記述するというような複数のプログラミング言語を用いたマルチリンガルプログラミングであり,そのようなプログラミングモデルはプログラマに多大な負担を強いるため,よりユーザビリティの高い GPU-FPGA 連携を実現するプログラミング環境が必要となる.そのことを踏まえ,本稿ではユーザビリティの高い GPU-FPGA 連携の実現を見据えた予備評価として,CUDA より抽象度を引き上げたプログラミングモデルである OpenACC と OpenCL の組み合わせにより GPU と FPGA の両演算加速デバイスを連携させ,性能向上を目指す枠組みを示す.

    researchmap

  • OpenACCによるGPUデバイスメモリ管理についての考察

    渡邉, 孔英, 菊池, 航平, 柏野, 隆太, 綱島, 隆太, 藤田, 典久, 小林, 諒平, 朴, 泰祐

    第177回ハイパフォーマンスコンピューティング研究発表会  2020年12月 

     詳細を見る

    開催年月日: 2020年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    アプリケーションの GPU 化によって高速化を図るとき,CPU メモリと GPU メモリの間のデータ移動管理が必要になる.OpenACC で記述されたプログラムを PGI コンパイラでコンパイルするとき,データ移動の管理は自動的に行わせるか,プログラマが記述するかを選択することができる.本研究では,両方の方法によるデータ移動管理とその性能について,実験を行って比較および考察した.その結果,データアクセスのパターンによっては,データ移動管理を自動的に行わせる方がデータ転送を削減でき,高速化に役立つ場合があることがわかった.

    researchmap

  • Toward OpenACC-enabled GPU-FPGA Accelerated Computing 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    2020 IEEE International Conference on Cluster Computing (CLUSTER 2020)  2020年9月 

     詳細を見る

    開催年月日: 2020年9月

    記述言語:英語   会議種別:ポスター発表  

    Field-programmable gate arrays (FPGAs) have garnered significant interest in research on high-performance computing because their computation and communication capabilities have drastically improved in recent years due to advances in semiconductor integration technologies that rely on Moore's Law. These improvements reveal the possibility of implementing a concept to enable on-the-fly offloading computation at which CPUs/GPUs perform poorly to FPGAs while performing low-latency data movement. We think that this concept is key to improving the performance of heterogeneous supercomputers using accelerators such as the GPU. In this paper, we propose a GPU-FPGA-accelerated simulation based on the concept and show preliminary results of the proposed concept.

    researchmap

  • FPGAに組み込まれたHBMの効率的な利用とその考察

    古川, 和輝, 横野, 智也, 山口, 佳樹, 吉川, 耕司, 藤田, 典久, 小林, 諒平, 朴, 泰祐, 梅村, 雅之

    電子情報通信学会リコンフィギャラブルシステム研究会  2020年9月  電子情報通信学会リコンフィギャラブルシステム研究専門委員会

     詳細を見る

    開催年月日: 2020年9月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンライン(Zoom)  

    複数の FPGA を用いた演算加速が高性能計算において期待される中,AiS (Accelerators in Switch) という 一概念に注目が集まっている.AiS は,各 FPGA を繋ぐ通信機構の中にアプリケーション特化の演算機構を組みこ み,通信 × 演算の密結合型機構の実現とそれによるシステム性能の向上を提案している.筑波大学計算科学研究セン ターでは,宇宙輻射輸送シミュレーションコード ARGOT (Accelerated Radiative transfer on Grids using Oct-Tree) を開発 し,これに AiS を応用することで,シミュレーションシステムの高速化を目指す研究が進められている.本研究では, ARGOT のうち ART (Authentic Radiation Transfer) スキームを FPGA で高速化することを提案する.ART は3次元格 子空間を扱うため,これに由来するランダムに近いメモリアクセス制御は FPGA による解決を期待できる.一方,演 算時に発生する膨大なメッシュデータのメモリアクセスについては,FPGA 内の BRAM 等に保存することが難しく, 性能低下の原因となっていた.そこで本稿では HBM (High Bandwidth Memory) に着目し,これを用いた ART スキー ムの実装について提案する.まず,Xilinx Alveo U280 における HBM のメモリアクセス性能について議論する.続け て,HBM からメッシュデータを読み出す場合の SPM (Scratchpad Memory) として On-chip RAM(BRAM・URAM)を 用いることを想定し,メモリアクセスがボトルネックとならない SPM へのアクセス率の検証と,外部メモリへのアク セス回数を減らすための工夫に関して議論を行う.

    researchmap

  • 再結合光子の輻射輸送大規模計算に向けたHBM-FPGA実装への考察

    古川, 和輝, 横野, 智也, 山口, 佳樹, 吉川, 耕司, 藤田, 典久, 小林, 諒平, 朴, 泰祐, 梅村, 雅之

    第19回情報科学技術フォーラム  2020年9月 

     詳細を見る

    開催年月日: 2020年9月

    記述言語:日本語   会議種別:口頭発表(一般)  

    筑波大学計算科学研究センターのプロジェクトに,宇宙輻射輸送シミュレーションを利用した天体現象の解明がある.このシミュレーションは、星および星間媒質からのエネルギー演算により構成されるARGOT (Accelerated Radiative transfer on Grids using Oct-Tree) 法を用いて演算を行う.後者の演算スキーム,ART (Authentic Radiation Transfer) は,ランダムメモリアクセスが可能なことから FPGA 実装による飛躍的な速度向上が期待されているが,GPU実装を大きく超える高速化は実現されていない。そこで本研究では,演算方式の見直しを含め,メモリシステムを含めた演算加速部の高速化について議論する.

    researchmap

  • Stratix 10 FPGAを用いたray-tracing法による輻射輸送計算の高速化

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    第175回ハイパフォーマンスコンピューティング研究発表会(SWoPP2020)  2020年7月 

     詳細を見る

    開催年月日: 2020年7月

    記述言語:日本語   会議種別:口頭発表(一般)  

    我々はこれまでの研究で,宇宙輻射輸送問題で用いられる Authentic Radiative Transfer(ART)法を Arria 10 FPGA 上に実装し性能評価を行ってきた.本稿では,ART 法を最新の Intel Field Programmable Gate Array(FPGA)である Stratix 10 FPGA 向けに最適化し,性能評価を行う.また,我々が提唱している FPGA 間通信フレームワークである Communication Integrated Reconfigurable CompUting System(CIRCUS)を用いて並列計算を実現し,複数 FPGA を用いる際の性能評価も行う.

    researchmap

  • OpenCL対応FPGA間光リンク接続フレームワークCIRCUSとSMIの性能評価

    柏野, 隆太, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    第175回ハイパフォーマンスコンピューティング研究発表会(SWoPP2020)  2020年7月 

     詳細を見る

    開催年月日: 2020年7月

    記述言語:日本語   会議種別:口頭発表(一般)  

    近年,高性能分野において FPGA に対する期待が高まっている.高位合成により開発の障壁が低下し,強力な通信性能をもつことが可能な FPGA は従来のシステムでは高速化できない種類のアプリケーションに対しても効果的に働く可能性がある.これらの FPGA の特徴を最大限に活用するためには,FPGA に特化した通信フレームワークが必要となる.既にこの研究は行われており,筑波大学から CIRCUS,チューリッヒ工科大学から SMI が提案されている.いずれも 40~100Gbps の光リンクを OpenCL から利用可能とするもので,今後の FPGA の HPC 利用において重要なパーツとなると考えられる.本報告では,この 2 つの手法,CIRCUS と SMI について実機性能評価を行い,その特性を比較する.

    researchmap

  • 宇宙幅射輸送コードARGOTのOpenACCによるGPU実装

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    第175回ハイパフォーマンスコンピューティング研究発表会(SWoPP2020)  2020年7月 

     詳細を見る

    開催年月日: 2020年7月

    記述言語:日本語   会議種別:口頭発表(一般)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや複数の同時発生する物理現象を含むシミュレーションであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速が困難な場合がある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.しかし,その実装方式は GPU で動作する計算カーネルを CUDA にて,FPGA で動作する計算カーネルを OpenCL にて記述するというような複数のプログラミング言語を用いたマルチリンガルプログラミングであり,そのようなプログラミングモデルはプログラマに多大な負担を強いるため,よりユーザビリティの高い GPU-FPGA 連携を実現するプログラミング環境が必要となる.そのことを踏まえ,本稿ではユーザビリティの高い GPU-FPGA 連携の実現を見据えた予備評価として,初期宇宙における天体形成をシミュレーションするプログラムを OpenACC によって実装し,OpenMP ベースの CPU 実装および CUDA ベースの GPU 実装との性能評価を行う.

    researchmap

  • OpenACC unified programming environment for GPU and FPGA multi-hybrid acceleration 国際会議

    Tsunashima, Ryuta, Kobayashi, Ryohei, Fujita, Norihisa, Boku, Taisuke, Lee, Seyong, Vetter, Jeffrey S., Murai, Hitoshi, Nakao, Masahiro, Sato, Mitsuhisa

    HLPP 2020: 13th International Symposium on High-level Parallel Programming and Applications  2020年7月 

     詳細を見る

    開催年月日: 2020年7月

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • Accelerating Radiative Transfer Simulation with GPU-FPGA Cooperative Computation 国際会議

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    IEEE 31st International Conference on Application-specific Systems, Architectures and Processors (ASAP)  2020年7月 

     詳細を見る

    開催年月日: 2020年7月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Manchester  

    Field-programmable gate arrays (FPGAs) have garnered significant interest in research on high-performance computing. This is ascribed to the drastic improvement in their computational and communication capabilities in recent years owing to advances in semiconductor integration technologies that rely on Moore’s Law. In addition to these performance improvements, toolchains for the development of FPGAs in OpenCL have been offered by FPGA vendors to reduce the programming effort required. These improvements suggest the possibility of implementing the concept of enabling on-the-fly offloading computation at which CPUs/GPUs perform poorly relative to FPGAs while performing low-latency data transfers. We consider this concept to be of key importance to improve the performance of heterogeneous supercomputers that employ accelerators such as a GPU. In this study, we propose GPU–FPGA-accelerated simulation based on this concept and demonstrate the implementation of the proposed method with CUDA and OpenCL mixed programming. The experimental results showed that our proposed method can increase the performance by up to 17.4× compared with GPU-based implementation. This performance is still 1.32× higher even when solving problems with the largest size, which is the fastest problem size for GPU-based implementation. We consider the realization of GPU–FPGA-accelerated simulation to be the most significant difference between our work and previous studies.

    researchmap

  • Performance Evaluation of Pipelined Communication Combined with Computation in OpenCL Programming on FPGA 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Ueno, Tomohiro, Sano, Kentaro, Boku, Taisuke

    The Tenth International Workshop on Accelerators and Hybrid Exascale Systems (AsHES)  2020年5月 

     詳細を見る

    開催年月日: 2020年5月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:New Orleans, Louisiana  

    In recent years, much High Performance Computing (HPC) researchers attract to utilize Field Programmable Gate Arrays (FPGAs) for HPC applications. We can use FPGAs for communication as well as computation thanks to FPGA’s I/O capabilities. HPC scientists cannot utilize FPGAs for their applications because of the difficulty of the FPGA development, however High Level Synthesis (HLS) allows them to use with appropriate costs. In this study, we propose a Communication Integrated Reconfigurable CompUting System (CIRCUS) to enable us to utilize high-speed interconnection of FPGAS from OpenCL. CIRCUS makes a fused single pipeline combining the computation and the communication, which hides the communication latency by completely overlapping them. In this paper, we present the detail of the implementation and the evaluation result using two benchmarks: pingpong benchmark and allreduce benchmark.

    researchmap

  • GPU・FPGA複合演算加速による宇宙輻射輸送コードARGOTの性能評価

    小林, 諒平, 藤田, 典久, 中道, 安祐未, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    第174回ハイパフォーマンスコンピューティング研究発表会  2020年5月 

     詳細を見る

    開催年月日: 2020年5月

    記述言語:日本語   会議種別:口頭発表(一般)  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや複数の同時発生する物理現象を含むシミュレーションであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速が困難な場合がある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.本稿では,マルチフィジックスの例である,宇宙輻射輸送シミュレーションコード ARGOT を対象にする.ARGOT は,点光源と空間に分散した光源の 2 種類の輻射輸送問題を含む.ARGOT 法の演算には既に ARGOT プログラムに実装されている GPU カーネルを用いることで,主要演算部分を GPU と FPGA に適材適所的に機能分散して ARGOT コードを最適化する.また,GPU-FPGA 間のデータ転送には,これまでに提案してきた OpenCL から制御可能な GPU-FPGA 間 DMA 転送を利用する.提案手法を評価したところ,GPU と FPGA に適材適所的に機能分散した ARGOT コードは,そうでない ARGOT コードと比較して最大 10.4 倍の性能向上を達成できた.

    researchmap

  • スーパーコンピュータCygnus上におけるFPGA間パイプライン通信の性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 上野, 知洋, 佐野, 健太郎, 朴, 泰祐

    第174回ハイパフォーマンスコンピューティング研究発表会  2020年5月 

     詳細を見る

    開催年月日: 2020年5月

    記述言語:日本語   会議種別:口頭発表(一般)  

    再構成可能なハードウェアの一つに Field Programmable Gate Array (FPGA) がある.我々は,FPGA が持つ協力な外部通信機構に注目している.FPGA 開発は低レベルな記述が必要でありコストが高かったが,高位合成 (High Level Synthesys, HLS) の技術によって解消されつつある.我々は Communication Integrated Reconfigurable CompUting System (CIRCUS) という FPGA 間通信フレームワークを提唱している.CIRUCS システムを用いることで,通信と演算が一体となったパイプラインを OpenCL で記述できる.筑波大学計算科学研究センターでは 1 ノードあたり 2 FPGA ボードを搭載するスーパーコンピュータ Cygnus を運用しており,本稿では Cygnus 上で CIRCUS の通信性能の評価を行い報告する.

    researchmap

  • Pipelined Communication Combined with Computation in OpenCL Programming on FPGA 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Ueno, Tomohiro, Sano, Kentaro, Boku, Taisuke

    The 2nd R-CCS international symposium  2020年2月 

     詳細を見る

    開催年月日: 2020年2月

    記述言語:英語   会議種別:ポスター発表  

    開催地:神戸  

    In recent years, much High Performance Computing (HPC) researchers attract to utilize Field Programmable Gate Arrays (FPGAs) for HPC applications. We can use FPGAs for communication as well as computation thanks to FPGA’s I/O capabilities. HPC scientists cannot utilize FPGAs for their applications because of the difficulty of the FPGA development, however High Level Synthesis (HLS) allows them to use with appropriate costs. In this study, we propose a Communication Integrated Reconfigurable CompUting System (CIRCUS) to enable us to utilize high-speed interconnection of FPGAS from OpenCL HLS. CIRCUS makes a fused single pipeline combining the computation and the communication, which hides the communication latency by completely overlapping them. In this poster, we proposed and evaluated the CIRCUS system for high-speed inter-FPGA communication in OpenCL. CIRCUS extends intra-FPGA communication using channels for inter-FPGA communication. As a result of using channels, CIRCUS can create a fused pipeline for both computation and communication. We can completely overlap computation with communication in clock cycle resolution. Because this characteristic is unique to FPGAs, we believe we can accelerate HPC applications on FPGAs by combining computation and communication. We used the Cygnus supercomputer operated by Center for Computational Sciences, University of Tsukuba, for the performance evaluation. Cygnus is a multi-heterogenous system and has a total of 80 nodes, which consist of 48 Deneb Nodes and 32 Albireo Nodes. The Deneb nodes are CPU + GPU nodes (no FPGAs), and the Albireo nodes are CPU + GPU + FPGA nodes. An Albireo node is equipped with four Intel Xeon CPUs, two NVIDIA V100 GPUs, four Mellanox InfiniBand HDR100 HCAs, and two Bittware (formerly Nallatech) 520N FPGA boards. The Bittware 520N FPGA board equips an Intel Stratix10 FPGA, 32GB DDR4 external memory, and four QSFP28 external ports supporting up to 100Gbps. Moreover, there are 64 FPGAs (32 Albireo nodes x 2 FPGAs / node). Therefore, Cygnus has an 8x8 2D-torus network dedicated to FPGAs connected by Mellanox 100Gbps optical cables. We can still use the InfiniBand network independently for CPU or GPU applications. We used up to 16 FPGAs in the following evaluations. We used three benchmarks to evaluate the CIRCUS system: pingpong benchmark, allreduce benchmark, and Himeno benchmark (19-point stencil computation). According to the pingpong benchmark results, the minimum latency was 0.5μs, and the maximum throughput was 90.2Gbps, and the additional latency per hop was approximately 0.23μs. We used an allreduce-like program to measure the overlapping effect. The maximum throughput was 90.2Gbps, which was the same throughput as the pingpong benchmark result. This result showed that we can make a successful communication-computation combined pipeline. Finally, we evaluated Himeno benchmark performance. We applied CIRCUS communication to the halo and allreduce communication in the benchmark. Strong-scalability was observed in the case of the problem size L, with 94.2% parallel efficiency. We consider this result to be a validation for the implementation of CIRCUS communication to HPC applications.

    researchmap

  • Accelerating Radiative Transfer Simulation with GPU-FPGA cooperative computation 国際会議

    Kobayashi, Ryohei, Fujita, Norihisa, Nakamichi, Ayumi, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    The 2nd R-CCS international symposium  2020年2月 

     詳細を見る

    開催年月日: 2020年2月

    記述言語:英語   会議種別:ポスター発表  

    開催地:神戸  

    Graphics processing units (GPUs) offer good peak performance and high memory bandwidth. They have been widely used in high-performance computing (HPC) systems as accelerators. However, enabling the execution of parallel applications on such heterogeneous clusters requires inter-accelerator communication between nodes. This means that maintaining multiple copies of memory is required; this results in increased latency and severely degraded application performance, particularly when short messages are involved. Moreover, while the GPU has the above beneficial characteristics, it is not effective as an accelerator in applications that employ complicated algorithms using exceptions, non-single instruction multiple data streams (SIMD), and partially poor parallelism. To address the above problems, Field-programmable gate arrays (FPGAs) have garnered significant interest in research on high-performance computing because their computation and communication capabilities have drastically improved in recent years due to advances in semiconductor integration technologies that rely on Moore’s Law. In addition to improving FPGA performance, toolchains for the development of FPGAs in OpenCL have been developed and offered by FPGA vendors that reduce the programming effort required. These improvements reveal the possibility of implementing a concept to enable on-the-fly offloading computation at which CPUs/GPUs perform poorly to FPGAs while performing low-latency data movement. We think that this concept is key to improving the performance of heterogeneous supercomputers using accelerators such as the GPU. One reason to need such a GPU–FPGA coupling is to accelerate multiphysics applications. Multiphysics is defined as the coupled processes or systems involving more than one simultaneously occurring physical fields and the studies of and knowledge about these processes and systems. Therefore, multiphysics applications perform simulations with multiple interacting physical properties and there are various computations within a simulation. Because of that, accelerating simulation speed by GPU only is quite difficult and this is why we try to combine GPU and FPGA and make the FPGA cover GPU-non suited computation. In this paper, we focus on radiative transfer simulation code that is based on two types of radiation transfer: the radiation transfer from spot light and the radiation transfer from spatially distributed light. We make GPUs and FPGAs work together, and perform the former radiation transfer on the GPU and the latter radiation transfer on the FPGA. As a result, we realized GPU–FPGA-accelerated simulation and its performance was up to 10.4x better than GPU-based implementation.

    researchmap

  • OpenCL-enabled GPU-FPGA Accelerated Computing with Inter-FPGA Communication 国際会議

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Nakamichi, Ayumi, Boku, Taisuke

    IXPUG Workshop at HPC Asia 2020  2020年1月 

     詳細を見る

    開催年月日: 2020年1月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Fukuoka, JAPAN  

    Field-programmable gate arrays (FPGAs) have garnered significant interest in high-performance computing research; their computational and communication capabilities have drastically improved in recent years owing to advances in semiconductor integration technologies. In addition to improving FPGA performance, toolchains for the development of FPGAs in OpenCL that reduce the amount of programming effort required have been developed and offered by FPGA vendors. These improvements reveal the possibility of implementing a concept that enables on-the-fly offloading of computational loads at which CPUs/GPUs perform poorly compared to FPGAs while moving data with low latency. We think that this concept is key to improving the performance of heterogeneous supercomputers that use accelerators such as the GPU. In this paper, we propose an approach for GPU--FPGA accelerated computing with the OpenCL programming framework that is based on the OpenCL-enabled GPU--FPGA DMA method and the FPGA-to-FPGA communication method. The experimental results demonstrate that our proposed method can enable GPUs and FPGAs to work together over different nodes.

    researchmap

  • Enabling OpenACC Programming on Multi-hybrid Accelerated with GPU and FPGA 国際会議

    Ryuta Tsunashima, Ryohei Kobayashi, Norihisa Fujita, Ayumi Nakamichi, Taisuke Boku, Seyong Lee, Jeffrey Vetter, Hitoshi Murai, Mitsuhisa Sato

    HPC Asia 2020 – International Conference on High Performance Computing in Asia‐Pacific Region 

     詳細を見る

    開催年月日: 2020年1月

    Although the GPU is main player for accelerated computation in HPC, some category of applications are not suitable for it. For example, partially poor parallelism, non-regular computation (warp divergence) or frequent inter-node communication strongly degrade the performance in parallel GPU computing. On the other hand, FPGAs have been emerging in HPC. FPGA enables us to program the logic device in true co-designing manner. On April 2019, CCS in University of Tsukuba introduced a new GPU+FPGA hybrid accelerated cluster named Cygnus[1]. However, currently users have to describe programs in two languages, CUDA for GPU and OpenCL for FPGA to utilize both devices effectively and it causes heavy effort for users. It is much better if we can provide a uniform framework to program both devices at a single code. Then we are implementing a meta-compiler to apply OpenACC[2] for both devices, based on background compilers for GPU and FPGA. We assume to use two background compilers, PGI OpenACC compiler for GPU and OpenARC[3] compiler for FPGA. As shown in Figure 1, the meta-compiler splits the corresponding OpenACCdirected parts out of original code into two parts for GPU and FPGA. Then these parts are compiled by corresponding backend compilers. Finally, two object files are linked to a single executable file by PGI compiler. We use Omni compiler[4] developed by RIKEN R-CCS and CCS of University of Tsukuba to implement the meta-compiler. OpenARC is a compiler to enable OpenACC for FPGA programming developed in ORNL. It translates OpenACC code in C to OpenCL with C++, then compiles OpenCL code by backend compiler, Intel FPGA SDK for OpenCL. Since the meta-compiler is under development, we applied a hand-compilation in our assumed manner from single OpenACC code, then compiled them by PGI compiler and OpenARC. To evaluate our method, we compared the performance and source code size (lines and characters) with a currently available programming method with CUDA (for GPU) and OpenCL (for FPGA). We examined a synthetic code (not real application) where GPU performs a matrix-matrix multiply, the result is transferred to FPGA, then FPGA performs a CG method by this result matrix. Figure 2 shows the comparison between our OpenACC-only way and CUDA+OpenCL for the code size (a) and (b), and execution time (c). Here, "Others" of (a) includes miscellaneous parts such as initialization, validation function, etc. It is shown that our approach can reduce the number of characters and lines in the source code to approximately 50% and 30%, respectively. However, the performance of both devices are degraded (GPU: 3.4x worse, FPGA: 1.67x worse). We need more performance tuning both on code description and compilers. As future works, we will complete the meta-compiler, improve the performance especially for FPGA programming by OpenACC, and apply our method to real applications.

    researchmap

  • GPU-FPGA協調プログラミングを実現するコンパイラの開発

    綱島, 隆太, 小林, 諒平, 藤田, 典久, 中道, 安祐未, 朴, 泰祐, Lee, Seyong, Vetter, Jeffrey, 村井, 均, 佐藤, 三久

    第172回ハイパフォーマンスコンピューティング研究発表会  2019年12月 

     詳細を見る

    開催年月日: 2019年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:沖縄産業支援センター 大会議室  

    近年,高性能コンピューティング(HPC : High Performance Computing)分野におけるトップレベルのマシンには,アクセラレータを搭載した大規模計算クラスタが多く含まれている.高い演算性能とメモリバンド幅を有する Graphics Processing Unit(GPU)がアクセラレータとして主に用いられているが,条件分岐が頻出する処理や多数の演算コアを活用できないような並列性の小さい処理といった GPU の不得手する演算は依然として存在し,それが性能向上の妨げとなっている.このような問題に対し,任意の論理回路をプログラム可能な集積回路である Field Programmable Gate Array(FPGA)に,GPU が不得手とする処理を実行する回路を実装し,それを FPGA に適宜にオフロードすることによってアプリケーション全体の性能を向上させるアプローチを我々は試みている.しかしながら,GPU と FPGA の演算カーネルは,それぞれ CUDA と OpenCL といった異なるプログラミング言語で開発する必要があり,このようなマルチリンガルプログラミングは,ユーザーにとって多大な負担となる.そこで本研究では,GPU と FPGA が搭載された計算機システム上にて,両アクセラレータの統合的な制御を可能にする OpenACC を用いたプログラミング環境について検討する.本報告では,OpenACC を用いて記述された一つのプログラムを GPU 用,FPGA 用コンパイラそれぞれに向けたファイルに分割するソース to ソースコンパイラを開発し,最終的にこれらをリンクした単一の実行ファイルにより,両アクセラレータの連携が実現できるか検証を行った.その結果,開発したコンパイラによって,統一したアプリケーションプログラミングインターフェイス(API)で書かれた一つのプログラムから,CPU,GPU,FPGA で連携して演算を行う単一の実行ファイルが生成され,両アクセラレータの連携が実現できることが確認された.

    researchmap

  • OpenCL対応GPU・FPGAデバイス間連携機構による宇宙輻射輸送コードの演算加速

    小林, 諒平, 藤田, 典久, 中道, 安祐未, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    第172回ハイパフォーマンスコンピューティング研究発表会  2019年12月 

     詳細を見る

    開催年月日: 2019年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:沖縄産業支援センター 大会議室  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA (Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU・FPGA 複合演算加速が必要とされる理由は,複数の物理モデルや復数の同時発生する物理現象を含むシミュレーショシであるマルチフィジックスアプリケーションに有効だと睨んでいるためである.マルチフィジックスでは,シミュレーション内に様々な特性の演算が出現するので,GPU だけでは演算加速させづらいことがある.したがって,GPU だけでは対応しきれない特性の演算の加速に FPGA を利用することで,アプリケーション全体の性能向上を狙う.本稿では,マルチフィジックスの例である,宇宙輻射輸送シミュレーションコード ARGOT を対象にする.ARGOT は,点光源と空間に分散した光源の 2 種類の輻射輸送問題を含む.ARGOT 法の演算には既に ARGOT プログラムに実装されている GPU カーネルを用いることで,主要演算部分を GPU と FPGA に適材適所的に機能分散して ARGOT コードを最適化する.また,GPU-FPGA 間のデータ転送には,これまでに提案してきた OpenCL から制御可能な GPU-FPGA 間 DMA 転迭を利用する.提案手法を評価したところ,GPU と FPGA に適材適所的に機能分散した ARGOT コードは,そうでない ARGOT コードと比較して最大 3 倍の性能向上を達成できた.

    researchmap

  • 再構成可能なハードウェアを用いた演算と通信を融合する手法の提案と性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    第171回ハイパフォーマンスコンピューティング研究発表会  2019年9月 

     詳細を見る

    開催年月日: 2019年9月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:国立情報学研究所  

    近年,高性能計算の分野で再構成可能なハードウェアである Field Programmable Gate Array (FPGA) が次世代の演算加速装置として注目されている.FPGAを高性能計算で用いる際の障壁は開発の困難さであったが,高位合成手法の発展に伴いこの問題は解決しつつある.最新の FPGA は最大で 100Gbps×4の通信性能を有しており,我々はその強力な通信性能に注目している.FPGA の絶対性能は他のアクセラレータよりも低いが,FPGA が持つ演算能力と通信能力を組み合わせることでより広い範囲の問題に FPGA が適用できると考えている.本研究の目的は,高位合成で記述された FPGA アプリケーションから通信機構を操作し並列処理システムを実現することである.通信のスループットやレイテンシだけでなく,通信と演算を一体化したパイプラインが FPGA 内に構築される点も評価を行い,高位合成で記述した FPGA アプリケーションで並列計算が可能なことを示す.我々は FPGA 間で直接通信を行う環境として CoE というシステムを開発しており,バンド幅は最大で 90.7Gbps を達成し,最小レイテンシは 429.2ns であった.また,パイプライン評価においても,良好な結果が得られ,通信と演算を一体化したパイプラインを構築できていることを確認した.

    researchmap

  • Cygnus: GPU + FPGA accelerated supercomputing platform 招待 国際会議

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Umemura, Masayuki

    1st International Workshop on Reconfigurable High Performance Computing (ReHPC'2019)  2019年9月 

     詳細を見る

    開催年月日: 2019年9月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Barcelona  

    Graphics processing units (GPUs) have been widely used in high-performance computing (HPC) systems as accelerators because they can offer good peak performance and high memory bandwidth. However, the GPU is not almighty as an accelerator because it is not effective in applications that employ complicated algorithms using exception, non single-instruction-multiple-data streams (SIMD), partially poor parallelism, etc. To address these problems, field-programmable gate arrays (FPGAs) have gained attention in HPC research because their computation and communication capabilities have dramatically improved in recent years as a result of improvements to semiconductor integration technologies that depend on Moore's Law. This talk shows how to use FPGA for HPC which enables on-the-fly offloading computation at which CPUs/GPUs perform poorly to FPGAs while performing low-latency intra/inter-node communication, to build a programming framework to comprehensively control these functionalities from the CPU, and demonstrate the effectiveness of our proposed approach by applying it to computational science applications.

    researchmap

  • GPU-FPGA Heterogeneous Computing with Unified Programming Framework 招待 国際会議

    Tsunashima, Ryuuta, Kobayashi, Ryohei, Fujita, Norihisa, Nakamichi, Ayumi, Boku, Taisuke

    OpenACC Annual Meeting 2019  2019年9月 

     詳細を見る

    開催年月日: 2019年9月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:RIKEN Center for Computational Science (R-CCS)  

    This talk shows how to use FPGA for HPC which enables on-the-fly offloading computation where CPUs/GPUs perform poorly to FPGAs while performing low-latency intra/inter-node communication and demonstrates the effectiveness of our proposed approach by applying it to computational science applications. OpenACC is a promising interface to realize these objectives and our research group is going to introduce it as a unified programming method for two devices.

    researchmap

  • GPU・FPGA複合演算加速による輻射流体シミュレーションコードARGOTの実装

    中道, 安祐未, 藤田, 典久, 小林, 諒平, 朴, 泰祐, 吉川, 耕司, 梅村, 雅之

    第170回ハイパフォーマンスコンピューティング研究発表会(SWoPP2019)  2019年7月  情報処理学会

     詳細を見る

    開催年月日: 2019年7月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:北見市民会館  

    近年,高性能コンピューティング (HPC:High Performance Computing) の分野において,アクセラレータを搭載した大規模計算クラスタが主流の 1 つとなっている.アクセラレータには,主に Graphics Processing Unit (GPU) が用いられているが,HPC 分野では処理の柔軟性や電力効率の高さから Field Programmable Gate Array (FPGA) が注目されつつある.そこで,GPU が不得意な計算を FPGA に行わせる GPU+FPGA の複合システムにより実アプリケーションのさらなる高性能化を目指す.前回の発表では,GPUとFPGA の両方を搭載した計算機で GPU+FPGA のハイブリッドアクセラレーションを実現するプログラムの開発手法と環境について議論した.GPU・FPGA の両デバイスを協調する方法を確立したため,本研究では,その方法を用いて輻射流体シミュレーションコード ARGOT の実装を行う.従来は CPU・GPU を用いて高速化が行われていたが,アルゴリズムの特性より,本研究では FPGA を用いた方がより高速化できるアルゴリズムに対して OpenCL による実装を用いたソースコードを組み込んだ.実装にはまだ至ってはいないが,実装に対する議論を行う.

    researchmap

  • OpenCL対応FPGA間通信機能によるGPU・FPGA複合型演算加速

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 中道, 安祐未, 朴, 泰祐

    第170回ハイパフォーマンスコンピューティング研究発表会(SWoPP2019)  2019年7月  情報処理学会

     詳細を見る

    開催年月日: 2019年7月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:北見市民会館  

    我々は,高い演算性能とメモリバンド幅を有する GPU(Graphics Processing Unit)に演算通信性能に優れている FPGA(Field Programmable Gate Array)を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU,FPGA といった異なるハードウェアを搭載するシステム上では,各デバイスで実行される演算をどのようにプログラミングし,全デバイスを協調動作させるかが重要な課題となる.そこで本稿では,OpenCL コードから制御可能な FPGA 間通信技術と GPU-FPGA 間 DMA 転送技術を融合した,複数ノード上における GPU-FPGA 間連携子法を提案する.GPU-FPGA 間 DMA 転送は,GPU デバイスのグローバルメモリを PCIe アドレス空間にマップし,アドレスマップの結果をベースに OpenCL カーネル内で作成したディスクリプタを最終的に FPGA 内の PCIe DMA コントローラに書き込むことによって実現される.また,FPGA 間通信は,Verilog HDL で実装された Ethernet 通信を実行するハードウェアと,そのハードウェアの制御モジュール(OpenCL カーネル)を I/O Channel で接続することによって構成されているシステムで実現される.この提案手法を用いて,ノードを跨いだ GPU 同士の pingpong ベンチマークを実装し,それが正しく動作していることを認した.

    researchmap

  • Parallel Processing on FPGA Combining Computation and Communication in OpenCL Programming 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke

    The Ninth International Workshop on Accelerators and Hybrid Exascale Systems (AsHES)  2019年5月 

     詳細を見る

    開催年月日: 2019年5月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Rio de Janeiro  

    In recent years, Field Programmable Gate Array (FPGA) has been a topic of interest in High Performance Computing (HPC) research. Although the biggest problem in utilizing FPGAs for HPC applications is in the difficulty of developing FPGAs, this problem is being solved by High Level Synthesis (HLS). We focus on very high-performance inter-FPGA communication capabilities. The absolute floating-point performance of an FPGA is lower than that of other common accelerators such as GPUs. However, we consider that we can apply FPGAs to a wide variety of HPC applications if we can combine computations and communications on an FPGA. The purpose of this paper is to implement a parallel processing system running applications implemented by HLS combining computations and communications in FPGAs. We propose the Channel over Ethernet (CoE) system that connects multiple FPGAs directly for OpenCL parallel programming. "Channel"' is one of the new extensions provided by the Intel OpenCL environment. They are ordinally used for intra-kernel communication inside an FPGA, but we extend them to external communication through the CoE system. In this paper, we introduce two benchmarks as demonstration of the CoE system. We achieved 29.77 Gbps in throughput (approximately 75% of the theoretical peak of 40Gbps) and 950 ns in latency on our system using the pingpong benchmark, which was implemented on Intel Arria10 FPGA. In addition, we evaluated the Himeno benchmark which is a sort of 3D-Computational Fluid Dynamics (CFD) on the system, and we achieved 23689MFLOPS with 4 FPGAs on a problem of size M. We also notice strong scalability, with a 3.93 times speedup compared to a single FPGA run, on the same problem size.

    researchmap

  • GPU-FPGA Heterogeneous Computing with OpenCL-Enabled Direct Memory Access 国際会議

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Nakamichi, Ayumi, Boku, Taisuke

    The Ninth International Workshop on Accelerators and Hybrid Exascale Systems (AsHES)  2019年5月 

     詳細を見る

    開催年月日: 2019年5月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Rio de Janeiro  

    Field-programmable gate arrays (FPGAs) have garnered significant interest in research on high-performance computing because their computation and communication capabilities have drastically improved in recent years due to advances in semiconductor integration technologies that rely on Moore's Law. In addition to improving FPGA performance, toolchains for the development of FPGAs in OpenCL have been developed and offered by FPGA vendors that reduce the programming effort required. These improvements reveal the possibility of implementing a concept to enable on-the-fly offloading computation at which CPUs/GPUs perform poorly to FPGAs while performing low-latency data movement. We think that this concept is key to improving the performance of heterogeneous supercomputers using accelerators such as the GPU. In this paper, we propose an OpenCL-enabled data movement method to directly access the global memory of the GPU and show how to implement cooperative GPU-FPGA computation using it. The results of experiments show that our proposed method can achieve a latency of 0.59 μs and a data transfer rate as high as 7.0 GB/s between the GPU and the FPGA, thus confirming that it is effective at realizing high-performance cooperative GPU-FPGA computation.

    researchmap

  • GPU-FPGA協調計算を記述するためのプログラミング環境に関する研究

    綱島, 隆太, 小林, 諒平, 藤田, 典久, 中道, 安祐未, 朴, 泰祐

    第169回 ハイパフォーマンスコンピューティング研究会  2019年5月 

     詳細を見る

    開催年月日: 2019年5月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:海洋研究開発機構(JAMSTEC)横浜研究所 三好記念講堂  

    近年,高性能コンピューティング (HPC : High Performance Computing) 分野におけるトップレベルのマシンには,アクセラレータを搭載した大規模計算クラスタが多く含まれている.高い演算性能とメモリバンド幅を有する Graphics Processing Unit (GPU) がアクセラレータとして主に用いられているが,条件分岐が頻出する処理や多数の演算コアが利用できないような並列性の小さい処理といった GPU の不得手する演算は依然として存在し,それが性能向上の妨げとなっている.このような問題に対し,任意の論理回路をプログラム可能な集積回路である Field Programmable Gate Array (FPGA) に,GPU が不得手とする処理を実行する回路を実装し,それを FPGA に適宜にオフロードすることによってアプリケーション全体の性能を向上させるアプローチを我々は試みている.しかしながら,GPU と FPGA の演算カーネルは,それぞれ CUDA と OpenCL といった異なるプログラミング言語で開発する必要があり,このようなマルチリンガルプログラミングは,ユーザーにとって多大な負担となる.そこで本研究では,GPU と FPGA が搭載された計算機システム上にて,両アクセラレータの統合的な制御を可能にする OpenACC を用いたプログラミング環境について検討する.本報告では,OpenACC により記述された別々の GPU 向け,FPGA 向けファイルをコンパイル時にリンクすることで両アクセラレータの連携が可能か検証を行った.その結果,OpenACC による記述のみで GPU-FPGA 協調計算が実現可能であることを確認した.

    researchmap

  • 高位設計と低位設計の違いとFPGA演算性能の関係について

    横野, 智也, 山口, 佳樹, 藤田, 典久, 小林, 諒平, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    情報処理学会第81回全国大会  2019年3月  情報処理学会

     詳細を見る

    開催年月日: 2019年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:福岡  

    FPGA1チップの回路規模が100 万システムゲートを超えた現在,その全ての動作を把握し,RTL(Register Transfer Level)設計により完全な最適化を達成するのは困難になりつつある.そこで,高位記述言語によるHLS(High Level Synthesis) 設計に注目が集まっている.Intel社のIntel SDK for OpenCL,Xilinx 社のVivado HLS およびSDAccel などHLS 設計・開発環境は整いつつある.ここで,データセンターのような多くのユーザが利用しかつ複数のFPGA が並列に動作する環境において,RTL設計のみを唯一の選択肢とし続けることはユーザビリティの点から現実的ではない.一方,高性能演算と言う観点で設計手法をみたとき,HLS 設計のみを選択肢とするのは,現時点では時期尚早と考えられる.そこで本論文では,HDL 設計とHLS 設計の現状を等距離から評価し議論することで,次世代のヘテロジニアス高性能計算およびそこにFPGA が存在する可能性について検討する.

    researchmap

  • GPU・FPGA混載ノードにおけるヘテロ演算加速プログラム環境に関する研究

    中道, 安祐未, 小林, 諒平, 藤田, 典久, 朴, 泰祐

    第168回ハイパフォーマンスコンピューティング研究発表会  2019年3月 

     詳細を見る

    開催年月日: 2019年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:山代温泉瑠璃光 会議室 〒922-0295 石川県加賀市山代温泉19-58-1  

    近年,高性能コンピューティング (HPC : High Performance Computing) の分野において,アクセラレータを搭載した大規模計算クラスタが主流の 1 つとなっている.アクセラレータには,主に Graphics Processing Unit (GPU) が用いられているが,HPC 分野では処理の柔軟性や電力効率の高さから Field Programmable Gate Array (FPGA) が注目されつつある.そこで,GPU が不得意な計算を FPGA に行わせる GPU + FPGA の複合システムにより実アプリケーションのさらなる高性能化を目指す.本研究では,GPU と FPGA の両方を搭載した計算機で GPU + FPGA のハイブリッドアクセラレーションを実現するプログラムの開発手法と環境について議論する.

    researchmap

  • 異デバイス間でのPCIe通信を実現するOpenCL対応FPGAモジュールの提案と検証

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐

    2019-01-SLDM-RECONF-VLD-CPSY-ARC  2019年1月 

     詳細を見る

    開催年月日: 2019年1月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:慶応義塾大学 日吉キャンパス 来往舎  

    我々は,高い演算性能とメモリバンド幅を有する GPU (Graphics Processing Unit) に演算通信性能に優れている FPGA (Field Programmable Gate Array) を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU,FPGA といった異なるハードウェアを搭載するシステム上では,各デバイスで実行される演算をどのようにプログラミングし,全デバイスを協調動作させるかが重要な課題となる.そこで本稿では,OpenCL コードから制御可能なデバイス間データ転送について提案する.GPU デバイスメモリの PCIe アドレスマッピング結果をベースに作成されたディスクリプタを FPGA に送信し,FPGA 内の PCIe DMA コントローラに書き込むことによって,GPU デバイスのグローバルメモリと FPGA デバイスの外部メモリ間で CPU を介さずにデータ転送を実現する.通信レイテンシと通信バンド幅の観点から提案手法を評価した結果,従来手法と比較して,通信レイテンシの面では最大 33.3 倍の性能差,通信バンド幅の面では最大 2.0 倍の性能差が確認された.

    researchmap

  • OpenCL-enabled high performance direct memory access for GPU-FPGA cooperative computation 国際会議

    Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke

    IXPUG Workshop at HPC Asia 2019  2019年1月 

     詳細を見る

    開催年月日: 2019年1月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Guangzhou  

    Field programmable gate arrays (FPGAs) have gained attention in high-performance computing (HPC) research because their computation and communication capabilities have dramatically improved in recent years as a result of improvements to semiconductor integration technologies that depend on Moore's Law. In addition to FPGA performance improvements, OpenCL-based FPGA development toolchains have been developed and offered by FPGA vendors, which reduces the programming effort required as compared to the past. These improvements reveal the possibilities of realizing a concept to enable on-the-fly offloading computation at which CPUs/GPUs perform poorly to FPGAs while performing low-latency data movement. We think that this concept is one of the keys to more improve the performance of modern heterogeneous supercomputers using accelerators like GPUs. In this paper, we propose a high-performance GPU-FPGA data communication using OpenCL and Verilog HDL mixed programming in order to make both devices smoothly work together. OpenCL is used to program application algorithms and data movement control when Verilog HDL is used to implement low-level components for memory copies between the two devices. Experimental results using toy programs showed that our proposed method achieves a latency of 0.6 $\mu$s and as much as 6.9 GB/s between the GPU and the FPGA, thus confirming that the proposed method is effective at realizing the high-performance GPU-FPGA cooperative computation.

    researchmap

  • OpenCLによるFPGA上の演算と通信を融合した並列処理システムの実装及び性能評価

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐

    第167回ハイパフォーマンスコンピューティング研究発表会  2018年12月 

     詳細を見る

    開催年月日: 2018年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:沖縄産業支援センター 大会議室  

    近年,高性能計算の分野で再構成可能なハードウェアである Field Programmable Gate Array (FPGA) が次世代の演算加速装置として注目されている.FPGA を高性能計算で用いる際の障壁は開発の困難さであったが,高位合成手法の発展に伴いこの問題は解決しつつある.最新の FPGA は最大で 100 Gbps × 4 の通信性能を有しており,我々はその強力な通信性能に注目している.FPGA の絶対性能は他のアクセラレータよりも低いが,FPGA が持つ演算能力と通信能力を組み合わせることでより広い範囲の問題に FPGA が適用できると考えている.本研究の目的は,高位合成で記述された FPGA アプリケーションから通信機構を操作し並列処理システムを実現することである.通信のスループットやレイテンシだけでなく,姫野ベンチマークを用いた性能評価を行い,高位合成で記述した FPGA アプリケーションで並列計算が可能なことを示す.我々は FPGA 間で直接通信を行う環境として Channel over Ethernet (CoE) というシステムを開発しており,バンド幅は最大で 7.13 Gbps を達成し,4 バイト通信時のレイテンシは 980 ns であった.姫野ベンチマークで,問題サイズ M を 4 FPGA で実行する場合に 22659 MFLOPS の性能が得られ,4 FPGA 時に 1 FPGA 時と比べて 3.6 1倍という良好な Strong Scaling の結果が得られた.

    researchmap

  • OpenCLとVerilog HDLの混合記述によるGPU-FPGAデバイス間連携

    小林, 諒平, 藤田, 典久, 山口, 佳樹, 朴, 泰祐

    第167回ハイパフォーマンスコンピューティング研究発表会  2018年12月 

     詳細を見る

    開催年月日: 2018年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:沖縄産業支援センター 大会議室  

    我々は,高い演算性能とメモリバンド幅を有する GPU (Graphics Processing Unit) に演算通信性能に優れている FPGA (Field Programmable Gate Array) を連携させ,双方を相補的に利用する GPU - FPGA 複合システムに関する研究を進めている.GPU,FPGA といった異なるハードウェアを搭載するシステム上では,各デバイスで実行される演算をどのようにプログラミングし,全デバイスを協調動作させるかが重要な課題となる.そこで本稿では,GPU プログラミングと FPGA プログラミングの連携を効率的に行うためのデバイス間データ転送について提案する.GPU デバイスメモリの PCIe アドレスマッピング結果をベースに作成されたディスクリプタを FPGA に送信し,FPGA 内の PCIe DMA コントローラに書き込むことによって,GPU デバイスのグローバルメモリと FPGA デバイスの外部メモリ間で CPU を介さずにデータ転送を実現する.通信レイテンシと通信バンド幅の観点から提案手法を評価した結果,従来手法と比較して,通信レイテンシの面では最大で 83 倍の性能差,通信バンド幅の面では最大で 2.4 倍の性能差が確認された.

    researchmap

  • FPGAによる宇宙輻射輸送シミュレーションの演算加速

    横野, 智也, 藤田, 典久, 山口, 佳樹, 大畠, 佑真, 小林, 諒平, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    リコンフィギャラブルシステム研究会(RECONF)  2018年9月 

     詳細を見る

    開催年月日: 2018年9月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:LINE Fukuokaカフェスペース  

    我々はこれまで,アクセラレータ間を密結合し低レイテンシで通信を行うTCA(Tightly Coupled Accelerators) と呼ばれるアーキテクチャを提案し,FPGA(Field Programmable Gate Array) を用いたTCA 実装としてPEACH2(PCI Ecpress Adaptive Communication Hub Ver.2) の開発を行ってきた.これらの研究を基に現在,TCAの概念をより進めたアーキテクチャとしてAiS(Accelerators in Switch) というコンセプトの研究を進めている.AiSは通信機構の中にアプリケーションに特化した演算機構を組み込み,FPGA 内での演算機構と通信機構のより強い連携を実現する次世代の並列演算加速機構である.本稿では,AiS の実現に向けた評価として,宇宙輻射輸送シミュレーションであるARGOT (Accelerated Radiative transfer on Grids using Oct-Tree) の中で用いられるART (Authentic Radiation Transfer) 法を異なるFPGA(Xilinx/Intel) に実装し,その評価を行う.これは当該シミュレーションがGPU のような加速機構により高速化される部分とそうでない部分をほぼ等しく含んでいるため,GPU とは異なるアーキテクチャとの協調計算が求められるためである.ART 法をFPGA に実装した際,CPU と比較し両デバイス ともに高速化を実現した.

    researchmap

  • 並列FPGAシステムにおけるOpenCLを用いた宇宙輻射輸送コードの演算加速

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    Summer United Workshops on Parallel, Distributed and Cooperative Processing 2018  2018年7月 

     詳細を見る

    開催年月日: 2018年7月 - 2018年8月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:熊本市国際交流会館  

    近年注目されている High Performance Computing (HPC) における挑戦の一つに,どのようにして Field Programable Gate Array (FPGA) 技術を用いて,高い性能と低い低消費電力を次世代スーパーコンピュータシステムで達成するかというものがある.従来手法ではソフトウェアの開発者が Hardware Description Language (HDL) を用いて FPGA 回路を開発することは困難であったが,近年の FPGA における開発環境の進歩により,高位合成の利用が一般的になりつつあり,HDL の記述なしに FPGA 開発が可能になりつつある.本研究では,初期宇宙の研究に重要な輻射輸送を解くプログラム Accelerated Radiative transfer on Grids using Oct-Tree (ARGOT) で用いられているアルゴリズムである Authentic Radiation Transfer (ART) 法を OpenCL で記述して FPGA 向けに最適化を行い,また,今後の展望として,ART 法の計算をどのようにして複数 FPGA で並列計算を行うかについて述べる.これまでの研究では,FPGA 内の Block RAM (BRAM) に収まる大きさの問題しか解けず,ARGOT で実際に計算したい問題サイズに対応できなかったが,大容量の DDR メモリを併用することで実用的な問題サイズを FPGA で解けるようになった.CPU,GPU,FPGA 間での性能比較を行い,CPU と比べて 6.9 倍の高速化が達成され,GPU との比較では GPU と同程度の性能を達成した.FPGA 実装の性能は GPU と同程度であるが,自ら通信機構を操作できる FPGA の方が通信オーバーヘッドは GPU と比べると小さく,並列計算を行う際の性能は GPU の性能を超えられると考えられ,今後,並列 FPGA 計算の実装を行う予定である.

    researchmap

  • GPU-FPGA複合システムにおけるデバイス間連携機構

    小林, 諒平, 阿部, 昂之, 藤田, 典久, 山口, 佳樹, 朴, 泰祐

    Summer United Workshops on Parallel, Distributed and Cooperative Processing 2018  2018年7月 

     詳細を見る

    開催年月日: 2018年7月 - 2018年8月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:熊本市国際交流会館  

    我々は,高い演算性能とメモリバンド幅を有する GPU (Graphics Processing Unit) に演算通信性能に優れている FPGA (Field Programmable Gate Array) を連携させ,双方を相補的に利用する GPU-FPGA 複合システムに関する研究を進めている.GPU,FPGA といった異なるハードウェアを搭載するシステム上では,各デバイスで実行される演算をどのようにプログラミングし,全デバイスを協調動作させるかが重要な課題となる.そこで本稿では,GPU プログラミングと FPGA プログラミングの連携を効率的に行うためのデバイス間データ転送について提案する.GPU デバイスメモリの PCIe アドレスマッピング結果をベースに作成されたディスクリプタを FPGA に送信し,FPGA 内の PCIe DMA コントローラに書き込むことによって,GPU デバイスのグローバルメモリと FPGA デバイスの内蔵メモリ間で CPU を介さずにデータ転送を実現する.通信レイテンシと通信バンド幅の観点から提案手法を評価した結果,従来手法と比較して,通信レイテンシの面では最大で 8.4 倍の性能差,通信バンド幅の面では最大で 3.7 倍の性能差が確認された.

    researchmap

  • Accelerating HPC applications on FPGAs using OpenCL and FPGA Network 国際会議

    Norihisa Fujita, Ryohei Kobayashi, Yoshiki Yamaguchi, Makito Abe, Kohji Yoshikawa, Masayuki Umemura

    ISC 2018: International Supercomputing Conference 

     詳細を見る

    開催年月日: 2018年6月

    We show two topics in this poster. One of them is OpenCL-ready high-speed 40Gbit Ethernet FPGA networking. The other is optimizing space radiative transfer code using OpenCL. We add networking functionality to the board support package (BSP) to use them from OpenCL. BSP is a hardware component to abstract differences between boards. Since the BSP provided by the board vendor does not support all peripherals on the board, we have to add controllers for Ethernet to BSP. It achieves 1μ sec latency and 4.97GB/s bandwidth (99.4% of the theoretical peak). Accelerated Radiative transfer on grids Oct-Tree (ARGOT) is a program to solve space radiative transfer problem and has been developed in Center for Computational Sciences (CCS), University of Tsukuba. Authentic Radiation Transfer (ART) is one of algorithms used in ARGOT and is the dominant part of ARGOT program. We optimize ART algorithm to FPGAs using OpenCL. Our implementation uses channels to improve performance block RAMs in the FPGA chip. In performance comparison among FPGA, CPU and GPU, FPGA is 4.9 times faster than CPU and almost equal performance with GPU. As future work, we will combine the network and the application to realize Accelerator in Switch (AiS) concept. It couples communications and computations tightly. We consider FPGAs can realize AiS because they can act as both of accelerators and switches.

    researchmap

  • Accelerating Space Radiative Transfer on FPGA using OpenCL 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Oobata, Yuma, Boku, Taisuke, Abe, Makito, Yoshikawa, Kohji, Umemura, Masayuki

    HEART2018 (9th International Symposium on Highly-Efficient Accelerators and Reconfigurable Technologies)  2018年6月 

     詳細を見る

    開催年月日: 2018年6月

    記述言語:英語   会議種別:口頭発表(一般)  

    One of the recent challenges faced by High-Performance Computing (HPC) is how to apply Field-Programmable Gate Array (FPGA) technology to accelerate a next-generation supercomputer as an efficient method of achieving high performance and low power consumption. Graphics Processing Unit (GPU) is the most commonly used accelerator for HPC supported by regularly executed high degree of parallel operations which causes performance bottleneck in some cases. On the other hand, there are great opportunities to flexibly and efficiently utilize FPGAs in logic circuits to fit various computing situations. However, it is not easy for application developers to implement FPGA logic circuits for their applications and algorithms, which generally require complicated hardware logic descriptions. Because of the progress made in the FPGA development environment in recent years, the High-Level Synthesis (HLS) development environment using the OpenCL language has become popular. Based on our experience describing kernels using OpenCL, we found that a more aggressive programming strategy is necessary to realize true high performance based on a "codesign" concept to implement the necessary features and operations to fit the target application in an FPGA design. In this paper, we optimize the Authentic Radiation Transfer (ART) method on an FPGA using OpenCL. We also discuss a method to parallelize its computation in an FPGA and a method to optimize the OpenCL code on FPGAs. Using a codesigned method for the optimized programming of a specific application with OpenCL for an FPGA, we achieved a performance that is 6.9 times faster than that of a CPU implementation using OpenMP, and almost the same performance as a GPU implementation using CUDA. The ART code should work on a larger configuration with multiple FPGAs requiring interconnections between them. Considering the current advanced FPGAs with interconnection features, we believe that their parallelized implementation with multiple FPGAs will achieve a higher performance than GPU.

    researchmap

  • 複数のFPGAによる分散ソーティングの実現に向けた予備評価

    小林, 諒平, 藤田, 典久, 大畠, 佑真, 山口, 佳樹, 朴, 泰祐

    リコンフィギャラブルシステム研究会 (RECONF)  2018年5月 

     詳細を見る

    開催年月日: 2018年5月

    記述言語:日本語   会議種別:口頭発表(一般)  

    researchmap

  • Scalable Inter-FPGA Direct Communication for Parallel FPGA Applications 招待 国際会議

    Kobayashi,Ryohei

    18th SIAM Conference on Parallel Processing for Scientific Computing  2018年3月 

     詳細を見る

    開催年月日: 2018年3月

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • 宇宙輻射輸送計算におけるHDL設計とOpenCL設計の比較

    横野, 智也, 藤田, 典久, 山口, 佳樹, 大畠, 佑真, 小林, 諒平, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    第163回ハイパフォーマンスコンピューティング研究発表会  2018年2月 

     詳細を見る

    開催年月日: 2018年2月 - 2018年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    半導体の高集積化は,FPGA の大規模化 ・ 高機能化 ・ 低価格化をもたらし,組み込みシステム用途だけでなく高性能計算用途においても導入が検討されるようになった.しかし,FPGA 開発はハードウェア記述言語 (HDL : Hardware Description Language) による設計が主流であり,FPGA の利用可能性は開発の困難さによって大きく制約を受けている.FPGA の高性能計算応用を考えたとき,C 言語や OpenCL 言語を初めとする高位記述による設計が考えられるが,開発効率などの定性的な議論はあるものの,演算性能を定量的に比較した報告は少ない.そこで本論文では,宇宙輻射輸送計算をベンチマークに,高位記述設計 (OpenCL 言語による HLS 設計) と低位記述設計 (Verilog HDL による RTL 設計) とを比較し,高性能計算応用からみた FPGA の利用可能性と演算性能について議論する.具体的には,原始銀河形成シミュレーションにおいて再結合光子の輻射輸送を解く ART (Authentic Radiation Transfer) 法を FPGA に実装し,その演算性能について比較を行った.細かな演算回路の調整や外部インタフェースを含むシステムとしての設計を除くと,XILINX 社と Intel 社という利用デバイスの違いがあるものの,記述方法によらず同程度の性能を得ることができることを確認できた.

    researchmap

  • OpenCL-ready High Speed FPGA Network for Reconfigurable High Performance Computing 国際会議

    Kobayashi, Ryohei, Oobata, Yuma, Fujita, Norihisa, Yamaguchi, Yoshiki, Boku, Taisuke

    HPC Asia 2018: International Conference on High Performance Computing in Asia-Pacific Region  2018年1月 

     詳細を見る

    開催年月日: 2018年1月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Tokyo  

    Field programmable gate arrays (FPGAs) have gained attention in high-performance computing (HPC) research because their computation and communication capabilities have dramatically improved in recent years as a result of improvements to semiconductor integration technologies that depend on Moore's Law. In addition to FPGA performance improvements, OpenCL-based FPGA development toolchains have been developed and offered by FPGA vendors, which reduces the programming effort required as compared to the past. These improvements reveal the possibilities of realizing a concept to enable on-the-fly offloading computation at which CPUs/GPUs perform poorly to FPGAs while performing low-latency data movement. We think that this concept is one of the keys to more improve the performance of modern heterogeneous supercomputers using accelerators like GPUs. In this paper, we propose high-performance inter-FPGA Ethernet communication using OpenCL and Verilog HDL mixed programming in order to demonstrate the feasibility of realizing this concept. OpenCL is used to program application algorithms and data movement control when Verilog HDL is used to implement low-level components for Ethernet communication. Experimental results using ping-pong programs showed that our proposed approach achieves a latency of 0.99 μs and as much as 4.97 GB/s between FPGAs over different nodes, thus confirming that the proposed method is effective at realizing this concept.

    researchmap

  • OpenCLを用いたFPGAによる宇宙輻射輸送シミュレーションの演算加速

    藤田, 典久, 小林, 諒平, 山口, 佳樹, 大畠, 佑真, 朴, 泰祐, 吉川, 耕司, 安部, 牧人, 梅村, 雅之

    第161回ハイパフォーマンスコンピューティング研究発表会  2017年9月 

     詳細を見る

    開催年月日: 2017年9月

    記述言語:日本語   会議種別:口頭発表(一般)  

    我々はこれまで,アクセラレータ間を密結合し低レイテンシで通信を行う TCA (Tightly Coupled Accelerators) と呼ばれるアーキテクチャを提案し,FPGA (Field Programmable Gate Array) を用いた TCA 実装として PEACH2 (PCI Express Adaptive Communication Hub Ver. 2) の開発を行ってきた.これらの研究を基に現在,TCA の概念をより進めたアーキテクチャとして AiS (Accelerators in Switch) というコンセプトの研究を進めている.AiS は通信機構の中にアプリケーションに特化した演算機構を組み込み,FPGA 内での演算機構と通信機構のより強い連携を実現する次世代の並列演算加速機構である.これまでにも PEACH 2 に対して演算機構を組み込む研究は行われてきたが,PEACH 2 は Verilog HDL (Hardware Description Language) によって全体が記述されており,AiS における演算部についても Verilog HDL を用いて記述しなければならず,開発コストが高く,FPGA の専門家でなければその開発ができないという問題があった.近年の FPGA 開発環境の進歩により,より一般的な環境で AiS を実現できるようになり,さらに通信性能についても 40 Gbps,100 Gbps といった高速な通信機構を扱え,また,ソフトウェアで用いられている言語から回路を合成する高位合成と呼ばれる技術が普及してきた.Intel FPGA では OpenCL を用いた高位合成処理系があり,OpenCL 言語からの回路の生成だけでなく,OpenCL API を用いた FPGA の制御が可能となるが,CPU や GPU 向けに記述 ・ 最適化された OpenCL コードをそのまま用いても性能がでないことがわかっており,FPGA 向けの最適化をどう行うかが課題となる.本稿では Intel FPGA 向け高位合成開発環境である Intel FPGA SDK for OpenCL を用いて,宇宙輻射輸送シミュレーションコード ARGOT の中で用いられている ART 法を FPGA 向けに最適化を行う.ART 法を FPGA に実装するにあたって,どのように FPGA 内部で並列演算を行うか,どのような FPGA 向け最適化を行うかについて述べる.Intel Arria 10 FPGA を用いて性能評価を行い,CPU 実装と比べて 14.6 倍の高速化が得られ,その実装は 63 % の回路リソースを利用し動作周波数は 236.11 MHz であった.

    researchmap

  • OpenCLとVerilog HDLの混合記述によるFPGA間Ethernet接続

    大畠 佑真, 小林 諒平, 藤田 典久, 山口 佳樹, 朴 泰祐

    第160回ハイパフォーマンスコンピューティング研究発表会(SWoPP2017)  2017年7月 

     詳細を見る

    開催年月日: 2017年7月

    会議種別:口頭発表(一般)  

    researchmap

  • 高位合成によるFPGAの高性能計算へ適用

    2017年ハイパフォーマンスコンピューティングと計算科学シンポジウム  2017年6月 

     詳細を見る

    開催年月日: 2017年6月

    会議種別:ポスター発表  

    researchmap

  • OpenCLとVerilog HDLの混合記述によるFPGAプログラミング

    藤田 典久, 大畠 佑真, 小林 諒平, 山口 佳樹, 朴 泰祐

    第158回ハイパフォーマンスコンピューティング研究発表会  2017年3月 

     詳細を見る

    開催年月日: 2017年3月

    会議種別:口頭発表(一般)  

    researchmap

  • A survey of how to efficiently implement application-specific hardware on an FPGA 招待 国際会議

    Kobayashi,Ryohei

    2nd International Workshop on FPGA for HPC (IWFH)  2016年10月 

     詳細を見る

    開催年月日: 2016年10月

    記述言語:英語   会議種別:口頭発表(一般)  

    researchmap

  • A High-speed Verilog HDL Simulation Method using a Lightweight Translator 国際会議

    Kobayashi, Ryohei, Misono, Tomohiro, Kise, Kenji

    International Symposium on Highly-Efficient Accelerators and Reconfigurable Technologies (HEART 2016)  2016年7月 

     詳細を見る

    開催年月日: 2016年7月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Hong Kong  

    Designing with Hardware Description Languages (HDLs) is still the de facto standard way to develop FPGA-based custom computing systems, and RTL simulation is an important step in ensuring that the designed hardware behavior meets the design specification. In this paper, we propose a new high-speed Verilog HDL simulation method. It is based on two previously proposed techniques: ArchHDL and Pyverilog. ArchHDL is used as a simulation engine in the method because the RTL simulation provided by ArchHDL can be parallelized with OpenMP. We use Pyverilog to develop a code translator to convert Verilog HDL source code into ArchHDL code, and due to this, the translator can be realized and its implementation is lightweight. We compare the proposed method with Synopsys VCS, and the experimental results show that the RTL simulation behavior and speed are same as that of Synopsys VCS and up to 5.8x better respectively.

    researchmap

  • 世界最速のFPGAソーティングアクセラレータの初期検討

    臼井, 琢真, 眞下, 達, 松田, 裕貴, 小林, 諒平, 吉瀬, 謙二

    情報処理学会第78回全国大会  2016年3月 

     詳細を見る

    開催年月日: 2016年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:慶應義塾大学  

    ソーティングはデータベース,画像処理,データ圧縮といった様々なアプリケーションに使用されている非常に重要な計算カーネルである.このため様々な高速化手法が提案されており,中にはFPGAを用いたものが存在する.FPGAはユーザーが自由に内部構成を設計できるLSIであるため,アプリケーションに特化した演算回路やデータ供給機構を実装することにより,CPUやGPUと比較して高い演算性能を持つアクセラレータを作成できる可能性を持つ.本稿では,FPGAを用いた世界最速のソーティングアクセラレータの実現に向けたアプローチを検討する.

    researchmap

  • Frix: Feasible and Reconfigurable IBM PC Compatible SoC

    Matsuda, Yuki, Ogawa, Eri, Misono, Tomohiro, Kobayashi, Ryohei, Kise, Kenji

    情報処理学会第78回全国大会  2016年3月 

     詳細を見る

    開催年月日: 2016年3月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:慶應義塾大学  

    In order to develop high performance computer systems effectively, environments to evaluate architectural ideas are required.In these purpose, software based simulators are often used, but they have disadvantage of slow simulation speed.In order to achieve fast simulation speed, hardware environments are desired. We propose Frix (Feasible and Reconfigurable IBM PC Compatible SoC), which is an FPGA-based evaluation environment with an x86 soft processor.Frix can boot general purpose operating systems, FreeDOS and TinyCore.The source code of Frix is written in Verilog HDL, and released as open-source.In this paper, we detail the design of Frix and show how to use Frix for research and education.

    researchmap

  • Effective Parallel Simulation of ArchHDL under Manycore Environment 国際会議

    Misono, Tomohiro, Kobayashi, Ryohei, Kise, Kenji

    2015 Third International Symposium on Computing and Networking (CANDAR)  2015年12月 

     詳細を見る

    開催年月日: 2015年12月

    記述言語:英語   会議種別:口頭発表(一般)  

    For development of hardware such as System on a Chip (SoC), RTL simulation is very important to verify the design. Since RTL simulation has to be repeated many times during the development period, the simulation speed must be fast. However, as the design becomes larger and more complex, the simulation time dramatically increases and developers may not complete the simulation in a reasonable time. Therefore we have proposed a new hardware description language named ArchHDL which enables fast RTL simulation. Designers can write RTL design and test bench in a Verilog HDL-like style. Designers can compile design files in ArchHDL with standard C++ compiler and simulate them by executing the binary. The ArchHDL simulation is cycle accurate and can be parallelized using OpenMP without decreasing the accuracy. In this paper, we show the effectiveness of ArchHDL under a manycore environment. We use Intel Xeon Phi 31S1P Coprocessor in native execution mode to run parallel ArchHDL simulation. For performance evaluation, we use a NoC and a MIPS based manycore processor. As a result, the ArchHDL simulation on 57 cores of the Xeon Phi running at 1.1 GHz achieves up to 48x speedup compared to 1-core execution. Moreover, ArchHDL on 57 cores of the Xeon Phi is up to 9.7x faster than Synopsys VCS running on a single thread of Intel Xeon CPU E5-2687W operating at 3.1GHz and up to 1.7x faster than ArchHDL on 8 cores of the Xeon CPU E5-2687W.

    researchmap

  • SSDの並列性を引き出すI/Oスケジューラ

    奥村, 開里, 小林, 諒平, 吉瀬, 謙二

    第135回OS・第39回EMB合同研究発表会  2015年11月 

     詳細を見る

    開催年月日: 2015年11月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:お茶の水女子大学  

    近年,Solid State Drive(SSD) は個人用のパソコンのみならず,クラウドストレージ,データセンターなどといった幅広い範囲で使われ始めている.SSD は性能向上のために,複数チャンネル,またチャンネル毎に存在する複数のチップによって I/O の並列処理を行い性能を向上させているが,それらを考慮した SSD 用のスケジューラは OS 側に組み込まれていない.そのため本稿では,SSD の並列性を抽出することにより,レイテンシの低減,及びスループットの向上を目的とする Alleviate Conflict(AC) スケジューラを提案する.Linux に提案するスケジューラを実装し,SSD に対する様々な I/O リクエストパターンを用いて,SSD の帯域幅とレイテンシを評価した.その結果,Web サーバに近い I/O アクセスパターンにおいては,提案した I/O スケジューラは,Linux カーネルで標準的に使用されている Noop スケジューラ,Deadline スケジューラ,CFQ スケジューラそれぞれと比較し,Noop スケジューラからは帯域幅 4%の向上,レイテンシは 15%の低減,Deadline スケジューラからは帯域幅 7%の向上,レイテンシは 7%の低減,CFQ スケジューラからは帯域幅 34%の向上,レイテンシは 40%の低減を達成した.

    researchmap

  • Reconfigurable IBM PC Compatible SoC for Computer Architecture Education and Research 国際会議

    Ogawa, Eri, Matsuda, Yuki, Misono, Tomohiro, Kobayashi, Ryohei, Kise, Kenji

    2015 IEEE 9th International Symposium on Embedded Multicore/Many-core Systems-on-Chip  2015年9月 

     詳細を見る

    開催年月日: 2015年9月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Turin  

    In order to develop high performance computer systems efficiently, environments to evaluate architectural ideas are required. Software environments such as simulators are very flexible, and thus often used. On the other hand, if the target hardware is complex and large, it is very hard to finish the simulation in practical time because of software's slow simulation speed. Thus, we develop a hardware environment for efficient evaluation of computer systems. We propose and develop an IBM PC Compatible SoC on an FPGA where hardware developers can evaluate their custom architectures. The SoC has an x86 soft core processor which can run general purpose operating systems. By making the proposed system run on FPGAs of two major vendors, i.e. Xilinx and Altera, we believe that it can be widely adopted. Besides, the SoC can be used for learning computer systems, because of its open-source policy. In this paper, we detail the design and implementation of the proposed SoC, and verify that it accurately runs some applications. As a case study to demonstrate usability of the SoC for computer research, we implement two types of L2 caches in Verilog HDL and evaluate their performance by running the SPEC CPU2000 INT benchmark suite. Additionally, we discuss how the SoC can be used for computer education.

    researchmap

  • FACE: Fast and Customizable Sorting Accelerator for Heterogeneous Many-core Systems 国際会議

    Kobayashi, Ryohei, Kise, Kenji

    2015 IEEE 9th International Symposium on Embedded Multicore/Many-core Systems-on-Chip  2015年9月 

     詳細を見る

    開催年月日: 2015年9月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Turin  

    Performance improvements of a single-core processor relying on high clock rates reached the limit. Instead of a single-core processor, multi-core and many-core processors have been mainstream to accelerate applications by parallel processing. Year by year, the number of cores integrated in a single chip has been increased due to improvements of semiconductor integration technologies depending on Moore's Law. On the other hand, Moore's Law will be ended in the near future. This means that the approaches relying on the increase in the number of cores will be hopeless, thus we have to consider other effective ways. One of them is to design application specific hardware. Several research organizations have explored it and reported its remarkable findings. We focus on such an acceleration approach with dedicated hardware. As a case study with dedicated hardware, we present a sorting acceleration method. Sorting is an extremely important computation kernel that should be accelerated in a lot of fields, such as databases, image processing, data compression, etc. We propose a sorting accelerator combining Sorting Network and Merge Sorter Tree, and detail the design and implementation. Our proposed sorting accelerator is customizable, thus designers can implement a sorting accelerator composed of required hardware resources by means of tuning design parameters. Our experiments show that the proposed hardware achieves up to 10.06x sorting performance, compared with Intel Core i7-4770 operating at 3.4GHz, when sorting 256M 32-bits integer elements. In order to allow every designer to easily and freely use this accelerator, the RTL source code is released as an open-source hardware.

    researchmap

  • FPGAを用いた世界最速のソーティングハードウェアの実現に向けた試み

    小林, 諒平, 吉瀬, 謙二

    リコンフィギャラブルシステム研究会(RECONF)  2015年6月 

     詳細を見る

    開催年月日: 2015年6月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:京都大学  

    ソーティングはデータベース,画像処理,データ圧縮といった様々なアプリケーションで必要とされる非常に重要な計算カーネルであり,FPGAを用いた様々な高速化の手法が研究されている.FPGAを用いたアクセラレータは,アプリケーションに特化した演算パイプラインとデータ供給機構を実現する回路をFPGA上に実装することにより,CPUやGPUと比較して高い演算性能を達成できる.本稿では,FPGAを用いた世界最速のソーティングハードウェアの実現に向けたアプローチを紹介し,関連研究と比較して我々の現状のシステムの位置づけを議論する.そしてソーティングハードウェアの高速化手法と性能モデルから,関連研究のシステムの約半分のハードウェア量でほぼ同等の性能を達成できる構成を導き出した.

    researchmap

  • FPGAベースのソーティングアクセラレータの設計と実装

    小林, 諒平, 吉瀬, 謙二

    コンピュータシステム研究会 (CPSY)  2015年4月 

     詳細を見る

    開催年月日: 2015年4月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:明治大学中野キャンパス  

    ソーティングはデータベース,画像処理,データ圧縮といった様々なアプリケーションで必要とされる,非常に重要な計算カーネルであり,様々な高速化の手法が研究されている.我々は,FPGAを用いて高速にソーティングを実行するアクセラレータを提案する.FPGAを用いたアクセラレータは,アプリケーションに特化した演算パイプラインとデータ供給機構を実現する回路をFPGA上に実装することにより,CPUやGPUと比較して高い演算性能を達成できる.提案するFPGAアクセラレータはソーティングネットワーク,マージソートツリーという2つの手法を採用している.本稿では,提案したソーティングアクセラレータの設計と実装について詳細に述べる.提案したハードウェアを評価したところ,3.4GHzで動作するIntel Core i7-4770と比較して最大10.06倍の高速化を達成した.

    researchmap

  • A Challenge of Portable and High-Speed FPGA Accelerator 国際会議

    Usui, Takuma, Kobayashi, Ryohei, Kise, Kenji

    11th International Symposium on Applied Reconfigurable Computing 2015  2015年4月 

     詳細を見る

    開催年月日: 2015年4月

    記述言語:英語   会議種別:ポスター発表  

    開催地:Bochum  

    FPGA accelerators can achieve higher computation performance and better power efficiency than CPUs and GPUs, because designers can implement circuits that realize application-specific pipeline dhardware and data supply system. In this paper, we propose a portable and high-speed FPGA accelerator employing USB3.0 which is a datatransfer interface with high versatility and high speed. We choose sorting as a practical application for the FPGA accelerator, and then design and implement the FPGA accelerator that executes sorting at high speed. To demonstrate the high portability, we evaluate the FPGA accelerator with several desktop PCs and laptop PCs. The evaluation result shows the sorting speed of the proposed FPGA accelerator is 1.26x and 2.60x higher than Intel Core i7-3770K operating at 3.5GHz and Intel Core i3-4010U operating at 1.83GHz, respectively. From this evaluation, we also show that the proposed FPGA accelerator has high portability.

    researchmap

  • Ultra High-speed FPGA Accelerator for Sorting Application

    Kobayashi, Ryohei, Kise, Kenji

    情報処理学会第77回全国大会  2015年3月 

     詳細を見る

    開催年月日: 2015年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:京都大学  

    FPGA accelerators can obtain higher computation performance and better power efficiency than CPUs and GPUs, because designers can implement circuits that realize application-specific pipelined hardware and data supply system. In this paper, we propose an approach of sorting acceleration by using a large FPGA. Sorting is an extremely important computation kernel that has been tried to be accelerated in lots of fields. We design and implement the proposed FPGA accelerator, and then evaluate its performance by comparing with a modern desktop computer. From this evaluation, we show how sorting is accelerated.

    researchmap

  • USB3.0接続の手軽で高速なFPGAアクセラレータの設計と実装

    臼井, 琢真, 小林, 諒平, 吉瀬, 謙二

    リコンフィギャラブルシステム研究会(RECONF)  2015年1月 

     詳細を見る

    開催年月日: 2015年1月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:慶應義塾大学 日吉キャンパス  

    FPGAを用いたアクセラレータは,アプリケーションに特化した演算パイプラインとデータ供給機構を実現する回路をFPGA上に実装することにより,CPUやGPUと比較して高い演算能力や電力効率を達成できる.本稿では, 汎用性が高く高速なインターフェイスであるUSB3.0を採用した,手軽で高速なFPGAアクセラレータを提案する.FPGAで高速化させる実用的なアプリケーションとしてソーティングを選択し,高速にソーティングできるFPGAアクセラレータの設計と実装を行った.提案するFPGAアクセラレータのポータビリティを示すために,デスクトップPCやラップトップPCといった様々な計算機環境で評価した.その結果,提案するFPGAアクセラレータは,3.5GHzで動作するIntel Corei7-3770K,1.83GHzで動作するIntel Corei3-4010Uと比較してそれぞれ1.28倍,2.60倍のソーティングの速度向上を達成し、提案するFPGAアクセラレータは高いポータビリティを有していることを示した.

    researchmap

  • 3bOS: A flexible and lightweight embedded OS operated using only 3 buttons

    ImmanuelV, Encarnacion, Kobayashi, Ryohei, Kise, Kenji

    組込みシステムシンポジウム2014  2014年10月 

     詳細を見る

    開催年月日: 2014年10月

    記述言語:日本語   会議種別:口頭発表(一般)  

    An embedded system we developed, the MieruEMB system, is used as an educational kit for learning implementation skills and knowledge regarding embedded systems. In this paper we present 3bOS, a simple and easily customizable embedded OS, running on the MieruEMB system. 3bOS comes with a three-button interface and a built-in file explorer for FAT file systems. 3bOS is capable of running ELF executables, providing approximately 400 KB of memory for an application. It can also support basic graphics functions. This embedded OS is written in C, and just consists of around 800 lines of the code. Because of its simplicity, users can easily understand how this embedded OS runs on the MieruEMB system, and can easily modify this embedded OS if they want. We show the design, the implementation, and the features of 3bOS, and conclude that 3bOS is usable for educational purposes.

    researchmap

  • FPGAの消費電力を削減するHDLコーディング手法の検討

    Kobayashi, Ryohei, Kise, Kenji

    情報処理学会 第76回全国大会  2014年3月 

     詳細を見る

    開催年月日: 2014年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:東京電機大学  

    The advantages of using FPGAs (Field Programmable Gate Arrays) are to change design easily, low respin costs and speeding up development time. However to get these benefits, the FPGA has disadvantages: higher power consumption, larger silicon areas and lower operating speeds compared with the ASIC. In particular, higher power consumption not only requires higher packaging costs, shortens chip life-times, expensive cooling systems, but also decreases system reliability. Therefore, it is truly important to reduce FPGA s power consumption. In this paper, we compare HDL (Hardware Description Language) coding styles, which have already been proposed to reduce power consumption for FPGAs, and seek a more effective way than those.

    researchmap

  • 多数の小容量FPGAを用いたスケーラブルなステンシル計算機の開発

    小林, 諒平, 高前田(山崎), 伸也, 吉瀬, 謙二

    先進的計算基盤システムシンポジウム(SACSIS)  2013年5月 

     詳細を見る

    開催年月日: 2013年5月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:仙台国際センター  

    ステンシル計算は科学技術計算において重要な計算カーネルの1つであり,地震シミュレーション,デジタル信号処理,流体計算など様々な分野で利用されている.我々は,2次元ステンシル計算を効率的に実行するアーキテクチャを提案し,複数の小容量FPGAを用いて提案アーキテクチャを実装した.システムは段階的に開発を行った.まず,複数のFPGAノード上でステンシル計算を実行するサイクルアキュレートなソフトウェアシミュレータを開発した.そのシミュレータをもとに,演算回路をVerilog HDLで記述し,演算回路をFPGAアレー上に実装した.実装した回路は正常に動作し,演算性能,スケーラビリティ,電力消費の評価から,アーキテクチャの正当性を示すことができた.100ノードFPGAアレーの電力量あたりの演算性能は約0.6GFlop/sWであり,一般的なGPUと比較して,約3.8倍の電力効率が得られた.

    researchmap

  • Design of Synchronization Mechanism to Conquer the Clock Oscillator Variation for High Performance Stencil Computation Accelerator

    Kobayashi, Ryohei, Takamaeda-Yamazaki, Shinya, Kise, Kenji

    情報処理学会 第75回全国大会  2013年3月 

     詳細を見る

    開催年月日: 2013年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:東北大学  

    Stencil computation is one of the typical scientific computing kernels. It is applied diverse areas as Earthquake simulation, seismic imaging for the oil and gas exploration industry. We have proposed the effective stencil computation method and the architecture by employing multiple small FPGAs with 2Dmech topology. However, as we implemented stencil computation accelerator, we realized that the accelerator does not stable operate because clock oscillator variation occurs. This variation occurs because each FPGA node which composes the accelerator has unique clock domain. In this paper, we evaluate clock oscillator variation quantitatively and describe design of synchronization mechanism to conquer the variation to operate the accelerator successfully.

    researchmap

  • メッシュ接続FPGAアレーを用いた高性能ステンシル計算機の設計と実装

    小林, 諒平, 高前田(山崎), 伸也, 吉瀬, 謙二

    リコンフィギャラブルシステム研究会(RECONF)  2013年1月 

     詳細を見る

    開催年月日: 2013年1月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:慶応義塾大学 日吉キャンパス  

    我々は,多数のFPGAを用いたステンシル計算のアクセラレータを開発しており,小容量のFPGAを複数2次元メッシュ状に接続したシステムアーキテクチャを採用している.システムの実装を進めるにつれて,FPGAノード数を増加させた場合に,システムが正しい計算結果を出力しない不具合が発見された.その原因として,各FPGAノードのクロック周期のばらつきが挙げられる.本稿では,各FPGAノードのクロック周期のずれを定量的に評価し,ステンシル計算機を長時間,安定して動作させるための機構の設計とその実装について述べる.

    researchmap

  • Towards a Low-Power Accelerator of Many FPGAs for Stencil Computations 国際会議

    Kobayashi, Ryohei, Takamaeda-Yamazaki, Shinya, Kise, Kenji

    2012 Third International Conference on Networking and Computing  2012年12月 

     詳細を見る

    開催年月日: 2012年12月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Okinawa  

    We have proposed the effective stencil computation method and the architecture by employing multiple small FPGAs with 2D-mech topology. In this paper, we show that our proposed architecture works correctly on the real 2D-mesh connected FPGA array. We developed a software simulator in C++, which emulates our proposed architecture, and implemented two prototype systems in Verilog HDL. One prototype system is for logic verification with communication modules and the other is for estimation of power consumption without communication modules. We run the former prototype system for 2M cycles and check the behavior with the software simulator. Our architecture is developed towards a low-power accelerator of many FPGAs. The evaluation result with the second prototype shows that the system of a single FPGA node with eight floating-point adders and eight floating-point multipliers archives 2.24GFlop/s in 0.16GHz operations with 2.37W power consumption. This performance/W value is about six-times better than NVidia GTX280 GPU card.

    researchmap

  • メッシュ接続FPGAアレーにおける高性能ステンシル計算

    小林, 諒平, 佐野, 伸太郎, 高前田(山崎), 伸也, 吉瀬, 謙二

    SACSIS2012 - 先進的計算基盤システムシンポジウム  2012年5月 

     詳細を見る

    開催年月日: 2012年5月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:神戸国際会議場  

    FPGAは高い性能を達成するカスタムのハードウェアアクセラレータを容易に構築する事を可能にする注目すべきデバイスである.本稿では,科学技術計算において重要な計算カーネルの1つであるステンシル計算のための,多数の小規模FPGAを用いたスケーラブルな計算手法を提案する.本稿では2Dメッシュ型に接続された複数のFPGAで構成されるステンシル計算システムのアーキテクチャとその初期実装について述べる.隣接するFPGA間の通信オーバーヘッドを削減するために各FPGAにおける計算順序を調整することで,高い通信と計算のオーバーラップ率を実現する.まず,単一FPGAの性能を評価したところ,0.16GHzで動作する場合には2.37Wの消費電力で2.24GFlop/sの性能を達成することを確認した.また1個のFPGAの結果を元に,256個のFPGAで構成するシステムの性能および電力あたりの性能を見積もったところ,全体で573GFlop/sの性能を0.94GFlop/sWの電力あたりの性能で実現できることがわかった.

    researchmap

  • メッシュ接続FPGAアレーにおけるステンシル計算の検討

    小林, 諒平, 佐野, 伸太郎, 高前田(山崎), 伸也, 吉瀬, 謙二

    情報処理学会 第74回全国大会  2012年3月 

     詳細を見る

    開催年月日: 2012年3月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:名古屋工業大学  

    近年,FPGAの有する専用のハードウェアを柔軟に構成できるという性質から,FPGAを科学計算のアクセラレータとして用いる研究が盛んに行われている.本研究ではメッシュ接続のFPGAアレーを用いて,科学技術計算において重要な計算カーネルの一つであるステンシル計算に対する検討を行った.

    researchmap

  • OpenCL-Enabled GPU–FPGA Accelerated Computing with Inter-FPGA Communication 国際会議

    Boku, Taisuke, Kobayashi, Ryohei, Fujita, Norihisa, Yamaguchi, Yoshiki, Nakamichi, Ayumi

    IXPUG Workshop HPC Asia 2020  2020年1月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Japan Fukuoka  

    researchmap

  • OpenCL-enabled Parallel Raytracing for Astrophysical Application on Multiple FPGAs with Optical Links 国際会議

    Fujita, Norihisa, Kobayashi, Ryohei, Yamaguchi, Yoshiki, Boku, Taisuke, Yoshikawa, Kohji, Abe, Makito, Umemura, Masayuki

    Sixth International Workshop on Heterogeneous High-performance Reconfigurable Computing (H2RC'20)  2020年11月 

     詳細を見る

    記述言語:英語   会議種別:口頭発表(一般)  

    In an earlier study, we optimized the Authentic Radiative Transfer (ART) method to solve the space radiative transfer problems in early universe astrophysical simulations using an Intel Arria 10 Field Programmable Gate Array (FPGA). In this paper, we optimize this method for use on the latest FPGA, an Intel Stratix 10, and evaluate its performance by comparing the GPU implementation on multiple nodes. For the multi-FPGA computing and communication framework, we apply our original system, called as Communication Integrated Reconfigurable CompUting System (CIRCUS), to realize OpenCL based programming and utilize multiple optical links on an FPGA for parallel FPGA processing, and this study is the first implementation of a real application applied using CIRCUS. The FPGA implementation is 4.54-, 8.41-, and 10.64-times faster than that of a GPU on one, two, and four nodes, respectively, for multi-GPU cases using an InfiniBand HDR100 network. It also achieves 94.2 % parallel efficiency running on four FPGAs. We believe this efficiency is brought about from the low-latency and high-efficiency pipelined communication of CIRCUS, which provide easy programming on multi-FPGAs using OpenCL for

    researchmap

▼全件表示

受賞

  • HPC in ASIA poster award

    2018年6月  

    Norihisa Fujita, Ryohei Kobayashi, Yoshiki Yamaguchi, Makito Abe, Kohji Yoshikawa, Masayuki Umemura

     詳細を見る

    受賞区分:国際学会・会議・シンポジウム等の賞 

    フランクフルトで開催されたISC2018において、藤田研究員、小林助教らによる発表が HPC IN ASIA セッションの Poster Award を受賞しました。

    受賞した発表は以下の通りです。
    Poster from Japan: “Accelerating HPC applications on FPGAs using OpenCL and FPGA Network”
    Poster Authors: Norihisa Fujita, Ryohei Kobayashi, Yoshiki Yamaguchi, Makito Abe, Kohji Yoshikawa, Masayuki Umemura

    https://www.ccs.tsukuba.ac.jp/award20180627/

    researchmap

  • 電子情報通信学会コンピュータシステム研究会 優秀若手講演賞

    2015年4月   電子情報通信学会コンピュータシステム研究会  

    小林 諒平

     詳細を見る

    受賞区分:国内学会・会議・シンポジウム等の賞  受賞国:日本国

    FPGAベースのソーティングアクセラレータの設計と実装
    小林, 諒平, 吉瀬, 謙二
    IEICE-CPSY2015-5 115(7) 25 - 30 2015年4月

    researchmap

  • The 2nd ARC/CPSY/RECONF High-Performance Computer System Design Contest(第2回 ARC/CPSY/RECONF 高性能コンピュータシステム設計コンテスト) コンピュータシステム設計部門 優勝

    2014年9月   第2回 ARC/CPSY/RECONF 高性能コンピュータシステム設計コンテスト実行委員会  

    小林 諒平

     詳細を見る

    受賞区分:国内学会・会議・シンポジウム等の賞  受賞国:日本国

    http://www.is.utsunomiya-u.ac.jp/pearlab/contest/

    researchmap

共同研究・競争的資金等の研究課題

  • 2温度一般相対論的輻射磁気流体計算で解くブラックホール流の構造・電子温度・放射

    研究課題/領域番号:24K00678  2024年4月 - 2028年3月

    日本学術振興会  基盤研究(B) 

    高橋 博之

      詳細を見る

    資金種別:競争的資金

    配分額:18590000円 ( 直接経費:14300000円 、 間接経費:4290000円 )

    2温度一般相対論的6次元輻射磁気流体計算により、ブラックホール降着円盤の力学的構造、および電子温度を無矛盾に決定する。6次元輻射輸送方程式を解くことにより、従来用いられてきた近似的手法による結果とは質的に異なる、現実的な円盤モデルを構築することが可能となる。
    この結果を用いて一般相対論的多波長輻射輸送計算を行うことで撮像イメージ・スペクトル・偏光を予言する。これらを最新の観測成果と直接比較することで、ブラックホールの質量、スピン、降着率に強い制限をつける。

    researchmap

  • 複数の演算加速装置に対応できる次世代高性能システムのためのプログラミング環境

    研究課題/領域番号:24K14967  2024年4月 - 2027年3月

    日本学術振興会  基盤研究(C) 

    藤田 典久

      詳細を見る

    資金種別:競争的資金

    配分額:4680000円 ( 直接経費:3600000円 、 間接経費:1080000円 )

    スーパーコンピューターの消費電力が増加する問題を解決するために、演算加速装置が広く用いられている。特に、Graphics Processing Unit(GPU)が広く用いられている。しかしながら、GPUは不得手な計算があり、その部分がボトルネックとなることが知られている。申請者らは、異なる演算加速装置を組み合わせて密結合して用いることで、この問題を解決しさらなる演算加速が実現できると考えている。本研究では、多様な計算機を統一的・横断的に扱うことは可能かを問い、演算加速装置を統一的に扱えるプログラミング環境を実現することを目的とする。

    researchmap

  • 多要素協調型Approximate Computing実現に向けたHPCアプリケーション解析手法

    研究課題/領域番号:23K11056  2023年4月 - 2026年3月

    日本学術振興会  基盤研究(C) 

    和田 康孝

      詳細を見る

    資金種別:競争的資金

    配分額:4810000円 ( 直接経費:3700000円 、 間接経費:1110000円 )

    researchmap

  • GPU・FPGA複合型グラフ構造データ分析基盤の創出

    研究課題/領域番号:22K17895  2022年4月 - 2025年3月

    日本学術振興会  若手研究  若手研究

    小林 諒平

      詳細を見る

    担当区分:研究代表者  資金種別:競争的資金

    配分額:4550000円 ( 直接経費:3500000円 、 間接経費:1050000円 )

    researchmap

  • 多重複合演算加速機構を用いた次世代スーパーコンピューティング

    研究課題/領域番号:21H04869  2021年4月 - 2025年3月

    日本学術振興会  基盤研究(A)  基盤研究(A)

    朴 泰祐

      詳細を見る

    資金種別:競争的資金

    配分額:41730000円 ( 直接経費:32100000円 、 間接経費:9630000円 )

    大規模高性能並列システムにおいて、従来のGPUによる演算加速に加え、FPGAを追加導入することで、性能を大幅に向上させる次世代演算加速システム技術である、多重複合型演算加速型スーパーコンピュータの基盤技術を開発する。両演算加速デバイスを統一的にプログラミング可能とし、分散メモリ並列モデルであるPGASシステム上でこのプログラミングを可能とする環境を構築する。

    researchmap

  • FPGAを用いた超高速ハードウェアソーティングアルゴリズムの開発

    研究課題/領域番号:19K20276  2019年4月 - 2022年3月

    日本学術振興会  若手研究  若手研究

    小林 諒平

      詳細を見る

    担当区分:研究代表者  資金種別:競争的資金

    配分額:3380000円 ( 直接経費:2600000円 、 間接経費:780000円 )

    本研究では,アプリケーションに特化した演算パイプラインとデータ供給機構を実装可能という FPGA の特徴を最大限活用し,ソーティングを高速に実行するハードウェアアルゴリズムの開発に取り組む.具体的には,FPGA のオンチップメモリベースで実現される仮想的なマージソートツリーを既存研究の高スループットマージソートツリーの部分木に適用した新しいアーキテクチャを提案し,それをソーティングネットワークと組み合わせる.提案手法を実行するプロトタイプシステムをFPGA評価ボードを用いて構築し,ソートするデータ数やデータの分布を変化させた幾つかのソート処理を実行させ,提案手法の演算性能と電力効率を評価する.

    researchmap

▼全件表示

社会貢献活動

  • 第2回 TSUBAME ミニキャンプ

    役割:講師

    東京科学大学(情報基盤センター,総合研究院スーパーコンピューティング研究センター)  2025年9月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    本ミニキャンプでは、東京科学大学のTSUBAME4.0スーパーコンピュータを使って高速に計算したいアプリケーションを持つユーザを対象に、TSUBAME4上での最適化作業の実践機会を提供します。参加費は無料で、参加者には期間中にTSUBAME4のアカウントが発行されます。

    本ミニキャンプでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。情報基盤センターの教員に加えて、GPUを活用した高性能計算のスペシャリストがメンターとして参加し、各自のペースでプログラムのGPU化や、GPU利用率・性能向上の作業を進めるにあたり随時相談することができます。

    本ミニキャンプでは、特に高性能計算分野のアプリケーションをGPUを活用するべく最適化することに取り組みます。

    本イベントは、東京科学大学の現地会場(初日はすずかけ台キャンパス(TSUBAME4見学つき)・最終日は大岡山キャンパス)とオンラインでのハイブリッド開催となります。現地会場およびオンラインにて各自のSlackとZoomを立ち上げて、TSUBAME4.0に接続して作業できる環境から参加していただきます。現地会場では、電源は用意いたしますが、端末はありませんので各自でノートパソコン等をお持ち込みください。

    researchmap

  • SupercomputingContest2025

    役割:講師, 助言・指導, 企画, 運営参加・支援

    東京科学大学(情報基盤センター,総合研究院スーパーコンピューティング研究センター) / 大阪大学(D3センター) / 理化学研究所(計算科学研究センター)  2025年8月

     詳細を見る

    対象: 高校生

    種別:フェスティバル

    夏の電脳甲子園第31回大会:2025年8月 東京科学大学のスーパーコンピュータ「TSUBAME4.0」を使用し、オンラインで開催します。

    researchmap

  • 第249回お試しアカウント付き並列プログラミング講習会 「第13回 GPUミニキャンプ」

    役割:講師

    最先端共同HPC基盤施設(JCAHPC)(筑波大学計算科学研究センター、東京大学情報基盤センター)、北海道大学情報基盤センター、東北大学サイバーサイエンスセンター、東京科学大学情報基盤センター、京都大学学術情報メディアセンター、大阪大学D3センター、九州大学情報基盤研究開発センター・データ駆動イノベーション推進本部データ分析支援部門エヌビディア合同会社、PCクラスタコンソーシアム(HPCオープンソースソフトウェア普及部会)  2025年7月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    既存のCPUシミュレーションコードをGPU化する方や、既存の単体GPUコードを複数GPUコードにする方などを対象に、スーパーコンピュータ Miyabi を活用した実践を行うGPUミニキャンプを開催いたします。参加費は無料です。
    GPUミニキャンプでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。情報基盤センターの教員に加えて、GPUのスペシャリストがメンターとして参加し、各自のペースでコードのGPU化やGPU利用率向上の作業を進めるにあたり随時相談することができます。
    本ミニキャンプでは、特に、既存のCPUシミュレーションコードをOpenACC(指示文)、GPU向けライブラリ、CUDA(GPU専用言語)でGPU化したり、既存の単体GPUコードをMPIで複数GPUコードにすることなどに取り組みます。
    本イベントは、オンラインでの開催となります。各自のSlackとZoomを立ち上げて、 Miyabi に接続して作業ができる環境から参加していただきます。ZoomおよびSlackの接続情報は申込者にのみご連絡いたします。

    researchmap

  • 第239回お試しアカウント付き並列プログラミング講習会 「JCAHPC Open Hackathon」

    役割:講師

    最先端共同HPC基盤施設(JCAHPC)(筑波大学計算科学研究センター,東京大学情報基盤センター)  2025年1月 - 2025年2月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    既存のCPUシミュレーションコードをGPU化する方や、既存の単体GPUコードを複数GPUコードにする方などを対象に、スーパーコンピュータ Miyabiを活用した実践を行うハッカソンを開催いたします。参加費は無料です。
    JCAHPC Open Hackathonでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。情報基盤センター教員に加えて、GPUのスペシャリストがメンターとして参加し、各自のペースでコードのGPU化やGPU利用率向上の作業を進めるにあたり随時相談することができます。
    本ハッカソンでは、特に、既存のCPUシミュレーションコードをOpenACC(指示文)、GPU向けライブラリ、CUDA(GPU専用言語)でGPU化したり、既存の単体GPUコードをMPIで複数GPUコードにすることなどに取り組みます。
    本ハッカソンは、東京大学柏キャンパス第2総合研究棟の現地会場とオンラインでのハイブリッド開催となります。参加者の方によるMiyabiの見学も予定しております。現地会場およびオンラインにて各自のSlackとZoomを立ち上げて、Miyabi に接続して作業ができる環境から参加していただきます。

    researchmap

  • スーパーコンピュータ「不老」TypeIIサブシステム利用 GPUミニキャンプ(機械学習)

    役割:講師

    名古屋大学 情報基盤センター  2024年12月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    名古屋大学情報基盤センターでは、社会貢献、および、大規模並列処理の普及を目的として、 当センターが有するスーパーコンピュータ「不老」を利用した講習会やイベントを実施しています。

    「不老」Type IIサブシステムの利用促進・システム利用者のスキルレベル向上のためには 搭載されているGPUの活用技術が重要であるため、 初心者向けには情報基盤センター単独開催の講習会を実施(計画)しています。 一方、中級以上のスキルのある利用者や、 機械学習には慣れているがスパコン利用には慣れていない(潜在的)利用者には、より実践的な演習・情報交換の場も必要です。 そこで、GPUの開発元であるエヌビディア合同会社と協力し、課題持ち込み型のGPUプログラミング演習・相談会(ミニキャンプ)の実施を計画しました。 今回は特にGPUを用いた機械学習に興味のあるユーザを主な対象者とします。

    本イベントの参加料金は無料です。 参加者はセンターのユーザである必要はありません。(一時的に利用可能な無料アカウントを発行します。) また産業利用を想定されている企業技術者の方々も参加できます。

    researchmap

  • 第233回お試しアカウント付き並列プログラミング講習会 「第12回 GPUミニキャンプ」

    役割:講師

    最先端共同HPC基盤施設(JCAHPC)(筑波大学計算科学研究センター,東京大学情報基盤センター)、北海道大学情報基盤センター、東京科学大学情報基盤センター・スーパーコンピューティング研究センター、九州大学情報基盤研究開発センター・データ駆動イノベーション推進本部データ分析支援部門、エヌビディア合同会社、PCクラスタコンソーシアム(HPCオープンソースソフトウェア普及部会)  2024年10月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    本ミニキャンプでは、既存のCPUシミュレーションコードをGPU化する方や、既存の単体GPUコードを複数GPUコードにする方などを対象に、情報基盤センター(以降、センター)に設置されたスーパーコンピュータ Wisteria/BDEC-01 を活用した実践を行います。2025年1月に運用開始予定のGPUを搭載したMiyabi (OFP-II)への移植に向けたGPUミニキャンプ第7弾です。参加費は無料です。
    GPUミニキャンプでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。情報基盤センター教員に加えて、GPUのスペシャリストがメンターとして参加し、各自のペースでコードのGPU化やGPU利用率向上の作業を進めるにあたり随時相談することができます。
    本ミニキャンプでは、特に、既存のCPUシミュレーションコードをOpenACC(指示文)、GPU向けライブラリ、CUDA(GPU専用言語)でGPU化したり、既存の単体GPUコードをMPIで複数GPUコードにすることなどに取り組みます。
    本イベントは、オンラインでの開催となります。各自のSlackとZoomを立ち上げて、 Wisteria/BDEC-01 に接続して作業ができる環境から参加していただきます。ZoomおよびSlackの接続情報は申込者にのみご連絡いたします。

    researchmap

  • 第227回お試しアカウント付き並列プログラミング講習会 「第11回 GPUミニキャンプ」

    役割:講師

    最先端共同HPC基盤施設(JCAHPC)(筑波大学計算科学研究センター,東京大学情報基盤センター)、東京工業大学学術国際情報センター、名古屋大学情報基盤センター、九州大学情報基盤研究開発センター・データ駆動イノベーション推進本部データ分析支援部門、エヌビディア合同会社、PCクラスタコンソーシアム(実用アプリケーション部会)  2024年6月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    本ミニキャンプでは、既存のCPUシミュレーションコードをGPU化する方や、既存の単体GPUコードを複数GPUコードにする方などを対象に、情報基盤センター(以降、センター)に設置されたスーパーコンピュータ Wisteria/BDEC-01 を活用した実践を行います。2025年1月に運用開始予定のGPUを搭載した Miyabi (OFP-II) への移植に向けたGPUミニキャンプ第6弾で、ハイブリッド開催です。参加費は無料です。
    GPUミニキャンプでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。情報基盤センター教員に加えて、GPUのスペシャリストがメンターとして参加し、各自のペースでコードのGPU化やGPU利用率向上の作業を進めるにあたり随時相談することができます。
    本ミニキャンプでは、特に、既存のCPUシミュレーションコードをOpenACC(指示文)、GPU向けライブラリ、CUDA(GPU専用言語)でGPU化したり、既存の単体GPUコードをMPIで複数GPUコードにすることなどに取り組みます。
    本イベントは、東京大学浅野キャンパス情報基盤センターの現地会場とオンラインでのハイブリッド開催となります。現地会場およびオンラインにて各自のSlackとZoomを立ち上げて、 Wisteria/BDEC-01 に接続して作業ができる環境から参加していただきます。

    researchmap

  • TSUBAME 深層学習 ミニキャンプ

    役割:講師

    東京工業大学学術国際情報センター  2024年6月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    本ミニキャンプでは、東京工業大学のTSUBAME4.0スーパーコンピュータを使って高速に計算したい深層学習などのアプリケーションを持つユーザを対象に、TSUBAME4上での実践の機会を提供します。参加費は無料で、参加者には期間中にTSUBAME4のアカウントが発行されます。

    本ミニキャンプでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。学術国際情報センターの教員に加えて、GPUを活用した深層学習のスペシャリストがメンターとして参加し、各自のペースでプログラムのGPU化や、GPU利用率・性能向上の作業を進めるにあたり随時相談することができます。

    本ミニキャンプでは、特に深層学習分野のアプリケーションをGPUを活用するべく最適化することに取り組みます。PyTorchやTensorFlowなどのフレームワークを利用するアプリケーションを想定していますが、それ以外の自作コード等でも構いません。

    本イベントは、東京工業大学の現地会場(初日は大岡山キャンパス・最終日はすずかけ台キャンパス)とオンラインでのハイブリッド開催となります。現地会場およびオンラインにて各自のSlackとZoomを立ち上げて、TSUBAME4.0に接続して作業できる環境から参加していただきます。現地会場では、電源は用意いたしますが、端末はありませんので各自でノートパソコン等をお持ち込みください。

    researchmap

  • 第223回お試しアカウント付き並列プログラミング講習会 「第10回 GPUミニキャンプ」

    役割:講師

    東京大学情報基盤センター、エヌビディア合同会社、PCクラスタコンソーシアム(実用アプリケーション部会)  2024年2月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    本ミニキャンプでは、既存のCPUシミュレーションコードをGPU化する方や、既存の単体GPUコードを複数GPUコードにする方などを対象に、情報基盤センター(以降、センター)に設置されたスーパーコンピュータ Wisteria/BDEC-01 を活用した実践を行います。2025年1月に運用開始予定のGPUを搭載したOFP-IIへの移植に向けたGPUミニキャンプ第5弾で、ハイブリッド開催です。参加費は無料です。
    GPUミニキャンプでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。情報基盤センター教員に加えて、GPUのスペシャリストがメンターとして参加し、各自のペースでコードのGPU化やGPU利用率向上の作業を進めるにあたり随時相談することができます。
    本ミニキャンプでは、特に、既存のCPUシミュレーションコードをOpenACC(指示文)、GPU向けライブラリ、CUDA(GPU専用言語)でGPU化したり、既存の単体GPUコードをMPIで複数GPUコードにすることなどに取り組みます。
    本イベントは、東京大学浅野キャンパス情報基盤センターの現地会場とオンラインでのハイブリッド開催となります。現地会場およびオンラインにて各自のSlackとZoomを立ち上げて、 Wisteria/BDEC-01 に接続して作業ができる環境から参加していただきます。

    researchmap

  • 第215回お試しアカウント付き並列プログラミング講習会 「第9回 GPUミニキャンプ」

    役割:講師

    東京大学情報基盤センター、エヌビディア合同会社、PCクラスタコンソーシアム(実用アプリケーション部会)  2023年10月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    本ミニキャンプでは、既存のCPUシミュレーションコードをGPU化する方や、既存の単体GPUコードを複数GPUコードにする方などを対象に、情報基盤センター(以降、センター)に設置されたスーパーコンピュータ Wisteria/BDEC-01 を活用した実践を行います。2025年1月に運用開始予定のGPUを搭載したOFP-IIへの移植に向けたGPUミニキャンプ第4弾です。参加費は無料です。
    GPUミニキャンプでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。情報基盤センター教員に加えて、GPUのスペシャリストがメンターとして参加し、各自のペースでコードのGPU化やGPU利用率向上の作業を進めるにあたり随時相談することができます。
    本ミニキャンプでは、特に、既存のCPUシミュレーションコードをOpenACC(指示文)、GPU向けライブラリ、CUDA(GPU専用言語)でGPU化したり、既存の単体GPUコードをMPIで複数GPUコードにすることなどに取り組みます。
    本イベントは、オンラインでの開催となります。各自のSlackとZoomを立ち上げて、 Wisteria/BDEC-01 に接続して作業ができる環境から参加していただきます。

    researchmap

  • 第210回お試しアカウント付き並列プログラミング講習会「第8回 GPUミニキャンプ」

    役割:講師

    東京大学情報基盤センター、エヌビディア合同会社、PCクラスタコンソーシアム(実用アプリケーション部会)  2023年7月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    本ミニキャンプでは、既存のCPUシミュレーションコードをGPU化する方や、既存の単体GPUコードを複数GPUコードにする方などを対象に、情報基盤センター(以降、センター)に設置されたスーパーコンピュータ Wisteria/BDEC-01 を活用した実践を行います。2025年1月に運用開始予定のGPUを搭載したOFP-IIへの移植に向けたGPUミニキャンプ第3弾で、初のハイブリッド開催です。参加費は無料です。
    GPUミニキャンプでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。情報基盤センター教員に加えて、GPUのスペシャリストがメンターとして参加し、各自のペースでコードのGPU化やGPU利用率向上の作業を進めるにあたり随時相談することができます。
    本ミニキャンプでは、特に、既存のCPUシミュレーションコードをOpenACC(指示文)、GPU向けライブラリ、CUDA(GPU専用言語)でGPU化したり、既存の単体GPUコードをMPIで複数GPUコードにすることなどに取り組みます。
    本イベントは、東京大学柏Ⅱキャンパス情報基盤センターの現地会場とオンラインでのハイブリッド開催となります。現地会場およびオンラインにて各自のSlackとZoomを立ち上げて、 Wisteria/BDEC-01 に接続して作業ができる環境から参加していただきます。

    researchmap

  • 第200回お試しアカウント付き並列プログラミング講習会 「第7回 GPUミニキャンプ」

    役割:講師

    東京大学情報基盤センター、エヌビディア合同会社、PCクラスタコンソーシアム(実用アプリケーション部会)  2023年3月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    本ミニキャンプでは、既存のCPUシミュレーションコードをGPU化する方や、既存の単体GPUコードを複数GPUコードにする方などを対象に、情報基盤センター(以降、センター)に設置されたスーパーコンピュータ Wisteria/BDEC-01 を活用した実践を行います。2024年4月に運用開始予定のGPUを搭載したOFP-IIへの移植に向けたGPUミニキャンプ第2弾です。参加費は無料です。
    GPUミニキャンプでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。情報基盤センター教員に加えて、GPUのスペシャリストがメンターとして参加し、各自のペースでコードのGPU化やGPU利用率向上の作業を進めるにあたり随時相談することができます。
    本ミニキャンプでは、特に、既存のCPUシミュレーションコードをOpenACC(指示文)、GPU向けライブラリ、CUDA(GPU専用言語)でGPU化したり、既存の単体GPUコードをMPIで複数GPUコードにすることなどに取り組みます。
    本イベントは、新型コロナウィルス感染症の拡大を受け、オンラインでの開催となります。各自のSlackとZoomを立ち上げて、 Wisteria/BDEC-01 に接続して作業ができる環境から参加していただきます。

    researchmap

  • 第197回お試しアカウント付き並列プログラミング講習会 「第6回 GPUミニキャンプ」

    役割:講師

    東京大学情報基盤センター、エヌビディア合同会社、PCクラスタコンソーシアム(実用アプリケーション部会)  2022年12月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    本ミニキャンプでは、既存のCPUシミュレーションコードをGPU化する方や、既存の単体GPUコードを複数GPUコードにする方などを対象に、情報基盤センター(以降、センター)に設置されたスーパーコンピュータ Wisteria/BDEC-01 を活用した実践を行います。2024年4月に運用開始予定のGPUを搭載したOFP-IIへの移植に向けたGPUミニキャンプ第一弾です。参加費は無料です。
    GPUミニキャンプでは、参加者がコードやデータセットを持ち込み、GPUに関連した課題に対して、メンターからの助言を受けながら、その課題解決に取り組みます。情報基盤センター教員に加えて、GPUのスペシャリストがメンターとして参加し、各自のペースでコードのGPU化やGPU利用率向上の作業を進めるにあたり随時相談することができます。
    本ミニキャンプでは、特に、既存のCPUシミュレーションコードをOpenACC(指示文)、GPU向けライブラリ、CUDA(GPU専用言語)でGPU化したり、既存の単体GPUコードをMPIで複数GPUコードにすることなどに取り組みます。
    本イベントは、新型コロナウィルス感染症の拡大を受け、オンラインでの開催となります。各自のSlackとZoomを立ち上げて、 Wisteria/BDEC-01 に接続して作業ができる環境から参加していただきます。

    researchmap

  • FPGA for HPC Workshop: 科学研究費「再構成可能システムとGPUによる複合型高性能計算プラットフォーム」成果報告会

    役割:運営参加・支援

    科学研究費基盤研究(B)「再構成可能システムとGPUによる複合型高性能計算プラットフォーム」  2021年2月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    FPGAの高性能計算(HPC)への適用はこの数年、大きく注目されており、様々な大学・研究機関において活発に研究が進んでいます。本ワークショップはタイトルにありますように、FPGAとGPUを融合した高性能計算プラットフォームに関する科学研究費による研究の成果報告会となっていますが、国内の著名なFPGA研究者による最先端の研究開発に関するトピックスが満載となっており、FPGAのHPC利用、システム構築、FPGA利用技術等、充実した内容になっています。この機会に、FPGAの先進的利用についての知見を共有し、議論をさせて頂ければ幸いです。

    ワークショップはZoomによる完全オンライン形式で実施し、どなたでも参加頂けます。講演は全て日本語で行われます。参加費は無料ですが、オンライン接続情報の共有のため参加登録が必須となります。詳細は上記のホームページをご覧ください。多くの皆さんの参加をお待ちしております。

    researchmap

  • GPUオンラインキャンプ

    役割:講師

    筑波大学計算科学研究センター、エヌビディア合同会社  2020年9月

     詳細を見る

    対象: 大学生, 大学院生, 教育関係者, 研究者

    種別:セミナー・ワークショップ

    筑波大学計算科学研究センターでは、GPUコンピューティングに関するワークショップイベント「GPUオンラインキャンプ」を開催します。GPUの初心者の方からある程度経験のある方まで、どなたでも自由に参加頂けます。参加費は無料です。

    特に、筑波大学計算科学研究センターが運用するGPUやFPGAを搭載するスーパーコンピュータであるCygnusのユーザの方、これから同システムを使ってみようという方の積極的な参加を歓迎します。

    GPUオンラインキャンプは科学者や研究者、またコード開発者等の参加者が3日間集中して、メンターや他の参加者と一緒にGPU コンピューティング関連の課題を解決するためのイベントです。本来であれば計算科学研究センターの一室に集合して密な連携や議論を行いたいところですが、現在の情勢を踏まえてSlackやzoom等を利用するオンラインでの開催となります。遠方にお住まいの方も、この機会をぜひご活用ください。

    本イベントでは1人の参加者はNVIDIA V100 32GB GPUを1基、占有して利用することができます。GPU利用については、科学技術計算やディープラーニングなどに限っていません。幅広い分野からの参加を歓迎します。CPUコードのGPU化、GPUコードの高速化、V100 GPUへの最適化など、各参加者は本イベントで取り組むGPUコンピューティング関連の課題を設定していただきます。

    researchmap

  • 我々と高性能コンピュータシステム

    役割:講師

    茨城県立日立第一高等学校  茨城県立日立第一高等学校  2018年10月

     詳細を見る

    対象: 高校生

    種別:出前授業

    高校生に対し大学の講義を実施することで,高校生の教養を高めるとともに,高校生の将来の進路選択の一助となることを目的とする.

    researchmap

▼全件表示