Booil Jung

FPGA 기반 인공지능 추론 가속화

인공지능(AI)의 시대가 도래하면서, 복잡한 신경망 모델을 효율적으로 실행하기 위한 하드웨어 가속 기술의 중요성이 그 어느 때보다 부각되고 있습니다. 이 보고서는 재구성 가능한 하드웨어의 정점인 FPGA(Field-Programmable Gate Array)를 활용한 인공지능 추론 가속 기술에 대해 심층적으로 분석합니다. FPGA의 근본적인 아키텍처 원리부터 시작하여 GPU, ASIC 등 다른 가속기와의 경쟁 구도를 다각적으로 조명하고, 실제 기술 구현 방법론과 산업 적용 사례를 통해 그 가능성과 한계를 탐구합니다. 최종적으로는 FPGA 기반 AI 가속 기술이 직면한 과제와 미래 전망을 제시함으로써, 기술 전문가와 전략 결정권자에게 통찰력 있는 시각을 제공하는 것을 목표로 합니다.

FPGA가 어떻게 AI와 같은 연산 집약적 워크로드에 강력한 솔루션이 될 수 있는지를 이해하기 위해서는 먼저 그 독특한 아키텍처를 근본적으로 이해해야 합니다. FPGA는 고정된 구조를 가진 CPU나 GPU와 달리, 사용자가 현장에서(Field) 회로를 프로그래밍할 수 있는(Programmable) 논리 게이트의 배열(Gate Array)로 구성된 반도체 소자입니다. 이러한 재구성 가능성은 FPGA의 가장 큰 특징이자, AI 가속화의 핵심 동력이 됩니다.

FPGA의 내부는 수많은 기본 구성 요소들이 상호 연결된 복잡한 구조를 가집니다. AI 가속기 설계 관점에서 중요한 핵심 요소들은 다음과 같습니다.1

FPGA의 동작 원리는 하드웨어 기술 언어(Hardware Description Language, HDL)인 Verilog나 VHDL로 기술된 회로 설계를 “비트스트림(bitstream)”이라는 설정 파일로 변환(컴파일)하여 FPGA에 로드하는 것입니다.1 이 비트스트림은 각 LUT의 기능, 인터커넥트의 연결 경로, DSP와 BRAM의 동작 방식 등을 정의합니다. 일단 프로그래밍이 완료되면, FPGA는 특정 애플리케이션에 완벽하게 맞춰진 전용 하드웨어 가속기처럼 동작하게 됩니다.1

FPGA의 독특한 아키텍처는 AI 가속에 이상적인 세 가지 핵심적인 장점을 제공합니다.

이러한 결정적 저지연 특성은 단순한 성능 지표를 넘어섭니다. 이는 CPU나 GPU의 운영체제 스케줄러, 인터럽트, 복잡한 메모리 계층 구조에서 발생하는 예측 불가능한 지연 시간 변동(jitter) 때문에 구현이 불가능하거나 신뢰성이 떨어지는 특정 종류의 실시간 제어 시스템을 가능하게 하는 근본적인 동력입니다.7 예를 들어, 자율주행 차량의 제어 루프나 로봇 팔 제어는 마이크로초 단위의 보장된 응답 시간을 요구하며, 여기서의 지연은 시스템의 안전과 직결됩니다.12 따라서 많은 경우 FPGA를 선택하는 이유는 단순히 처리량이 높아서가 아니라, 시스템이 안전하고 정확하게 작동하는 데 필요한 신뢰성과 예측 가능성을 제공하기 때문입니다. 이는 FPGA를 처리량에 최적화된 GPU와는 다른 시장 영역에 위치시킵니다.

강력한 장점에도 불구하고 FPGA는 몇 가지 내재된 한계를 가지고 있으며, 이는 설계 시 반드시 고려되어야 합니다.

FPGA 내부의 CLB, DSP, BRAM과 같은 자원들은 단순한 기능 목록이 아니라, 설계자가 사용할 수 있는 한정된 ‘예산’으로 간주해야 합니다. FPGA 기반 AI 가속기 설계는 이 예산을 최적으로 할당하는 과정과 같습니다. AI 워크로드는 MAC 연산이 지배적인데 18, 이 연산은 범용 로직인 CLB로 구현할 수도 있고, 고성능 전용 블록인 DSP 슬라이스로 구현할 수도 있습니다.2 면적, 전력, 성능 측면에서 DSP를 사용하는 것이 압도적으로 효율적이기 때문에 2, FPGA AI 설계의 핵심 제약 조건 중 하나는 사용 가능한 DSP 슬라이스의 개수가 됩니다. 이 ‘예산’이 소진되면, 설계자는 덜 효율적인 범용 로직을 사용해야 하므로 성능과 효율이 급격히 저하됩니다. 이는 FPGA의 하드웨어 예산에 맞추기 위해 AI 모델 자체를 수정해야 하는 하드웨어-소프트웨어 공동 설계(co-design) 접근법의 필요성을 시사합니다.

AI 추론을 위한 하드웨어 플랫폼은 크게 FPGA, GPU(Graphics Processing Unit), ASIC(Application-Specific Integrated Circuit)의 세 가지로 나눌 수 있습니다. 각 기술은 고유한 장단점을 가지며, 특정 애플리케이션 요구사항에 따라 최적의 선택이 달라집니다. 이 섹션에서는 세 가지 기술을 성능, 전력 효율, 비용, 유연성 등 다각적인 측면에서 심층 비교 분석합니다.

가속기 선택은 정적인 결정이 아니라 AI 알고리즘 자체의 진화와 동적으로 상호작용하는 과정입니다. AI 연구는 매우 빠르게 진행되어 새로운 모델 아키텍처가 끊임없이 등장합니다.17 긴 설계 주기와 고정된 기능을 가진 ASIC은 시장에 출시될 때쯤이면 지배적인 알고리즘의 변화로 인해 이미 구식이 될 위험이 있습니다.15 GPU는 소프트웨어를 통해 적응할 수 있지만, 그 하드웨어는 본질적으로 밀집 행렬 연산에 최적화되어 있습니다.8 만약 미래의 모델이 극단적인 희소성이나 그래프 기반 연산과 같은 다른 종류의 계산에 크게 의존하게 된다면 GPU의 효율성은 떨어질 수 있습니다. 반면, FPGA는 이러한 근본적인 알고리즘 변화에 하드웨어 수준에서 적응할 수 있는 독보적인 위치에 있습니다.1 마이크로소프트가 Bing 검색 엔진에 FPGA를 도입한 것은 바로 이러한 알고리즘 불확실성에 대한 ‘보험’으로서의 가치를 입증한 사례입니다.3

이러한 맥락에서 FPGA, GPU, ASIC의 고전적인 정의는 점차 흐려지고 있습니다. 각 벤더들이 서로의 장점을 흡수하며 경계가 모호해지는 융합 현상이 나타나고 있습니다. 예를 들어, 최신 AI-FPGA는 더 이상 순수한 ‘게이트의 바다’가 아닙니다. AMD의 Versal이나 인텔의 Agilex 시리즈는 AI 엔진이나 텐서 블록과 같은 ASIC과 유사한 전용 하드웨어 블록을 내장하고 있습니다.4 AMD는 Versal을 ‘적응형 컴퓨팅 가속 플랫폼(ACAP)’이라 칭하며 전통적인 FPGA의 개념을 넘어서고 있습니다.4 마찬가지로, GPU는 AI 워크로드 가속을 위해 ‘텐서 코어’라는 ASIC과 유사한 행렬 곱셈 전용 유닛을 통합했습니다.27 이러한 융합은 유연성과 효율성 사이에서 더 나은 균형점을 제공하려는 시장의 요구에 의해 주도되고 있으며, 미래는 어느 한 기술이 독식하는 것이 아니라 프로그래밍 가능한 로직, 전용 엔진, 범용 코어가 동일한 실리콘 위에서 공존하는 이기종 플랫폼(heterogeneous platform)의 시대가 될 것임을 시사합니다.

다음 표는 AI 추론을 위한 세 가지 가속기 유형의 핵심적인 트레이드오프를 요약하여 보여줍니다.

지표 FPGA GPU ASIC
주요 사용 사례 저지연 추론, 실시간 스트리밍 고처리량 학습, 배치 추론 대용량, 고정 기능 배포
성능 (처리량) 모델에 따라 중-고 매우 높음 특정 작업에 대해 가장 높음
성능 (지연 시간) 매우 낮음, 결정적 높고, 가변적 매우 낮음, 결정적
전력 효율 (와트당 성능) 높음 ~ 매우 높음 보통 가장 높음
유연성 (재구성 가능성) 매우 높음 (하드웨어 및 소프트웨어) 낮음 (소프트웨어만) 없음 (고정된 하드웨어)
개발 복잡성/시간 높음 (HDL/HLS 필요) 낮음 (표준 소프트웨어 프레임워크 사용) 매우 높음 (전체 칩 설계)
초기 비용 (NRE) 없음 없음 매우 높음
개당 단가 (대량) 보통 높음 낮음
데이터 정밀도 완전 맞춤형 가능 고정 (예: FP32/16, INT8) 설계 시 고정

표 2.1: AI 추론을 위한 FPGA, GPU, ASIC의 다각적 비교. 데이터 소스:.1

FPGA가 AI 추론에 ‘왜’ 적합한지를 이해했다면, 이제 ‘어떻게’ 그것이 가능한지를 기술적으로 파고들 차례입니다. 이 파트에서는 AI 알고리즘이 FPGA라는 실리콘 위에서 고성능 가속기로 구현되는 구체적인 과정과 핵심 기술들을 상세히 다룹니다. 맞춤형 하드웨어 엔진 설계부터 모델을 배포하는 소프트웨어 워크플로우까지, 전 과정을 심층적으로 분석합니다.

이 섹션에서는 FPGA 상에 효율적인 AI 추론 엔진을 구축하는 데 사용되는 구체적인 기술적 방법론을 탐구합니다. 이는 단순히 알고리즘을 하드웨어로 변환하는 것을 넘어, FPGA의 아키텍처적 특성을 최대한 활용하여 성능을 극대화하는 과정입니다.

현대의 복잡한 AI 모델 전체를 하나의 거대한 하드웨어 코어로 구현하는 것은 비효율적입니다. 대신, 작고 재사용 가능하며 고도로 최적화된 ‘CNN 코어’ 또는 ‘AI 코어’를 FPGA 패브릭 내에 설계하는 것이 일반적인 접근 방식입니다.18

FPGA 기반 AI 가속기의 성능은 연산 유닛의 속도보다 데이터 흐름 아키텍처의 효율성에 의해 더 크게 좌우됩니다. 칩 외부의 느린 DRAM과 FPGA 내부의 빠른 연산 유닛 간에 데이터를 이동시키는 것은 성능과 전력 소비의 주요 병목 지점입니다.20 고성능을 달성하기 위한 핵심은 데이터 재사용을 극대화하고 가능한 한 오랫동안 데이터를 칩 내부에 유지하는 것입니다.

AI 모델은 일반적으로 32비트 부동소수점(FP32) 숫자를 사용하여 학습됩니다. 하지만 추론 단계에서는 정확도의 큰 손실 없이 훨씬 낮은 정밀도의 숫자를 사용해도 충분한 경우가 많습니다.6

양자화와 같은 기술은 단순한 ‘최적화’ 기법을 넘어, 복잡하고 거대한 최신 AI 모델을 자원이 제한된 FPGA와 같은 하드웨어에 탑재 가능하게 만드는 ‘하드웨어 구현 가능 기술(Hardware-Enabling Technology)’입니다. 최신 트랜스포머 모델은 매우 거대하지만 26, FPGA의 온칩 메모리(BRAM)는 수 메가바이트 수준으로 매우 제한적입니다.17 양자화를 통해 메모리 요구량을 4배 이상 줄이지 않으면, 모델의 극히 일부만 온칩에 저장할 수 있어 끊임없이 느린 외부 DRAM에 접근해야만 할 것입니다.29 따라서 양자화는 모델을 ‘더 빠르게’ 만드는 것을 넘어, 애초에 배포가 가능하도록 만드는 근본적인 역할을 합니다.

학습이 완료된 많은 신경망은 가중치 값의 상당 부분이 0인 ‘희소(sparse)’한 특성을 보입니다.34 0과의 곱셈은 불필요한 연산이므로, 이를 건너뛸 수 있다면 상당한 성능 향상을 기대할 수 있습니다.

FPGA의 잠재력을 최대한 활용하기 위해서는 하드웨어 전문가가 아닌 더 넓은 개발자 커뮤니티가 쉽게 접근할 수 있어야 합니다. 이 섹션에서는 FPGA AI 개발의 복잡성을 낮추고, 소프트웨어 중심의 개발 경험을 제공하기 위한 도구와 워크플로우를 자세히 살펴봅니다.

이러한 추상화는 ‘새는 파이프(leaky pipe)’와 같습니다. HLS나 AI 툴체인이 높은 수준의 추상화를 제공하지만, 하드웨어에 대한 인식을 완전히 제거하지는 못합니다. HLS 도구는 C++ 코드를 하드웨어로 변환하지만, 결과물의 성능은 C++ 코드가 어떻게 구조화되었는지(예: 파이프라이닝과 병렬성을 지정하는 프라그마 사용)에 크게 의존합니다.35 순진하게 작성된 C++ 코드는 느리고 비효율적인 하드웨어를 생성할 뿐입니다. 마찬가지로, AI 컴파일러는 신경망을 FPGA의 자원(DSP, BRAM 등)에 매핑하는 결정을 내리는데 36, 만약 모델의 아키텍처가 기본 하드웨어와 잘 맞지 않으면(예: 지원되지 않는 레이어 유형 사용) 성능이 저하됩니다. 따라서 최적의 성능을 달성하기 위해서는 여전히 개발자가 대상 FPGA 아키텍처의 능력과 한계를 이해하고, 효과적으로 가속될 수 있는 모델을 설계하거나 선택하는 하드웨어-소프트웨어 공동 설계가 필요합니다.

FPGA 벤더들은 AI 모델을 FPGA에 배포하는 과정을 버튼 하나로 해결하는 소프트웨어와 같은 경험을 제공하는 것을 목표로 합니다. 일반적인 흐름은 ‘모델 학습 -> 양자화 -> 컴파일 -> 배포’의 단계를 따릅니다.

이러한 생태계의 발전은 AI 가속화 시장에서 FPGA 벤더들이 더 이상 단순한 실리콘 칩을 파는 것이 아니라, 완전한 하드웨어+소프트웨어 통합 솔루션을 판매하고 있음을 의미합니다. 소프트웨어 툴체인(Vitis AI, OpenVINO)의 품질과 사용 편의성은 칩 자체의 원시 성능만큼이나, 혹은 그 이상으로 중요해졌습니다. AI 가속화의 주 사용자는 데이터 과학자와 소프트웨어 엔지니어이며 14, 이들에게 하드웨어의 복잡성을 추상화해주는 소프트웨어 중심의 개발 경로는 필수적입니다. 따라서 AMD와 인텔 간의 AI 시장 경쟁은 실리콘 아키텍처뿐만 아니라, 소프트웨어 개발 경험, 문서화, 커뮤니티 지원과 같은 생태계의 성숙도를 두고 치열하게 전개되고 있습니다.20

이 파트에서는 FPGA 시장을 주도하는 핵심 기업들을 살펴보고, 이 기술이 거대한 데이터 센터부터 특수한 임베디드 시스템에 이르기까지 실제 환경에서 어떻게 적용되고 있는지 구체적인 사례를 통해 탐구합니다.

FPGA 시장은 인텔(구 알테라)과 AMD(구 자일링스)라는 두 거대 기업이 지배하고 있습니다. 이들 기업은 AI 시대를 맞아 각각 독자적인 전략과 주력 제품군을 통해 치열한 경쟁을 벌이고 있습니다.

이러한 전략적 움직임은 CPU 거대 기업인 인텔과 AMD가 FPGA 회사를 인수한 것이 단순히 FPGA를 더 많이 판매하기 위함이 아니라, 미래 컴퓨팅의 핵심이 될 포괄적인 이기종 컴퓨팅 플랫폼을 구축하기 위한 전략적 결정이었음을 보여줍니다. 미래의 고성능 컴퓨팅은 CPU, GPU, FPGA/가속기 등 다양한 유형의 프로세서를 결합하여 복잡한 워크로드를 처리하는 방향으로 나아가고 있습니다.6 두 회사는 자사의 CPU 중심 로드맵만으로는 AI와 같은 특수 워크로드의 폭발적인 성장에 대응하기에 불충분하다는 것을 인식했습니다. FPGA 기술을 확보함으로써, 복잡한 시스템의 여러 부분을 유연하게 연결하고 가속할 수 있는 ‘접착제’와 같은 재구성 가능 하드웨어 기술을 손에 넣은 것입니다.38 Versal과 Agilex 같은 신제품들은 단순히 CPU가 부착된 FPGA가 아니라, 처음부터 이기종 컴퓨팅을 위해 깊이 통합된 플랫폼입니다. 이는 장기적으로 프로그래밍 가능한 로직이 CPU와 더욱 긴밀하게 통합되어, 미래의 서버 및 클라이언트 프로세서의 표준 기능으로 맞춤형 명령어와 워크로드별 가속을 제공하는 방향으로 나아갈 것임을 시사합니다.38

다음 표는 두 선도적인 AI-FPGA 플랫폼의 아키텍처 및 기능 수준을 직접 비교하여, 각기 다른 철학을 구체적으로 보여줍니다.

기능 AMD Versal AI 시리즈 인텔 Agilex 5/7 시리즈
전체 아키텍처 이기종 ACAP: 스칼라 + 적응형 + 지능형 엔진 AI 주입 패브릭을 갖춘 SoC FPGA
주요 AI 연산 유닛 AI 엔진 배열: VLIW/SIMD 벡터 프로세서 AI 텐서 블록: 강화된 행렬 연산 유닛
AI 유닛 통합 방식 NoC로 연결된 별도의 대형 배열 프로그래밍 가능 패브릭 전체에 분산
프로그래밍 가능 로직 유닛 구성 가능 논리 블록 (CLB) 적응형 논리 모듈 (ALM)
인터커넥트 계층적 라우팅 + 네트워크 온 칩 (NoC) 메시 기반 라우팅 (Hyperflex 아키텍처)
임베디드 프로세서 듀얼 코어 Arm Cortex-A72 + 듀얼 코어 Arm Cortex-R5F 듀얼 코어 Arm Cortex-A76 + 듀얼 코어 Arm Cortex-A55
개발 소프트웨어 Vitis 통합 소프트웨어 플랫폼 / Vitis AI Quartus Prime / OpenVINO를 포함한 FPGA AI Suite

표 5.1: 인텔 Agilex와 AMD Versal AI 시리즈의 아키텍처 및 기능 비교. 데이터 소스:.4

이 섹션에서는 FPGA가 다양한 산업 분야에서 어떻게 성공적으로 배포되고 있는지 구체적인 사례를 통해 살펴봅니다. 이러한 사례들은 FPGA의 이론적 장점이 실제 세계에서 어떻게 가치로 전환되는지를 명확히 보여줍니다.

이러한 애플리케이션에서 FPGA가 선택되는 주된 이유는 단순히 연산 능력 때문만이 아닙니다. 다양한 센서 및 네트워크 프로토콜과 고속으로 직접 인터페이스할 수 있는 능력, 즉 ‘I/O 이점’이 FPGA의 숨겨진 초능력입니다. GPU나 CPU는 LiDAR나 고속 의료용 탐지기와 같은 특수 센서에 연결하기 위해 호스트 시스템과 다양한 인터페이스 칩이 필요하며, 이 과정에서 지연 시간과 복잡성이 추가됩니다.48 반면, FPGA의 유연한 I/O 블록은 거의 모든 디지털 인터페이스를 직접 구현하도록 프로그래밍할 수 있습니다.2 이를 통해 FPGA는 센서로부터 데이터를 직접 ‘수신’하여 호스트 CPU나 PCIe 버스를 거치지 않고 저지연 파이프라인에서 처리한 후 결과를 출력할 수 있습니다.10 이러한 ‘인라인 처리(bump-in-the-wire)’ 능력은 실시간 스트리밍 애플리케이션에서 근본적인 아키텍처 우위를 제공하며, 자율주행과 같이 센서 집약적인 분야에서 FPGA 채택이 증가하는 핵심 이유입니다.

이 마지막 파트에서는 FPGA의 광범위한 채택을 가로막는 장애물들을 분석하고, AI 환경에서 FPGA의 미래를 형성할 기술 및 시장 동향을 전망합니다.

이 섹션에서는 역사적으로 FPGA의 AI 분야 활용을 제한해 온 주요 과제들과 이를 극복하기 위한 업계의 노력을 솔직하게 검토합니다.

이러한 노력의 중심에는 ‘사용 편의성 대 성능’이라는 근본적인 긴장 관계가 존재합니다. 시장은 더 넓은 채택을 위해 소프트웨어와 유사한 쉬운 도구를 요구하지만 14, HLS와 같은 고수준 추상화 도구는 필연적으로 세부 사항을 사용자로부터 숨깁니다. 자동화된 컴파일 과정은 수동으로 최적화된 RTL 설계만큼 높은 성능이나 효율을 보장하지 못할 수 있습니다. FPGA의 궁극적인 힘은 비트 수준의 세밀한 맞춤화 능력에 있는데 7, 고수준 도구는 본질적으로 이러한 저수준 제어에 대한 접근을 제한합니다. 따라서 FPGA 벤더들은 소프트웨어 개발자를 유치하기 위해 더 많은 추상화를 제공하면서도, 하드웨어를 매력적으로 만드는 바로 그 성능과 효율성을 희생하지 않아야 하는 끊임없는 도전에 직면해 있습니다. FPGA 도구의 미래는 높은 수준의 생산성을 제공하면서도, 필요한 경우 전문가가 저수준으로 ‘내려가’ 최적화를 수행할 수 있는 ‘스위트 스폿’을 찾는 데 달려 있습니다.

7.3 핵심 방법론으로서의 하드웨어-소프트웨어 공동 설계

이 섹션에서는 FPGA 기반 AI의 차세대를 정의할 새로운 기술 동향과 기술들을 탐구합니다.

  1. FPGA란 무엇인가? - 쭌3이의 Blog - 티스토리, accessed July 14, 2025, https://june3lee.tistory.com/entry/FPGA%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80
  2. FPGA 세부 가이드 : 구조, 작업 원칙, 기능 - 전자 구성 요소 유통 업체, accessed July 14, 2025, https://www.ic-components.kr/blog/fpga-detailed-guide-structure,working-principle,features.jsp
  3. FPGA 기반 회로 설계 및 구현: 하드웨어의 마법 세계로 떠나볼까요? - 재능넷, accessed July 14, 2025, https://www.jaenung.net/tree/24773
  4. The difference between XIlinx FPGA and Intel FPGA_VEMEKO, accessed July 14, 2025, https://www.vemeko.com/blog/67147.html
  5. FPGA Acceleration(가속화), 꼭 알아두어야 할 그것. - 고양이 미로 - 티스토리, accessed July 14, 2025, https://rubber-tree.tistory.com/114
  6. AI 가속기란 무엇인가요? - IBM, accessed July 14, 2025, https://www.ibm.com/kr-ko/think/topics/ai-accelerator
  7. How FPGA lost to the AI race - amar jay - Medium, accessed July 14, 2025, https://amananjay.medium.com/how-fpga-lost-to-the-ai-race-f810161e2ced
  8. FPGA vs. GPU: Comparison for High-Performance Computing and AI - JAK Electronics, accessed July 14, 2025, https://www.jakelectronics.com/blog/fpga-vs-gpu-comparison-for-highperformance-computing-and-ai
  9. FPGA vs. GPU: Understanding the Differences and Choosing the Right Technology for Your Application Xecor, accessed July 14, 2025, https://www.xecor.com/blog/fpga-vs-gpu
  10. FPGA vs. GPU for Deep Learning Applications - Intel, accessed July 14, 2025, https://www.intel.com/content/www/us/en/fpga-solutions/artificial-intelligence/fpga-gpu.html
  11. Powering the Future of On-Device AI with FPGAs - Embedded, accessed July 14, 2025, https://www.embedded.com/powering-the-future-of-on-device-ai-with-fpgas/
  12. Case Study: Successful AI Projects Using FPGA OrhanErgun.net Blog, accessed July 14, 2025, https://orhanergun.net/case-study-successful-ai-projects-using-fpga
  13. The Application of FPGA in Automotive Autonomous Driving, accessed July 14, 2025, https://www.vemeko.com/blog/67146.html
  14. Field Programmable Gate Arrays (FPGAs) for Artificial Intelligence (AI), accessed July 14, 2025, https://www.intel.com/content/www/us/en/learn/fpga-for-ai.html
  15. FPGA, 구조화된 ASIC, 셀 기반 ASIC 비교 - 인텔, accessed July 14, 2025, https://www.intel.co.kr/content/www/kr/ko/products/programmable/fpga-vs-structured-asic.html
  16. AI 시대에서 FPGA 반도체의 역할 - 지식 맛집 - 티스토리, accessed July 14, 2025, https://tristanchoi.tistory.com/661
  17. Why are FPGAs not dominating GPUs for neural network inference in the market? - Reddit, accessed July 14, 2025, https://www.reddit.com/r/FPGA/comments/18m05xu/why_are_fpgas_not_dominating_gpus_for_neural/
  18. [인공지능 가속기 설계] Artificial Intelligence Accelerator Design (Using Zynq-7000 FPGA, CDMA, AXI) - traumhaft - 티스토리, accessed July 14, 2025, https://sunhong-dev.tistory.com/19
  19. FPGA vs. GPU for Deep Learning Applications - IBM, accessed July 14, 2025, https://www.ibm.com/think/topics/fpga-vs-gpu
  20. Is this true? Wild claims about Relevance of FPGA’s in the Future of AI - Reddit, accessed July 14, 2025, https://www.reddit.com/r/FPGA/comments/1htxgf6/is_this_true_wild_claims_about_relevance_of_fpgas/
  21. FPGA-accelerated machine learning inference as a service for particle physics computing - the ECE Department Shared Server - University of Washington, accessed July 14, 2025, https://people.ece.uw.edu/hauck/publications/AcceleratedMachineLearning.pdf
  22. The Role Of FPGAs In AI Acceleration - Fidus Systems, accessed July 14, 2025, https://fidus.com/blog/the-role-of-fpgas-in-ai-acceleration/
  23. FPGA-based Acceleration for Convolutional Neural Networks: A Comprehensive Review, accessed July 14, 2025, https://arxiv.org/html/2505.13461v1
  24. Feeding The Datacenter Inference Beast A Heavy Diet Of FPGAs - The Next Platform, accessed July 14, 2025, https://www.nextplatform.com/2020/07/31/feeding-the-datacenter-inference-beast-a-heavy-diet-of-fpgas/
  25. AMD Versal Adaptive SoCs, accessed July 14, 2025, https://www.amd.com/en/products/adaptive-socs-and-fpgas/versal.html
  26. FPGAs for Artificial Intelligence (AI) Altera®, accessed July 14, 2025, https://www.intel.com/content/www/us/en/fpga-solutions/artificial-intelligence/overview.html
  27. Beyond Peak Performance: Comparing the Real Performance of AI-Optimized FPGAs and GPUs - Intel, accessed July 14, 2025, https://www.intel.com/content/dam/www/central-libraries/us/en/documents/wp-beyond-peak-performance-ai-optimized.pdf
  28. AMD Versal™ AI Core Series - Avnet, accessed July 14, 2025, https://www.avnet.com/americas/products/cp/amd-versal-adaptive-socs/versal-ai-core/
  29. A survey on FPGA-based accelerator for ML models This work was supported by the China Scholarship Council - arXiv, accessed July 14, 2025, https://arxiv.org/html/2412.15666v1
  30. AI/ML Acceleration on Heterogeneous platforms – FPGA/PARALLEL COMPUTING LAB, accessed July 14, 2025, https://sites.usc.edu/fpga/ai-ml/
  31. Flexibility: FPGAs and CAD in Deep Learning Acceleration - Intel, accessed July 14, 2025, https://cdrdv2-public.intel.com/650439/wp-01283-flexibility-fpgas-and-cad-in-deep-learning-acceleration.pdf
  32. Hardware Accelerators for Artificial Intelligence - arXiv, accessed July 14, 2025, http://arxiv.org/pdf/2411.13717
  33. Vitis AI Tutorial #1 - 작업 환경 - velog, accessed July 14, 2025, https://velog.io/@oilyhand_01/Vitis-AI-Tutorial-1
  34. Systolic Sparse Tensor Slices: FPGA Building Blocks for Sparse and Dense AI Acceleration, accessed July 14, 2025, https://arxiv.org/html/2502.03763v1
  35. Using FPGAs for High-Performance Computing: Challenges and Opportunities, accessed July 14, 2025, https://runtimerec.com/using-fpgas-for-high-performance-computing-challenges-and-opportunities/
  36. FPGA AI Suite - AI 추론 개발 플랫폼 Altera - 인텔, accessed July 14, 2025, https://www.intel.co.kr/content/www/kr/ko/products/details/fpga/development-tools/fpga-ai-suite.html
  37. Comparative Analysis of FPGA and GPU Performance for Machine Learning-Based Track Reconstruction at LHCb - arXiv, accessed July 14, 2025, https://arxiv.org/html/2502.02304v1
  38. Future of FPGAs? : r/FPGA - Reddit, accessed July 14, 2025, https://www.reddit.com/r/FPGA/comments/185cskg/future_of_fpgas/
  39. Altera FPGAs & SoC FPGAs Accelerating Innovators, accessed July 14, 2025, https://www.altera.com/
  40. Agilex™ FPGA and SoC FPGA Family - Intel, accessed July 14, 2025, https://www.intel.com/content/www/us/en/products/details/fpga/agilex.html
  41. embedded world: Altera optimizes FPGAs for edge AI, accessed July 14, 2025, https://www.embedded.com/embedded-world-altera-optimizes-fpgas-for-edge-ai/
  42. Altera launches Agilex 3 FPGAs for the intelligent edge - GamesBeat, accessed July 14, 2025, https://gamesbeat.com/altera-launches-agilex-3-fpgas-for-the-intelligent-edge/
  43. Versal AI Core - Xilinx Wiki - Confluence, accessed July 14, 2025, https://xilinx-wiki.atlassian.net/wiki/spaces/A/pages/747012115/Versal+AI+Core
  44. FPGA Artificial Intelligence (AI) Design FPGA AI Projects - Promwad, accessed July 14, 2025, https://promwad.com/services/embedded/fpga-design/ai
  45. [Blog] Revolutionizing Edge AI: The Role of FPGAs in Smart Camera Optimization, accessed July 14, 2025, https://www.latticesemi.com/en/Blog/2024/06/17/15/24/Revolutionizing-Edge-AI-The-Role-of-FPGAs-in-Smart-Camera-Optimization
  46. [Blog] Contextual AI: Enhancing Edge Intelligence with FPGA Technology, accessed July 14, 2025, https://www.latticesemi.com/en/Blog/2025/02/12/20/42/Contextual-AI-Enhancing-Edge-Intelligence-with-FPGA-Technology
  47. Edge Computing with FPGAs Efinix, Inc., accessed July 14, 2025, https://www.efinixinc.com/blog/edge-computing-with-fpgas.html
  48. Automotive FPGA - Altera® FPGAs - Intel, accessed July 14, 2025, https://www.intel.com/content/www/us/en/fpga-solutions/automotive/overview.html
  49. The Role of FPGAs in Autonomous Vehicle Development - Fpga Insights, accessed July 14, 2025, https://fpgainsights.com/fpga/role-of-fpgas-in-autonomous-vehicle/
  50. FPGAs in Self-Driving Cars: Accelerating Perception and Decision-Making - Fpga Insights, accessed July 14, 2025, https://fpgainsights.com/fpga/fpgas-in-self-driving-cars-accelerating-perception-and-decision-making/
  51. The Application of FPGA in the Medical Field, accessed July 14, 2025, https://www.vemeko.com/blog/67179.html
  52. Medical Imaging Process Accelerated in FPGA Hardware by 82x over Software Line of Reaction Estimation for a PET scanner Optimize - the ECE Department Shared Server - University of Washington, accessed July 14, 2025, https://people.ece.uw.edu/hauck/publications/LOR_eetimes.pdf
  53. A Quality of Service Analysis of FPGA-Accelerated Conv2D Architectures for Brain Tumor Multi-Classification - Tech Science Press, accessed July 14, 2025, https://www.techscience.com/cmc/online/detail/23751/pdf
  54. FPGA Hardware Acceleration of AI Models for Real-Time Breast Cancer Classification, accessed July 14, 2025, https://www.mdpi.com/2673-2688/6/4/76
  55. Accelerate Medical Device Development with FPGAs - DornerWorks, accessed July 14, 2025, https://www.dornerworks.com/blog/medical-device-development-fpgas/
  56. Design Methodologies for Deep Learning Accelerators on Heterogeneous Architectures - arXiv, accessed July 14, 2025, https://arxiv.org/pdf/2311.17815
  57. A Comprehensive Simulation Framework for CXL Disaggregated Memory - arXiv, accessed July 14, 2025, https://arxiv.org/html/2411.02282v3