ICLR 2026 – Institutional Affiliations Dataset and Analysis

ICLR 2026 학회에서 발표된 5,356편의 논문을 대상으로 PDF에서 직접 추출한 저자 소속 기관 데이터를 정제하여 공개하는 오픈소스 파이프라인과 데이터셋이 공개되었다. 이 데이터셋은 OpenReview 프로필 기반 소속 정보의 오류를 방지하며, 기관별 논문 수를 기준으로 한 시각화 차트도 제공한다. 파이프라인은 PDF 파싱, 정규화, 시각화까지 전 과정을 포함하며, 연구자와 AI 엔지니어가 기관별 연구 동향을 분석하는 데 유용하다. 깃허브에서 소스코드와 데이터셋을 확인하고 재현할 수 있다.

https://github.com/DmytroLopushanskyy/iclr2026-affiliations

#dataset #pdfparser #iclr #bibliometrics #machinelearningresearch

GitHub - DmytroLopushanskyy/iclr2026-affiliations: PDF-derived institutional affiliations for 5,356 ICLR 2026 accepted papers — full pipeline (scrape → parse → render), clean dataset (CSV + XLSX), and treemap charts.

PDF-derived institutional affiliations for 5,356 ICLR 2026 accepted papers — full pipeline (scrape → parse → render), clean dataset (CSV + XLSX), and treemap charts. - DmytroLopushanskyy/iclr2026-a...

GitHub

Databricks just released a single‑function PDF parser that slashes document‑processing costs 3‑5× compared to Amazon Textract. Built on Spark, it offers open‑source‑style flexibility for AI‑driven data extraction, and integrates with Azure Document Intelligence. See how this could reshape your workflow – especially for teams like Rockwell Automation. #AI #Databricks #PDFParser #DocumentAI

🔗 https://aidailypost.com/news/databricks-unveils-single-function-pdf-parser-cuts-cost-35-vs-textract