Skip to main content

LLM 기반의 자동 평가 시스템

Project description

LangEvaluate

LangEvaluate는 LLM(Large Language Model)의 성능을 평가하기 위한 Python 라이브러리입니다. 다양한 평가 메트릭과 데이터셋 관리 기능을 제공하여 LLM의 성능을 체계적으로 분석할 수 있습니다.

주요 기능

  • 다양한 LLM 지원

    • OpenAI (GPT-4, GPT-3.5)
    • Anthropic (Claude)
    • Naver (Clova)
    • DeepSeek
    • 로컬 GPU 모델
  • 다양한 평가 유형

    • 객관식 문제 (MCQ)
    • 이진 선택 문제
    • 주관식 문제
    • 다중 턴 대화
  • 데이터셋 관리

    • Hugging Face 데이터셋 통합
    • 커스텀 데이터셋 지원
    • 데이터셋 변환 및 전처리
  • 평가 메트릭

    • 정확도 (Accuracy)
    • BLEU, ROUGE 스코어
    • LLM 기반 평가
    • 사용자 정의 메트릭

설치 방법

sglang이 라이브러리를 설치하려면 requirements.txt를 설치해야합니다. 만약에 linux 체제가 아니라면 pip install sglang을 해주세요.

pip install -r requirements
pip install -e .

라이선스

이 프로젝트는 MIT 라이선스를 따릅니다.

todo

  • evaluate으로 여러개의 metric 한번에 돌릴 수 있게하기
  • benchmark dataset 추가 + 코드 짜기

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

langevaluate-0.1.0.tar.gz (1.5 MB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

langevaluate-0.1.0-py3-none-any.whl (91.3 kB view details)

Uploaded Python 3

File details

Details for the file langevaluate-0.1.0.tar.gz.

File metadata

  • Download URL: langevaluate-0.1.0.tar.gz
  • Upload date:
  • Size: 1.5 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.10.16

File hashes

Hashes for langevaluate-0.1.0.tar.gz
Algorithm Hash digest
SHA256 e5a32c833bbcc585e452f83705d328e3a614f5c9ec8fc3a5caa5e332e29629db
MD5 1a27fcfb783d05d9798f56217b173d5c
BLAKE2b-256 d52d9252becb3ebdc452c739c8d98941b3f60c176621a6b36a1aadc6a0f54fd8

See more details on using hashes here.

File details

Details for the file langevaluate-0.1.0-py3-none-any.whl.

File metadata

  • Download URL: langevaluate-0.1.0-py3-none-any.whl
  • Upload date:
  • Size: 91.3 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.10.16

File hashes

Hashes for langevaluate-0.1.0-py3-none-any.whl
Algorithm Hash digest
SHA256 c5d9ff4fdc35ac6b8b1eb6036b709339f30a2979bbfdc892d8a9339e5e354519
MD5 fd8e98343b1bb21be5de734f61b37b34
BLAKE2b-256 bb677c761b30c17d2d7188b787c54b376992e0c93be96b78760cdb8ccfb4b0ab

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page