Day Paper Read 8/19~8/31
집에 컴터가 없어성.. 주말은 안 할거임
8/19
[RAG] EfficientRAG: Efficient Retriever for Multi-Hop Question Answering
multi-hop 추론에서 효율적으로 처리하는 RAG기법 소개
[Terminate], [Continue] 테그를 달아서 관련 문서 분류
모든 top_k가 Terminate거나 특정 반복횟수가 넘어가면 종료 하고 Continue로 쌓인 문서들을 참조해 최종 답변 생성
[Terminate], [Continue] 트랜스포머 인코더를 사용하는 듯
8/20
예비군때매 어려웠음(핑계)
8/21
[Train] To Code, or Not To Code? Exploring Impact of Code in Pre-training
Pretrain시에 Data의 code를 넣는것이 효과가 있다라는게 암묵적인 룰로 여겨지는데 이를 실험을 통해 실제 성능이 오른다는 걸 발견
Code Task뿐만 아니라 일반적인 Reasoning Task에서도 성능의 상승을 보임
또한 Cooldown에 대해서 성능 효과를 보여주는 것도 있기에 Cooldown에 대해서 지식 습득하기도 괜찮은 논문
8/22
[Prompting] Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks
수학문제를 수학문제 그 자체로써 푸는것이 아닌 코딩 문제로 변환 후 처리하는 프롬프팅 방식
zero-shot이나 few-shot모두 수학에서 높은 결과를 보여줌
ex) Q: what is 123*789?
Nomal : The answer is 97047
PoT : print(123*789)
8/23
[Model] LLM Pruning and Distillation in Practice: The Minitron Approach
PretrainModel의 MLP단계나 임베딩 단계에서 Pruning을 진행하여 파라미터수를 줄임
후 재학습을 하면서 모델의 안정화? 진행하는 것 같음
llama 3.1 8b -> 4b 상황에서 8b에 비해 mmlu등에서 5퍼센트의 acc하락이 있었고 4b급 모델에서는 유의미한 성능 향상을 보여줌
8/26
[Model] EXAONE 3.0 7.8B Instruction Tuned Language Model
LG에서 제작한 7.8B 오픈소스 LLM(inst) 4096Token
RoPE/GQA 사용
크롤링한 데이터 정제 및 규제에 대한 고려 6T개의 데이터 선처리 후 응용 2T개 학습
SFT/DPO로 fine-tuned
한국어(Token 압축)와 수학 코딩에서 강점을 보이는 벤치마크
8/27
[ETC] Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in Closed-Source LLMs
closed LLM에 대한 유출 및 치팅에 관한 감독에 대해서 이야기 함
8/29
[RAG] Writing in the Margins: Better Inference Pattern for Long Context Retrieval
https://moonjae.tistory.com/38 여기에 정리
8/30
[Finetuning] LoRA Learns Less and Forgets Less
Lora - Full fine tuning의 성능 Trade-off를 Math 와 Coding을 통해서 보여줌