Project Icon

arxiv-translator

arXiv论文自动中文翻译与浏览平台

arxiv-translator是一个开源项目,旨在为用户提供arXiv论文的中文翻译网页。该项目利用nougat OCR技术提取PDF文本并自动翻译,提供包含arXiv ID、标题和链接的论文列表。涵盖机器学习、人工智能等领域的最新研究,方便研究人员和学生快速了解学术前沿。

Arxiv 翻译项目

这个仓库旨在应对大量涌现的论文,提供快速浏览 Arxiv 论文的中文网页。 为了翻译不同格式的 PDF 文件,我们使用 nougat OCR 库来提取文本。 因此,提取过程可能不会很顺利。 起初我们考虑翻译 Ar5iv,但 Ar5iv 要一个月后才更新论文,而且只将初始版本转为 HTML,不反映最终版本,所以我们决定自行提取内容。 为了准确理解内容,建议阅读原文论文。

论文列表

不支持在新窗口打开。建议通过手动方式在新窗口中打开。

ArXiv ID标题ArXiv前往
2404.19705v2何时检索教学大语言模型以有效利用信息检索arXiv页面
2404.19543RAG和RAU:自然语言处理中检索增强语言模型的综述arXiv页面
2404.14219v1Phi-3技术报告:在您手机上本地运行的高能力语言模型arXiv页面
2404.12241v1介绍MLCommons的AI安全基准测试v05版本arXiv页面
2404.11584v1新兴AI代理架构在推理、规划和工具调用方面的景观:一项综述arXiv页面
2404.10981v1大型语言模型检索增强文本生成综述arXiv页面
2404.10198v1RAG模型有多忠实?量化RAG与LLM内部先验之间的拉锯战arXiv页面
2404.10102v1金吉拉缩放:一次复现尝试arXiv页面
2404.09516v1新一代网络的状态空间模型替代Transformers:一项综述arXiv页面
2404.07965v1Rho-1:并非所有token都是你所需要的arXiv页面
2404.07647v1为什么小型语言模型表现不佳?通过Softmax瓶颈研究语言模型饱和度arXiv页面
2404.07503v1语言模型合成数据的最佳实践和经验教训arXiv页面
2404.07143v1不遗漏任何上下文:使用Infini-attention的高效无限上下文TransformersarXiv页面
2404.06395v1MiniCPM:通过可扩展训练策略揭示小型语言模型的潜力arXiv页面
2404.05875v1CodecLM:使用定制合成数据对齐语言模型arXiv页面
2404.05405语言模型的物理学 第33部分:知识容量缩放定律arXiv页面
2404.04167v3中文小型LLM:预训练以中文为中心的大型语言模型arXiv页面
2404.03414v1小型语言模型能帮助大型语言模型更好地推理吗?LM引导的思维链arXiv页面
2404.01261v1FABLES:评估书籍长度摘要的忠实度和内容选择arXiv页面
2404.01204细微界限:通过下游能力分析探索大型语言模型预训练arXiv页面
2403.19270v1sDPO:不要一次性用完你的所有数据arXiv页面
2403.18058v1COIG-CQIA:中文指令微调只需要质量arXiv页面
2403.16971v2AIOS:大语言模型代理操作系统arXiv页面
2403.16952v1数据混合法则:通过预测语言建模性能优化数据混合arXiv页面
2403.15796v2从损失角度理解语言模型的涌现能力arXiv页面
2403.13799v1反向训练以缓解反转诅咒arXiv页面
2403.13187v1模型合并配方的进化优化arXiv页面
2403.10131v1RAFT:将语言模型适应于特定领域的RAGarXiv页面
2403.09629Quiet-STaR:语言模型可以自学如何在说话前先思考arXiv页面
2403.08763大语言模型持续预训练的简单且可扩展的策略arXiv页面
2403.06634窃取生产环境中语言模型的一部分arXiv页面
2403.06563v1揭开扩展定律之谜 第一部分arXiv页面
2403.04706v1常见的7B语言模型已经具备强大的数学能力arXiv页面
2403.04652v101AI的Yi开放基础模型arXiv页面
2403.03883v2SaulLM-7B:开创性的法律大语言模型arXiv页面
2403.02178v1掩蔽思维:简单掩蔽部分推理步骤可以改善语言模型的数学推理学习arXiv页面
2403.01432v2针对不太流行知识的微调与检索增强生成比较arXiv页面
2402.18815v1大语言模型如何处理多语言?arXiv页面
2402.18563v1接近人类水平的语言模型预测arXiv页面
2402.16837v1大语言模型是否潜在地执行多跳推理?arXiv页面
2402.16819v2Nemotron-4 15B技术报告arXiv页面
2402.14714v1面向多语言大型语言模型的高效有效词汇扩展arXiv页面
2402.12847v1指令微调的语言模型是更好的知识学习者arXiv页面
2402.08939v1前提顺序在大型语言模型推理中很重要arXiv页面
2402.07043v1尾部的故事:模型崩溃作为缩放规律的改变arXiv页面
2402.06196v2大型语言模型综述arXiv页面
2402.05120v1更多智能体就是你所需要的arXiv页面
2402.00838v3OLMo:加速语言模型科学arXiv页面
2401.16380v1重新表述网络:计算和数据高效语言建模的方法arXiv页面
2401.10225v1ChatQA:构建GPT-4级别的对话式问答模型arXiv页面
2401.08417v3对比偏好优化:推动大语言模型在机器翻译中性能的边界arXiv页面
2401.05654v1迈向对话式诊断人工智能arXiv页面
2401.03129v1检验对齐大型语言模型持续预训练中的遗忘现象arXiv页面
2401.01055v2超越英语的LLaMA:语言能力迁移的实证研究arXiv页面
2312.05934v3微调还是检索?比较大语言模型中的知识注入arXiv页面
2311.13647语言模型逆向工程arXiv页面
2311.08545高效持续预训练以构建领域特定大型语言模型arXiv页面
2310.11511自反RAG:通过自我反思学习检索、生成和批评arXiv页面
2310.08754v4大语言模型训练中的分词器选择:可忽略还是至关重要?arXiv页面
2310.04799v2Chat Vector:一种简单的方法,为大语言模型在新语言中赋予指令遵循和模型对齐能力arXiv页面
2309.15402思维链推理的进展、前沿和未来:一项综述arXiv页面
2309.12288反转诅咒:经过"A是B"训练的大语言模型无法学习"B是A"arXiv页面
2308.12284D4:通过文档去重和多样化改进大语言模型预训练arXiv页面
2308.11432v5基于大语言模型的自主智能体调查arXiv页面
2308.09583WizardMath:通过强化进化指令赋能大语言模型的数学推理能力arXiv页面
2306.08568WizardCoder:通过进化指令赋能代码大语言模型arXiv页面
2306.01116Falcon 大语言模型的 RefinedWeb 数据集:仅使用网络数据超越精选语料库arXiv页面
2305.18290v2直接偏好优化:你的语言模型暗中是一个奖励模型arXiv页面
2304.12244WizardLM:赋能大语言模型以遵循复杂指令arXiv页面
2304.08177v3中文 LLaMA 和 Alpaca 的高效有效文本编码arXiv页面
2303.18223大语言模型调查arXiv页面
2212.10560自我指导:通过自生成指令对齐语言模型arXiv页面
2110.03215迈向语言模型的持续知识学习arXiv页面
2107.06499对训练数据去重使语言模型更好arXiv页面

步骤

翻译 Arxiv 论文需要经过以下 4 个步骤。

ArXiv 论文下载

Arxiv 不允许使用 wget 等命令直接下载 PDF 文件。 这可能是为了应对无序的抓取行为。 因此,我们使用 arxiv-dl 包来下载 PDF 文件。

PDF 转 Markdown

使用 Nougat OCR 将 PDF 转换为 Mathpix Markdown 文件。

翻译

使用自建的翻译模型进行翻译。 如下图所示,用于论文翻译的翻译器性能(绿色)介于 DeepL、Google 和 Naver 之间。

NMT 评估结果

Markdown 转 HTML

将 Mathpix Markdown 转换为 HTML。 转换方法在这里有说明。 然后将保存的 HTML 文件推送到 GitHub,并通过 githack.com 进行渲染。

未来工作

由于 Nougat OCR 不会提取论文中的图片,所以目前结果中缺少图片。 因此,我们计划在未来的工作中包含图片,以生成更完整的结果。

联系方式

Kim Ki Hyun pointzz.ki@gmail.com

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号