CleanRL 是一个深度强化学习库,提供具有研究友好功能的高质量 single-file 实现。该实现简洁明了,但我们可以使用 AWS Batch 对其进行扩展以运行数千次实验。CleanRL...<
ByteCraft 是通过在 4 个 GPU 上对 7B 参数的LLM(Qwen2.5)进行微调,以 32K 的生成上下文长度训练了 4 个月,用于生成基于文本描述的视频游戏和动画的二进制文件。...<
Minesweeper MCP Server 是一个扫雷 MCP 服务器,让 Claude 可以玩扫雷游戏。<
simple_mnist 是 一个用于 MNIST 数字识别的纯前馈神经网络实现,完全用 C 语言编写。 该实现在 MNIST 测试集上实现了超过 99%的准确率,且未使用卷积层。这个项目证明了...<
AlexNet 是一个人工神经网络,用于识别照片内容。它由当时的多伦多大学研究生 Alex Krizhevsky 和 Ilya Sutskever 以及他们的导师 Geoffrey Hinton...<
SWE-RL:通过开源软件演进数据和基于规则的奖励机制,增强 LLM 推理能力的强化学习项目。 特性 首个针对真实世界软件工程的强化学习方法 提供奖励函数和提示模板,助力开发者快速上手 支持Ag...<
jepa-intuitive-physics:通过自然视频的自监督预训练,让机器学会直观物理理解。 特性 利用自监督学习,无需标注数据即可训练 提供完整的代码和数据,可复现论文结果 支持多种模型...<
Megatron-VLM是为视觉语言模型(VLM)训练定制的高效框架。 特性 支持大规模分布式训练,显著提升训练效率 提供多种预训练模型支持,如BERT、GPT和T5 高效的内存优化技术,降低训练成本<
Open Gemini Deep Research 是基于谷歌 Gemini AI 的深度研究助手,一键生成高质量研究报告。 特性 三种研究模式(快速、平衡和全面),满足不同需求 自动生成 30...<
GeneralistYOLO 是一个实时多任务视觉语言模型,一站式解决多种视觉任务。 特性 单模型支持目标检测、分割、图像描述等多任务 MS COCO数据集上目标检测AP达52.4%,实例分割A...<