夏娃的诱惑 OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：本年最大惊喜

发布日期：2024-12-08 13:01 点击次数：114

OpenAI "双 12 "直播第二天夏娃的诱惑，依旧轻佻精悍，主题：

新功能强化微调（Reinforcement Fine-Tuning），使用少量历练数据即在特定畛域轻松地创建巨匠模子。

少到什么进程呢？最低几十个例子就不错。

CEO 奥特曼暗示"效果一级棒，是我 2024 年最大的惊喜，期待看到东说念主们构建什么！"

那么效果有多棒呢？

微调后的 o1-mini 模子得分升迁 80%，告成反超 o1 郑再版。

现在 OpenAI 已开启强化微调研究研究，竖立者不错恳求强化微调 API 的 alpha 版块看望权限。

进行测试时，可使用几十到几千个高质地数据，模子大要通过强化学习自行探索和学习若何推理复杂任务。

蹲守直播间的网友们听得亦然 one 愣 one 愣的，统统莫甘心象到今晚"圣诞盲盒"是酱婶儿的。

OpenAI 职工 Jerry Tworek 则暗示" AGI 不是授东说念主以鱼，而是授东说念主以渔"。

OpenAI 微调初次扶助强化学习

直播嘉宾除了 Mark Chen、John Allard、Julie Wang 三位 OpenAI 自家研究员，自拍街拍还有伯克利实践室筹算生物学家 Justin Reese，他们共同演示了强化微调功能的全经过。

夏娃的诱惑

具体来说，这是一个生物医学任务，AI 需要笔据病例刻画的症状，找出有关基因。

历练数据长这么：

病东说念主信息：51 岁女性，疾病发病本领未具体诠释。

症状：眼距过宽、睑裂忐忑、小颌乖张、软腭咽闭合不全、甲状旁腺功能减退、全身发育冉冉和嗅觉神经性听力阴私

未弘扬出以下症状：腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管

请列出统统可能导致这些症状的基因，从可能性最大到可能性最小，并讲解为什么你觉得这些特定的基因可能是原因。

评分模子（Grader）会对模子的谜底进行评分，OpenAI 会提供不同的评分模子，并扶助自界说。

强化微调轨范很直率，在网页界面可接管历练集和考证集。

再笔据情况设立超参数即可。

微调经过中，不错不雅察模子性能办法的变化趋势。

测试完成后，也不错稽查模子对每条考证数据的输出，这里 TSC2 基因是正确谜底，模子把它排在第一位，是以通过。

现在 OpenAI 里面测试中，强化微调在生吃亏学、安全、法律和医疗保健畛域获得到手。

强化微调将在 2025 年头看成居品发布，对企业、大学和研究院已怒放恳求测试通说念。

看完这场直播后，有东说念主回顾：强化微调可能并不合乎统统任务，但会在科学畛域带来冲破性的后果。

奥特曼默许会发 Sora

OpenAI 直播第二天，对比第一天 o1 细致发布、立等可用，似乎平时了一些。

有发火意的网友暗示：where is GPT-4.5？

挑剔区忖度可能大货会放在临了一天。

他们是真实懂若何吊统统东说念主的胃口

不外，有网友垂钓钓出了奥特曼，且奥特曼莫得否定会发布 Sora 的音讯。

参考蚁合：

[ 1 ] https://openai.com/form/rft-research-program/夏娃的诱惑