నిర్వచనం
మానవ అభిప్రాయం నుండి ఉపబల అభ్యాసం (RLHF) అనేది శిక్షణ ప్రక్రియలో మానవ తీర్పులను చేర్చడం ద్వారా AI నమూనాలను మానవ విలువలతో సమలేఖనం చేయడానికి ఒక పద్ధతి. ఇది తరచుగా పెద్ద భాషా నమూనాలను చక్కగా ట్యూన్ చేయడానికి ఉపయోగించబడుతుంది.
పర్పస్
AI అవుట్పుట్లను సురక్షితంగా, మరింత ఉపయోగకరంగా మరియు మానవ ప్రాధాన్యతలకు అనుగుణంగా మార్చడమే దీని ఉద్దేశ్యం. RLHF హానికరమైన, పక్షపాత లేదా అసంబద్ధ ప్రతిస్పందనలను తగ్గించడం ద్వారా సంభాషణ వ్యవస్థలను మెరుగుపరుస్తుంది.
ప్రాముఖ్యత
- AI శిక్షణలో మానవ పర్యవేక్షణను అందిస్తుంది.
- AI వ్యవస్థల విశ్వసనీయతను మెరుగుపరుస్తుంది.
- మానవ వ్యాఖ్యాన అవసరాల కారణంగా శ్రమతో కూడుకున్నది.
- ప్రాధాన్యత నమూనా మరియు అమరిక పరిశోధనకు సంబంధించినది.
అది ఎలా పని చేస్తుంది
- మోడల్ అవుట్పుట్లను పోల్చి మానవ అభిప్రాయాన్ని సేకరించండి.
- మానవ ప్రాధాన్యతలపై రివార్డ్ మోడల్కు శిక్షణ ఇవ్వండి.
- బేస్ మోడల్ను చక్కగా ట్యూన్ చేయడానికి రీన్ఫోర్స్మెంట్ లెర్నింగ్ను ఉపయోగించండి.
- అమరిక లక్ష్యాలకు వ్యతిరేకంగా పనితీరును అంచనా వేయండి.
- అదనపు అభిప్రాయంతో పునరావృతం చేయండి.
ఉదాహరణలు (వాస్తవ ప్రపంచం)
- OpenAI ChatGPT: సురక్షితమైన ప్రతిస్పందనల కోసం RLHFతో చక్కగా ట్యూన్ చేయబడింది.
- ఆంత్రోపిక్స్ కాన్స్టిట్యూషనల్ AI: ప్రత్యక్ష అభిప్రాయం కంటే సూత్రాలచే మార్గనిర్దేశం చేయబడింది.
- InstructGPT: RLHF ని ప్రదర్శించే ప్రారంభ OpenAI మోడల్.
సూచనలు / తదుపరి పఠనం
- క్రిస్టియానో మరియు ఇతరులు. “మానవ ప్రాధాన్యతల నుండి లోతైన ఉపబల అభ్యాసం.” న్యూరిఐపిఎస్ 2017.
- OpenAI ఇన్స్ట్రక్ట్GPT పేపర్.
- NIST AI రిస్క్ మేనేజ్మెంట్ ఫ్రేమ్వర్క్.
- హ్యూమన్ ఫీడ్బ్యాక్ (RLHF)తో రీన్ఫోర్స్మెంట్ లెర్నింగ్ అంటే ఏమిటి?