నిర్వచనం
టెక్స్ట్ డేటా సేకరణ అనేది AI శిక్షణలో ఉపయోగించడానికి పుస్తకాలు, వెబ్సైట్లు లేదా చాట్ లాగ్లు వంటి మూలాల నుండి వ్రాతపూర్వక భాషను సేకరించే ప్రక్రియ.
పర్పస్
NLP మరియు LLM అభివృద్ధి కోసం కార్పొరేషన్ను సృష్టించడం దీని ఉద్దేశ్యం.
ప్రాముఖ్యత
- భాషా నమూనాలకు ముడి పదార్థాలను అందిస్తుంది.
- కాపీరైట్ మరియు లైసెన్సింగ్ సమస్యలను లేవనెత్తుతుంది.
- డేటా వైవిధ్యం నిష్పాక్షికత మరియు ఖచ్చితత్వాన్ని ప్రభావితం చేస్తుంది.
- హానికరమైన లేదా అసంబద్ధమైన కంటెంట్ను ఫిల్టర్ చేయాలి.
అది ఎలా పని చేస్తుంది
- టెక్స్ట్ మూలాలను (వెబ్, పత్రాలు, ట్రాన్స్క్రిప్ట్లు) గుర్తించండి.
- అనుమతితో వచనాన్ని క్రాల్ చేయండి లేదా స్క్రాప్ చేయండి.
- కంటెంట్ను శుభ్రపరచండి మరియు సాధారణీకరించండి.
- గుర్తించదగిన సామర్థ్యం కోసం మెటాడేటాతో నిల్వ చేయండి.
- ప్రీ-ట్రైనింగ్ లేదా ఫైన్-ట్యూనింగ్లో ఉపయోగించండి.
ఉదాహరణలు (వాస్తవ ప్రపంచం)
- సాధారణ క్రాల్: పెద్ద వెబ్ కార్పస్.
- వికీపీడియా డంప్స్: స్ట్రక్చర్డ్ టెక్స్ట్ డేటాసెట్.
- పుస్తకాలుకార్పస్: BERT శిక్షణ కోసం ఉపయోగిస్తారు.
సూచనలు / తదుపరి పఠనం
- కామన్ క్రాల్ ఫౌండేషన్.
- జురాఫ్స్కీ & మార్టిన్. స్పీచ్ అండ్ లాంగ్వేజ్ ప్రాసెసింగ్.
- ISO/IEC TR 20547-5: బిగ్ డేటా రిఫరెన్స్ ఆర్కిటెక్చర్.
- కేస్-నిర్దిష్ట టెక్స్ట్ డేటా సేకరణ