NLP డేటాసెట్లు అనేక సహజ భాషా ప్రాసెసింగ్ ప్రాజెక్టులకు వెన్నెముకగా ఉన్నాయి, ఇవి టెక్స్ట్ వర్గీకరణ, సెంటిమెంట్ విశ్లేషణ మరియు ప్రశ్నలకు సమాధానాలు వంటి విస్తృత శ్రేణి పనులకు వశ్యతను అందిస్తాయి. ఉదాహరణకు, బ్లాగ్ ఆథర్షిప్ కార్పస్లో దాదాపు 681,000 మంది బ్లాగర్ల నుండి 20,000 కంటే ఎక్కువ బ్లాగ్ పోస్ట్లు ఉన్నాయి, ఇది రచనా శైలులు, రచయిత గుర్తింపు మరియు మరిన్నింటిని అధ్యయనం చేయడానికి గొప్ప వనరుగా మారుతుంది.
విద్యా పరిశోధనపై ఆసక్తి ఉన్నవారికి, arXiv పరిశోధన పత్రాల డేటాసెట్ బహుళ విభాగాలలోని శాస్త్రీయ పత్రాల యొక్క విస్తారమైన సేకరణకు ప్రాప్యతను అందిస్తుంది, సైటేషన్ విశ్లేషణ మరియు డాక్యుమెంట్ వర్గీకరణ వంటి అధునాతన NLP పనులకు మద్దతు ఇస్తుంది. ఫెడరల్ ప్రొక్యూర్మెంట్ డేటా సెంటర్ డేటాసెట్ మరొక విలువైన వనరు, ఇది ఫెడరల్ కాంట్రాక్టులపై వివరణాత్మక సమాచారాన్ని అందిస్తుంది - ప్రభుత్వ డేటా మరియు ఎంటిటీ గుర్తింపుతో కూడిన ప్రాజెక్టులకు అనువైనది.
ఈ nlp డేటాసెట్లు మెషిన్ లెర్నింగ్ మోడల్లకు శిక్షణ ఇవ్వడానికి మరియు మూల్యాంకనం చేయడానికి విస్తృతంగా ఉపయోగించబడుతున్నాయి, పరిశోధకులు మరియు డెవలపర్లు వివిధ nlp పనులలో వారి సిస్టమ్ల పనితీరును మెరుగుపరచడంలో సహాయపడతాయి. మీరు బ్లాగ్ పోస్ట్లు, పరిశోధన పత్రాలు లేదా ప్రభుత్వ డేటాతో పనిచేస్తున్నా, ఈ డేటాసెట్లు బలమైన మరియు బహుముఖ NLP అప్లికేషన్లకు పునాదిని అందిస్తాయి.
ఎన్ఎల్పి అంటే ఏమిటి?
NLP (నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్) కంప్యూటర్లు మానవ భాషను అర్థం చేసుకోవడానికి సహాయపడుతుంది. ఇది మానవులు చేసే విధంగా టెక్స్ట్ మరియు స్పీచ్ని చదవడానికి, అర్థం చేసుకోవడానికి మరియు ప్రతిస్పందించడానికి కంప్యూటర్లకు నేర్పించడం లాంటిది.
NLP ఏమి చేయగలదు?
- గజిబిజిగా ఉన్న వచనాన్ని వ్యవస్థీకృత డేటాగా మార్చండి
- వ్యాఖ్యలు సానుకూలంగా ఉన్నాయా లేదా ప్రతికూలంగా ఉన్నాయో అర్థం చేసుకోండి
- భాషల మధ్య అనువదించండి
- పొడవైన వచనాల సారాంశాలను సృష్టించండి
- ఇవే కాకండా ఇంకా!
- NLPతో ప్రారంభించడం:
మంచి NLP సిస్టమ్లను రూపొందించడానికి, వారికి శిక్షణ ఇవ్వడానికి మీకు చాలా ఉదాహరణలు కావాలి - మానవులు మరింత అభ్యాసంతో ఎలా మెరుగ్గా నేర్చుకుంటారు. శుభవార్త ఏమిటంటే, మీరు ఈ ఉదాహరణలను కనుగొనగలిగే అనేక ఉచిత వనరులు ఉన్నాయి: హగ్గింగ్ ఫేస్, Kaggle మరియు GitHub. ఈ ప్లాట్ఫారమ్ల నుండి డేటాసెట్లను సులభంగా యాక్సెస్ చేయవచ్చు, ఇది NLP ప్రాజెక్ట్ అభివృద్ధిని వేగవంతం చేస్తుంది.
NLP మార్కెట్ పరిమాణం మరియు వృద్ధి:
2023 నాటికి, నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్ (NLP) మార్కెట్ విలువ సుమారు $26 బిలియన్లు. 30 నుండి 2023 వరకు దాదాపు 2030% వార్షిక వృద్ధి రేటు (CAGR)తో ఇది గణనీయంగా వృద్ధి చెందుతుందని అంచనా వేయబడింది. హెల్త్కేర్, ఫైనాన్స్ మరియు కస్టమర్ సర్వీస్ వంటి పరిశ్రమలలో NLP అప్లికేషన్లకు పెరుగుతున్న డిమాండ్తో ఈ పెరుగుదల నడపబడుతుంది.
మంచి NLP డేటాసెట్ను ఎలా ఎంచుకోవాలి, ఈ క్రింది అంశాలను పరిగణించండి:
- ఔచిత్యం: డేటాసెట్ మీ నిర్దిష్ట పని లేదా డొమైన్తో సమలేఖనం చేయబడిందని నిర్ధారించుకోండి.
- పరిమాణం: పెద్ద డేటాసెట్లు సాధారణంగా మోడల్ పనితీరును మెరుగుపరుస్తాయి, కానీ నాణ్యతతో పరిమాణాన్ని సమతుల్యం చేస్తాయి.
- వైవిధ్యం: మోడల్ పటిష్టతను మెరుగుపరచడానికి విభిన్న భాషా శైలులు మరియు సందర్భాలతో డేటాసెట్ల కోసం చూడండి.
- నాణ్యత: లోపాలను పరిచయం చేయకుండా నివారించడానికి బాగా లేబుల్ చేయబడిన మరియు ఖచ్చితమైన డేటా కోసం తనిఖీ చేయండి.
- సౌలభ్యాన్ని: డేటాసెట్ ఉపయోగం కోసం అందుబాటులో ఉందని నిర్ధారించుకోండి మరియు ఏవైనా లైసెన్సింగ్ పరిమితులను పరిగణించండి.
- ప్రిప్రాసెసింగ్: డేటాసెట్కు ముఖ్యమైన క్లీనింగ్ లేదా ప్రీప్రాసెసింగ్ అవసరమా అని నిర్ణయించండి.
- సంఘం మద్దతు: జనాదరణ పొందిన డేటాసెట్లు తరచుగా ఎక్కువ వనరులు మరియు సంఘం మద్దతును కలిగి ఉంటాయి, ఇది సహాయకరంగా ఉంటుంది.
ఈ అంశాలను మూల్యాంకనం చేయడం ద్వారా, మీ ప్రాజెక్ట్ అవసరాలకు బాగా సరిపోయే డేటాసెట్ను మీరు ఎంచుకోవచ్చు. NLP ప్రాజెక్ట్లలో సరైన ఫలితాలను సాధించడానికి సరైన డేటాసెట్లను ఎంచుకోవడం చాలా అవసరం, ఎందుకంటే అవి మోడల్ పనితీరు మరియు శిక్షణ సామర్థ్యాన్ని నేరుగా ప్రభావితం చేస్తాయి.
NLP కోసం టాప్ 33 తప్పక చూడవలసిన ఓపెన్ డేటాసెట్లు
జనరల్
UCI యొక్క స్పాంబేస్ (లింక్)
Spambase, Hewlett-Packard Labsలో సృష్టించబడింది, వ్యక్తిగతీకరించిన స్పామ్ ఫిల్టర్ను అభివృద్ధి చేయాలనే లక్ష్యంతో వినియోగదారుల ద్వారా స్పామ్ ఇమెయిల్ల సేకరణను కలిగి ఉంది. ఇది ఇమెయిల్ సందేశాల నుండి 4600 కంటే ఎక్కువ పరిశీలనలను కలిగి ఉంది, వీటిలో దాదాపు 1820 స్పామ్ ఉన్నాయి.
ఎన్రాన్ డేటాసెట్ (లింక్)
ఎన్రాన్ డేటా సెట్లో ప్రజలకు వారి మెషిన్ లెర్నింగ్ మోడళ్లకు శిక్షణ ఇవ్వడానికి అందుబాటులో ఉన్న అనామక 'నిజమైన' ఇమెయిల్ల విస్తారమైన సేకరణ ఉంది. ఇది 150 కంటే ఎక్కువ మంది వినియోగదారుల నుండి, ప్రధానంగా ఎన్రాన్ సీనియర్ మేనేజ్మెంట్ నుండి అర మిలియన్ కంటే ఎక్కువ ఇమెయిల్లను కలిగి ఉంది. ఈ డేటా సెట్ స్ట్రక్చర్డ్ మరియు అన్స్ట్రక్చర్డ్ ఫార్మాట్లలో ఉపయోగించడానికి అందుబాటులో ఉంది. అన్స్ట్రక్చర్డ్ డేటాను మెరుగుపరచడానికి, మీరు డేటా ప్రాసెసింగ్ టెక్నిక్లను వర్తింపజేయాలి.
సిఫార్సు సిస్టమ్స్ డేటాసెట్ (లింక్)
రికమండర్ సిస్టమ్ డేటాసెట్ అనేది విభిన్న లక్షణాలను కలిగి ఉన్న వివిధ డేటాసెట్ల యొక్క భారీ సేకరణ,
- ఉత్పత్తి సమీక్షలు
- స్టార్ రేటింగ్లు
- ఫిట్నెస్ ట్రాకింగ్
- పాట డేటా
- సోషల్ నెట్వర్కులు
- సమయముద్రలు
- వినియోగదారు/అంశం పరస్పర చర్యలు
- GPS డేటా
పెన్ ట్రీబ్యాంక్ (లింక్)
వాల్ స్ట్రీట్ జర్నల్ నుండి వచ్చిన ఈ కార్పస్, సీక్వెన్స్ లేబులింగ్ మోడల్లను పరీక్షించడానికి ప్రసిద్ధి చెందింది.
NLTK (లింక్)
ఈ పైథాన్ లైబ్రరీ NLP కోసం 100 కి పైగా కార్పోరా మరియు లెక్సికల్ వనరులకు ప్రాప్తిని అందిస్తుంది. ఇందులో లైబ్రరీని ఉపయోగించడానికి శిక్షణా కోర్సు అయిన NLTK పుస్తకం కూడా ఉంది. NLTK లో ఆంగ్ల భాష యొక్క పెద్ద లెక్సికల్ డేటాబేస్ అయిన WordNet యాక్సెస్ ఉంటుంది, ఇక్కడ నామవాచకాలు, క్రియలు, విశేషణాలు మరియు క్రియా విశేషణాలు వంటి పదాలు భాగస్వామ్య అర్థాల ఆధారంగా సిన్సెట్లుగా వర్గీకరించబడతాయి. NLTK NLP పరిశోధన కోసం కార్పోరా మరియు లెక్సికల్ వనరుల యొక్క వ్యాఖ్యాన జాబితాను కూడా అందిస్తుంది.
యూనివర్సల్ డిపెండెన్సీలు (లింక్)
UD వ్యాకరణాన్ని ఉల్లేఖించడానికి స్థిరమైన మార్గాన్ని అందిస్తుంది, 100 కంటే ఎక్కువ భాషలలో వనరులు, 200 ట్రీబ్యాంక్లు మరియు 300 కంటే ఎక్కువ సంఘం సభ్యుల మద్దతు.
సెంటిమెంట్ విశ్లేషణ డేటాసెట్లు
సినిమాలు మరియు ఫైనాన్స్ కోసం నిఘంటువులు (లింక్)
సినిమాలు మరియు ఫైనాన్స్ డేటాసెట్ కోసం డిక్షనరీలు ఫైనాన్స్ ఫిల్లింగ్లు మరియు మూవీ రివ్యూలలో పాజిటివ్ లేదా నెగటివ్ పోలారిటీ కోసం డొమైన్-నిర్దిష్ట నిఘంటువులను అందిస్తుంది. ఈ నిఘంటువులు IMDb మరియు US ఫారమ్-8 పూరణల నుండి తీసుకోబడ్డాయి.సెంటిమెంట్ 140 (లింక్)
సెంటిమెంట్ 140 160,000 కంటే ఎక్కువ ట్వీట్లను కలిగి ఉంది, వివిధ ఎమోటికాన్లతో 6 విభిన్న ఫీల్డ్లలో వర్గీకరించబడింది: ట్వీట్ తేదీ, ధ్రువణత, వచనం, వినియోగదారు పేరు, ID మరియు ప్రశ్న. ఈ డేటాసెట్ మీరు Twitter కార్యకలాపం ఆధారంగా బ్రాండ్, ఉత్పత్తి లేదా అంశం యొక్క సెంటిమెంట్ను కనుగొనడం సాధ్యం చేస్తుంది. ఈ డేటాసెట్ స్వయంచాలకంగా సృష్టించబడినందున, ఇతర మానవ-ఉల్లేఖన ట్వీట్ల వలె కాకుండా, ఇది సానుకూల భావోద్వేగాలు మరియు ప్రతికూల భావోద్వేగాలతో కూడిన ట్వీట్లను అననుకూలమైనవిగా వర్గీకరిస్తుంది.
బహుళ-డొమైన్ సెంటిమెంట్ డేటాసెట్ (లింక్)
ఈ మల్టీ-డొమైన్ సెంటిమెంట్ డేటాసెట్ అనేది వివిధ ఉత్పత్తుల కోసం అమెజాన్ సమీక్షల రిపోజిటరీ. పుస్తకాలు వంటి కొన్ని ఉత్పత్తి వర్గాలకు వేలల్లో సమీక్షలు ఉన్నాయి, మరికొన్ని వందల సమీక్షలను మాత్రమే కలిగి ఉన్నాయి. అంతేకాకుండా, స్టార్ రేటింగ్లతో కూడిన సమీక్షలను బైనరీ లేబుల్లుగా మార్చవచ్చు.
స్టాండ్ఫోర్డ్ సెంటిమెంట్ ట్రీబ్యాంక్ (లింక్)
Rotten Tomatoes నుండి ఈ NLP డేటాసెట్లో పొడవైన పదబంధాలు మరియు మరింత వివరణాత్మక టెక్స్ట్ ఉదాహరణలు ఉన్నాయి.
బ్లాగ్ ఆథర్షిప్ కార్పస్ (లింక్)
ఈ సేకరణ దాదాపు 1.4 మిలియన్ పదాలతో బ్లాగ్ పోస్ట్లను కలిగి ఉంది, ప్రతి బ్లాగ్ ప్రత్యేక డేటాసెట్.
OpinRank డేటాసెట్ (లింక్)
ఎడ్మండ్స్ మరియు ట్రిప్అడ్వైజర్ నుండి 300,000 సమీక్షలు, కార్ మోడల్ లేదా ట్రావెల్ డెస్టినేషన్ మరియు హోటల్ ద్వారా నిర్వహించబడ్డాయి.
టెక్స్ట్ డేటాసెట్
వికీ QA కార్పస్ (లింక్)
ఓపెన్-డొమైన్ ప్రశ్న మరియు సమాధానాల పరిశోధనకు సహాయం చేయడానికి రూపొందించబడింది, WiKi QA కార్పస్ అనేది పబ్లిక్గా అందుబాటులో ఉన్న అత్యంత విస్తృతమైన డేటాసెట్లలో ఒకటి. Bing శోధన ఇంజిన్ ప్రశ్న లాగ్ల నుండి సంకలనం చేయబడింది, ఇది ప్రశ్న-జవాబు జతలతో వస్తుంది. ఇది 3000 కంటే ఎక్కువ ప్రశ్నలు మరియు 1500 లేబుల్ సమాధాన వాక్యాలను కలిగి ఉంది.
చట్టపరమైన కేసు నివేదికల డేటాసెట్ (లింక్)
చట్టపరమైన కేసు నివేదికల డేటాసెట్ 4000 చట్టపరమైన కేసుల సేకరణను కలిగి ఉంది మరియు ఆటోమేటిక్ టెక్స్ట్ సారాంశం మరియు అనులేఖన విశ్లేషణ కోసం శిక్షణ ఇవ్వడానికి ఉపయోగించవచ్చు. ప్రతి డాక్యుమెంట్, క్యాచ్ఫ్రేజ్లు, సైటేషన్ క్లాసులు, సైటేషన్ క్యాచ్ఫ్రేజ్లు మరియు మరిన్ని ఉపయోగించబడతాయి.
జియోపార్డీ (లింక్)
జియోపార్డీ డేటాసెట్ అనేది Reddit యూజర్ ద్వారా అందించబడిన ప్రముఖ క్విజ్ టీవీ షోలో ప్రదర్శించబడిన 200,000 కంటే ఎక్కువ ప్రశ్నల సమాహారం. ప్రతి డేటా పాయింట్ దాని ప్రసార తేదీ, ఎపిసోడ్ నంబర్, విలువ, రౌండ్ మరియు ప్రశ్న/సమాధానం ద్వారా వర్గీకరించబడుతుంది.
20 వార్తా సమూహాలు (లింక్)
20,000 డాక్యుమెంట్ల సమాహారం 20 న్యూస్గ్రూప్లు మరియు సబ్జెక్ట్లను కలిగి ఉంది, మతం నుండి ప్రముఖ క్రీడల వరకు అంశాలను వివరిస్తుంది.
రాయిటర్స్ న్యూస్ డేటాసెట్ (లింక్)
1987లో మొదటిసారి కనిపించింది, ఈ డేటాసెట్ లేబుల్ చేయబడింది, ఇండెక్స్ చేయబడింది మరియు మెషిన్ లెర్నింగ్ ప్రయోజనాల కోసం కంపైల్ చేయబడింది.
ArXiv (లింక్)
ఈ గణనీయమైన 270 GB డేటాసెట్లో అన్ని arXiv పరిశోధనా పత్రాల పూర్తి పాఠం ఉంటుంది.
యూరోపియన్ పార్లమెంట్ ప్రొసీడింగ్స్ సమాంతర కార్పస్ (లింక్)
పార్లమెంట్ ప్రొసీడింగ్స్ నుండి సెంటెన్స్ జతలలో 21 యూరోపియన్ భాషల నుండి ఎంట్రీలు ఉన్నాయి, ఇందులో మెషిన్ లెర్నింగ్ కార్పోరా కోసం కొన్ని తక్కువ సాధారణ భాషలు ఉన్నాయి.
బిలియన్ వర్డ్ బెంచ్మార్క్ (లింక్)
WMT 2011 న్యూస్ క్రాల్ నుండి తీసుకోబడింది, ఈ భాషా మోడలింగ్ డేటాసెట్ వినూత్న భాషా మోడలింగ్ పద్ధతులను పరీక్షించడానికి దాదాపు ఒక బిలియన్ పదాలను కలిగి ఉంది.
ఆడియో స్పీచ్ డేటాసెట్లు
స్పోకెన్ వికీపీడియా కార్పోరా (లింక్)
ఈ డేటాసెట్ ఆంగ్ల భాషను దాటి వెళ్లాలని చూస్తున్న ప్రతి ఒక్కరికీ సరైనది. ఈ డేటాసెట్ డచ్ మరియు జర్మన్ మరియు ఆంగ్లంలో మాట్లాడే కథనాల సేకరణను కలిగి ఉంది. ఇది విభిన్న శ్రేణి టాపిక్లను కలిగి ఉంది మరియు వందల గంటలపాటు నడిచే స్పీకర్ సెట్లను కలిగి ఉంది.2000 HUB5 ఇంగ్లీష్ (లింక్)
2000 HUB5 ఇంగ్లీష్ డేటాసెట్లో ఆంగ్ల భాషలో 40 టెలిఫోన్ సంభాషణ ట్రాన్స్క్రిప్ట్లు ఉన్నాయి. డేటా నేషనల్ ఇన్స్టిట్యూట్ ఆఫ్ స్టాండర్డ్స్ అండ్ టెక్నాలజీ ద్వారా అందించబడింది మరియు దాని ప్రధాన దృష్టి సంభాషణ ప్రసంగాన్ని గుర్తించడం మరియు ప్రసంగాన్ని టెక్స్ట్గా మార్చడం.
లిబ్రిస్పీచ్ (లింక్)
LibriSpeech డేటాసెట్ అనేది దాదాపు 1000 గంటల ఆంగ్ల ప్రసంగం యొక్క సమాహారం మరియు ఆడియో పుస్తకాల నుండి అధ్యాయాలుగా అంశాల వారీగా సరిగ్గా విభజించబడింది, ఇది సహజ భాషా ప్రాసెసింగ్కు సరైన సాధనంగా మారుతుంది.
ఉచిత స్పోకెన్ డిజిట్ డేటాసెట్ (లింక్)
ఈ NLP డేటాసెట్లో ఆంగ్లంలో మాట్లాడే అంకెల 1,500 కంటే ఎక్కువ రికార్డింగ్లు ఉన్నాయి.
M-AI ల్యాబ్స్ స్పీచ్ డేటాసెట్ (లింక్)
డేటాసెట్ ట్రాన్స్క్రిప్షన్లతో దాదాపు 1,000 గంటల ఆడియోను అందిస్తుంది, బహుళ భాషలను కలిగి ఉంటుంది మరియు మగ, ఆడ మరియు మిశ్రమ స్వరాల ద్వారా వర్గీకరించబడుతుంది.
ధ్వనించే ప్రసంగ డేటాబేస్ (లింక్)
ఈ డేటాసెట్లో స్పీచ్ పెంపొందించే సాఫ్ట్వేర్ డెవలప్మెంట్ కోసం ఉద్దేశించబడిన సమాంతర ధ్వనించే మరియు శుభ్రమైన ప్రసంగ రికార్డింగ్లు ఉన్నాయి, అయితే సవాలు పరిస్థితులలో ప్రసంగంపై శిక్షణ కోసం కూడా ఇది ప్రయోజనకరంగా ఉంటుంది.
సమీక్షల డేటాసెట్లు
Yelp సమీక్షలు (లింక్)
Yelp డేటాసెట్లో 8.5 ప్లస్ బిజినెస్లు, వాటి రివ్యూలు మరియు యూజర్ డేటాకు సంబంధించి దాదాపు 160,000 మిలియన్ల రివ్యూలు ఉన్నాయి. సెంటిమెంట్ విశ్లేషణపై మీ మోడల్లకు శిక్షణ ఇవ్వడానికి సమీక్షలను ఉపయోగించవచ్చు. అంతేకాకుండా, ఈ డేటాసెట్లో ఎనిమిది మెట్రోపాలిటన్ స్థానాలను కవర్ చేసే 200,000 కంటే ఎక్కువ చిత్రాలు ఉన్నాయి.
IMDB సమీక్షలు (లింక్)
IMDB సమీక్షలు 50 వేల కంటే ఎక్కువ సినిమాలకు సంబంధించిన తారాగణం సమాచారం, రేటింగ్లు, వివరణ మరియు శైలిని కలిగి ఉన్న అత్యంత ప్రజాదరణ పొందిన డేటాసెట్లలో ఒకటి. ఈ డేటాసెట్ మీ మెషిన్ లెర్నింగ్ మోడల్లను పరీక్షించడానికి మరియు శిక్షణ ఇవ్వడానికి ఉపయోగించవచ్చు.
అమెజాన్ సమీక్షలు మరియు రేటింగ్స్ డేటాసెట్ (లింక్)
Amazon సమీక్ష మరియు రేటింగ్ డేటాసెట్లో 1996 నుండి 2014 వరకు సేకరించిన అమెజాన్ నుండి వివిధ ఉత్పత్తుల యొక్క మెటాడేటా మరియు సమీక్షల యొక్క విలువైన సేకరణ ఉంది - దాదాపు 142.8 మిలియన్ రికార్డ్లు. మెటాడేటా ధర, ఉత్పత్తి వివరణ, బ్రాండ్, వర్గం మరియు మరిన్నింటిని కలిగి ఉంటుంది, అయితే సమీక్షలు వచన నాణ్యత, వచనం యొక్క ఉపయోగం, రేటింగ్లు మరియు మరిన్నింటిని కలిగి ఉంటాయి.
ప్రశ్నలు మరియు సమాధానాల డేటాసెట్లు
స్టాన్ఫోర్డ్ ప్రశ్న మరియు సమాధానాల డేటాసెట్ (SQuAD) (లింక్)
ఈ రీడింగ్ కాంప్రహెన్షన్ డేటాసెట్లో 100,000 సమాధానమిచ్చే ప్రశ్నలు మరియు 50,000 సమాధానం చెప్పలేనివి ఉన్నాయి, అన్నీ వికీపీడియా క్రౌడ్ వర్కర్లచే సృష్టించబడ్డాయి.
సహజ ప్రశ్నలు (లింక్)
ఈ శిక్షణా సమితిలో 300,000 శిక్షణ ఉదాహరణలు, 7,800 అభివృద్ధి ఉదాహరణలు మరియు 7,800 పరీక్ష ఉదాహరణలు ఉన్నాయి, ఒక్కొక్కటి Google ప్రశ్న మరియు సరిపోలే వికీపీడియా పేజీతో ఉంటాయి.
ట్రివియాQA (లింక్)
ఈ సవాలు ప్రశ్న సెట్లో 950,000 QA జతలు ఉన్నాయి, ఇందులో మానవ-ధృవీకరించబడిన మరియు మెషీన్-ఉత్పత్తి చేయబడిన ఉపసమితులు ఉన్నాయి.
CLEVR (కంపోజిషనల్ లాంగ్వేజ్ మరియు ఎలిమెంటరీ విజువల్ రీజనింగ్) (లింక్)
ఈ దృశ్యమాన ప్రశ్నకు సమాధానమిచ్చే డేటాసెట్లో 3D రెండర్ చేయబడిన వస్తువులు మరియు దృశ్య దృశ్యం గురించిన వివరాలతో వేలకొద్దీ ప్రశ్నలు ఉంటాయి.
కాబట్టి, మీ మెషీన్ లెర్నింగ్ మోడల్పై శిక్షణ ఇవ్వడానికి మీరు ఏ డేటాసెట్ని ఎంచుకున్నారు?
మేము వెళుతున్నప్పుడు, మేము మిమ్మల్ని వదిలివేస్తాము అనుకూల చిట్కా.
మీ అవసరాల కోసం NLP డేటాసెట్ను ఎంచుకునే ముందు README ఫైల్ను పూర్తిగా పరిశీలించినట్లు నిర్ధారించుకోండి. డేటాసెట్ యొక్క కంటెంట్, డేటా వర్గీకరించబడిన వివిధ పారామీటర్లు మరియు డేటాసెట్ యొక్క సంభావ్య వినియోగ సందర్భాలు వంటి మీకు అవసరమైన మొత్తం సమాచారాన్ని డేటాసెట్ కలిగి ఉంటుంది.
మీరు రూపొందించిన మోడల్లతో సంబంధం లేకుండా, మా మెషీన్లను మా జీవితాలతో మరింత సన్నిహితంగా మరియు అంతర్గతంగా ఏకీకృతం చేసే అద్భుతమైన అవకాశం ఉంది. NLPతో, వ్యాపారం, చలనచిత్రాలు, స్పీచ్ రికగ్నిషన్, ఫైనాన్స్ మరియు మరిన్నింటికి అవకాశాలు అనేక రెట్లు పెరిగాయి.