ML కోసం NLP డేటాసెట్

మీ మెషిన్ లెర్నింగ్ మోడల్‌లను సూపర్‌ఛార్జ్ చేయడానికి టాప్ NLP డేటాసెట్

NLP డేటాసెట్‌లు అనేక సహజ భాషా ప్రాసెసింగ్ ప్రాజెక్టులకు వెన్నెముకగా ఉన్నాయి, ఇవి టెక్స్ట్ వర్గీకరణ, సెంటిమెంట్ విశ్లేషణ మరియు ప్రశ్నలకు సమాధానాలు వంటి విస్తృత శ్రేణి పనులకు వశ్యతను అందిస్తాయి. ఉదాహరణకు, బ్లాగ్ ఆథర్‌షిప్ కార్పస్‌లో దాదాపు 681,000 మంది బ్లాగర్ల నుండి 20,000 కంటే ఎక్కువ బ్లాగ్ పోస్ట్‌లు ఉన్నాయి, ఇది రచనా శైలులు, రచయిత గుర్తింపు మరియు మరిన్నింటిని అధ్యయనం చేయడానికి గొప్ప వనరుగా మారుతుంది.

విద్యా పరిశోధనపై ఆసక్తి ఉన్నవారికి, arXiv పరిశోధన పత్రాల డేటాసెట్ బహుళ విభాగాలలోని శాస్త్రీయ పత్రాల యొక్క విస్తారమైన సేకరణకు ప్రాప్యతను అందిస్తుంది, సైటేషన్ విశ్లేషణ మరియు డాక్యుమెంట్ వర్గీకరణ వంటి అధునాతన NLP పనులకు మద్దతు ఇస్తుంది. ఫెడరల్ ప్రొక్యూర్‌మెంట్ డేటా సెంటర్ డేటాసెట్ మరొక విలువైన వనరు, ఇది ఫెడరల్ కాంట్రాక్టులపై వివరణాత్మక సమాచారాన్ని అందిస్తుంది - ప్రభుత్వ డేటా మరియు ఎంటిటీ గుర్తింపుతో కూడిన ప్రాజెక్టులకు అనువైనది.

ఈ nlp డేటాసెట్‌లు మెషిన్ లెర్నింగ్ మోడల్‌లకు శిక్షణ ఇవ్వడానికి మరియు మూల్యాంకనం చేయడానికి విస్తృతంగా ఉపయోగించబడుతున్నాయి, పరిశోధకులు మరియు డెవలపర్‌లు వివిధ nlp పనులలో వారి సిస్టమ్‌ల పనితీరును మెరుగుపరచడంలో సహాయపడతాయి. మీరు బ్లాగ్ పోస్ట్‌లు, పరిశోధన పత్రాలు లేదా ప్రభుత్వ డేటాతో పనిచేస్తున్నా, ఈ డేటాసెట్‌లు బలమైన మరియు బహుముఖ NLP అప్లికేషన్‌లకు పునాదిని అందిస్తాయి.

ఎన్‌ఎల్‌పి అంటే ఏమిటి?

NLP (నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్) కంప్యూటర్లు మానవ భాషను అర్థం చేసుకోవడానికి సహాయపడుతుంది. ఇది మానవులు చేసే విధంగా టెక్స్ట్ మరియు స్పీచ్‌ని చదవడానికి, అర్థం చేసుకోవడానికి మరియు ప్రతిస్పందించడానికి కంప్యూటర్‌లకు నేర్పించడం లాంటిది.

NLP ఏమి చేయగలదు?

  • గజిబిజిగా ఉన్న వచనాన్ని వ్యవస్థీకృత డేటాగా మార్చండి
  • వ్యాఖ్యలు సానుకూలంగా ఉన్నాయా లేదా ప్రతికూలంగా ఉన్నాయో అర్థం చేసుకోండి
  • భాషల మధ్య అనువదించండి
  • పొడవైన వచనాల సారాంశాలను సృష్టించండి
  • ఇవే కాకండా ఇంకా!
  • NLPతో ప్రారంభించడం:

మంచి NLP సిస్టమ్‌లను రూపొందించడానికి, వారికి శిక్షణ ఇవ్వడానికి మీకు చాలా ఉదాహరణలు కావాలి - మానవులు మరింత అభ్యాసంతో ఎలా మెరుగ్గా నేర్చుకుంటారు. శుభవార్త ఏమిటంటే, మీరు ఈ ఉదాహరణలను కనుగొనగలిగే అనేక ఉచిత వనరులు ఉన్నాయి: హగ్గింగ్ ఫేస్, Kaggle మరియు GitHub. ఈ ప్లాట్‌ఫారమ్‌ల నుండి డేటాసెట్‌లను సులభంగా యాక్సెస్ చేయవచ్చు, ఇది NLP ప్రాజెక్ట్ అభివృద్ధిని వేగవంతం చేస్తుంది.

NLP మార్కెట్ పరిమాణం మరియు వృద్ధి:

2023 నాటికి, నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్ (NLP) మార్కెట్ విలువ సుమారు $26 బిలియన్లు. 30 నుండి 2023 వరకు దాదాపు 2030% వార్షిక వృద్ధి రేటు (CAGR)తో ఇది గణనీయంగా వృద్ధి చెందుతుందని అంచనా వేయబడింది. హెల్త్‌కేర్, ఫైనాన్స్ మరియు కస్టమర్ సర్వీస్ వంటి పరిశ్రమలలో NLP అప్లికేషన్‌లకు పెరుగుతున్న డిమాండ్‌తో ఈ పెరుగుదల నడపబడుతుంది.

మంచి NLP డేటాసెట్‌ను ఎలా ఎంచుకోవాలి, ఈ క్రింది అంశాలను పరిగణించండి:

  • ఔచిత్యం: డేటాసెట్ మీ నిర్దిష్ట పని లేదా డొమైన్‌తో సమలేఖనం చేయబడిందని నిర్ధారించుకోండి.
  • పరిమాణం: పెద్ద డేటాసెట్‌లు సాధారణంగా మోడల్ పనితీరును మెరుగుపరుస్తాయి, కానీ నాణ్యతతో పరిమాణాన్ని సమతుల్యం చేస్తాయి.
  • వైవిధ్యం: మోడల్ పటిష్టతను మెరుగుపరచడానికి విభిన్న భాషా శైలులు మరియు సందర్భాలతో డేటాసెట్‌ల కోసం చూడండి.
  • నాణ్యత: లోపాలను పరిచయం చేయకుండా నివారించడానికి బాగా లేబుల్ చేయబడిన మరియు ఖచ్చితమైన డేటా కోసం తనిఖీ చేయండి.
  • సౌలభ్యాన్ని: డేటాసెట్ ఉపయోగం కోసం అందుబాటులో ఉందని నిర్ధారించుకోండి మరియు ఏవైనా లైసెన్సింగ్ పరిమితులను పరిగణించండి.
  • ప్రిప్రాసెసింగ్: డేటాసెట్‌కు ముఖ్యమైన క్లీనింగ్ లేదా ప్రీప్రాసెసింగ్ అవసరమా అని నిర్ణయించండి.
  • సంఘం మద్దతు: జనాదరణ పొందిన డేటాసెట్‌లు తరచుగా ఎక్కువ వనరులు మరియు సంఘం మద్దతును కలిగి ఉంటాయి, ఇది సహాయకరంగా ఉంటుంది.

ఈ అంశాలను మూల్యాంకనం చేయడం ద్వారా, మీ ప్రాజెక్ట్ అవసరాలకు బాగా సరిపోయే డేటాసెట్‌ను మీరు ఎంచుకోవచ్చు. NLP ప్రాజెక్ట్‌లలో సరైన ఫలితాలను సాధించడానికి సరైన డేటాసెట్‌లను ఎంచుకోవడం చాలా అవసరం, ఎందుకంటే అవి మోడల్ పనితీరు మరియు శిక్షణ సామర్థ్యాన్ని నేరుగా ప్రభావితం చేస్తాయి.

NLP కోసం టాప్ 33 తప్పక చూడవలసిన ఓపెన్ డేటాసెట్‌లు

జనరల్

  • UCI యొక్క స్పాంబేస్ (లింక్)

    Spambase, Hewlett-Packard Labsలో సృష్టించబడింది, వ్యక్తిగతీకరించిన స్పామ్ ఫిల్టర్‌ను అభివృద్ధి చేయాలనే లక్ష్యంతో వినియోగదారుల ద్వారా స్పామ్ ఇమెయిల్‌ల సేకరణను కలిగి ఉంది. ఇది ఇమెయిల్ సందేశాల నుండి 4600 కంటే ఎక్కువ పరిశీలనలను కలిగి ఉంది, వీటిలో దాదాపు 1820 స్పామ్ ఉన్నాయి.

  • ఎన్రాన్ డేటాసెట్ (లింక్)

    ఎన్రాన్ డేటా సెట్‌లో ప్రజలకు వారి మెషిన్ లెర్నింగ్ మోడళ్లకు శిక్షణ ఇవ్వడానికి అందుబాటులో ఉన్న అనామక 'నిజమైన' ఇమెయిల్‌ల విస్తారమైన సేకరణ ఉంది. ఇది 150 కంటే ఎక్కువ మంది వినియోగదారుల నుండి, ప్రధానంగా ఎన్రాన్ సీనియర్ మేనేజ్‌మెంట్ నుండి అర మిలియన్ కంటే ఎక్కువ ఇమెయిల్‌లను కలిగి ఉంది. ఈ డేటా సెట్ స్ట్రక్చర్డ్ మరియు అన్‌స్ట్రక్చర్డ్ ఫార్మాట్‌లలో ఉపయోగించడానికి అందుబాటులో ఉంది. అన్‌స్ట్రక్చర్డ్ డేటాను మెరుగుపరచడానికి, మీరు డేటా ప్రాసెసింగ్ టెక్నిక్‌లను వర్తింపజేయాలి.

  • సిఫార్సు సిస్టమ్స్ డేటాసెట్ (లింక్)

    రికమండర్ సిస్టమ్ డేటాసెట్ అనేది విభిన్న లక్షణాలను కలిగి ఉన్న వివిధ డేటాసెట్‌ల యొక్క భారీ సేకరణ,

    • ఉత్పత్తి సమీక్షలు
    • స్టార్ రేటింగ్‌లు
    • ఫిట్‌నెస్ ట్రాకింగ్
    • పాట డేటా
    • సోషల్ నెట్వర్కులు
    • సమయముద్రలు
    • వినియోగదారు/అంశం పరస్పర చర్యలు
    • GPS డేటా
  • పెన్ ట్రీబ్యాంక్ (లింక్)

    వాల్ స్ట్రీట్ జర్నల్ నుండి వచ్చిన ఈ కార్పస్, సీక్వెన్స్ లేబులింగ్ మోడల్‌లను పరీక్షించడానికి ప్రసిద్ధి చెందింది.

  • NLTK (లింక్)

    ఈ పైథాన్ లైబ్రరీ NLP కోసం 100 కి పైగా కార్పోరా మరియు లెక్సికల్ వనరులకు ప్రాప్తిని అందిస్తుంది. ఇందులో లైబ్రరీని ఉపయోగించడానికి శిక్షణా కోర్సు అయిన NLTK పుస్తకం కూడా ఉంది. NLTK లో ఆంగ్ల భాష యొక్క పెద్ద లెక్సికల్ డేటాబేస్ అయిన WordNet యాక్సెస్ ఉంటుంది, ఇక్కడ నామవాచకాలు, క్రియలు, విశేషణాలు మరియు క్రియా విశేషణాలు వంటి పదాలు భాగస్వామ్య అర్థాల ఆధారంగా సిన్‌సెట్‌లుగా వర్గీకరించబడతాయి. NLTK NLP పరిశోధన కోసం కార్పోరా మరియు లెక్సికల్ వనరుల యొక్క వ్యాఖ్యాన జాబితాను కూడా అందిస్తుంది.

  • యూనివర్సల్ డిపెండెన్సీలు (లింక్)

    UD వ్యాకరణాన్ని ఉల్లేఖించడానికి స్థిరమైన మార్గాన్ని అందిస్తుంది, 100 కంటే ఎక్కువ భాషలలో వనరులు, 200 ట్రీబ్యాంక్‌లు మరియు 300 కంటే ఎక్కువ సంఘం సభ్యుల మద్దతు.

సెంటిమెంట్ విశ్లేషణ డేటాసెట్‌లు

  • సినిమాలు మరియు ఫైనాన్స్ కోసం నిఘంటువులు (లింక్)

    సెంటిమెంట్ విశ్లేషణ
    సినిమాలు మరియు ఫైనాన్స్ డేటాసెట్ కోసం డిక్షనరీలు ఫైనాన్స్ ఫిల్లింగ్‌లు మరియు మూవీ రివ్యూలలో పాజిటివ్ లేదా నెగటివ్ పోలారిటీ కోసం డొమైన్-నిర్దిష్ట నిఘంటువులను అందిస్తుంది. ఈ నిఘంటువులు IMDb మరియు US ఫారమ్-8 పూరణల నుండి తీసుకోబడ్డాయి.

  • సెంటిమెంట్ 140 (లింక్)

    సెంటిమెంట్ 140 160,000 కంటే ఎక్కువ ట్వీట్‌లను కలిగి ఉంది, వివిధ ఎమోటికాన్‌లతో 6 విభిన్న ఫీల్డ్‌లలో వర్గీకరించబడింది: ట్వీట్ తేదీ, ధ్రువణత, వచనం, వినియోగదారు పేరు, ID మరియు ప్రశ్న. ఈ డేటాసెట్ మీరు Twitter కార్యకలాపం ఆధారంగా బ్రాండ్, ఉత్పత్తి లేదా అంశం యొక్క సెంటిమెంట్‌ను కనుగొనడం సాధ్యం చేస్తుంది. ఈ డేటాసెట్ స్వయంచాలకంగా సృష్టించబడినందున, ఇతర మానవ-ఉల్లేఖన ట్వీట్‌ల వలె కాకుండా, ఇది సానుకూల భావోద్వేగాలు మరియు ప్రతికూల భావోద్వేగాలతో కూడిన ట్వీట్‌లను అననుకూలమైనవిగా వర్గీకరిస్తుంది.

  • బహుళ-డొమైన్ సెంటిమెంట్ డేటాసెట్ (లింక్)

    ఈ మల్టీ-డొమైన్ సెంటిమెంట్ డేటాసెట్ అనేది వివిధ ఉత్పత్తుల కోసం అమెజాన్ సమీక్షల రిపోజిటరీ. పుస్తకాలు వంటి కొన్ని ఉత్పత్తి వర్గాలకు వేలల్లో సమీక్షలు ఉన్నాయి, మరికొన్ని వందల సమీక్షలను మాత్రమే కలిగి ఉన్నాయి. అంతేకాకుండా, స్టార్ రేటింగ్‌లతో కూడిన సమీక్షలను బైనరీ లేబుల్‌లుగా మార్చవచ్చు.

  • స్టాండ్‌ఫోర్డ్ సెంటిమెంట్ ట్రీబ్యాంక్ (లింక్)

    Rotten Tomatoes నుండి ఈ NLP డేటాసెట్‌లో పొడవైన పదబంధాలు మరియు మరింత వివరణాత్మక టెక్స్ట్ ఉదాహరణలు ఉన్నాయి.

  • బ్లాగ్ ఆథర్‌షిప్ కార్పస్ (లింక్)

    ఈ సేకరణ దాదాపు 1.4 మిలియన్ పదాలతో బ్లాగ్ పోస్ట్‌లను కలిగి ఉంది, ప్రతి బ్లాగ్ ప్రత్యేక డేటాసెట్.

  • OpinRank డేటాసెట్ (లింక్)

    ఎడ్మండ్స్ మరియు ట్రిప్అడ్వైజర్ నుండి 300,000 సమీక్షలు, కార్ మోడల్ లేదా ట్రావెల్ డెస్టినేషన్ మరియు హోటల్ ద్వారా నిర్వహించబడ్డాయి.

టెక్స్ట్ డేటాసెట్

  • వికీ QA కార్పస్ (లింక్)

    ఓపెన్-డొమైన్ ప్రశ్న మరియు సమాధానాల పరిశోధనకు సహాయం చేయడానికి రూపొందించబడింది, WiKi QA కార్పస్ అనేది పబ్లిక్‌గా అందుబాటులో ఉన్న అత్యంత విస్తృతమైన డేటాసెట్‌లలో ఒకటి. Bing శోధన ఇంజిన్ ప్రశ్న లాగ్‌ల నుండి సంకలనం చేయబడింది, ఇది ప్రశ్న-జవాబు జతలతో వస్తుంది. ఇది 3000 కంటే ఎక్కువ ప్రశ్నలు మరియు 1500 లేబుల్ సమాధాన వాక్యాలను కలిగి ఉంది.

  • చట్టపరమైన కేసు నివేదికల డేటాసెట్ (లింక్)

    చట్టపరమైన కేసు నివేదికల డేటాసెట్ 4000 చట్టపరమైన కేసుల సేకరణను కలిగి ఉంది మరియు ఆటోమేటిక్ టెక్స్ట్ సారాంశం మరియు అనులేఖన విశ్లేషణ కోసం శిక్షణ ఇవ్వడానికి ఉపయోగించవచ్చు. ప్రతి డాక్యుమెంట్, క్యాచ్‌ఫ్రేజ్‌లు, సైటేషన్ క్లాసులు, సైటేషన్ క్యాచ్‌ఫ్రేజ్‌లు మరియు మరిన్ని ఉపయోగించబడతాయి.

  • జియోపార్డీ (లింక్)

    జియోపార్డీ డేటాసెట్ అనేది Reddit యూజర్ ద్వారా అందించబడిన ప్రముఖ క్విజ్ టీవీ షోలో ప్రదర్శించబడిన 200,000 కంటే ఎక్కువ ప్రశ్నల సమాహారం. ప్రతి డేటా పాయింట్ దాని ప్రసార తేదీ, ఎపిసోడ్ నంబర్, విలువ, రౌండ్ మరియు ప్రశ్న/సమాధానం ద్వారా వర్గీకరించబడుతుంది.

  • 20 వార్తా సమూహాలు (లింక్)

    20,000 డాక్యుమెంట్‌ల సమాహారం 20 న్యూస్‌గ్రూప్‌లు మరియు సబ్జెక్ట్‌లను కలిగి ఉంది, మతం నుండి ప్రముఖ క్రీడల వరకు అంశాలను వివరిస్తుంది.

  • రాయిటర్స్ న్యూస్ డేటాసెట్ (లింక్)

    1987లో మొదటిసారి కనిపించింది, ఈ డేటాసెట్ లేబుల్ చేయబడింది, ఇండెక్స్ చేయబడింది మరియు మెషిన్ లెర్నింగ్ ప్రయోజనాల కోసం కంపైల్ చేయబడింది.

  • ArXiv (లింక్)

    ఈ గణనీయమైన 270 GB డేటాసెట్‌లో అన్ని arXiv పరిశోధనా పత్రాల పూర్తి పాఠం ఉంటుంది.

  • యూరోపియన్ పార్లమెంట్ ప్రొసీడింగ్స్ సమాంతర కార్పస్ (లింక్)

    పార్లమెంట్ ప్రొసీడింగ్స్ నుండి సెంటెన్స్ జతలలో 21 యూరోపియన్ భాషల నుండి ఎంట్రీలు ఉన్నాయి, ఇందులో మెషిన్ లెర్నింగ్ కార్పోరా కోసం కొన్ని తక్కువ సాధారణ భాషలు ఉన్నాయి.

  • బిలియన్ వర్డ్ బెంచ్‌మార్క్ (లింక్)

    WMT 2011 న్యూస్ క్రాల్ నుండి తీసుకోబడింది, ఈ భాషా మోడలింగ్ డేటాసెట్ వినూత్న భాషా మోడలింగ్ పద్ధతులను పరీక్షించడానికి దాదాపు ఒక బిలియన్ పదాలను కలిగి ఉంది.

ఆడియో స్పీచ్ డేటాసెట్‌లు

  • స్పోకెన్ వికీపీడియా కార్పోరా (లింక్)

    ఆడియో ప్రసంగం ఈ డేటాసెట్ ఆంగ్ల భాషను దాటి వెళ్లాలని చూస్తున్న ప్రతి ఒక్కరికీ సరైనది. ఈ డేటాసెట్ డచ్ మరియు జర్మన్ మరియు ఆంగ్లంలో మాట్లాడే కథనాల సేకరణను కలిగి ఉంది. ఇది విభిన్న శ్రేణి టాపిక్‌లను కలిగి ఉంది మరియు వందల గంటలపాటు నడిచే స్పీకర్ సెట్‌లను కలిగి ఉంది.

  • 2000 HUB5 ఇంగ్లీష్ (లింక్)

    2000 HUB5 ఇంగ్లీష్ డేటాసెట్‌లో ఆంగ్ల భాషలో 40 టెలిఫోన్ సంభాషణ ట్రాన్‌స్క్రిప్ట్‌లు ఉన్నాయి. డేటా నేషనల్ ఇన్‌స్టిట్యూట్ ఆఫ్ స్టాండర్డ్స్ అండ్ టెక్నాలజీ ద్వారా అందించబడింది మరియు దాని ప్రధాన దృష్టి సంభాషణ ప్రసంగాన్ని గుర్తించడం మరియు ప్రసంగాన్ని టెక్స్ట్‌గా మార్చడం.

  • లిబ్రిస్పీచ్ (లింక్)

    LibriSpeech డేటాసెట్ అనేది దాదాపు 1000 గంటల ఆంగ్ల ప్రసంగం యొక్క సమాహారం మరియు ఆడియో పుస్తకాల నుండి అధ్యాయాలుగా అంశాల వారీగా సరిగ్గా విభజించబడింది, ఇది సహజ భాషా ప్రాసెసింగ్‌కు సరైన సాధనంగా మారుతుంది.

  • ఉచిత స్పోకెన్ డిజిట్ డేటాసెట్ (లింక్)

    ఈ NLP డేటాసెట్‌లో ఆంగ్లంలో మాట్లాడే అంకెల 1,500 కంటే ఎక్కువ రికార్డింగ్‌లు ఉన్నాయి.

  • M-AI ల్యాబ్స్ స్పీచ్ డేటాసెట్ (లింక్)

    డేటాసెట్ ట్రాన్స్‌క్రిప్షన్‌లతో దాదాపు 1,000 గంటల ఆడియోను అందిస్తుంది, బహుళ భాషలను కలిగి ఉంటుంది మరియు మగ, ఆడ మరియు మిశ్రమ స్వరాల ద్వారా వర్గీకరించబడుతుంది.

  • ధ్వనించే ప్రసంగ డేటాబేస్ (లింక్)

    ఈ డేటాసెట్‌లో స్పీచ్ పెంపొందించే సాఫ్ట్‌వేర్ డెవలప్‌మెంట్ కోసం ఉద్దేశించబడిన సమాంతర ధ్వనించే మరియు శుభ్రమైన ప్రసంగ రికార్డింగ్‌లు ఉన్నాయి, అయితే సవాలు పరిస్థితులలో ప్రసంగంపై శిక్షణ కోసం కూడా ఇది ప్రయోజనకరంగా ఉంటుంది.

సమీక్షల డేటాసెట్‌లు

  • Yelp సమీక్షలు (లింక్)

    Yelp డేటాసెట్‌లో 8.5 ప్లస్ బిజినెస్‌లు, వాటి రివ్యూలు మరియు యూజర్ డేటాకు సంబంధించి దాదాపు 160,000 మిలియన్ల రివ్యూలు ఉన్నాయి. సెంటిమెంట్ విశ్లేషణపై మీ మోడల్‌లకు శిక్షణ ఇవ్వడానికి సమీక్షలను ఉపయోగించవచ్చు. అంతేకాకుండా, ఈ డేటాసెట్‌లో ఎనిమిది మెట్రోపాలిటన్ స్థానాలను కవర్ చేసే 200,000 కంటే ఎక్కువ చిత్రాలు ఉన్నాయి.

  • IMDB సమీక్షలు (లింక్)

    IMDB సమీక్షలు 50 వేల కంటే ఎక్కువ సినిమాలకు సంబంధించిన తారాగణం సమాచారం, రేటింగ్‌లు, వివరణ మరియు శైలిని కలిగి ఉన్న అత్యంత ప్రజాదరణ పొందిన డేటాసెట్‌లలో ఒకటి. ఈ డేటాసెట్ మీ మెషిన్ లెర్నింగ్ మోడల్‌లను పరీక్షించడానికి మరియు శిక్షణ ఇవ్వడానికి ఉపయోగించవచ్చు.

  • అమెజాన్ సమీక్షలు మరియు రేటింగ్స్ డేటాసెట్ (లింక్)

    Amazon సమీక్ష మరియు రేటింగ్ డేటాసెట్‌లో 1996 నుండి 2014 వరకు సేకరించిన అమెజాన్ నుండి వివిధ ఉత్పత్తుల యొక్క మెటాడేటా మరియు సమీక్షల యొక్క విలువైన సేకరణ ఉంది - దాదాపు 142.8 మిలియన్ రికార్డ్‌లు. మెటాడేటా ధర, ఉత్పత్తి వివరణ, బ్రాండ్, వర్గం మరియు మరిన్నింటిని కలిగి ఉంటుంది, అయితే సమీక్షలు వచన నాణ్యత, వచనం యొక్క ఉపయోగం, రేటింగ్‌లు మరియు మరిన్నింటిని కలిగి ఉంటాయి.

ప్రశ్నలు మరియు సమాధానాల డేటాసెట్‌లు

  • స్టాన్‌ఫోర్డ్ ప్రశ్న మరియు సమాధానాల డేటాసెట్ (SQuAD) (లింక్)

    ఈ రీడింగ్ కాంప్రహెన్షన్ డేటాసెట్‌లో 100,000 సమాధానమిచ్చే ప్రశ్నలు మరియు 50,000 సమాధానం చెప్పలేనివి ఉన్నాయి, అన్నీ వికీపీడియా క్రౌడ్ వర్కర్లచే సృష్టించబడ్డాయి.

  • సహజ ప్రశ్నలు (లింక్)

    ఈ శిక్షణా సమితిలో 300,000 శిక్షణ ఉదాహరణలు, 7,800 అభివృద్ధి ఉదాహరణలు మరియు 7,800 పరీక్ష ఉదాహరణలు ఉన్నాయి, ఒక్కొక్కటి Google ప్రశ్న మరియు సరిపోలే వికీపీడియా పేజీతో ఉంటాయి.

  • ట్రివియాQA (లింక్)

    ఈ సవాలు ప్రశ్న సెట్‌లో 950,000 QA జతలు ఉన్నాయి, ఇందులో మానవ-ధృవీకరించబడిన మరియు మెషీన్-ఉత్పత్తి చేయబడిన ఉపసమితులు ఉన్నాయి.

  • CLEVR (కంపోజిషనల్ లాంగ్వేజ్ మరియు ఎలిమెంటరీ విజువల్ రీజనింగ్) (లింక్)

    ఈ దృశ్యమాన ప్రశ్నకు సమాధానమిచ్చే డేటాసెట్‌లో 3D రెండర్ చేయబడిన వస్తువులు మరియు దృశ్య దృశ్యం గురించిన వివరాలతో వేలకొద్దీ ప్రశ్నలు ఉంటాయి.

కాబట్టి, మీ మెషీన్ లెర్నింగ్ మోడల్‌పై శిక్షణ ఇవ్వడానికి మీరు ఏ డేటాసెట్‌ని ఎంచుకున్నారు?

మేము వెళుతున్నప్పుడు, మేము మిమ్మల్ని వదిలివేస్తాము అనుకూల చిట్కా.

మీ అవసరాల కోసం NLP డేటాసెట్‌ను ఎంచుకునే ముందు README ఫైల్‌ను పూర్తిగా పరిశీలించినట్లు నిర్ధారించుకోండి. డేటాసెట్ యొక్క కంటెంట్, డేటా వర్గీకరించబడిన వివిధ పారామీటర్లు మరియు డేటాసెట్ యొక్క సంభావ్య వినియోగ సందర్భాలు వంటి మీకు అవసరమైన మొత్తం సమాచారాన్ని డేటాసెట్ కలిగి ఉంటుంది.

మీరు రూపొందించిన మోడల్‌లతో సంబంధం లేకుండా, మా మెషీన్‌లను మా జీవితాలతో మరింత సన్నిహితంగా మరియు అంతర్గతంగా ఏకీకృతం చేసే అద్భుతమైన అవకాశం ఉంది. NLPతో, వ్యాపారం, చలనచిత్రాలు, స్పీచ్ రికగ్నిషన్, ఫైనాన్స్ మరియు మరిన్నింటికి అవకాశాలు అనేక రెట్లు పెరిగాయి.

సామాజిక భాగస్వామ్యం

షేప్
గోప్యతా అవలోకనం

ఈ వెబ్సైట్ కుకీలను ఉపయోగిస్తుంది, తద్వారా మేము మీకు ఉత్తమ వినియోగదారు అనుభవాన్ని అందించగలము. కుకీ సమాచారం మీ బ్రౌజర్లో నిల్వ చేయబడుతుంది మరియు మీరు మా వెబ్ సైట్కి తిరిగి వచ్చినప్పుడు గుర్తించే విధులు నిర్వహిస్తుంది మరియు మీరు ఏ వెబ్సైట్లో అత్యంత ఆసక్తికరంగా మరియు ఉపయోగకరంగా ఉంటుందో తెలుసుకోవడానికి మా బృందానికి సహాయపడుతుంది.