కేస్ స్టడీ: ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్

8వేలకు పైగా ఆడియో గంటలు సేకరించబడ్డాయి, బహుభాషా వాయిస్ టెక్నాలజీ కోసం 800 గంటలు లిప్యంతరీకరించబడింది

సంభాషణ AI

పరిచయం

భారతీయ భాషలలో డిజిటల్ సేవలను అందించడానికి బహుభాషా డేటాసెట్‌లు మరియు AI-ఆధారిత భాషా సాంకేతిక పరిష్కారాలను రూపొందించడంపై దృష్టి సారించే వేదిక భారతదేశానికి అవసరం. ఈ చొరవను ప్రారంభించడానికి, బహుళ-భాషా ప్రసంగ నమూనాలను రూపొందించడానికి భారతీయ భాషను సేకరించడానికి మరియు లిప్యంతరీకరణ చేయడానికి షైప్‌తో క్లయింట్ భాగస్వామ్యం కుదుర్చుకుంది.

వాల్యూమ్

గంటల కొద్దీ డేటా సేకరించబడింది
10
వ్యాఖ్యానించిన పేజీల సంఖ్య
10 +
ప్రాజెక్ట్ వ్యవధి
< 1 నెలల

సవాళ్లు

భారతీయ భాషల కోసం వారి స్పీచ్ టెక్నాలజీ స్పీచ్ రోడ్‌మ్యాప్‌తో క్లయింట్‌కు సహాయం చేయడానికి, AI మోడల్‌ను రూపొందించడానికి బృందం పెద్ద మొత్తంలో శిక్షణ డేటాను పొందడం, విభజించడం మరియు లిప్యంతరీకరించడం అవసరం. క్లయింట్ యొక్క క్లిష్టమైన అవసరాలు:

వివరాల సేకరణ

  • భారతదేశంలోని మారుమూల ప్రాంతాల నుండి 8000 గంటల శిక్షణ డేటాను పొందండి
  • 20-70 సంవత్సరాల వయస్సు గల వారి నుండి స్పాంటేనియస్ స్పీచ్‌ని సేకరించడానికి సరఫరాదారు
  • వయస్సు, లింగం, విద్య మరియు మాండలికాల ప్రకారం మాట్లాడేవారి విభిన్న మిశ్రమాన్ని నిర్ధారించుకోండి
  • ప్రతి ఆడియో రికార్డింగ్ 16 బిట్‌లు/నమూనాతో కనీసం 16kHz ఉండాలి.
వివరాల సేకరణ

డేటా ట్రాన్స్క్రిప్షన్

అక్షరాలు మరియు ప్రత్యేక చిహ్నాలు, స్పెల్లింగ్ మరియు వ్యాకరణం, క్యాపిటలైజేషన్, సంక్షిప్తీకరణలు, సంకోచాలు, వ్యక్తిగతంగా మాట్లాడే అక్షరాలు, సంఖ్యలు, విరామచిహ్నాలు, ఎక్రోనింలు మరియు ఇనిషియలిజమ్‌లు, అస్పష్టమైన ప్రసంగం, అర్థం కాని ప్రసంగం, నాన్-టార్గెట్ లాంగ్‌ల గురించి వివరాల లిప్యంతరీకరణ మార్గదర్శకాలను అనుసరించండి

డేటా ట్రాన్స్క్రిప్షన్

నాణ్యత తనిఖీ & అభిప్రాయం

అన్ని రికార్డింగ్‌లు నాణ్యత అంచనా మరియు ధృవీకరణకు లోనవుతాయి, ధృవీకరించబడిన ప్రసంగ రికార్డింగ్‌లు మాత్రమే పంపిణీ చేయబడతాయి

సొల్యూషన్

సంభాషణ AI గురించి మా లోతైన అవగాహనతో, భారతదేశంలోని మారుమూల ప్రాంతాల నుండి ఆడియో డేటా యొక్క పెద్ద కార్పస్‌ను రూపొందించడానికి నిపుణులైన కలెక్టర్‌లు, భాషావేత్తలు మరియు ఉల్లేఖనాల బృందంతో ఆడియో డేటాను సేకరించడానికి, లిప్యంతరీకరించడానికి మేము క్లయింట్‌కు సహాయం చేసాము.

Shaip కోసం పని యొక్క పరిధిని కలిగి ఉంది కానీ పెద్ద వాల్యూమ్‌ల ఆడియో శిక్షణ డేటాను పొందడం, డేటాను లిప్యంతరీకరణ చేయడం మరియు మెటాడేటాను కలిగి ఉన్న సంబంధిత JSON ఫైల్‌లను పంపిణీ చేయడం [స్పీకర్‌లు మరియు ట్రాన్స్‌క్రైబర్‌లు రెండింటికీ పరిమితం కాలేదు. ప్రతి స్పీకర్ కోసం, మెటాడేటాలో అనామక స్పీకర్ ID, పరికర వివరాలు, వారి పిన్‌కోడ్, సామాజిక-ఆర్థిక స్థితి, మాట్లాడే భాషలు మరియు వారి జీవిత కాలం యొక్క రికార్డుతో పాటు లింగం, వయస్సు మరియు విద్య వంటి జనాభా సమాచారం ఉంటుంది. ప్రతి ట్రాన్స్‌క్రైబర్ కోసం, డేటాలో అనామక ట్రాన్స్‌క్రైబర్ ID, స్పీకర్ల మాదిరిగానే జనాభా వివరాలు, వారి ట్రాన్స్‌క్రిప్షన్ అనుభవ వ్యవధి మరియు వారు చదవగలిగే, వ్రాయగల మరియు మాట్లాడగల భాషల సమగ్ర విభజన ఉంటుంది.

షైప్ సేకరించారు 8000 గంటల ఆడియో డేటా / స్కేల్‌లో స్పాంటేనియస్ స్పీచ్ మరియు కాంప్లెక్స్ ప్రాజెక్ట్‌ల కోసం స్పీచ్ టెక్నాలజీకి శిక్షణ ఇవ్వడానికి కావలసిన నాణ్యత స్థాయిని కొనసాగిస్తూ 800 గంటలు లిప్యంతరీకరించబడింది. పాల్గొనే ప్రతి ఒక్కరి నుండి స్పష్టమైన సమ్మతి ఫారమ్ తీసుకోబడింది. విశ్వవిద్యాలయం అందించిన చిత్రాల ఆధారంగా సేకరించిన / స్పాంటేనియస్ ప్రసంగం. యొక్క 3500 చిత్రాలు 1000 సాధారణమైనవి మరియు 2500 జిల్లా-నిర్దిష్ట సంస్కృతి, పండుగలు మొదలైన వాటికి సంబంధించినవి. చిత్రాలు రైలు స్టేషన్‌లు, మార్కెట్‌లు, వాతావరణం మరియు మరిన్నింటి వంటి వివిధ డొమైన్‌లను వర్ణిస్తాయి.

వివరాల సేకరణ

రాష్ట్రం జిల్లాలు ఆడియో గంటలు ట్రాన్స్క్రిప్షన్ (గంటలు)
బీహార్ సరన్, తూర్పు చంపారన్, గోపాల్‌గంజ్, సీతామర్హి, సమస్తిపూర్, దర్భంగా, మాధేపురా, భాగల్‌పూర్, గయా, కిషన్‌గంజ్, వైశాలి, లఖిసరాయ్, సహర్సా, సుపాల్, అరారియా, బెగుసరాయ్, జహనాబాద్, పూర్నియా, ముజఫర్‌పూర్, జాముయి 2000 200
ఉత్తర ప్రదేశ్ డియోరియా, వారణాసి, గోరఖ్‌పూర్, ఘాజీపూర్, ముజఫర్‌నగర్, ఎటా, హమీర్‌పూర్, జ్యోతిబా ఫూలే నగర్, బుదౌన్, జలౌన్ 1000 100
రాజస్థాన్ నాగౌర్, చురు 200 20
ఉత్తరాఖండ్ తెహ్రీ గర్వాల్, ఉత్తరకాశీ 200 20
ఛత్తీస్గఢ్ బిలాస్‌పూర్, రాయ్‌ఘర్, కబీర్‌ధామ్, సర్గుజా, కోర్బా, జష్‌పూర్, రాజ్‌నంద్‌గావ్, బలరాంపూర్, బస్తర్, సుక్మా 1000 100
పశ్చిమ బెంగాల్ పశ్చిమ్ మెదినీపూర్, మాల్దా, జల్పైగురి, పురూలియా, కోల్‌కతా, ఝర్‌గ్రామ్, ఉత్తర 24 పరగణాలు, దక్షిణ్ దినాజ్‌పూర్ 800 80
జార్ఖండ్ సాహెబ్‌గంజ్, జమ్తారా 200 20
ఆంధ్ర ప్రదేశ్ గుంటూరు, చిత్తూరు, విశాఖపట్నం, కృష్ణా, అనంతపురం, శ్రీకాకుళం 600 60
తెలంగాణ కరీంనగర్, నల్గొండ 200 20
గోవా ఉత్తర & దక్షిణ గోవా 100 10
కర్ణాటక దక్షిణ కన్నడ, గుల్బర్గా, ధార్వాడ్, బళ్లారి, మైసూర్, షిమోగా, బీజాపూర్, బెల్గాం, రాయచూర్, చామరాజ్‌నగర్ 1000 100
మహారాష్ట్ర సింధుదుర్గ్, ధూలే, నాగ్‌పూర్, పూణే, ఔరంగాబాద్, చంద్రపూర్, షోలాపూర్ 700 70
మొత్తం 8000 800

సాధారణ మార్గదర్శకాలు

ఫార్మాట్

  • 16 kHz వద్ద ఆడియో, 16 బిట్స్/నమూనా.
  • ఒకే ఛానెల్.
  • ట్రాన్స్‌కోడింగ్ లేకుండా రా ఆడియో.

శైలి

  • ఆకస్మిక ప్రసంగం.
  • విశ్వవిద్యాలయం అందించిన చిత్రాల ఆధారంగా వాక్యాలు. 3500 చిత్రాలలో, 1000 సాధారణమైనవి మరియు 2500 జిల్లా-నిర్దిష్ట సంస్కృతి, పండుగలు మొదలైన వాటికి సంబంధించినవి. చిత్రాలు రైలు స్టేషన్‌లు, మార్కెట్‌లు, వాతావరణం మరియు మరిన్నింటి వంటి వివిధ డొమైన్‌లను వర్ణిస్తాయి.

రికార్డింగ్ నేపథ్యం

  • నిశ్శబ్ద, ప్రతిధ్వని రహిత వాతావరణంలో రికార్డ్ చేయబడింది.
  • రికార్డింగ్ సమయంలో స్మార్ట్‌ఫోన్ ఆటంకాలు (వైబ్రేషన్ లేదా నోటిఫికేషన్‌లు) లేవు.
  • క్లిప్పింగ్ లేదా ఫార్-ఫీల్డ్ ఎఫెక్ట్స్ వంటి వక్రీకరణలు లేవు.
  • ఫోన్ నుండి వైబ్రేషన్లు ఆమోదయోగ్యం కాదు; ఆడియో స్పష్టంగా ఉంటే బాహ్య వైబ్రేషన్‌లు తట్టుకోగలవు.

స్పీకర్ స్పెసిఫికేషన్

  • ప్రతి జిల్లాకు సమతుల్య లింగ పంపిణీతో 20-70 సంవత్సరాల మధ్య వయస్సు.
  • ప్రతి జిల్లాలో కనీసం 400 మంది స్థానిక మాట్లాడేవారు.
  • మాట్లాడేవారు వారి ఇంటి భాష/మాండలికాన్ని ఉపయోగించాలి.
  • పాల్గొనే వారందరికీ సమ్మతి ఫారమ్‌లు తప్పనిసరి.

నాణ్యత తనిఖీ & క్లిష్టమైన నాణ్యత హామీ

QA ప్రక్రియ ఆడియో రికార్డింగ్‌లు మరియు ట్రాన్స్‌క్రిప్షన్‌ల కోసం నాణ్యత హామీకి ప్రాధాన్యతనిస్తుంది. ఆడియో ప్రమాణాలు ఖచ్చితమైన నిశ్శబ్దాలు, సెగ్మెంట్ వ్యవధి, సింగిల్-స్పీకర్ స్పష్టత మరియు వయస్సు మరియు సామాజిక-ఆర్థిక స్థితితో సహా వివరణాత్మక మెటాడేటాపై దృష్టి పెడతాయి. లిప్యంతరీకరణ ప్రమాణాలు ట్యాగ్ ఖచ్చితత్వం, పదం యొక్క ఖచ్చితత్వం మరియు సరైన సెగ్మెంట్ వివరాలను నొక్కి చెబుతాయి. ఆడియో బ్యాచ్‌లో 20% కంటే ఎక్కువ మంది ఈ ప్రమాణాలను విఫలమైతే, అది తిరస్కరించబడుతుందని అంగీకార ప్రమాణం నిర్దేశిస్తుంది. 20% కంటే తక్కువ వ్యత్యాసాల కోసం, సారూప్య ప్రొఫైల్‌లతో భర్తీ రికార్డింగ్‌లు అవసరం.

డేటా ట్రాన్స్క్రిప్షన్

లిప్యంతరీకరణ మార్గదర్శకాలు పదాలు స్పష్టంగా మరియు అర్థమయ్యేలా ఉన్నప్పుడు మాత్రమే ఖచ్చితత్వం మరియు వెర్బేటిమ్ ట్రాన్స్‌క్రిప్షన్‌ను నొక్కి చెబుతాయి; సమస్య ఆధారంగా అస్పష్టమైన పదాలు [అర్థం కానివి] లేదా [వినబడనివి]గా గుర్తించబడతాయి. పొడవైన ఆడియోలో వాక్య సరిహద్దులు దీనితో గుర్తించబడ్డాయి , మరియు వ్యాకరణ లోపాల యొక్క పారాఫ్రేసింగ్ లేదా దిద్దుబాటు అనుమతించబడదు. వెర్బేటిమ్ ట్రాన్స్‌క్రిప్షన్ లోపాలు, యాసలు మరియు పునరావృత్తులు కవర్ చేస్తుంది కానీ తప్పుడు ప్రారంభాలు, పూరక శబ్దాలు మరియు నత్తిగా మాట్లాడటం మినహాయించబడుతుంది. నేపథ్యం మరియు ముందువైపు శబ్దాలు వివరణాత్మక ట్యాగ్‌లతో లిప్యంతరీకరించబడతాయి, అయితే సరైన పేర్లు, శీర్షికలు మరియు సంఖ్యలు నిర్దిష్ట లిప్యంతరీకరణ నియమాలను అనుసరిస్తాయి. ప్రతి వాక్యానికి స్పీకర్ లేబుల్‌లు ఉపయోగించబడతాయి మరియు అసంపూర్ణ వాక్యాలు సూచించబడతాయి.

ప్రాజెక్ట్ వర్క్‌ఫ్లో

వర్క్‌ఫ్లో ఆడియో ట్రాన్స్‌క్రిప్షన్ ప్రక్రియను వివరిస్తుంది. ఇది ఆన్‌బోర్డింగ్ మరియు శిక్షణలో పాల్గొనేవారితో ప్రారంభమవుతుంది. వారు QA ప్లాట్‌ఫారమ్‌కు అప్‌లోడ్ చేయబడిన యాప్‌ని ఉపయోగించి ఆడియోను రికార్డ్ చేస్తారు. ఈ ఆడియో నాణ్యత తనిఖీలు మరియు స్వయంచాలక విభజనకు లోనవుతుంది. టెక్ బృందం తర్వాత ట్రాన్స్‌క్రిప్షన్ కోసం విభాగాలను సిద్ధం చేస్తుంది. మాన్యువల్ ట్రాన్స్క్రిప్షన్ తర్వాత, నాణ్యత హామీ దశ ఉంది. ట్రాన్స్‌క్రిప్షన్‌లు క్లయింట్‌కు డెలివరీ చేయబడతాయి మరియు ఆమోదించబడినట్లయితే, డెలివరీ పూర్తయినట్లు భావించబడుతుంది. కాకపోతే, క్లయింట్ ఫీడ్‌బ్యాక్ ఆధారంగా పునర్విమర్శలు చేయబడతాయి.

ప్రాజెక్ట్ వర్క్‌ఫ్లో

ఫలితం

నిపుణులైన భాషావేత్తల నుండి అధిక-నాణ్యత ఆడియో డేటా మా క్లయింట్ నిర్ణీత సమయంలో విభిన్న మాండలికాలతో వివిధ భారతీయ భాషలలో బహుభాషా స్పీచ్ రికగ్నిషన్ మోడల్‌లను ఖచ్చితంగా శిక్షణ ఇవ్వడానికి మరియు రూపొందించడానికి అనుమతిస్తుంది. స్పీచ్ రికగ్నిషన్ మోడల్స్ వీటిని ఉపయోగించవచ్చు:

  • పౌరులను వారి స్వంత మాతృభాషలో కార్యక్రమాలకు అనుసంధానించడం ద్వారా డిజిటల్ చేరిక కోసం భాషా అవరోధాన్ని అధిగమించండి.
  • డిజిటల్ గవర్నెన్స్‌ను ప్రోత్సహిస్తుంది
  • భారతీయ భాషలలో సేవలు మరియు ఉత్పత్తుల కోసం పర్యావరణ వ్యవస్థను రూపొందించడానికి ఉత్ప్రేరకం
  • ప్రజా ప్రయోజనాల డొమైన్‌లలో మరింత స్థానికీకరించబడిన డిజిటల్ కంటెంట్, ప్రత్యేకించి, పాలన & విధానం

సంభాషణ AI రంగంలో షైప్ నైపుణ్యానికి మేము విస్మయం చెందాము. 8000 విభిన్న జిల్లాల్లో 800 గంటల ఆడియో డేటాతో పాటు 80 గంటల ట్రాన్స్‌క్రిప్షన్‌ను నిర్వహించడం స్మారక పని. ఈ డొమైన్‌కు సంబంధించిన క్లిష్టమైన వివరాలు మరియు సూక్ష్మ నైపుణ్యాల గురించి షైప్‌కు లోతైన అవగాహన ఉండటం వల్ల అటువంటి సవాలుతో కూడిన ప్రాజెక్ట్‌ని విజయవంతంగా అమలు చేయడం సాధ్యమైంది. అత్యున్నత స్థాయి నాణ్యతను నిర్ధారిస్తూ, ఈ విస్తారమైన డేటా యొక్క సంక్లిష్టతలను సజావుగా నిర్వహించగల మరియు నావిగేట్ చేయగల వారి సామర్థ్యం నిజంగా అభినందనీయం.

గోల్డెన్-5-స్టార్

మీ సంభాషణాత్మక AI అప్లికేషన్ అభివృద్ధిని 100% వేగవంతం చేయండి